CN102340424B - 不良报文的检测方法及不良报文的检测装置 - Google Patents

不良报文的检测方法及不良报文的检测装置 Download PDF

Info

Publication number
CN102340424B
CN102340424B CN2010102356987A CN201010235698A CN102340424B CN 102340424 B CN102340424 B CN 102340424B CN 2010102356987 A CN2010102356987 A CN 2010102356987A CN 201010235698 A CN201010235698 A CN 201010235698A CN 102340424 B CN102340424 B CN 102340424B
Authority
CN
China
Prior art keywords
bad
message
characteristic vector
probability
characteristic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN2010102356987A
Other languages
English (en)
Other versions
CN102340424A (zh
Inventor
曹璐
崔可升
赵建福
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Group Shandong Co Ltd
Original Assignee
China Mobile Group Shandong Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Group Shandong Co Ltd filed Critical China Mobile Group Shandong Co Ltd
Priority to CN2010102356987A priority Critical patent/CN102340424B/zh
Publication of CN102340424A publication Critical patent/CN102340424A/zh
Application granted granted Critical
Publication of CN102340424B publication Critical patent/CN102340424B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

本发明公开了一种不良报文的检测方法及不良报文的检测装置,用以解决现有技术无法有效检测出彩信、移动互联网等移动业务相关报文是否为不良报文的问题。该方法包括:分别建立至少两类不良对象的集合,所述集合中每个对象分别对应一个特征向量,所述特征向量是根据预设的该类对象对应的判别规则确定的;从获取到的报文中提取对象;针对提取到的每个对象,执行:基于各对象类别对应的判别规则,确定该对象的特征向量;根据该对象所属类别的不良对象集合中的不良对象的特征向量和确定出的该对象的特征向量,确定该对象为不良对象的概率;根据确定出的从所述报文中提取的对象为不良对象的概率,确定所述报文为不良报文的概率。

Description

不良报文的检测方法及不良报文的检测装置
技术领域
本发明涉及移动通信技术领域,尤其涉及一种不良报文的检测方法、一种不良对象集合的建立方法及一种不良报文的检测装置。
背景技术
随着移动通信技术,特别是最近几年能够支持高速数据业务的3G网络、3G移动终端技术的快速发展,彩信业务、移动互联网业务逐步成为继传统的语音业务、短消息业务之后,获得广泛应用的移动业务。
彩信业务使得不同用户之间发送的消息中不仅可以包含文本内容,还可以包含图片内容。移动互联网业务使得人们可以随时随地的访问互联网,获取最新的资讯、观看图片、视频等。彩信业务和移动互联网业务之间的共同点在于不同移动通信网络实体之间(包括两个移动终端之间、或网络接入设备与移动终端之间)交互的消息中不仅包含文本、还包含图片和视频内容。彩信业务、移动互联网业务等数据业务在为人们的生活带来便利的同时,也为不法分子提供了可乘之机。恶意用户利用彩信业务、移动互联网业务等数据业务传播非法广告、淫秽色情、反动言论等不良信息的现象给人们的日常生活带来了困扰。
针对上述问题,现有技术提出了以下几类解决方案:
1、基于字符串匹配的方法,其基本原理为:在通信终端安装检测客户端,当检测客户端发现接收到的报文内容中包含设定的敏感字符串集合中的字符串时,确定该报文为非法报文;
2、基于黑白名单的方法,其基本原理为:在个人计算机、调制解调器等设备中安装内容过滤代理CFA,当用户发出对某个URL进行访问的请求时,CFA根据用户设置的黑白名单,允许或禁止该访问请求。如果该URL不在CFA的黑白名单中,CFA则向查询服务器QS发出查询请求。QS在存储的URL库中查询该URL的分级信息并将结果返回给CFA,CFA根据接收到的结果确定允许或禁止该访问请求。QS定期从内容分析与管理服务器CAMS中下载更新的URL分级信息;
3、基于内容指纹过滤的方法,其基本原理为:接收来自用户的内容和偏好;不带有任何可用标识信息地将该内容编码;针对一个或多个技术属性对已编码内容执行技术分析;将可用标识信息与技术属性配对以形成内容指纹,用形成的内容指纹来标识该内容;将内容指纹与偏好结合以创建内容指纹过滤器,内容指纹过滤器用于过滤可用内容块,其中每一块可用内容都具有相关联的内容指纹。
对于基于黑白名单和字符串匹配的方案而言,只能在非法用户已经通过移动业务实施了大量非法行动之后,才能将该非法用户识别出来并添加到黑名单中、或者将敏感字符串添加到敏感字符串集合中,无法做到实时检测,并且字符串匹配方案只适用于非法短信的识别,无法识别出彩信或者移动互联网业务报文是否为不良报文。
对于基于内容指纹过滤的方法而言,在过滤之前必须将报文内容和用户偏好进行编码,所需的处理资源和处理时间都较多,难以满足实时性的要求。
发明内容
本发明实施例提供一种不良报文的检测方法,用以解决现有技术无法有效检测出彩信、移动互联网等移动业务相关报文是否为不良报文的问题。
对应地,本发明实施例还提供了一种不良报文的检测装置。
本发明实施例提供的技术方案如下:
一种不良报文的检测方法,包括:
分别建立至少两类不良对象的集合,所述集合中每个对象分别对应一个特征向量,所述特征向量是根据预设的该类对象对应的判别规则确定的;
从获取到的报文中提取对象;
针对提取到的每个对象,执行:
基于各对象类别对应的判别规则,确定该对象的特征向量;
根据该对象所属类别的不良对象集合中的不良对象的特征向量和确定出的该对象的特征向量,确定该对象为不良对象的概率;
根据确定出的从所述报文中提取的对象为不良对象的概率,确定所述报文为不良报文的概率。
一种不良对象集合的建立方法,包括:
接收输入的不良文本对象、不良图片对象或不良视频对象;
根据各类对象对应的判别规则,确定输入的不良对象对应的特征向量;
存储输入的不良对象以及确定出的该不良对象对应的特征向量。
一种不良报文的检测装置,包括:
不良对象集合构建单元,用于分别建立至少两类不良对象的集合,所述集合中每个对象分别对应一个特征向量,所述特征向量是根据预设的该类对象对应的判别规则确定的,所述对象包括文本对象、图片对象或视频对象;
对象提取单元,用于从获取到的报文中提取对象;
第一确定单元,用于针对对象提取单元提取到的每个对象,基于各对象类别对应的判别规则,确定该对象的特征向量;并根据该对象所属类别的不良对象集合中的不良对象的特征向量和确定出的该对象的特征向量,确定该对象为不良对象的概率;
第二确定单元,用于根据第一确定单元确定出的从所述报文中提取的对象为不良对象的概率,确定所述报文为不良报文的概率。
本发明实施例预先分别建立不同类别不良对象的集合,该集合中每个对象分别对应一个特征向量;在对从网络中获取的报文进行检测时,从该报文中提取对象,并针对提取的每个对象,确定该对象的特征向量,并结合该对象所属类别的不良对象集合中的不良对象的特征向量,确定该对象为不良对象的概率;继而根据从报文中提取的对象为不良对象的概率,确定所述报文为不良报文的概率。通过上述方案能够检测包含不同对象的数据业务报文为不良报文的概率,在此基础上执行区分的过滤处理。
附图说明
图1为本发明实施例的主要实现原理流程图;
图2为本发明实施例提供的不良报文检测系统的原理图;
图3a为本发明实施例中每类对象样本的特征向量的示意图;
图3b为本发明实施例中每类对象样本的特征向量的第一种存储方式的示意图;
图3c为本发明实施例中每类对象样本的特征向量的第二种存储方式的示意图;
图4为本发明实施例提供的不良报文检测方案的流程图;
图5为本发明实施例提供的不良报文的检测装置的结构示意图;
图6为本发明实施例提供的不良报文的检测装置中不良对象集合构建单元的结构示意图。
具体实施方式
发明人发现现有的不良报文检测方案均无法有效、高效地检测包含图片对象和视频对象的数据业务报文是否为不良报文。
本发明的基本思路为:首先分别建立三类不良对象(不良文本对象、不良图片对象和不良视频对象)分别对应的样本集合,样本集合中的不良对象分别对应一个特征向量,特征向量中元素的值是根据该元素对应的判别规则确定出的;
对接收到的报文进行检测时,先从接收报文中提取包含的文本对象、图片对象或视频对象;针对提取的每个对象,根据该对象所属类别对应的判别规则,确定提取到的对象的特征向量,进而根据对应类型的不良对象样本集合中不良对象的特征向量,确定该提取到的对象为不良对象的概率;根据确定出的从接收报文中提取到的对象为不良对象的概率,确定该接收报文的危险等级,将危险等级超过预定阈值的报文判定为不良报文,执行对应的过滤处理。
下面结合各个附图对本发明实施例技术方案的主要实现原理、具体实施方式及其对应能够达到的有益效果进行详细的阐述。
如图1所示,本发明实施例的主要实现原理流程如下:
步骤10,分别建立不良文本对象、不良图片对象和不良视频对象的样本集合,样本集合中每个对象样本分别对应一个的特征向量,每类不良对象的特征向量中的元素值是根据该元素对应的判别规则来确定的(每个元素值也可以理解为表明该对象是否具备该元素对应的判定规则所描的特征),每个所述判别规则包含至少一个该类对象的预定属性值的判别阈值;
步骤20,从接收报文中提取包含的文本对象、图片对象或视频对象;
步骤30,逐一确定步骤20提取到的每个对象对应的特征向量,针对每个提取到的对象,根据确定出的该对象的特征向量,以及对应类型样本集合中不良对象的特征向量,确定该提取到的对象为不良对象的概率;
其中,确定每个提取到的对象对应的特征向量的过程为:首先,针对该对象所属对象类型对应的用于确定特征向量中每个元素的元素值的判别规则,计算该对象对应的该规则包含的预定属性的属性值;然后,根据计算出的预定属性的属性值和该判别规则中包含的该预定属性值的判别阈值,确定该对象特征向量中与该规则对应的元素的值,基于此构建该对象的特征向量。
步骤40,根据步骤30确定出的报文中提取到的对象为不良对象的概率,确定该报文的危险等级,在确定出的危险等级超过预定阈值时,确定该报文为不良报文,执行确定出的危险等级对应的过滤处理。
下面将依据本发明上述发明原理,详细介绍一个实施例来对本发明方法的主要实现原理进行详细的阐述和说明。
附图2为本发明实施例中不良报文检测系统的原理图。其中,
不良对象集合构建模块,用于基于管理员输入的不良文本对象、不良图片对象和不良视频对象样本,构建三类不良对象的样本集合,以及根据每类不良对象对应的判别规则,确定每个不良对象样本分别对应的特征向量,样本集合中的每个不良对象对应的特征向量包含的元素数量表明该类对象对应的判别规则的数量,每个对象对应的特征向量中的元素值是根据该元素对应的判别规则中包含至少一个预定属性值的判别阈值来确定的,每个判别规则中的预定属性值的判别阈值都分别存储于数据库中的至少一个数据表中。
下面通过几个实例来对特征向量、以及判别规则进行介绍。对于文本对象来说对应的特征向量为A1=[a11,a12,...,a1n](n为自然数),其中a11、a12的取值分别根据表1所示的文本对象对应的判定规则1和判定规则2来确定,其他元素值的确定方法也类似,在这里不再一一详述。用于确定特征向量中的元素值的判别规则中包含的预定属性为预定关键词的出现频次,该预定属性值的判别阈值即为所述预定关键词的出现次数值,例如该规则为:关键词“走私”的出现次数高于5次时,特征向量中该规则对应的元素的元素值为1,否则为0;更进一步,为了避免非法用户通过在关键词中插入无意义字符来逃避被检测出不良信息,可以将上述预定关键词的出现频次改进为在连续长度的预定字符中出现组成预定关键词的各字符的频率,例如假定预定关键词为“法轮功”,编码时被编为对应的6个字节的2进制数,如果非法用户在其中插入了无意义字符后为“法,轮功”、“法_轮_功”,则对应的编码变为7位或8位,按照传统的检测关键词的方法将无法检测出,因此改进为检测连续的10位编码中包含“法”、“轮”、“功”分别对应的编码的出现频次,如表1所示。
表1不良文本对象判别规则示例
  判别规则标识   关键词   检测编码长度(字节)   频率
  1   “法轮功”   10   大于3
  2   “走私枪支”   14   大于2
表1中的第2行表示在接收报文文本中每连续10个字节中编码出现“法”、“轮”、“功”分别对应的编码的次数超过3次时,判别规则对应的特征向量中的元素值a11为1,否则为0。
图片对象对应的特征向量A2=[a21,a22],其中a21、a22的取值分别根据表2所示的图片对象对应的判定规则3和判定规则4来确定。用于确定不良图片对象对应的特征向量中元素值的判别规则中包含的预定属性为图片中预定像素值的像素在总像素中所占比例,该预定属性的判别阈值为预定像素值的像素在总像素中所占比例值,例如规则3为当图片对象中像素值为RGB(156,156,156)的像素在组成该图片的总像素中所占比例超过20%时,特征向量中a21的元素值为1,否则为0。
表2不良图片对象判别规则示例
判别规则标识  像素值 比例
3  RGB(156,156,156) 大于20%
4  RGB(128,128,128) 大于16%
上述表2只是一个比较简单的情况,实际上一个判别规则可能包含至少两个预定属性值的预定阈值。例如请参照表3所示,图片对象对应的特征向量中的元素a21的元素值根据规则5来确定,规则5为在待检测图片对象中像素值为RGB(152,152,152)的像素在组成该待检测图片的总像素中所占比例超过20%时、且像素值为RGB(101,134,145)的像素在组成该待检测图片的总像素中所占比例低于5%时,a21的元素值为1,否则为0。
表3不良图像对象判别规则示例
Figure BSA00000204870900071
视频对象对应的特征向量A3=[a31],其中a31的取值根据表4所示的判定规则6来确定。用于确定不良图片对象对应的特征向量中元素值的判别规则中包含的预定属性为视频对象中相邻图像帧中灰度变化值超过预定值的像素比例。在相邻图像帧中灰度变化值为0的像素为稳定不动部分,灰度变化值非零的像素为运动部分,连续图像中灰度值变化较快、且变化显著的像素越多,标明画面变化越快。例如表4中的规则6为当视频对象中相邻图像帧中灰度变化值超过50的像素比例超过20%时,特征向量中a31的元素值为1,否则为0。
表4不良图片对象判别规则示例
  判别规则标识   像素的灰度变化值   比例
  6   50   大于20%
较佳地,每类对象样本的特征向量如图3a所示(图3a标明了文本对象样本的特征向量,图片对象和视频对象也类似,在这里不再一一赘述)。在数据库中存储上述每类对象样本的特征向量时,附图2中的数据存储映射模块可以选择性的图3a中的各列存储在同一个数据表中,如图3b所示;也可以存储在不同数据表中,如图3c所示。
附图4给出了本发明实施例提供的不良报文检测方案的流程图。
步骤401,附图2中的报文获取模块从各业务网关,例如彩信网关、互联网网关中获取业务报文,例如不同终端之间发送的彩信相关报文,或者移动互联网信息提供商发送给终端的报文,进入步骤402b;
步骤402b,附图2中的检测模块先从报文获取模块获取到的报文中提取各种对象,例如该报文包含的文本对象、图片对象或视频对象,这里需要说明的是并不是所有报文都必须包含上述三类对象,而是包含上述三类对象中的至少一种对象。在本实施例中,假定从报文获取模块获取到的报文M中提取到1个文本对象、1个图片对象和1个视频对象。
步骤403,检测模块针对第一步提取到的每个对象,逐一确定该对象对应的特征向量,具体过程为:
针对每个对象,首先针对该对象所属对象类型对应的每个判别规则,计算该对象对应的该规则包含的预定属性的属性值;然后根据计算出的预定属性的属性值和该判别规则中包含的预定属性值的判别阈值,确定该对象特征向量中与该判别规则对应的元素的元素值,从而构建该对象对应的特征向量。
例如,以从报文M中提取到的文本对象为例,逐一根据表1中的各判别规则确定对应元素的元素值:先根据判别规则1,计算提取到的文本对象中编码长度10字节内,出现“法”、“轮”、“功”分别对应的编码的次数,若超过10次,则对应元素值为1,否则为0。这里假定从报文M中提取到的文本对象符合表1中的判别规则1、不符合表1中的判别规则2,则从报文M中提取到的文本对象的特征向量A1为A1=[a11,a12]=[1,0],其中a11、a12分别表示该文本对象是否符合文本对象对应的判定规则1和判定规则2,例如a11或a12的取值可以为1或0,当为1时表示该文本对象符合文本对象对应的判定规则1和判定规则2;当为0时表示该文本对象不符合文本对象对应的判定规则1和判定规则2。
步骤404,检测模块根据第二步确定出的从报文中提取到的每个对象的特征向量,以及对应类型的样本集合中不良对象的特征向量,确定该提取到的对象为不良对象的概率。
对于每类不良对象集合而言:
P ( B ) = P ( B | A k ) = P ( B | a k 1 ) P ( a k 1 ) + P ( B | a k 2 ) P ( a k 2 ) + . . . + P ( B | a kn ) P ( a kn )
= Σ i = 1 n P ( B | a ki ) P ( a ki )
其中,k为第二步从报文M中提取到的第k个对象的特征向量,该第k类对象为文本对象、图像对象和视频对象中的任意一种;
Ak为第二步从报文M中提取到的对象的特征向量,P(B|Ak)为第二步从报文M中提取到的对象的特征向量为Ak时,为不良文本对象的概率,n为该对象所属类型的对象对应的特征向量的维数,即特征向量中包含的元素的数量;P(B|aki)为特征向量中第i个元素的值为aki时,为不良对象的概率,P(aki)为特征向量中第i个元素的值为aki的概率。其中P(B|aki)、P(aki)可以根据第k个对象所属类型的不良对象集合中不良对象的特征向量确定出。
步骤405,根据步骤403、404确定出的从报文M中提取到文本对象、图片对象和视频对象分别为不良对象的概率,确定报文M的特征向量,并根据报文M的特征向量确定报文M为不良报文的概率;报文M的特征向量包括从该报文中提取到的不同对象为不良对象的概率。
首先根据从报文M中提取到文本对象、图片对象和视频对象分别为不良对象的概率,确定报文M的特征向量A(M),报文M的特征向量A(M)=[P(B|A1),P(B|A2),P(B|A3)],其中P(B|A1)为从报文M中提取到的文本对象为不良对象的概率,P(B|A2)为从报文M中提取到的图片对象为不良对象的概率,P(B|A3)为从报文M中提取到的图片对象为不良对象的概率,本实施例中将特征向量A中数值最高的元素值作为报文M为不良报文的概率。例如A(M)=[0.2,0.4,0.6],即从报文M中提取到的文本对象为不良对象的概率P(B|A1)为0.2,从报文M中提取到的图片对象为不良对象的概率P(B|A2)为0.4,从报文M中提取到的视频对象为不良对象的概率P(B|A3)为0.6,则报文M为不良报文的概率P(A)=0.6。
步骤406,根据第四步中确定出的报文M为不良报文的概率,以及预定的概率值范围与报文危险等级的对应关系,确定报文M的危险等级,并根据确定出的报文M的危险等级,执行对应的处理。
例如,不良报文概率值范围与报文危险等级的对应关系如表5所示,不同危险等级对应的处理方式如表6所示。
表5不良报文概率值范围与报文危险等级的对应关系
  不良报文概率值范围   报文危险等级
  0.0~0.25   危险等级0
 0.25~0.4 危险等级1
 0.4~0.6 危险等级2
 0.6~0.8 危险等级3
 0.8~1.0 危险等级4
表6危险等级与处理方式的对应关系
Figure BSA00000204870900111
对于报文M来说,由于第四步中确定出报文M为不良报文的概率为0.6,对应危险等级3,则可选地执行表6中第5行第2列的至少一种对应处理。
较佳地,进行上述各种类型对象为不良对象的判别过程需要耗费一定时间,在考虑从报文M中提取到的文本对象、图片对象、视频对象为不良对象的概率之前,还可以增加优先判别属性,例如黑名单、发送频次等等。在根据优先判别属性的属性值无法确定报文M是否是不良报文时,再根据从报文M中提取到的文本对象、图片对象、视频对象来确定报文M为不良报文的概率,从而提高过滤不良报文的效率。即在步骤402b之前,还包括步骤402a,
步骤402a,根据包括黑名单、发送频次在内的优先判别属性,确定步骤401获取的报文是否为不良报文,如果确定为不良报文,则进入步骤406,否则,进入步骤402b;
例如A(M)=[P(B|A1),P(B|A2),P(B|A3),P(B|A4),P(B|A5)],其中A4为报文M的发送方标识,如果报文M的发送方标识在预定的黑名单中,则P(B|A4)=1,可以直接判断报文M为不良报文;A5为同一发送方的发送频率(即单位时间内发送相同内容报文的次数),如果A5在预定范围内,例如超过每分钟10条报文的频率,则则P(B|A5)=1,可以直接判断报文M为不良报文。
本发明实施例中预先分别建立不同类别不良对象的集合,该集合中每个对象分别对应一个特征向量,所述特征向量是根据预设的该类对象对应的判别规则确定的,在对报文进行检测时,从报文中提取对象,针对提取到的每个对象,基于该对象所属类别对应的判别规则,确定该对象的特征向量,并根据该对象所属类别的不良对象集合中的不良对象的特征向量和确定出的该对象的特征向量,确定该对象为不良对象的概率;根据从报文中提取的对象为不良对象的概率,确定所述报文为不良报文的概率。通过上述方案能够检测包含不同对象的数据业务报文是否为不良报文,在此基础上执行区分的处理,例如对不良报文进行屏蔽、过滤、将从该不良报文中提取的对象加入不良对象集合等。
相应地,本发明实施例还提供了一种不良报文的检测装置,如图5所示,该装置包括不良对象集合构建单元501、对象提取单元502、第一确定单元503和第二确定单元504,具体如下:
不良对象集合构建单元501,用于分别建立至少两类不良对象的集合,所述集合中每个对象分别对应一个特征向量,所述特征向量是根据预设的该类对象对应的判别规则确定的,所述对象包括文本对象、图片对象或视频对象;
对象提取单元502,用于从获取到的报文中提取对象;
第一确定单元503,用于针对对象提取单元502提取到的每个对象,基于各对象类别对应的判别规则,确定该对象的特征向量;并根据该对象所属类别的不良对象集合中的不良对象的特征向量和确定出的该对象的特征向量,确定该对象为不良对象的概率;
第二确定单元504,用于根据第一确定单元503确定出的从所述报文中提取的对象为不良对象的概率,确定所述报文为不良报文的概率。
较佳地,请参照附图6所示,附图5中的不良对象集合构建单元501具体包括接收子单元601、确定子单元602以及存储子单元603,其中:
接收子单元601,用于接收输入的不良文本对象、不良图片对象或不良视频对象;
确定子单元602,用于根据各类对象对应的判别规则,确定接收子单元601接收的每个不良对象对应的特征向量;
存储子单元603,用于存储接收子单元601接收到的不良对象以及确定子单元602确定出的该不良对象对应的特征向量。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读取存储介质中,如:ROM/RAM、磁碟、光盘等。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (11)

1.一种不良报文的检测方法,其特征在于,包括:
分别建立至少两类不良对象的集合,所述集合中每个对象分别对应一个特征向量,所述特征向量是根据预设的该类对象对应的判别规则确定的;
从获取到的报文中提取对象;
针对提取到的每个对象,执行:
基于各对象类别对应的判别规则,确定该对象的特征向量;
根据该对象所属类别的不良对象集合中的不良对象的特征向量和确定出的该对象的特征向量,确定该对象为不良对象的概率,具体为: P ( B ) = P ( B | A k ) = P ( B | a k 1 ) P ( a k 1 ) + P ( B | a k 2 ) P ( a k 2 ) + . . . + P ( B | a kn ) P ( a kn ) = Σ i = 1 n P ( B | a ki ) P ( a ki ) 其中,Ak为第二步从报文M中提取到的第k类对象的特征向量,P(B|Ak)为第二步从报文M中提取到的对象的特征向量为Ak时,为不良对象的概率,n为该对象所属类型的对象的特征向量包含的元素的数量;P(B|aki)为特征向量中第i个元素的值为aki时,为不良对象的概率,P(aki)为特征向量中第i个元素的值为aki的概率,所述P(B|aki)、P(aki)为根据该对象所属类别的不良对象集合中不良对象的特征向量确定出的;
根据确定出的从所述报文中提取的对象为不良对象的概率,确定所述报文为不良报文的概率。
2.如权利要求1所述的方法,其特征在于,所述不良对象包括不良文本对象、不良图片对象和不良视频对象。
3.如权利要求2所述的方法,其特征在于,建立至少两类不良对象的集合,具体包括:
接收输入的不良文本对象、不良图片对象或不良视频对象;
根据各类对象对应的判别规则,确定接收到的每个不良对象对应的特征向量;
存储接收到的不良对象以及确定出的该不良对象对应的特征向量。
4.如权利要求3所述的方法,其特征在于,根据预设的各类对象对应的判别规则,确定输入的不良对象对应的特征向量,具体包括:
根据所述输入的不良对象所属对象类别对应的每个判别规则中包含的预定属性,确定该输入的不良对象的所述预定属性的属性值,并
根据所述判别规则中包含的所述预定属性的判别阈值和确定出的所述预定属性的属性值,确定该输入的不良对象对应的特征向量中所述判别规则对应的元素的元素值。
5.如权利要求3所述的方法,其特征在于,存储输入的不良对象对应的特征向量,具体包括:
将每类不良对象集合中各不良对象的特征向量中同一元素的元素值存储在数据表同一列中、且将每类不良对象中各不良对象的特征向量中的不同元素的元素值存储在同一数据表中;或
将每类不良对象集合中各不良对象的特征向量中同一元素的元素值存储在数据表同一列中、且将每类不良对象中各不良对象的特征向量中的不同元素的元素值存储在不同数据表中。
6.如权利要求1所述的方法,其特征在于,基于提取到的每个对象所属对象类别对应的判别规则,确定该提取到的对象的特征向量,具体包括:
根据该提取到的对象所属对象类别对应的每个判别规则中包含的预定属性,确定该提取到的对象的所述预定属性的属性值,并
根据所述判别规则中包含的所述预定属性的判别阈值和确定出的所述预定属性的属性值,确定该提取到的对象对应的特征向量中所述判别规则对应的元素的元素值。
7.如权利要求1所述的方法,其特征在于,根据确定出的从所述报文中提取的对象为不良对象的概率,确定所述报文为不良报文的概率,具体为:
从确定出的从所述报文中提取的各对象分别为不良对象的概率中,选择出最高的概率值作为所述报文为不良报文的概率。
8.如权利要求1所述的方法,其特征在于,确定所述报文为不良报文的概率之后,还包括:
在所述报文为不良报文的概率超过预定阈值时,执行对应的预定处理。
9.如权利要求8所述的方法,其特征在于,所述预定处理包括以下至少一种:
对该报文进行屏蔽;或
将该报文的发送方标识存入黑名单中;或
关闭该报文的发送方的业务功能;或
将从该报文提取到的对象存入对应类型的所述不良对象集合中。
10.一种不良报文的检测装置,其特征在于,包括:
不良对象集合构建单元,用于分别建立至少两类不良对象的集合,所述集合中每个对象分别对应一个特征向量,所述特征向量是根据预设的该类对象对应的判别规则确定的,所述对象包括文本对象、图片对象或视频对象;
对象提取单元,用于从获取到的报文中提取对象;
第一确定单元,用于针对对象提取单元提取到的每个对象,基于各对象类别对应的判别规则,确定该对象的特征向量;并根据该对象所属类别的不良对象集合中的不良对象的特征向量和确定出的该对象的特征向量,确定该对象为不良对象的概率;
第二确定单元,用于根据第一确定单元确定出的从所述报文中提取的对象为不良对象的概率,确定所述报文为不良报文的概率;
其中,确定该对象为不良对象的概率的具体实施方式为:具体为:
P ( B ) = P ( B | A k ) = P ( B | a k 1 ) P ( a k 1 ) + P ( B | a k 2 ) P ( a k 2 ) + . . . + P ( B | a kn ) P ( a kn ) = Σ i = 1 n P ( B | a ki ) P ( a ki ) 其中,Ak为第二步从报文M中提取到的第k类对象的特征向量,P(B|Ak)为第二步从报文M中提取到的对象的特征向量为Ak时,为不良对象的概率,n为该对象所属类型的对象的特征向量包含的元素的数量;P(B|aki)为特征向量中第i个元素的值为aki时,为不良对象的概率,P(aki)为特征向量中第i个元素的值为aki的概率,所述P(B|aki)、P(aki)为根据该对象所属类别的不良对象集合中不良对象的特征向量确定出的。
11.如权利要求10所述的装置,其特征在于,所述不良对象集合构建单元具体包括:
接收子单元,用于接收输入的不良文本对象、不良图片对象或不良视频对象;
确定子单元,用于根据各类对象对应的判别规则,确定接收子单元接收的每个不良对象对应的特征向量;
存储单元,用于存储接收子单元接收到的不良对象以及确定子单元确定出的该不良对象对应的特征向量。
CN2010102356987A 2010-07-21 2010-07-21 不良报文的检测方法及不良报文的检测装置 Active CN102340424B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2010102356987A CN102340424B (zh) 2010-07-21 2010-07-21 不良报文的检测方法及不良报文的检测装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2010102356987A CN102340424B (zh) 2010-07-21 2010-07-21 不良报文的检测方法及不良报文的检测装置

Publications (2)

Publication Number Publication Date
CN102340424A CN102340424A (zh) 2012-02-01
CN102340424B true CN102340424B (zh) 2013-12-04

Family

ID=45515931

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2010102356987A Active CN102340424B (zh) 2010-07-21 2010-07-21 不良报文的检测方法及不良报文的检测装置

Country Status (1)

Country Link
CN (1) CN102340424B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104751064A (zh) * 2013-12-27 2015-07-01 珠海金山办公软件有限公司 一种文档加密提示方法及系统
CN106713335B (zh) * 2016-12-30 2020-10-30 山石网科通信技术股份有限公司 恶意软件的识别方法及装置
CN107729924B (zh) * 2017-09-25 2019-02-19 平安科技(深圳)有限公司 图片复审概率区间生成方法及图片复审判定方法
CN108304481A (zh) * 2017-12-29 2018-07-20 成都三零凯天通信实业有限公司 一种面向多通道互联网新媒体数据的视图像内容布控方法
CN109492216A (zh) * 2018-09-19 2019-03-19 平安科技(深圳)有限公司 水帖自动鉴别及审批方法、装置及计算机可读存储介质
CN110011896B (zh) * 2018-11-06 2020-07-28 阿里巴巴集团控股有限公司 一种数据处理方法及装置、一种计算设备及存储介质
CN109636627B (zh) * 2018-12-04 2020-11-03 泰康保险集团股份有限公司 基于区块链的保险产品管理方法、装置、介质及电子设备
CN112015946B (zh) * 2019-05-30 2023-11-10 中国移动通信集团重庆有限公司 视频检测方法、装置、计算设备及计算机存储介质
CN110348215B (zh) * 2019-07-16 2021-08-06 深圳众赢维融科技有限公司 异常对象识别方法、装置、电子设备及介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1761204A (zh) * 2005-11-18 2006-04-19 郑州金惠计算机系统工程有限公司 在互联网上堵截色情图像与不良信息的系统
CN101257671A (zh) * 2007-07-06 2008-09-03 浙江大学 基于内容的大规模垃圾短信实时过滤方法
US7694191B1 (en) * 2007-06-30 2010-04-06 Emc Corporation Self healing file system
CN101692639A (zh) * 2009-09-15 2010-04-07 西安交通大学 一种基于url的不良网页识别方法
CN101719924A (zh) * 2009-12-17 2010-06-02 上海交通大学 基于群件理解的不良彩信过滤方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1761204A (zh) * 2005-11-18 2006-04-19 郑州金惠计算机系统工程有限公司 在互联网上堵截色情图像与不良信息的系统
US7694191B1 (en) * 2007-06-30 2010-04-06 Emc Corporation Self healing file system
CN101257671A (zh) * 2007-07-06 2008-09-03 浙江大学 基于内容的大规模垃圾短信实时过滤方法
CN101692639A (zh) * 2009-09-15 2010-04-07 西安交通大学 一种基于url的不良网页识别方法
CN101719924A (zh) * 2009-12-17 2010-06-02 上海交通大学 基于群件理解的不良彩信过滤方法

Also Published As

Publication number Publication date
CN102340424A (zh) 2012-02-01

Similar Documents

Publication Publication Date Title
CN102340424B (zh) 不良报文的检测方法及不良报文的检测装置
CN108009915B (zh) 一种欺诈用户社区的标记方法及相关装置
CN104462509A (zh) 垃圾评论检测方法及装置
CN104270521A (zh) 对来电号码进行处理的方法和移动终端
CN102970402A (zh) 一种更新移动终端通讯录联系人信息的方法及装置
CN104660481A (zh) 即时通讯消息处理方法及装置
KR20170024777A (ko) 스미싱 메시지 판별장치 및 스미싱 메시지 판별방법
CN104933191A (zh) 一种基于贝叶斯算法的垃圾评论识别方法、系统及终端
CN105391674A (zh) 一种信息处理方法及系统、服务器、客户端
CN102404239A (zh) 一种用于在微博中提供广播消息的方法和系统
CN103369486A (zh) 诈骗短信防范系统与防范方法
CN106790727A (zh) 消息推送方法及装置
CN105847555A (zh) 短信会话合并方法及其系统
CN103793838A (zh) 拦截广告的方法及其装置
CN114915468B (zh) 基于知识图谱的网络犯罪智能分析检测方法
CN103874033A (zh) 一种基于中文分词识别不规则垃圾短信的方法
CN110020123A (zh) 一种推广信息投放方法、装置、介质及设备
CN113420549B (zh) 异常字符串识别方法及装置
CN109871211A (zh) 信息展示方法和装置
CN105404670B (zh) 骚扰短信判别方法及装置
CN113472686A (zh) 信息识别方法、装置、设备及存储介质
CN112364676A (zh) 图像码的处理方法、装置、电子设备及存储介质
CN111222844A (zh) 一种智能化信息共享管理系统
CN106384111B (zh) 图片检测方法和装置
CN111126151A (zh) 识别票据图像中的字段的方法、装置、设备和介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant