CN104270304A - 一种图像邮件的检测分析方法 - Google Patents
一种图像邮件的检测分析方法 Download PDFInfo
- Publication number
- CN104270304A CN104270304A CN201410543120.6A CN201410543120A CN104270304A CN 104270304 A CN104270304 A CN 104270304A CN 201410543120 A CN201410543120 A CN 201410543120A CN 104270304 A CN104270304 A CN 104270304A
- Authority
- CN
- China
- Prior art keywords
- node
- spam
- image
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Information Transfer Between Computers (AREA)
Abstract
本发明涉及一种图像邮件的检测分析方法。该方法基于邮件中的图像,以及邮件的其它内容属性检测过滤。首先,截取邮件中的图像或子区域图像与用户的垃圾图像库匹配,若匹配,则为垃圾邮件;否则,查询用户的黑名单列表和白名单列表、以及基于信任度分值的灰名单,获得邮件的类别;对于无法确认类别的邮件,可通过查询网络中朋友节点的黑名单列表和白名单列表获得该邮件的类别,所述朋友节点是指与当前用户节点之间具有较高邮件交互频率的网络节点;还可以将该邮件发送至云端服务器进行类别判断。该方法可有效检测过滤邮件中的垃圾图片,并可对邮件进行多层次和级别的全面检测分析。
Description
技术领域
本发明涉及网络通信领域。具体地,涉及一种图像邮件的检测分析方法。
背景技术
随着互联网应用的发展,电子邮件得到广泛的应用,已成为Internet上最基本的服务之一,用户可以通过电子邮件与远程用户进行经济、方便和快捷的信息交流。然而,就在电子邮件逐渐成为一种不可缺少的重要信息交流工具的同时,也正在成为一种商业广告手段。用户在收到有用信息的同时,还必须花费大量时间和精力多各种各样的邮件进行分类识别,以过滤“垃圾”邮件,而现有的邮件分类识别方法或采用较单一的分类识别方法而导致结果不准确,或使用过于复杂的识别方式而提高了时间成本。因此,如何提高邮件分类识别的准确率以及效率是目前研究的热点问题。
现有技术在处理单机垃圾邮件过滤方面卓有成效。如今,最好的垃圾邮件过滤累积差错已经远低于1%。这似乎意味着人们已经在对抗垃圾邮件的战役中取得了胜利。但另外一方面,垃圾邮件制造者采用更加隐蔽的信息载体形式,即图片或图像形式,我们称这种垃圾邮件为图像垃圾邮件。他们将文字嵌入到图像当中,使得一些基于文本的过滤系统无法识别而失效。这种包含图片或者图像的垃圾邮件正以很快的速度增长,这些垃圾邮件可避免基于文本的过滤器的过滤。由于图像垃圾邮件可以比文本邮件能更好的躲避过滤器,为垃圾邮件制造者所发送的垃圾邮件提供了更好的保护屏障,从而也给用户带来了不少负担。图像垃圾邮件现状:
图像垃圾邮件,是垃圾邮件发送者宣传其信息并诱使用户针对其信息进行操作的一种新型垃圾邮件。垃圾邮件发送者将信息作为嵌入附件的一部分(如gif)也或者是嵌入网页中的而不是在邮件主题内容中发送。这些图像自动地显示给最终用户,但是图像本身内容却可以躲过大部分垃圾邮件过滤器的过滤。更复杂的图像垃圾邮件的增长已经导致电子邮件安全行业垃圾邮件截获率的全面下降,使最终用户感到失望。因为许多邮件系统无法跟上这些垃圾邮件数量的增长速度,电子邮件基础设施逐渐堵塞。由于图像文件的格式与电子邮件中的文本完全不同,因此基于文本内容的过滤器绝对“发现”不了垃圾邮件信息的内容,因此这些过滤器很容易被这类垃圾邮件欺骗。
图像垃圾邮件的过滤技术:
从邮件过滤的执行方法来说大致可以分为以下3类:一是基于IP地址的方式,根据发送方的邮件地址或地址,拒绝接收不正当的邮件攻击;二是基于手工规则的过滤,手工设置一些规则,只要符合这些规则的一条或几条,就认为是垃圾邮件;三是基于邮件内容的过滤,通过对邮件内容进行识别和检查,来决定是否接收邮件。另外随着邮件过滤技术的发展还出现了一些其它的方法。
目前大部分图像过滤方法主要是针对广告图像中的文字内容进行提取与分析,这种针对图像文字的操作往往难以见效,垃圾邮件制造者可以很容易地做一些预处理而躲避过滤器的检测。
从另一个角度来看,关于垃圾邮件的定义本身就是个难题,仅通过一个算法或者规则去判别垃圾邮件是不现实的,因为“垃圾邮件”只是一个相对的定义,并不存在一个绝对的评判标准能够完全正确地进行区分,所以应该根据具体用户的意见进行垃圾邮件的识别与过滤。垃圾邮件不存在普遍适用的具体评判准则,而应该属于个性化的定义,交由邮件用户做具体的判断是较为合理的。
此外,由于图像垃圾邮件绝大部分是广告邮件,无论广告的产品内容如何变化,生产商的相关信息(例如商标图案)却往往是固定不变的,所以垃圾图片的局部内容重复性很高,针对这一特性,可以利用这部分重复性高的子图内容去识别同属一系列的广告垃圾图像。
同时,通过长期的研究,现有技术在处理单机垃圾邮件过滤方面卓有成效。但近年来复杂网络和社会网络方面研究的深入开展,人们普遍猜测真实世界网络都具有无标度和小世界的特性,比如计算机网络、神经系统、交通网络、电力网络、邮件网络、社会关系网络等等。
为何现有现状和用户体验之间有如此之大的落差?这应归结于以往的垃圾邮件过滤技术大多从个人用户角度考虑垃圾邮件的防治,从而忽略了用户之间实际上是一种相互影响、相互协作的关系而联结在一起,进而表现出某些类似的特性。
网络中存在许多的孤立节点,而如果两个网络用户节点之间如果存在较大的邮件交互(收发邮件)频率,则意味着这两个用户节点之间有较高的同质性。用户收到的垃圾邮件绝大部分来自于之前从未接触过的邮件收/发件人;另一方面,随着邮件收/发件人的熟悉或信任程度的增加,邮件是垃圾邮件的概率将迅速降低。
由于与用户节点进行邮件交互的网络IP地址数量较庞大且不断动态增长,要全面分析所有人的邮件交互关系是不可能的,也是没有必要的。
云计算(Cloud Computing)是近年来在互联网领域新兴的一个热点,它将应用的“计算”从终端转移到服务器端,交给“云”端去做,从而弱化了对终端设备的处理需求,用户不关心应用的具体实现方式,应用的实现和维护由其提供商完成,云计算具有规模经济性,多个用户通过互联网共享同一应用,进而实现了计算在客户间的共享,显著提高了处理器和存储设备的利用率,也避免了用户对信息系统的重复建设。在云计算模式下,邮件复杂的过滤任务交给云端去做,弱化了对终端设备的处理需求,符合瘦客户端的发展趋势。
云计算为存储和管理数据提供了几乎无限多的空间,也为我们完成各类应用提供了几乎无限强大的计算能力。把海量邮件的过滤任务转移到可以提供无限处理能力的“云”端,避免了传统反垃圾邮件系统在少数服务器上执行,服务器功能单一,处理能力有限,容易发生系统瓶颈等缺点。
云计算可以轻松实现信息共享在云环境下,邮件被送到“云”端分析,如果一封邮件被判定为垃圾邮件,它的判定结果会被保存在“云”端垃圾邮件数据库中,只要有一封垃圾邮件被识别了,整个互联网的用户都可以共享该结果,网络中资源得到充分利用,可以更有效更准确的识别垃圾邮件,这与云防毒的思想比较类似,把病毒的查杀功能通过网络放到云端,终端不需要装大容量的病毒样本库,也不用管病毒库的升级,这样既可以消除防御空窗期,也可以减轻用户维护管理的负担。
发明内容
本发明的主要目的在于提供一种图像邮件的检测分析方法,该方法首先基于邮件中的图像,其次基于邮件的其它内容及属性进行检测过滤:首先,截取邮件中的图像或子区域图像与用户的垃圾图像库匹配,若匹配,则为垃圾邮件;否则,查询用户的黑名单列表和白名单列表、以及基于信任度分值的灰名单,获得邮件的类别;对于无法确认类别的邮件,可通过查询网络中朋友节点的黑名单列表和白名单列表获得该邮件的类别,所述朋友节点是指与当前用户节点之间具有较高邮件交互频率的网络节点;还可以将该邮件发送至云端服务器进行类别判断。上述方法可有效检测过滤邮件中的垃圾图片,并可结合其他检测方法对邮件进行多层次和级别的全面检测分析,可解决现有技术中对于垃圾邮件的识别的计算代价过大、效率较低的问题。
为了实现上述目的,根据本发明的一个方面,提供了一种图像邮件的检测分析方法,包括以下步骤:
步骤1,截取邮件中的图像或图像的子区域图像,将所述图像或子区域图像与用户节点的垃圾图像库中的图像进行匹配,如果存在匹配项,则该邮件的分类属性为垃圾邮件,结束;否则,执行步骤2;
步骤2,根据用户接收的邮件的地址查询该用户节点本地存储的黑名单列表和白名单列表,获得该邮件的分类属性,所述分类属性包括:垃圾邮件、正常邮件、以及无法确认;
如果该邮件的地址在黑名单列表中,则该邮件的分类属性为垃圾邮件;
如果该邮件的地址在白名单列表中,则该邮件的分类属性为正常邮件;
否则,该邮件的分类属性为无法确认。
进一步地,所述将所述图像或子区域图像与用户节点的垃圾图像库中的图像进行匹配的过程可以使用基于特征的图像匹配方法;
其中,所述基于特征的图像匹配方法包括:基于空间关系的匹配算法、基于不变量描述的匹配算法、金字塔算法、小波算法;
所述图像的子区域包括:文字区域、广告公司商标图案。
进一步地,如果邮件的分类属性为无法确认,则执行以下步骤:
步骤3,用户节点向所有朋友节点发出一个查询请求,所述查询请求包含当前邮件的地址信息;
步骤4,朋友节点根据所述查询请求搜索自己的黑名单列表和白名单列表,如果发现命中黑名单列表或白名单列表,则向该用户节点返回查询结果,所述查询结果表示该邮件的类型是垃圾邮件或正常邮件;
如果收到朋友节点返回的查询结果,并且所有的查询结果所表示的邮件类型相同,则执行步骤5;否则,执行步骤6;
步骤5,用户节点根据该查询结果更新本地的黑名单列表或白名单列表,结束;
步骤6,将该邮件发送至云端服务器,以判断该邮件的类别;
其中,所述朋友节点从与当前用户节点之间有邮件交互的网络节点中选择;
其中,所述朋友节点是指与当前用户节点之间具有较高的邮件交互频率的网络节点。
进一步地,如果用户节点将邮件发送至云端服务器,则云端服务器执行以下操作:
步骤7,接收云计算网络中用户节点发送的邮件,将所述邮件发送至垃圾邮件数据库;
步骤8,查看云端服务器的垃圾邮件数据库,判断所述邮件是否与垃圾邮件数据库中的邮件匹配;
如果匹配,执行步骤9;否则,执行步骤10;
步骤9,将该垃圾邮件数据库中对应的结果报告返回给用户节点,结束;
步骤10,将该邮件发送给多个不同的过滤引擎并进行分析;
步骤11,整合多个不同的过滤引擎产生的子结果得到一个结果报告,该结果报告表明该邮件是否为垃圾邮件,将该结果报告返回给用户节点,结束。
进一步地,网络中每个节点的本地存储有一个朋友节点列表,该列表中包括N个朋友节点的地址和关联度分值,所述关联度分值的计算方式为:
关联度分值=(A*周期T内的邮件交互次数+B*周期T内返回黑名单或白名单查询结果的次数)/T;
其中,系数A、B、周期T和朋友节点的数量N既可以是常数,也可以由系统设定并根据实际需要动态调整。
进一步地,所述朋友节点列表的初始化过程为:
将与本地有邮件交互的网络节点按照邮件交互次数从高至低进行排序,选择排序结果中的前N个节点作为朋友节点,以建立初始的朋友节点列表;其中,所述关联度分值的初始值都为0。
进一步地,所述朋友节点列表的更新过程为:
每间隔固定的周期T,计算在当前的周期T内与本地有邮件交互的每个网络节点的关联度分值,按照关联度分值从高至低进行排序,选择排序结果中的前N个节点作为朋友节点,从而更新朋友节点列表。
进一步地,所述系数A、B、周期T和朋友节点的数量N可以是:
A=10,B=20,T=24,N=50。
进一步地,用户节点本地有一个信任度列表,所述信任度列表中的每一项表示与一个与当前用户节点有邮件交互的网络节点的地址以及其对应的信任度分值,对于每个网络节点,定义如下变量:
hit:表示该网络节点向用户节点发送垃圾邮件的数量;total:表示该网络节点向用户节点发送邮件的总数量;Trust:表示该网络节点的信任度分值;
上述变量之间的关系满足:Trust=1–(hit/total)2/3;
其中,2/3是幂指数,变量hit和total都是整数,hit的初始值为0,total的初始值为1;
每当用户节点接收来自该网络节点的邮件,则total=total+1;并且
每当用户节点接收的来自该网络节点的邮件经判断是垃圾邮件,则hit=hit+1;
如果Trust≤阈值θ,将该网络节点的地址加入用户节点本地的灰名单列表;对于来自灰名单列表中用户节点发送的邮件,可以作出特殊标记,并可以提示用户判断该邮件的类别;
其中,0<θ<1。
进一步地,所述多个不同的过滤引擎采用的过滤方法可以包括:SVM、决策树、黑白名单、贝叶斯算法、模糊理论、智能计算、神经网络、推理技术、基于关键词和规则过滤、分类数据库、以及单一用户启发式学习中的一种或多种。
进一步地,所述云端服务器包括:
邮件接收模块,用于接收云计算网络中用户节点发送的邮件;
垃圾邮件数据库,用于存储已识别的垃圾邮件,以及所述垃圾邮件对应的结果报告;
垃圾邮件过滤器,由多个不同的过滤引擎组成;
结果整合器,用于将不同垃圾邮件过滤引擎产生的结果整合,得到结果报告。
本发明的图像邮件的检测分析方法可实现以下有益效果:
第一,截取邮件中的图像或图像的子区域图像与用户的垃圾图像库进行匹配,截取的子区域可以由用户自定义,灵活度高。
第二,通过网络节点的信任度分值,筛选出信任度分值较低的网络节点,将其加入灰名单列表,对于灰名单列表中的网络节点,可以特殊标记或其他方式提示用户判断邮件的类别。
第三,由于基于与本地节点通信较频繁的有代表性的朋友节点,往往也会同时收到类似的垃圾邮件和/或正常邮件的特性,借助于在网络中并发查询这些朋友节点的黑、白名单列表,可以快速地筛选出垃圾邮件和/或正常邮件,能够大大简化本地的分析筛选工作。
第四,朋友节点与用户本地节点之间的关联度分值,既能体现某段时间内两者之间的通信频率,又能体现黑、白名单列表的命中概率。通过综合以上两个因素,可动态确定关联度最佳的朋友节点列表。
第五,云计算的出现和发展给反垃圾邮件领域提供了新的思路,它可为反垃圾邮件系统提供一体化、可扩展的服务。通过云计算的方式,在云端服务器识别并返回结果报告,可准确判别邮件是否为垃圾邮件,可减少不必要的网络流量,并减小传统反垃圾邮件系统的负荷,降低用户时间消耗。
附图说明
构成本申请的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的图像邮件的检测分析方法的流程图。
图2是根据本发明实施例的朋友节点列表的结构。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。
本发明的实施例提供了一种图像邮件的检测分析方法,以下对本发明实施例所提供的图像邮件的检测分析方法进行具体介绍:
图1是根据本发明实施例的图像邮件的检测分析方法的流程图。如图1所示,该方法包括如下的步骤:
步骤1,截取邮件中的图像或图像的子区域图像,将所述图像或子区域图像与用户节点的垃圾图像库中的图像进行匹配,如果存在匹配项,则该邮件的分类属性为垃圾邮件,结束;否则,执行步骤2;
本申请的匹配过滤规则由用户自己定义,先由用户抓取一些截图,比如某封邮件或者网页广告,系统将用户的所有截图存入一个“垃圾图像库”。对于每一封新到的图像邮件,系统都会提取其内嵌的图像,在垃圾图像库中查找是否存在与之类似的图像,一旦匹配,说明这封邮件的图像有该用户先前定义的垃圾图像内容,那么也就认定该邮件是一封垃圾邮件。
在本发明的优选实施例中,在步骤1具体包括以下4个步骤:
1.1)用户发现邮件含有垃圾图像,截取图像或图像的某子区域图像的内容(如特定的一段文字,广告公司商标图案或者其他具有代表性的文字或图案),并注明垃圾邮件类型(如“医药广告”);
1.2)将提取出图像或图像的子区域图像的特征信息并导入到一个数据区(“垃圾图像库”)中,这个数据区维护着从所有垃圾图像或子区域图像的截图中提取的特征信息,任何含有“垃圾图像库”中某项内容的图像都将视为垃圾图像处理;
1.3)一旦有新的邮件出现,先检测该邮件是否含有图像,如果有,则截取邮件中的图像或图像的子区域图像,提取出所述图像或图像的子区域图像的特征信息,用所述特征信息在步骤1.2)所生成的“垃圾图像库”中查找进行匹配,一旦发现存在匹配项,则表示在该邮件识别出了垃圾图像,该邮件的分类属性为垃圾邮件,将此垃圾邮件过滤;
1.4)前3步实际上是针对新进入的垃圾邮件的检测与过滤操作。一旦用户修改了某条垃圾邮件判别规则,系统有必要对既有的邮件重新进行过滤操作。即:每隔一定时间,自动对收件箱中已收取的邮件进行垃圾邮件扫描。
图像匹配是虚拟现实与计算机视觉等领域中的一个重要课题,其中基于特征的图像匹配一直是研究热点,目前已有众多的匹配算法,它们对于不同环境、不同要求下的图像工作各自具有不同的效果,在基于特征的匹配技木中,其首要任务是提取稳定的特征,并进行描述,常用的方法有基于空间关系的匹配算法、基于不变量描述子的匹配算法、金字塔算法、小波算法等等,不同的算法所适用的对象不尽相同,因此,针对图像垃圾邮件过滤问题,选择图像匹配算法要结合垃圾图片的特性。
由于图像垃圾邮件绝大部分是广告邮件,无论广告的产品内容如何变化,生产商的相关信息(例如商标图案)却往往是固定不变的,所以垃圾图像的局部内容重复性很高,针对这一特性,可以利用这部分重复性高的子图内容去识别同属一系列的广告垃圾图像。
步骤2,根据用户接收的邮件的地址查询该用户节点本地存储的黑名单列表和白名单列表,获得该邮件的分类属性,所述分类属性包括:垃圾邮件、正常邮件、以及无法确认;
如果该邮件的地址在黑名单列表中,则该邮件的分类属性为垃圾邮件;
如果该邮件的地址在白名单列表中,则该邮件的分类属性为正常邮件;
否则,该邮件的分类属性为无法确认。
进一步地,如果邮件的分类属性为无法确认,则执行以下步骤:
步骤3,用户节点向所有朋友节点发出一个查询请求,所述查询请求包含当前邮件的地址信息;
步骤4,朋友节点根据所述查询请求搜索自己的黑名单列表和白名单列表,如果发现命中黑名单列表或白名单列表,则向该用户节点返回查询结果,所述查询结果表示该邮件的类型是垃圾邮件或正常邮件;
如果收到朋友节点返回的查询结果,并且所有的查询结果所表示的邮件类型相同,则执行步骤5;否则,执行步骤6;
步骤5,用户节点根据该查询结果更新本地的黑名单列表或白名单列表,结束;
步骤6,将该邮件发送至云端服务器,以判断该邮件的类别;
其中,所述朋友节点从与当前用户节点之间有邮件交互的网络节点中选择。
其中,所述朋友节点是指与当前用户节点之间具有较高的邮件交互频率的网络节点。
进一步地,如果用户节点将邮件发送至云端服务器,则云端服务器执行以下操作:
步骤7,接收云计算网络中用户节点发送的邮件,将所述邮件发送至垃圾邮件数据库;
步骤8,查看云端服务器的垃圾邮件数据库,判断所述邮件是否与垃圾邮件数据库中的邮件匹配;
如果匹配,执行步骤9;否则,执行步骤10;
步骤9,将该垃圾邮件数据库中对应的结果报告返回给用户节点,结束;
步骤10,将该邮件发送给多个不同的过滤引擎并进行分析;
步骤11,整合多个不同的过滤引擎产生的子结果得到一个结果报告,该结果报告表明该邮件是否为垃圾邮件,将该结果报告返回给用户节点,结束。
在本发明的优选实施例中,由于单机垃圾邮件过滤的代价较大,并且通常准确率不高,而将垃圾邮件过滤任务全部交给服务器,又将明显增加服务器端的开销。因此,本申请的垃圾邮件过滤拦截方法将利用网络中与本地交互的其他用户节点进行并发式协同过滤分析。
网络中存在许多的孤立节点,而如果两个网络用户节点之间如果存在较大的邮件交互(收发邮件)频率,则意味着这两个用户节点之间有较高的同质性。在本申请中,将与用户节点之间具有较高的邮件交互频率的网络节点称为“朋友节点”(例如,同一个家公司的多个用户节点)。由于朋友节点之间可能具有大致相同的统计特性,那么显然基于邮件交互频率的网络同步并发式协同分析可以较快且较容易地给出关于本地邮件的分类建议,由于这种协同分析是网络并发协作式的,因此效率较高,且不会增加本地节点的运算负担。
网络中所有节点(包括本地节点、所有朋友节点)的本地都存储有一个黑名单列表和一个白名单列表。本地节点可查询其黑名单列表和白名单列表;本地节点的所有的朋友节点可以请求本地节点查询该本地节点的黑名单列表和白名单列表,并返回查询结果。其中,所述黑名单列表中包括垃圾邮件的地址,白名单列表中包括正常邮件的地址。黑、白名单列表的初始值可由云端服务器获取,并可以实时更新。
同时,网络中所有节点(包括本地节点、所有朋友节点)的本地存储有一个朋友节点列表。
实际中,由于基于与本地节点通信较频繁的有代表性的朋友节点,往往也会同时收到类似的垃圾邮件和/或正常邮件的特性,因此借助于在网络中并发查询这些朋友节点的黑、白名单列表,可以快速地筛选出垃圾邮件和/或正常邮件,能够大大简化本地的分析筛选工作。
在本发明的优选实施例中,用户节点本地有一个信任度列表,所述信任度列表中的每一项表示与一个与当前用户节点有邮件交互的网络节点的地址以及其对应的信任度分值,对于每个网络节点,定义如下变量:
hit:表示该网络节点向用户节点发送垃圾邮件的数量;total:表示该网络节点向用户节点发送邮件的总数量;Trust:表示该网络节点的信任度分值;
上述变量之间的关系满足:Trust=1–(hit/total)2/3;
其中,2/3是幂指数,变量hit和total都是整数,hit的初始值为0,total的初始值为1;
每当用户节点接收来自该网络节点的邮件,则total=total+1;并且
每当用户节点接收的来自该网络节点的邮件经判断是垃圾邮件,则hit=hit+1;
由于型如X2/3的函数一个幂函数,在(0,1)区间,函数值随着自变量(hit/total)的增加而增大,而在本申请中,自变量(hit/total)的增加意味着某网络节点所发送的邮件中,垃圾邮件的比例有所增加,这时该网络节点的信任度分值自然会下降,当某网路节点的信任度分值下降到某一个固定的阈值θ时,表明来自该网络节点的邮件中垃圾邮件的比例较大,即该网络节点可能中毒或者是不安全的,因此,需要将该网络节点的地址加入灰名单,即:
如果网络节点的信任度分值Trust≤阈值θ,将该网络节点的地址加入用户节点本地的灰名单列表;对于来自灰名单列表中用户节点发送的邮件,可以作出特殊标记,并可以提示用户或者向用户报警,由用户来判断该邮件的类别;
其中,0<θ<1。
图2是根据本发明实施例的朋友节点列表的结构。如图2所示,所述朋友节点列表包括N个朋友节点的地址和关联度分值。
初始化时,所有的关联度分值的值都为0,该朋友节点列表每间隔周期T更新一次。
朋友节点列表的初始化和更新过程如下:
a.初始化:将与本地有邮件交互(收、发邮件)的网络节点按照邮件交互次数从高至低进行排序,选择排序结果中的前N个节点作为朋友节点,以建立初始的朋友节点列表。
其中,周期T和朋友节点的数量N既可以是常数,也可以由系统设定并根据实际需要动态调整。
b.更新:每间隔固定的周期T,计算在当前的周期T内与本地有邮件交互(收、发邮件)的每个网络节点的关联度分值,按照关联度分值从高至低进行排序,选择排序结果中的前N个节点作为朋友节点,从而更新朋友节点列表;所述关联度分值的计算方式如下:
关联度分值=(A*周期T内的邮件交互次数+B*周期T内返回黑名单或白名单查询结果的次数)/T;
其中,系数A、B、周期T和朋友节点的数量N既可以是常数;也可以由系统设定并根据实际需要动态调整,例如,可以选择:
A=10,B=20,T=24(小时),N=50。
在本发明的优选实施例中,可将无法确定类别的邮件发送至云端服务器,进行最终的类别判断。
云端服务器负责接收互联网中各个用户节点上传的邮件,它包括:邮件接收模块,用于接收云计算网络中用户节点发送的邮件;垃圾邮件数据库,用于存储已识别的垃圾邮件,以及所述垃圾邮件对应的结果报告;垃圾邮件过滤器,由多个不同的过滤引擎组成;以及结果整合器,用于将不同垃圾邮件过滤引擎产生的结果整合,得到结果报告。具体地:
(1)邮件接收模块,用于接收云计算系统中的网络中的用户节点发送的邮件,并将所接收的邮件发送给垃圾邮件数据库进行垃圾邮件识别。
(2)垃圾邮件数据库,垃圾邮件数据库中存放着被识别出来的垃圾邮件,以及其对应的结果报告,一封邮件被送到云端分析,云端服务器首先会查看垃圾邮件数据库,如果该邮件和数据库中的某一邮件匹配,直接把数据库中对应的结果报告返回给用户节点;
否则,云端网络服务器会继续查看垃圾邮件过滤器,垃圾邮件有个特点就是同一封邮件会发给成千上万的用户接收,引入垃圾邮件数据库可以实现垃圾邮件信息最大程度的共享,垃圾邮件识别时间大大缩减,效率明显提高。
(3)垃圾邮件过滤器,垃圾邮件过滤器是由采用多种不同技术(例如:基于SVM、决策树、黑白名单、贝叶斯算法、模糊理论、智能计算、神经网络、推理技术、基于关键词和规则过滤、分类数据库、单一用户启发式学习等)的多个不同的过滤引擎所组成的庞大服务器动态分析平台,可以进行24小时自动化运算分析,这种广泛的过滤分析技术可以显著增加垃圾邮件检测的范围,同时使用由不同厂家提供的采用不同技术的过滤引擎使得最终结果不会依赖单一的提供商或者单一的过滤技术,后台的垃圾邮件过滤引擎在一个基于xen的虚拟容器上运行,这样可以提供很好的隔离和拓展功能,将每个过滤引擎相互隔离是非常重要的,如果一个过滤引擎被病毒攻击了,病毒很容易被清除,同时也不影响其他过滤引擎的正常运行。
(4)结果整合器,由不同垃圾邮件过滤引擎产生的结果必须整合到一块才能判定一封邮件是不是垃圾邮件,不同垃圾邮件过滤引擎返回的结果可能不同,可以把分析结果封装到一个对象中来描述邮件,同时,不同垃圾邮件过滤引擎产生的结果到达结果整合器的时间也可能不同,如果一个垃圾邮件过滤引擎在执行过程中产生异常,它可能永远也不会返回结果,为了防止一个垃圾邮件过滤引擎返回结果太慢或者失败影响整体速度,可以用返回结果的子集整合出一个结果报告。
使用多种过滤引擎可以增加检测的范围,但是出现假阳性(将一封正常的邮件误判成垃圾邮件)的几率比使用单一过滤引擎要高,假阳性严重影响提供商的信誉和正常运行,同时也给用户带来很大的麻烦,用户宁愿多收到几封垃圾邮件也不愿意丢失一封正常的邮件,通过调整结果整合器中的相应参数,可以在检测范围和防止假阳性之间进行平衡,在极端情况下,如果管理人员希望得到最大的检测范围,他们可以通过设置结果整合器的参数,规定如果任意一个过滤引擎判定一封邮件是垃圾邮件,就认为这封邮件是垃圾邮件,在这种情况下,如果任何一个过滤引擎误判了一封邮件,将导致结果整合器将这封邮件最终判定为垃圾邮件,相反,如果管理者想将假阳性出现的几率降到最低,他们也可以通过调整相关参数,规定只有当所有过滤引擎把一封邮件判定为垃圾邮件的时候,结果整合器才最终判定这封邮件是垃圾邮件。
具体地,所述云端服务器执行以下操作:
首先,接收云计算网络中用户节点发送的邮件,将所述邮件发送至垃圾邮件数据库;
其次,查看云端服务器的垃圾邮件数据库,进行垃圾邮件识别;
如果所述邮件和垃圾邮件数据库中的某一邮件匹配,则将该垃圾邮件数据库中对应的结果报告返回给用户节点;
否则,将该邮件发送给所述多个不同的过滤引擎并进行分析,然后整合所述多个不同的过滤引擎产生的子结果得到一个结果报告,该结果报告表明该邮件是否为垃圾邮件,将该结果报告返回给用户节点。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种图像邮件的检测分析方法,其特征在于,该方法包括以下步骤:
步骤1,截取邮件中的图像或图像的子区域图像,将所述图像或子区域图像与用户节点的垃圾图像库中的图像进行匹配,如果存在匹配项,则该邮件的分类属性为垃圾邮件,结束;否则,执行步骤2;
步骤2,根据用户接收的邮件的地址查询该用户节点本地存储的黑名单列表和白名单列表,获得该邮件的分类属性,所述分类属性包括:垃圾邮件、正常邮件、以及无法确认;
如果该邮件的地址在黑名单列表中,则该邮件的分类属性为垃圾邮件;
如果该邮件的地址在白名单列表中,则该邮件的分类属性为正常邮件;
否则,该邮件的分类属性为无法确认。
2.根据权利要求1所述的方法,其特征在于,所述将所述图像或子区域图像与用户节点的垃圾图像库中的图像进行匹配的过程可以使用基于特征的图像匹配方法;
其中,所述基于特征的图像匹配方法包括:基于空间关系的匹配算法、基于不变量描述的匹配算法、金字塔算法、小波算法;
所述图像的子区域包括:文字区域、广告公司商标图案。
3.根据权利要求2所述的方法,其特征在于,如果邮件的分类属性为无法确认,则执行以下步骤:
步骤3,用户节点向所有朋友节点发出一个查询请求,所述查询请求包含当前邮件的地址信息;
步骤4,朋友节点根据所述查询请求搜索自己的黑名单列表和白名单列表,如果发现命中黑名单列表或白名单列表,则向该用户节点返回查询结果,所述查询结果表示该邮件的类型是垃圾邮件或正常邮件;
如果收到朋友节点返回的查询结果,并且所有的查询结果所表示的邮件类型相同,则执行步骤5;否则,执行步骤6;
步骤5,用户节点根据该查询结果更新本地的黑名单列表或白名单列表,结束;
步骤6,将该邮件发送至云端服务器,以判断该邮件的类别;
其中,所述朋友节点是指与当前用户节点之间具有较高的邮件交互频率的网络节点。
4.根据权利要求3所述的方法,其特征在于,如果用户节点将邮件发送至云端服务器,则云端服务器执行以下操作:
步骤7,接收云计算网络中用户节点发送的邮件,将所述邮件发送至垃圾邮件数据库;
步骤8,查看云端服务器的垃圾邮件数据库,判断所述邮件是否与垃圾邮件数据库中的邮件匹配;
如果匹配,执行步骤9;否则,执行步骤10;
步骤9,将该垃圾邮件数据库中对应的结果报告返回给用户节点,结束;
步骤10,将该邮件发送给多个不同的过滤引擎并进行分析;
步骤11,整合多个不同的过滤引擎产生的子结果得到一个结果报告,该结果报告表明该邮件是否为垃圾邮件,将该结果报告返回给用户节点,结束。
5.根据权利要求4所述的方法,其特征在于,网络中每个节点的本地存储有一个朋友节点列表,该列表中包括N个朋友节点的地址和关联度分值,所述关联度分值的计算方式为:
关联度分值=(A*周期T内的邮件交互次数+B*周期T内返回黑名单或白名单查询结果的次数)/T;
其中,系数A、B、周期T和朋友节点的数量N既可以是常数,也可以由系统设定并根据实际需要动态调整。
6.根据权利要求5所述的方法,其特征在于,所述朋友节点列表的初始化过程为:
将与本地有邮件交互的网络节点按照邮件交互次数从高至低进行排序,选择排序结果中的前N个节点作为朋友节点,以建立初始的朋友节点列表;其中,所述关联度分值的初始值都为0。
7.根据权利要求6所述的方法,其特征在于,所述朋友节点列表的更新过程为:
每间隔固定的周期T,计算在当前的周期T内与本地有邮件交互的每个网络节点的关联度分值,按照关联度分值从高至低进行排序,选择排序结果中的前N个节点作为朋友节点,从而更新朋友节点列表。
8.根据权利要求7所述的方法,其特征在于,所述系数A、B、周期T和朋友节点的数量N可以是:
A=10,B=20,T=24,N=50。
9.根据权利要求8所述的方法,其特征在于,用户节点本地有一个信任度列表,所述信任度列表中的每一项表示与一个与当前用户节点有邮件交互的网络节点的地址以及其对应的信任度分值,对于每个网络节点,定义如下变量:
hit:表示该网络节点向用户节点发送垃圾邮件的数量;total:表示该网络节点向用户节点发送邮件的总数量;Trust:表示该网络节点的信任度分值;
上述变量之间的关系满足:Trust=1–(hit/total)2/3;
其中,变量hit和total都是整数,hit的初始值为0,total的初始值为1;
每当用户节点接收来自该网络节点的邮件,则total=total+1;并且
每当用户节点接收的来自该网络节点的邮件经判断是垃圾邮件,则hit=hit+1;
如果Trust≤阈值θ,将该网络节点的地址加入用户节点本地的灰名单列表;对于来自灰名单列表中用户节点发送的邮件,可以作出特殊标记,并可以提示用户判断该邮件的类别;
其中,0<θ<1。
10.根据权利要求9所述的方法,其特征在于,所述多个不同的过滤引擎采用的过滤方法可以包括:SVM、决策树、黑白名单、贝叶斯算法、模糊理论、智能计算、神经网络、推理技术、基于关键词和规则过滤、分类数据库、以及单一用户启发式学习中的一种或多种。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410543120.6A CN104270304B (zh) | 2014-10-14 | 2014-10-14 | 一种图像邮件的检测分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410543120.6A CN104270304B (zh) | 2014-10-14 | 2014-10-14 | 一种图像邮件的检测分析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104270304A true CN104270304A (zh) | 2015-01-07 |
CN104270304B CN104270304B (zh) | 2017-05-24 |
Family
ID=52161797
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410543120.6A Active CN104270304B (zh) | 2014-10-14 | 2014-10-14 | 一种图像邮件的检测分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104270304B (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104834891A (zh) * | 2015-02-16 | 2015-08-12 | 北京建筑大学 | 一种中文图像型垃圾邮件过滤方法及系统 |
CN105610833A (zh) * | 2015-12-30 | 2016-05-25 | 新浪网技术(中国)有限公司 | 一种基于ip信誉值的邮件反垃圾方法及系统 |
CN106384111A (zh) * | 2016-08-30 | 2017-02-08 | 五八同城信息技术有限公司 | 图片检测方法和装置 |
CN106484763A (zh) * | 2015-09-02 | 2017-03-08 | 雅虎公司 | 用于合并数据的系统和方法 |
CN107124386A (zh) * | 2016-02-24 | 2017-09-01 | 深圳市深信服电子科技有限公司 | 黑色产业内容的检测分析方法及装置 |
CN108055195A (zh) * | 2017-12-22 | 2018-05-18 | 广东睿江云计算股份有限公司 | 一种过滤垃圾电子邮件的方法 |
CN108769140A (zh) * | 2018-05-09 | 2018-11-06 | 国家计算机网络与信息安全管理中心 | 一种实时图像文字识别缓存加速系统 |
CN108763449A (zh) * | 2018-05-28 | 2018-11-06 | 华南理工大学 | 一种垃圾邮件过滤的中文关键词规则生成方法 |
CN109029420A (zh) * | 2018-06-08 | 2018-12-18 | 南京思百易信息科技有限公司 | 一种多维图像阶段处理的识别定位系统 |
CN110598211A (zh) * | 2019-09-02 | 2019-12-20 | 腾讯科技(深圳)有限公司 | 文章的识别方法和装置、存储介质及电子装置 |
CN117354274A (zh) * | 2023-12-04 | 2024-01-05 | 南昌大学 | 一种基于神经网络的垃圾邮件发送者检测方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101282310A (zh) * | 2008-05-23 | 2008-10-08 | 华东师范大学 | 一种反图片垃圾邮件的方法及装置 |
CN101540682A (zh) * | 2009-05-06 | 2009-09-23 | 北京邮电大学 | 一种基于视觉特征的图像垃圾邮件过滤方法 |
CN101540741A (zh) * | 2009-05-06 | 2009-09-23 | 北京邮电大学 | 一种基于阈值的图像垃圾邮件过滤方法 |
US8291021B2 (en) * | 2007-02-26 | 2012-10-16 | Red Hat, Inc. | Graphical spam detection and filtering |
CN103684982A (zh) * | 2012-09-24 | 2014-03-26 | 中国电信股份有限公司 | 垃圾邮件的过滤处理方法和系统 |
-
2014
- 2014-10-14 CN CN201410543120.6A patent/CN104270304B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8291021B2 (en) * | 2007-02-26 | 2012-10-16 | Red Hat, Inc. | Graphical spam detection and filtering |
CN101282310A (zh) * | 2008-05-23 | 2008-10-08 | 华东师范大学 | 一种反图片垃圾邮件的方法及装置 |
CN101540682A (zh) * | 2009-05-06 | 2009-09-23 | 北京邮电大学 | 一种基于视觉特征的图像垃圾邮件过滤方法 |
CN101540741A (zh) * | 2009-05-06 | 2009-09-23 | 北京邮电大学 | 一种基于阈值的图像垃圾邮件过滤方法 |
CN103684982A (zh) * | 2012-09-24 | 2014-03-26 | 中国电信股份有限公司 | 垃圾邮件的过滤处理方法和系统 |
Non-Patent Citations (1)
Title |
---|
音春: "基于多规则的垃圾邮件过滤技术的研究与实现", 《中国优秀博硕士学位论文全文数据库(硕士) 信息科技辑》 * |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104834891A (zh) * | 2015-02-16 | 2015-08-12 | 北京建筑大学 | 一种中文图像型垃圾邮件过滤方法及系统 |
CN106484763A (zh) * | 2015-09-02 | 2017-03-08 | 雅虎公司 | 用于合并数据的系统和方法 |
CN106484763B (zh) * | 2015-09-02 | 2024-03-08 | 雅虎资产有限责任公司 | 用于合并数据的系统和方法 |
CN105610833B (zh) * | 2015-12-30 | 2019-01-18 | 新浪网技术(中国)有限公司 | 一种基于ip信誉值的邮件反垃圾方法及系统 |
CN105610833A (zh) * | 2015-12-30 | 2016-05-25 | 新浪网技术(中国)有限公司 | 一种基于ip信誉值的邮件反垃圾方法及系统 |
CN107124386A (zh) * | 2016-02-24 | 2017-09-01 | 深圳市深信服电子科技有限公司 | 黑色产业内容的检测分析方法及装置 |
CN107124386B (zh) * | 2016-02-24 | 2021-05-04 | 深信服科技股份有限公司 | 黑色产业内容的检测分析方法及装置 |
CN106384111A (zh) * | 2016-08-30 | 2017-02-08 | 五八同城信息技术有限公司 | 图片检测方法和装置 |
CN106384111B (zh) * | 2016-08-30 | 2020-03-31 | 五八同城信息技术有限公司 | 图片检测方法和装置 |
CN108055195B (zh) * | 2017-12-22 | 2021-03-30 | 广东睿江云计算股份有限公司 | 一种过滤垃圾电子邮件的方法 |
CN108055195A (zh) * | 2017-12-22 | 2018-05-18 | 广东睿江云计算股份有限公司 | 一种过滤垃圾电子邮件的方法 |
CN108769140A (zh) * | 2018-05-09 | 2018-11-06 | 国家计算机网络与信息安全管理中心 | 一种实时图像文字识别缓存加速系统 |
CN108763449A (zh) * | 2018-05-28 | 2018-11-06 | 华南理工大学 | 一种垃圾邮件过滤的中文关键词规则生成方法 |
CN109029420A (zh) * | 2018-06-08 | 2018-12-18 | 南京思百易信息科技有限公司 | 一种多维图像阶段处理的识别定位系统 |
CN110598211A (zh) * | 2019-09-02 | 2019-12-20 | 腾讯科技(深圳)有限公司 | 文章的识别方法和装置、存储介质及电子装置 |
CN110598211B (zh) * | 2019-09-02 | 2023-09-26 | 腾讯科技(深圳)有限公司 | 文章的识别方法和装置、存储介质及电子装置 |
CN117354274A (zh) * | 2023-12-04 | 2024-01-05 | 南昌大学 | 一种基于神经网络的垃圾邮件发送者检测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN104270304B (zh) | 2017-05-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104270304A (zh) | 一种图像邮件的检测分析方法 | |
CN104040963B (zh) | 用于使用字符串的频谱进行垃圾邮件检测的系统和方法 | |
CN102822839B (zh) | 经由信誉系统的恶意软件检测 | |
CN106131017B (zh) | 基于可信计算的云计算信息安全可视化系统 | |
CN111581506B (zh) | 基于协同过滤的航班推荐方法及系统 | |
CN107644269A (zh) | 一种支持风险评估的电力舆情预测方法及装置 | |
CN102546771A (zh) | 基于特征模型的云挖掘网络舆情监测系统 | |
CN103942639B (zh) | 用于政策咨询服务系统的政策管理系统及其方法 | |
CN102404249B (zh) | 一种基于协同训练的垃圾邮件过滤方法和装置 | |
Saadat | Survey on spam filtering techniques | |
CN103095672A (zh) | 多维声誉评分 | |
CN104982011A (zh) | 使用多尺度文本指纹的文档分类 | |
CN107438083B (zh) | 一种Android环境下钓鱼网站检测方法及其检测系统 | |
CN103218431A (zh) | 一种能识别网页信息自动采集的系统与方法 | |
CN101282310A (zh) | 一种反图片垃圾邮件的方法及装置 | |
CN109857936A (zh) | 一种大数据采集分析与服务系统 | |
CN103473218A (zh) | 一种电子邮件分类方法及其装置 | |
CN106055664A (zh) | 一种基于用户评论的ugc垃圾内容过滤方法及系统 | |
CN112333185B (zh) | 一种基于dns解析的域名阴影检测方法和装置 | |
CN108809928A (zh) | 一种网络资产风险画像方法及装置 | |
CN106886517A (zh) | 业务选址方法、装置以及系统 | |
CN105786810B (zh) | 类目映射关系的建立方法与装置 | |
Samanlioglu et al. | An Integrated Fuzzy Best‐Worst‐TOPSIS Method for Evaluation of Hotel Website and Digital Solutions Provider Firms | |
CN113645238A (zh) | 一种面向Handle标识体系的DDoS防御方法 | |
CN111353085A (zh) | 一种基于特征模型的云挖掘分析网络舆情方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20230608 Address after: F13, Building 11, Zone D, New Economic Industrial Park, No. 99, West Section of Hupan Road, Xinglong Street, Tianfu New District, Chengdu, Sichuan, 610000 Patentee after: Sichuan Shenhu Technology Co.,Ltd. Address before: 610041 No. 5, floor 1, unit 1, building 19, No. 177, middle section of Tianfu Avenue, high tech Zone, Chengdu, Sichuan Province Patentee before: SICHUAN CINGHOO TECHNOLOGY Co.,Ltd. |