CN108880990A

CN108880990A - 检测外发垃圾邮件的方法、系统、装置及可读存储介质

Info

Publication number: CN108880990A
Application number: CN201810615009.1A
Authority: CN
Inventors: 张斌
Original assignee: Sangfor Technologies Co Ltd
Current assignee: Sangfor Technologies Co Ltd
Priority date: 2018-06-14
Filing date: 2018-06-14
Publication date: 2018-11-23
Anticipated expiration: 2038-06-14
Also published as: CN108880990B

Abstract

本申请公开了一种检测外发垃圾邮件的方法，该方法通过进行时间序列分析得以结合历史同期数据判断邮件发送的数量特征是否存在异常，能够充分结合历史数据的变化趋势得到较为准确的判定结果，并结合内容相似度分析算法来降低误判效率，使得误判率更低、检测效果更准确。本申请还同时公开了一种检测外发垃圾邮件的系统、装置及计算机可读存储介质，具有上述有益效果。

Description

检测外发垃圾邮件的方法、系统、装置及可读存储介质

技术领域

本申请涉及垃圾邮件检测领域，特别涉及一种检测外发垃圾邮件的方法、系统、装置及计算机可读存储介质。

背景技术

电子邮件是一种用电子手段提供信息交换的通信方式，是互联网应用最广的服务。通过网络的电子邮件系统，用户可以以非常低廉的价格(只需负担网费)、非常快速的方式(几秒钟之内可以发送到世界上任何指定的目的地)，与世界上任何一个角落的网络用户联系。因此，电子邮件的出现极大地方便了人与人之间的沟通与交流，促进了社会的发展。

最初且纯粹的电子邮件只用来像纸质信件一样传递人与人之间交流的信息，而随着广告业向网络的迈进，开始出现了宣传广告信息的垃圾邮件。更进一步来说，凡是未经用户许可(与用户无关)就强行发送到用户的邮箱中的任何电子邮件都可以被称为垃圾邮件，而对现今处于电子信息时代的我们而言，邮件广泛应用于日常生活、工作、沟通交流，因此如何防止受到垃圾邮件的干扰是一个重要且亟待解决的问题。

现有检测外发垃圾邮件的方案，通常仅对外发邮件的内容进行检测、分析，判断这些邮件的内容是否存在某些属于垃圾邮件的关键字或者特征，而随着此种检测方式的逐步公开，垃圾邮件的发送者可以有针对性的改变一些字眼来绕过检测，使得此种检测手段逐步失效。因此，现有检测外发垃圾邮件的方案已经不足以胜任检测出垃圾邮件的职责，实际使用效果不佳。

因此，如何克服现有仅基于内容对各封外发邮件进行检测的方式存在的各项技术缺陷，提供一种从另一角度出发、深入结合垃圾邮件的特点、外发垃圾邮件检测更精准、对邮件进行内容检测针对性更强的检测外发垃圾邮件方法是本领域技术人员亟待解决的问题。

发明内容

本申请的目的是提供一种检测外发垃圾邮件的方法，该方法通过进行时间序列分析得以结合历史同期数据判断邮件发送的数量特征是否存在异常，能够充分结合历史数据的变化趋势得到较为准确的判定结果，并结合内容相似度分析算法来降低误判效率，使得误判率更低、检测效果更准确。

本申请的另一目的在于提供了一种检测外发垃圾邮件的系统、装置及计算机可读存储介质。

为实现上述目的，本申请提供一种检测外发垃圾邮件的方法，包括：

解析邮件服务器收到的MX类型的DNS请求，得到邮件发送记录；

对所述邮件发送记录进行时间序列分析，得到邮件发送数量预测模型；

判断当前时段内新邮件的发送数量是否大于所述当前时段内邮件的应发送数量上限；其中，所述应发送数量上限为所述邮件发送数量预测模型根据历史相同时段内邮件的发送数量预测计算得到的；

若是，则将所述当前时段内新发送的邮件标记为初步垃圾邮件，并利用预设的内容相似度分析算法分析所述初步垃圾邮件的内容相似度；

当所述内容相似度大于真实垃圾邮件的内容相似度时，判定相应邮件发送者在所述当前时段内外发的邮件为垃圾邮件。

可选的，对所述邮件发送记录进行时间序列分析，得到邮件发送数量预测模型，包括：

按预设时间周期拆分所述邮件发送记录，并统计按时间轴排列的各预设时间周期对应的历史邮件发送数量；

计算各所述历史邮件发送数量之间的差值，并利用所述差值预估在当前时刻后的下一所述预设时间周期内邮件的应发送数量范围；

利用各所述利用邮件发送数量和预估得到的邮件的应发送数量范围建立所述邮件发送数量预测模型。

可选的，判断当前时段内新邮件的发送数量是否大于所述当前时段内邮件的应发送数量上限，包括：

判断当前时段内新邮件的发送数量与所述当前时段内邮件的应发送数量上限间的比值是否大于预设的比值阈值；其中，所述比值阈值>1。

可选的，将所述当前时段内新发送的邮件标记为初步垃圾邮件，包括：

确定在所述当前时段内新邮件的发送数量大于所述应发送数量上限的具体时刻；

选取所述具体时刻前后预设时间范围内所有新发送的邮件，并将其标记为所述初步垃圾邮件。

可选的，利用预设的内容相似度分析算法分析所述初步垃圾邮件的内容相似度，包括：

利用聚类分析算法计算所述初步垃圾邮件的内容相似度。

可选的，在判定相应邮件发送者在所述当前时段内外发的邮件为垃圾邮件之后，还包括：

按预设抽样规则抽样分析外发的垃圾邮件中是否包含恶意内容；

当抽样分析的垃圾邮件中包含所述恶意内容时，对所述当前时段内外发的所有邮件进行是否包含所述恶意内容的检测，并上报对应邮件发送者的邮箱地址。

为实现上述目的，本申请还提供了一种检测外发垃圾邮件的系统，包括：

MX类型DNS请求解析单元，用于解析邮件服务器收到的MX类型的DNS请求，得到邮件发送记录；

时间序列分析单元，用于对所述邮件发送记录进行时间序列分析，得到邮件发送数量预测模型；

超上限判断单元，用于判断当前时段内新邮件的发送数量是否大于所述当前时段内邮件的应发送数量上限；其中，所述应发送数量上限为所述邮件发送数量预测模型根据历史相同时段内邮件的发送数量预测计算得到的；

标记及内容相似度分析单元，用于在当前时段内新邮件的发送数量大于所述当前时段内邮件的应发送数量上限时，将所述当前时段内新发送的邮件标记为初步垃圾邮件，并利用预设的内容相似度分析算法分析所述初步垃圾邮件的内容相似度；

外发垃圾邮件判定单元，用于当所述内容相似度大于真实垃圾邮件的内容相似度时，判定相应邮件发送者在所述当前时段内外发的邮件为垃圾邮件。

可选的，所述时间序列分析单元包括：

拆分及数量统计子单元，用于按预设时间周期拆分所述邮件发送记录，并统计按时间轴排列的各预设时间周期对应的历史邮件发送数量；

差值及预估值计算子单元，用于计算各所述历史邮件发送数量之间的差值，并利用所述差值预估在当前时刻后的下一所述预设时间周期内邮件的应发送数量范围；

邮件发送数量预测模型建立子单元，用于利用各所述利用邮件发送数量和预估得到的邮件的应发送数量范围建立所述邮件发送数量预测模型。

可选的，所述超上限判断单元包括：

大于预设比值阈值判断子单元，用于判断当前时段内新邮件的发送数量与所述当前时段内邮件的应发送数量上限间的比值是否大于预设的比值阈值；其中，所述比值阈值>1。

可选的，所述标记及内容相似度分析单元包括：

超上限时刻确定子单元，用于确定在所述当前时段内新邮件的发送数量大于所述应发送数量上限的具体时刻；

部分选取及标记子单元，用于选取所述具体时刻前后预设时间范围内所有新发送的邮件，并将其标记为所述初步垃圾邮件。

可选的，所述标记及内容相似度分析单元包括：

聚类分析子单元，用于利用聚类分析算法计算所述初步垃圾邮件的内容相似度。

可选的，该系统还包括：

恶意内容抽样检测单元，用于按预设抽样规则抽样分析外发的垃圾邮件中是否包含恶意内容；

全量检测及邮箱地址上报单元，用于当抽样分析的垃圾邮件中包含所述恶意内容时，对所述当前时段内外发的所有邮件进行是否包含所述恶意内容的检测，并上报对应邮件发送者的邮箱地址。

为实现上述目的，本申请还提供了一种检测外发垃圾邮件的装置，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如上述内容所描述的检测外发垃圾邮件的方法的步骤。

为实现上述目的，本申请还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上述内容所描述的检测外发垃圾邮件的方法的步骤。

显然，本申请所提供的一种检测外发垃圾邮件的方法，从特定类型的DNS请求中解析得到邮件发送记录，并对其进行时间序列分析建立起基于历史邮件发送数量的邮件发送数量预测模型，且用当前时段内邮件的实际发送数量与预测模型基于历史相同时段内历史邮件的发送数量进行预估得到的预估数量进行比较，若超出该预估数量的上限，则说明其在当前时段内发送的邮件数不符合历史变化规律，与垃圾邮件通常批量发送导致数量明显增多的特点更为类似，由于未对其内容进行查看，先将其标记为初步垃圾邮件，在进行内容相似度分析得到分析结果后才得到最终准确的判定结论。该方法通过进行时间序列分析得以结合历史同期数据判断邮件发送的数量特征是否存在异常，能够充分结合历史数据的变化趋势得到较为准确的判定结果，并结合内容相似度分析算法来降低误判效率，使得误判率更低、检测效果更准确。本申请同时还提供了一种检测外发垃圾邮件的系统、装置及计算机可读存储介质，具有上述有益效果，在此不再赘述。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例所提供的一种检测外发垃圾邮件的方法的流程图；

图2为本申请实施例所提供的另一种检测外发垃圾邮件的方法的流程图；

图3为本申请实施例所提供的一种检测外发垃圾邮件的系统的结构框图。

具体实施方式

本申请的核心是提供一种检测外发垃圾邮件的方法、系统、装置及计算机可读存储介质，通过进行时间序列分析得以结合历史同期数据判断邮件发送的数量特征是否存在异常，能够充分结合历史数据的变化趋势得到较为准确的判定结果，并结合内容相似度分析算法来降低误判效率，使得误判率更低、检测效果更准确。

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

以下结合图1，图1为本申请实施例所提供的一种检测外发垃圾邮件的方法的流程图。

其具体包括以下步骤：

S101：解析邮件服务器收到的MX类型的DNS请求，得到邮件发送记录；

本步骤旨在根据外发邮件时生成的DNS请求包所属的记录类型确定详细的邮件外发记录，以便为后续的分析做好前期准备。

其中，DNS请求的记录类型通常包括以下几种：

(1)A类记录：A(Address)记录是用来指定主机名(或域名)对应的IP地址记录(即WEB服务器的IP指向)，用户可以将该域名下的网站服务器指向到自己的web server上。通俗来说A记录就是服务器的IP，域名绑定A记录就是告诉DNS服务器：当你输入域名的时候给你引导向设置在DNS的A记录所对应的服务器；

(2)AAAA记录：该记录是将域名解析到一个指定的IPV6的IP上，A类记录指的IP为IPV4；

(3)CNAME记录：通常称别名解析，可以将注册的不同域名都转到一个域名记录上，由这个域名记录统一解析管理，与A记录不同的是，CNAME别名记录设置的可以是一个域名的描述而不一定是IP地址；

(4)MX记录：MX(Mail Exchanger)记录是邮件交换记录，它指向一个邮件服务器，用于电子邮件系统发邮件时根据收信人的地址后缀来定位邮件服务器。例如，当Internet上的某用户要发一封信给user@mydomain.com时，该用户的邮件系统通过DNS查找mydomain.com这个域名的MX记录，如果MX记录存在，用户计算机就将邮件发送到MX记录所指定的邮件服务器上；

(5)TXT记录：一般指某个主机名或域名的说明，如：admin IN TXT"管理员,电话：XXXXXXXXXXX"，mail IN TXT"邮件主机，存放在xxx,管理人：AAA"，Jim IN TXT"contact:abc@mailserver.com"，也就是可以通过设置TXT内容以使其它人获知联系方式。

除上述几种常用的DNS请求的记录类型，还有一种记录类型：NS记录，NameServer，指域名服务器记录，用来指定该域名由哪个DNS服务器来进行解析。当注册域名时，总有默认的DNS服务器，每个注册的域名都是由一个DNS域名服务器来进行解析的，DNS服务器NS记录地址一般以以下的形式出现：ns1.domain.com、ns2.domain.com等。简单的说，NS记录是指定由哪个DNS服务器来解析这个域名。

因此，本步骤旨在根据各类型DNS请求的不同用途，解析MX类型的DNS请求以得到相应的邮件发送记录，该邮件发送记录会详细的记录经过DNS服务器的每一封邮件的参数，包括邮件发送者地址、邮件接收者地址、邮件发送时间等各种必要参数，利用这些参数可以进行一些简单的分析计算，即可得到某个邮件发送者在某个邮件发送周期内的邮件发送数量。

S102：对邮件发送记录进行时间序列分析，得到邮件发送数量预测模型；

在S101的基础上，本步骤旨在对解析得到的邮件发送记录进行时间序列分析，以建立起相应的邮件发送数量预测模型。

时间序列分析是指对一串与时间顺序相关的动态数据进行趋势和变化性分析的方法，主要包括确定性变化分析和随机性变化分析两种。其中，确定性变化分析又包括趋势变化分析、周期变化分析、循环变化分析。

本申请进行时间序列分析的对象是邮件发送记录，一种明显与时间相关的动态参数为相同时段内的邮件发送数量，因此本申请主要使用时间序列分析算法中的确定性变化分析。举例如下：当解析得到的邮件发送记录中记录了邮件发送者A在过去6个月内所发每封邮件的记录，可根据选定周期的不同，以1天、1个星期、1个月甚至1个季度为周期对每个周期内发送的邮件数量进行相关计算。

设定周期为1个星期，4个星期组成一个月，因此每次周期更替，会存在明显的规律性。可根据邮件发送者A在6个月中随时间先后的24个星期中每星期内的邮件发送数量进行横向同期对比，例如，首先计算第一个星期的邮件发送数量X1与第二个星期的邮件发送数量X2间的差值，若工作性质稳定，其差值应保持在一个正常范围内；若工作性质改变，也不排除存在较大差值的可能性。依次类推，可得到邮件发送者A以星期为单位的邮件发送数量变化趋势，接下来就可以根据该变化趋势提前预估未发生的下一星期内邮件发送数量的预测值，并与下一星期过完后得到的实际邮件发送数量进行比较，以判断是否符合变化规律及存在异常现象。

进一步的，若邮件发送者A工作日上班、休息日休息，还可以根据组成1个星期的5个工作日和2个休息日进行再细分，即可以横向对比每个周一或周日的邮件发送数量以为对下一个未进行的周一可能发送的邮件数量进行预测。因此，本申请是对邮件发送记录进行时间序列分析，利用历史邮件发送数据建立得到邮件发送数量预测模型，以期利用该邮件发送数据预测模型基于历史相同数段实现对当前时段内新邮件的发送数量进行横向比较。

S103：判断当前时段内新邮件的发送数量是否大于当前时段内邮件的应发送数量上限；

在S102的基础上，本步骤旨在判断当前时段内新邮件的发送数量是否大于当前时段内邮件的应发送数量上限，其中，该应发送数量上限为该邮件发送数量预测模型根据历史相同时段内邮件的发送数量结合变化趋势预测计算得到的。大多数情况下预测计算得到的值应为一个范围，因此本步骤中使用该范围的上限作为比较对象，具体的，在根据历史变化趋势得到该预测范围时可以将该范围设定的较大，以使其拥有更大的容错性，也可以根据实际需求和判别所需的灵敏度将其设定的更小，甚至与上一相同时段相同，此处并不做具体限定，应根据实际情况灵活设定。

由于外发垃圾邮件通常有着集中、批量发送的特点，当一个原本正常的邮箱突然被他人盗取，并实施了垃圾邮件的外发操作，此时就可以上述方式得到该邮箱是否在某个时段内发送了明显与基于历史相同时段和历史变化趋势计算得到预测值数量不符的邮件。

考虑到可能存在的波动性，还可以使用新邮件的发送数量与应发送数量的比值的大小来消除波动性可能造成的误判和提升检测成功率，即通过设定一个较大的比值阈值(大于1)来与实际计算得到的比值做比较，当实际比值大于该比值阈值时，则说明新邮件的实际发送数量明显大于预测值的应发送数量，例如1.5、2或者5甚至更大的10、50、100。

进一步的，本申请基于实际场景，提供一个具体的比值阈值作为参考，可将该比值阈值取为3，即判断当前时段内新邮件的发送数量与应发送数量的比值是否大于3，并当该比值大于3时，可初步认定外发的邮件为垃圾邮件。但由于并未结合真实邮件内容去做是否为垃圾邮件的检测，还是存在因特殊情况导致出现超过该比值阈值的情况，因此即使超过该比值阈值，还是需要经过后续判断才能得出一个较为准确的结论。

S104：将当前时段内新发送的邮件标记为初步垃圾邮件，并利用预设的内容相似度分析算法分析初步垃圾邮件的内容相似度；

本步骤建立在S103的判断结果为当前时段内新邮件的发送数量大于当前时段内邮件的应发送数量上限的基础上，将前时段内新发送的邮件标记为初步垃圾邮件，并利用内容相似度分析算法分析初步垃圾邮件的内容相似度。因为垃圾邮件通常采取群发的方式，导致内容高度一致，因此可使用基于内容相似度的方式来判断其是否真正为垃圾邮件。

之所以仅将不符合历史同期变化规律的新邮件标记为初步垃圾邮件，是因为还可能存在特殊情况下，某邮件发送者承担了原先没有承担的邮件发送任务，因此导致其邮件发送数量突增的情况，针对这种情况且为降低误判率，有必要再通过内容相似度分析对初步垃圾邮件的内容做二次判断。

内容相似度分析算法包括很多，例如余弦相似性、简单共有词、编辑距离、SimHash+汉明距离等算法，也可以利用诸如聚类分析、中心分析等机器学习算法来实现，此处并不做具体限定。

通常情况下，会将通过S103判断的当前时段内所有新发送的邮件标记为初步垃圾邮件，但在实际情况中，可能经统计该邮件发送者在某工作日的上午十点左右就已经发送了远超同期内一天应发送的邮件，在此种情况下，还可以只确定该邮件发送者集中发送大批数量邮件的具体时刻，并将其前后一定时间范围内发送的邮件标记为初步垃圾邮件，以减少做内容相似度分析的工作量。

S105：当内容相似度大于真实垃圾邮件的内容相似度时，判定相应邮件发送者在当前时段内外发的邮件为垃圾邮件。

在S104的基础上，本步骤旨在使用计算得到的内容相似度与真实垃圾邮件的内容相似度做比较，若大于真实垃圾邮件的内容相似度，则说明当前时段内新发送的邮件不仅从时间数量特征上符合垃圾邮件的特点，在内容上也符合垃圾邮件内容高度相似的特点，可判定之前被标记为初步垃圾邮件的外发邮件确实为垃圾邮件。相应的，若小于真实垃圾邮件的内容相似度，则说明虽在时间数量特征上符合垃圾邮件的特点，但内容上相似度较低，在一点时间内发送大量不同内容邮件的邮件是不符合外发垃圾邮件的特征的，因此可将之前标记为初步垃圾邮件的邮件确定为正常邮件。

进一步的，在判定某邮件发送者确实出现了外发垃圾邮件的情况时，还可以将其邮件发送地址加入垃圾邮件拒收名单中，之后就可以拒收此邮件发送者的后续邮件，等同于将其加入了邮件接收黑名单中。

更进一步的，在通过发送重复内容的广告营销、行骗消息之外，还需要警惕的是这些邮件中是否有可能包含恶意内容，众所周知，黑客通常会群发包含恶意脚本的邮件给正常用户，以使其在点开邮件时自动运行该恶意脚本对设备进行破坏或其它恶意操作，因此在有必要对确定为垃圾邮件的邮件检测是否包含恶意内容，若包含恶意内容则说明已经不仅仅是垃圾邮件了，可定性为性质更加严重的恶意攻击邮件，并采取相应手段及时封停该邮箱，以降低受害用户人数。

基于上述技术方案，本申请实施例提供的一种检测外发垃圾邮件的方法，从特定类型的DNS请求中解析得到邮件发送记录，并对其进行时间序列分析建立起基于历史邮件发送数量的邮件发送数量预测模型，且用当前时段内邮件的实际发送数量与预测模型基于历史相同时段内历史邮件的发送数量进行预估得到的预估数量进行比较，若超出该预估数量的上限，则说明其在当前时段内发送的邮件数不符合历史变化规律，与垃圾邮件通常批量发送导致数量明显增多的特点更为类似，由于未对其内容进行查看，先将其标记为初步垃圾邮件，在进行内容相似度分析得到分析结果后才得到最终准确的判定结论。该方法通过进行时间序列分析得以结合历史同期数据判断邮件发送的数量特征是否存在异常，能够充分结合历史数据的变化趋势得到较为准确的判定结果，并结合内容相似度分析算法来降低误判效率，使得误判率更低、检测效果更准确。

以下结合图2，图2为本申请实施例所提供的另一种检测外发垃圾邮件的方法的流程图，具体包括如下步骤：

S201：解析邮件服务器收到的MX类型的DNS请求，得到邮件发送记录；

S202：按预设时间周期拆分邮件发送记录，并统计按时间轴排列的各预设时间周期对应的历史邮件发送数量；

S203：计算各历史邮件发送数量之间的差值，并利用差值预估在当前时刻后的下一预设时间周期内邮件的应发送数量范围；

S204：利用各历史邮件发送数量和预估得到的邮件的应发送数量范围建立邮件发送数量预测模型；

本实施例通过S202、S203和S204提供了一种如何基于时间序列分析的思想构建得到邮件发送数量预测模型的方式，即首先按照确定的预设时间周期确定各周期对应的历史邮件发送数量，并结合时间顺序计算得到的历史变化趋势，并基于该历史变化趋势预测计算得到在当前时刻后的下一预设时间周期内邮件的应发送数量范围。以在后续步骤中将当前时段内新邮件的实际发送数量与根据历史相同时段内历史邮件的发送数量结合历史变化趋势得到预测值进行横向同期比较。

S205：判断当前时段内新邮件的发送数量与当前时段内邮件的应发送数量上限间的比值是否大于预设的比值阈值；

本步骤采用比值的方式来衡量实际值与预估值的差异大小。一种实际应用场景下，可将该预设的比值阈值设定为3。

S206：确定在当前时段内新邮件的发送数量大于应发送数量上限的具体时刻；

S207：选取具体时刻前后预设时间范围内所有新发送的邮件，并将其标记为初步垃圾邮件；

选取具体时刻前后预设时间范围内所有新发送的邮件，并将其标记为初步垃圾邮件。其中，该预设时间范围可以设定为15min，即选取该具体时刻的前后15min，总计30min内新发送的邮件，并将其标记为初步垃圾邮件。当然，该预设时间范围的具体值可以根据实际情况的不同、应用场景下可能存在的特殊要求而灵活改变，此处并不做具体限定。

S208：利用聚类分析算法计算初步垃圾邮件的内容相似度；

本实施提供了一种利用聚类算法来分析这些被标记为初步垃圾邮件的内容相似度的方式，其中，聚类分析以相似性为基础，在一个聚类中的模式之间比不在同一聚类中的模式之间具有更多的相似性，具体的，聚类算法包括K-means算法、K-medoids算法等等。

进一步的，还可以利用其它广泛使用的机器学习算法来分析这些邮件的内容相似度，因此不再赘述。

S209：当内容相似度大于真实垃圾邮件的内容相似度时，判定相应邮件发送者在当前时段内外发的邮件为垃圾邮件；

S210：按预设抽样规则抽样分析外发的垃圾邮件中是否包含恶意内容；

S211：当抽样分析的垃圾邮件中包含恶意内容时，对当前时段内外发的所有邮件进行是否包含恶意内容的检测，并上报对应邮件发送者的邮箱地址。

S210和S211提供了一种基于抽样检测原理的恶意内容检测及处理方法，即按预设抽样规则抽样分析真实垃圾邮件中是否存在恶意内容，若存在恶意内容，则说明抽样样本中存在恶意内容，因此为准确确定还有哪些邮件包含恶意内容，还可以对当前时段内外发的所有邮件进行是否包含恶意内容的检测，并同时上报对应邮件发送者的邮箱地址，以及时封停该邮箱。

基于上一实施例，本实施例在上一实施例所具有的有益效果的基础上，通过有针对性的选取具体时刻周围的新发送邮件进行标记，可以省去很多不必要的内容相似度分析操作，并提出利用聚类分析算法这一机器学习算法实现内容相似度分析，效果更好。同时在确定属于垃圾邮件的基础上，还提供了一种基于抽样分析原理的包含恶意内容的检测方法，以防止其发送更加严重的恶意攻击邮件对接收者造成更大的危害，考虑更加全面。

本实施例区别于独立权利要求1所要求保护的技术方案对应的实施例一，还增加了从属权利要求2至6对应要求保护的技术方案，当然，根据实际情况和要求的不同，可将各从属权利要求对应要求保护的技术方案在不影响方案完整性的基础上进行灵活组合，以更加符合不同使用场景的要求，本实施例只是给出了其中一种包含方案最多、效果最优的方案，因为情况复杂，无法对所有可能存在的方案一一列举，本领域技术人员应能意识到根据本申请提供的基本方法原理结合实际情况可以存在很多的例子，在不付出足够的创造性劳动下，应均在本申请的保护范围内。

下面请参见图3，图3为本申请实施例所提供的一种检测外发垃圾邮件的系统的结构框图，该系统可以包括：

MX类型DNS请求解析单元100，用于解析邮件服务器收到的MX类型的DNS请求，得到邮件发送记录；

时间序列分析单元200，用于对邮件发送记录进行时间序列分析，得到邮件发送数量预测模型；

超上限判断单元300，用于判断当前时段内新邮件的发送数量是否大于当前时段内邮件的应发送数量上限；其中，应发送数量上限为邮件发送数量预测模型根据历史相同时段内邮件的发送数量预测计算得到的；

标记及内容相似度分析单元400，用于在当前时段内新邮件的发送数量大于当前时段内邮件的应发送数量上限时，将当前时段内新发送的邮件标记为初步垃圾邮件，并利用预设的内容相似度分析算法分析初步垃圾邮件的内容相似度；

外发垃圾邮件判定单元500，用于当内容相似度大于真实垃圾邮件的内容相似度时，判定相应邮件发送者在当前时段内外发的邮件为垃圾邮件。

其中，时间序列分析单元200可以包括：

拆分及数量统计子单元，用于按预设时间周期拆分邮件发送记录，并统计按时间轴排列的各预设时间周期对应的历史邮件发送数量；

差值及预估值计算子单元，用于计算各历史邮件发送数量之间的差值，并利用差值预估在当前时刻后的下一预设时间周期内邮件的应发送数量范围；

邮件发送数量预测模型建立子单元，用于利用各利用邮件发送数量和预估得到的邮件的应发送数量范围建立邮件发送数量预测模型。

其中，超上限判断单元300可以包括：

大于预设比值阈值判断子单元，用于判断当前时段内新邮件的发送数量与当前时段内邮件的应发送数量上限间的比值是否大于预设的比值阈值；其中，比值阈值>1。

其中，标记及内容相似度分析单元400可以包括：

超上限时刻确定子单元，用于确定在当前时段内新邮件的发送数量大于应发送数量上限的具体时刻；

部分选取及标记子单元，用于选取具体时刻前后预设时间范围内所有新发送的邮件，并将其标记为初步垃圾邮件；

聚类分析子单元，用于利用聚类分析算法计算初步垃圾邮件的内容相似度。

进一步的，该系统还可以包括：

全量检测及邮箱地址上报单元，用于当抽样分析的垃圾邮件中包含恶意内容时，对当前时段内外发的所有邮件进行是否包含恶意内容的检测，并上报对应邮件发送者的邮箱地址。

基于上述实施例，本申请还提供了一种检测外发垃圾邮件的装置，该装置可以包括存储器和处理器，其中，该存储器中存有计算机程序，该处理器调用该存储器中的计算机程序时，可以实现上述实施例所提供的步骤。当然，该装置还可以包括各种必要的网络接口、电源以及其它零部件等。

本申请还提供了一种计算机可读存储介质，其上存有计算机程序，该计算机程序被执行终端或处理器执行时可以实现上述实施例所提供的步骤。该存储介质可以包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random AccessMemory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想。对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以对本申请进行若干改进和修饰，这些改进和修饰也落入本申请权利要求的保护范围内。

还需要说明的是，在本说明书中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其它变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其它要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims

1.一种检测外发垃圾邮件的方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，对所述邮件发送记录进行时间序列分析，得到邮件发送数量预测模型，包括：

3.根据权利要求2所述的方法，其特征在于，判断当前时段内新邮件的发送数量是否大于所述当前时段内邮件的应发送数量上限，包括：

4.根据权利要求1至3任一项所述的方法，其特征在于，将所述当前时段内新发送的邮件标记为初步垃圾邮件，包括：

5.根据权利要求4所述的方法，其特征在于，利用预设的内容相似度分析算法分析所述初步垃圾邮件的内容相似度，包括：

利用聚类分析算法计算所述初步垃圾邮件的内容相似度。

6.根据权利要求5所述的方法，其特征在于，在判定相应邮件发送者在所述当前时段内外发的邮件为垃圾邮件之后，还包括：

7.一种检测外发垃圾邮件的系统，其特征在于，包括：

8.根据权利要求7所述的系统，其特征在于，所述时间序列分析单元包括：

9.根据权利要求8所述的系统，其特征在于，所述超上限判断单元包括：

10.根据权利要求7至9任一项所述的系统，其特征在于，所述标记及内容相似度分析单元包括：

11.根据权利要求10所述的系统，其特征在于，所述标记及内容相似度分析单元包括：

12.根据权利要求11所述的系统，其特征在于，还包括：

13.一种检测外发垃圾邮件的装置，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1至6任一项所述的检测外发垃圾邮件的方法的步骤。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述的检测外发垃圾邮件的方法的步骤。