CN108347421B

CN108347421B - 一种基于内容的恶意邮件检测方法及系统

Info

Publication number: CN108347421B
Application number: CN201710205242.8A
Authority: CN
Inventors: 马森; 李柏松
Original assignee: Beijing Antiy Network Technology Co Ltd
Current assignee: Beijing Antiy Network Technology Co Ltd
Priority date: 2017-03-31
Filing date: 2017-03-31
Publication date: 2020-06-19
Anticipated expiration: 2037-03-31
Also published as: CN108347421A

Abstract

本发明公开了一种基于内容的恶意邮件检测方法及系统，包括：收集针对预设岗位的已知社工邮件，并进行分词操作，获取该岗位相关的高频词汇并形成高频词列表；计算每封社工邮件的可疑值，所述可疑值与出现在该社工邮件中的每个高频词汇出现在所有邮件中的频率和出现在当前邮件中的次数有关；计算预设岗位的所有社工邮件的平均可疑值；对待测邮件进行分词操作，获取出现在所述高频词列表中的高频词汇；计算待测邮件的可疑值，将待测邮件可疑值与该岗位的平均可疑值进行比较，并判定待测邮件是否是恶意邮件。本发明所述技术方案能够根据不同岗位调整检测方案，不仅能够更加准确地检出恶意邮件，而且可根据用户需求调整筛选的细粒度。

Description

一种基于内容的恶意邮件检测方法及系统

技术领域

本发明涉及网络安全技术领域，尤其涉及一种基于内容的恶意邮件检测方法及系统。

背景技术

电子邮件由于目标明显，攻击成本低，回报高，一直深受黑客的青睐。而团体内部若遭受垃圾邮件侵害，可能会造成重大的安全问题。

目前市场上有针对邮件产生的动静态检测技术。而基于内容的检测均是较为固定的方式方法，难以灵活调节过滤门槛，并且针对不同的岗位无法根据需要选择合适的过滤模式。

发明内容

针对上述技术问题，本发明所述的技术方案通过收集企业或者机构内部人员不同岗位接收到的已知社工邮件，并针对岗位不同进行分词操作并形成高频词列表，最终计算出该岗位对应的平均可疑值，进而通过对比待测邮件的可疑值与该岗位的平均可疑值判定是否是恶意邮件。本发明不仅能够准确识别有针对性的社工邮件，并且能够进行检测细粒度和门槛值的调整，使得检测更加准确和灵活。

本发明采用如下方法来实现：一种基于内容的恶意邮件检测方法，包括：

收集针对预设岗位的已知社工邮件，并进行分词操作，获取高频词汇并形成高频词列表；

计算每封社工邮件的可疑值

其中，m为每封社工邮件中出现高频词列表中的高频词汇数量，P_i为当前社工邮件中第i个高频词汇出现在所有邮件中的总频率，C_i为当前社工邮件中第i个高频词汇出现在当前社工邮件中的次数；

计算预设岗位的所有社工邮件的平均可疑值

其中，n为收集到的针对预设岗位的社工邮件总数；Q_j为第j封社工邮件的可疑值；

对待测邮件进行分词操作，获取出现在所述高频词列表中的高频词汇；

计算待测邮件的可疑值

其中，m为待测邮件中出现高频词列表中的高频词汇数量；q_i为待测邮件中第i个高频词汇出现在待测邮件中的频率，n_i为待测邮件中第i个高频词汇出现在待测邮件中的次数；

比较q与

进而判定待测邮件是否是恶意邮件。

进一步地，在所述对待测邮件进行分词操作之前，还包括：将所述待测邮件与历史社工邮件黑名单进行匹配，若匹配成功，则判定为恶意邮件，否则对待测邮件进行分词操作。

更进一步地，所述历史社工邮件黑名单中记录了历史社工邮件的发送邮箱地址。

上述方法中，所述比较q与

进而判定待测邮件是否是恶意邮件，具体为：

若

则判定待测邮件是恶意邮件；

若

则判定待测邮件是正常邮件；其中，所述0≤ε<1，且ε根据用户需要选择。

本发明可以采用如下系统来实现：一种基于内容的恶意邮件检测系统，包括：

社工邮件处理模块，用于收集针对预设岗位的已知社工邮件，并进行分词操作，获取高频词汇并形成高频词列表；

社工邮件可疑值计算模块，用于计算每封社工邮件的可疑值

平均可疑值计算模块，用于计算预设岗位的所有社工邮件的平均可疑值

待测邮件处理模块，用于对待测邮件进行分词操作，获取出现在所述高频词列表中的高频词汇；

待测邮件可疑值计算模块，用于计算待测邮件的可疑值

比较判定模块，用于比较q与

进而判定待测邮件是否是恶意邮件。

进一步地，还包括：黑名单匹配模块，用于在将待测邮件发送至待测邮件处理模块之前，将所述待测邮件与历史社工邮件黑名单进行匹配，若匹配成功，则判定为恶意邮件，否则将待测邮件发送至待测邮件处理模块。

上述系统中，所述比较判定模块，具体用于：

若

则判定待测邮件是恶意邮件；

若

综上，本发明给出一种基于内容的恶意邮件检测方法及系统，通过针对预设岗位的不同收集相关的已知社工邮件，并通过分词处理获取当前预设岗位相关的高频词列表，随后计算所有该岗位社工邮件的可疑值，所述可疑值与社工邮件中出现的高频词汇的频率和次数有关；得到所有社工邮件的可疑值后计算该岗位的平均可疑值；获取待测邮件并基于同样的分词方法进行处理，获取命中高频词列表的所有高频词汇，并进一步计算待测邮件的可疑值；最后将待测邮件的可疑值与本岗位相关的平均可疑值对比进而判定是否是恶意邮件。本发明所公开的技术方案不仅能够有效识别恶意社工邮件，而且由于其针对不同岗位定制高频词列表，进而提升了检测的准确性，并且能够根据不同时期，不同细粒度要求适当调节检测门槛，更具灵活性。

附图说明

为了更清楚地说明本发明的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的一种基于内容的恶意邮件检测方法实施例流程图；

图2为本发明提供的一种基于内容的恶意邮件检测系统实施例结构图。

具体实施方式

本发明给出了一种基于内容的恶意邮件检测方法及系统实施例，为了使本技术领域的人员更好地理解本发明实施例中的技术方案，并使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图对本发明中技术方案作进一步详细的说明：

本发明首先提供了一种基于内容的恶意邮件检测方法实施例，如图1所示，包括：

S101：收集针对预设岗位的已知社工邮件，并进行分词操作，获取高频词汇并形成高频词列表；攻击者针对不同岗位的社工邮件会编辑有针对性的内容并使用该岗位相关的词汇，因此针对不同岗位收集社工邮件并形成高频词列表，能够使得最终的检测更加准确。

S102：计算每封社工邮件的可疑值

其中，m为每封社工邮件中出现高频词列表中的高频词汇数量，P_i为当前社工邮件中第i个高频词汇出现在所有邮件中的总频率，C_i为当前社工邮件中第i个高频词汇出现在当前社工邮件中的次数。

例如：存在一封社工邮件，包括：A、B、C、D四个出现在高频词列表中的高频词汇，则此时m为4，该社工邮件的可疑值Q＝P_A*C_A+P_B*C_B+P_C*C_C+P_D*C_D。P_A、P_B、P_C、P_D为高频词汇A、B、C、D出现在所有该岗位的社工邮件中的次数与所有社工邮件总的分词数的比值。C_A、C_B、C_C、C_D为高频词汇A、B、C、D出现在当前社工邮件中的次数。

S103：计算预设岗位的所有社工邮件的平均可疑值

其中，n为收集到的针对预设岗位的社工邮件总数；Q_j为第j封社工邮件的可疑值，所述Q_j为利用S102中的计算方法得到。

S104：将待测邮件与历史社工邮件黑名单进行匹配，若匹配成功，则判定为恶意邮件，否则执行S105；其中，所述历史社工邮件黑名单中记录了历史社工邮件的发送邮箱地址。本步骤可以预先过滤掉在黑名单中的已知社工邮件。

S105：对待测邮件进行分词操作，获取出现在所述高频词列表中的高频词汇。所述分词操作的具体实施手段存在很多现有技术手段可选，在此不做赘述。

S106：计算待测邮件的可疑值

其中，m为待测邮件中出现高频词列表中的高频词汇数量；q_i为待测邮件中第i个高频词汇出现在待测邮件中的频率，n_i为待测邮件中第i个高频词汇出现在待测邮件中的次数。

S107：比较q与

进而判定待测邮件是否是恶意邮件。更为具体地：

若

则判定待测邮件是恶意邮件；

若

则判定待测邮件是正常邮件；其中，所述0≤ε<1，且ε根据用户需要选择。用户可以根据ε的取值调整来控制检测的细粒度和门槛，当ε值越小，则恶意邮件的判定条件就越苛刻，粒度细；当ε值越大，则恶意邮件的判定条件就越粗狂，粒度粗。

其中，对于判定为恶意邮件的待测邮件，提取其来源信息，并更新至社工邮件黑名单中。

本发明其次提供了一种基于内容的恶意邮件检测系统实施例，如图2所示，包括：

社工邮件处理模块201，用于收集针对预设岗位的已知社工邮件，并进行分词操作，获取高频词汇并形成高频词列表；

社工邮件可疑值计算模块202，用于计算每封社工邮件的可疑值

平均可疑值计算模块203，用于计算预设岗位的所有社工邮件的平均可疑值

待测邮件处理模块204，用于对待测邮件进行分词操作，获取出现在所述高频词列表中的高频词汇；

待测邮件可疑值计算模块205，用于计算待测邮件的可疑值

比较判定模块206，用于比较q与

进而判定待测邮件是否是恶意邮件。

优选地，还包括：黑名单匹配模块，用于在将待测邮件发送至待测邮件处理模块之前，将所述待测邮件与历史社工邮件黑名单进行匹配，若匹配成功，则判定为恶意邮件，否则将待测邮件发送至待测邮件处理模块。

更优选地，所述历史社工邮件黑名单中记录了历史社工邮件的发送邮箱地址。

上述系统实施例中，所述比较判定模块，具体用于：

若

则判定待测邮件是恶意邮件；

若

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同或相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

如上所述，上述实施例给出了一种基于内容的恶意邮件检测方法及系统实施例，通过针对预设岗位收集已知社工邮件，并进行处理获取高频词列表，基于高频词列表计算各社工邮件的可疑值，最终得到该预设岗位的平均可疑值；当发现可疑邮件，则计算该可疑邮件的可疑值，并与该预设岗位的平均可疑值比较最终判定是否是恶意邮件。本发明所提供的上述实施例随着收集到的已知社工邮件的增多，词频统计的效果也更加明显和准确，随之而来检出效果也随之提高。并且上述实施例可以根据用户的需要去调节检出的细粒度，使得检测更加灵活可配置。

以上实施例用以说明而非限制本发明的技术方案。不脱离本发明精神和范围的任何修改或局部替换，均应涵盖在本发明的权利要求范围当中。