CN109039875A

CN109039875A - 一种基于链接特征分析的钓鱼邮件检测方法及系统

Info

Publication number: CN109039875A
Application number: CN201811083781.XA
Authority: CN
Inventors: 蔡福杰; 范渊
Original assignee: Hangzhou Dbappsecurity Technology Co Ltd
Current assignee: Hangzhou Dbappsecurity Technology Co Ltd
Priority date: 2018-09-17
Filing date: 2018-09-17
Publication date: 2018-12-18
Anticipated expiration: 2038-09-17
Also published as: CN109039875B

Abstract

本发明提供了一种基于链接特征分析的钓鱼邮件检测方法及系统，包括：获取待检测邮件的内容中的链接；按照预设过滤方式对链接进行过滤处理，得到过滤后的链接；提取过滤后的链接的预设链接特征，对预设链接特征进行向量化处理，得到链接特征向量；通过预设分类模型对链接特征向量进行类型检测，检测得到待检测邮件是否为钓鱼邮件。在本发明中，进行预设链接特征提取时，提取的是过滤后的链接，减少了系统资源的浪费，提高了检测效率，另外，提取的预设链接特征能够很好的区分钓鱼邮件和非钓鱼邮件，所以在基于预设链接特征进行钓鱼邮件检测时，准确性好，识别度高，缓解了现有的钓鱼邮件检测方法检测效率低下，准确性差的技术问题。

Description

一种基于链接特征分析的钓鱼邮件检测方法及系统

技术领域

本发明涉及信息安全的技术领域，尤其是涉及一种基于链接特征分析的钓鱼邮件检测方法及系统。

背景技术

钓鱼邮件主要是在邮件中呈现具有误导性质的链接，该链接指向恶意网页，点击了邮件中的链接并输入密码或者隐私信息，就会造成隐私泄露。

现有技术在对钓鱼邮件进行检测时，先使用邮件解析器对邮件进行解析；利用正则表达式提取邮件中的网站链接；再次利用正则表达式算法提取链接中的相关特征；利用域名注册检索引擎，得到网站注册时间特征。运用这些所提取的文本特征(包括相关特征，网站注册时间特征)组成邮件的特征向量，输入到支持向量机模型(SVM)中进行钓鱼邮件的识别。

现有技术在提取网站链接，然后进行相关特征的提取时，提取的是所有链接。在实际的使用环境中，一封邮件可能存在着几十个特征相近的链接，所以这一过程就会造成重复检测从而使得系统资源的浪费；另外，提取的相关特征不仅在钓鱼邮件中存在，而且这些相关特征在正常邮件中也存在，所以当基于这些相关特征对钓鱼邮件进行识别时，往往容易产生误报。

综上，现有的钓鱼邮件检测方法存在效率低下，准确性差的技术问题。

发明内容

有鉴于此，本发明的目的在于提供一种基于链接特征分析的钓鱼邮件检测方法及系统，以缓解现有的钓鱼邮件检测方法检测效率低下，准确性差的技术问题。

第一方面，本发明实施例提供了一种基于链接特征分析的钓鱼邮件检测方法，包括：

获取待检测邮件的内容中的链接；

按照预设过滤方式对所述链接进行过滤处理，得到过滤后的链接；

提取所述过滤后的链接的预设链接特征，并对所述预设链接特征进行向量化处理，得到所述待检测邮件的链接特征向量，其中，所述预设链接特征用于区分钓鱼邮件和非钓鱼邮件；

通过预设分类模型对所述链接特征向量进行类型检测，检测得到所述待检测邮件是否为钓鱼邮件。

结合第一方面，本发明实施例提供了第一方面的第一种可能的实施方式，其中，获取待检测邮件的内容中的链接包括：

获取所述待检测邮件；

根据多用途互联网邮件扩展类型标准对所述待检测邮件进行解析，得到所述待检测邮件的发件人邮箱域名和所述待检测邮件的内容；

提取所述待检测邮件的内容中的链接，进而得到所述待检测邮件的内容中的链接。

结合第一方面，本发明实施例提供了第一方面的第二种可能的实施方式，其中，获取所述待检测邮件包括：

在网络流量中提取邮件数据流，其中，所述邮件数据流至少包括：POP协议的数据流，SMTP协议的数据流，IMAP协议的数据流；

对所述邮件数据流进行解析，进而得到邮件格式的待检测邮件；

或者，

在邮件格式的文件中读取所述待检测邮件。

结合第一方面，本发明实施例提供了第一方面的第三种可能的实施方式，其中，提取所述待检测邮件的内容中的链接包括：

判断所述待检测邮件的格式类型；

如果所述格式类型为HTML格式类型，则根据HTML标准提取标签a中的链接和标签area中的链接，并将所述标签a中的链接和所述标签area中的链接作为所述待检测邮件的内容中的链接；

如果所述格式类型为文本格式类型，则采用正则表达式提取所述待检测邮件的内容中的链接。

结合第一方面，本发明实施例提供了第一方面的第四种可能的实施方式，其中，按照预设过滤方式对所述链接进行过滤处理包括：

在所述链接中过滤出与自身邮件白名单中的域名不同的域名所对应的链接，得到第一过滤后的链接；

在所述第一过滤后的链接中过滤出与预设域名白名单中的域名不同的域名所对应的链接，得到第二过滤后的链接，并将与所述预设域名白名单中的域名相同的域名保存至所述自身邮件白名单；

在所述第二过滤后的链接中过滤出与Alexa白名单中的域名不同的域名所对应的链接，得到第三过滤后的链接，并将与所述Alexa白名单中的域名相同的域名保存至所述自身邮件白名单；

在所述第三过滤后的链接中过滤出与所述发件人邮箱域名不同的域名所对应的链接，进而得到所述过滤后的链接，并将与所述发件人邮箱域名相同的域名和所述过滤后的链接的域名保存至所述自身邮件白名单。

结合第一方面，本发明实施例提供了第一方面的第五种可能的实施方式，其中，提取所述过滤后的链接的预设链接特征包括：

确定所述过滤后的链接的域名是否使用IP，得到是否使用IP的特征；

确定所述IP是否不属于预设局域网段IP，得到是否不属于所述预设局域网段IP的特征；

确定所述过滤后的链接的域名是否与文本描述的链接域名不符，得到是否与所述文本描述的链接域名不符的特征；

确定所述过滤后的链接的域名是否超过四级，得到是否超过四级的特征；

确定所述过滤后的链接的域名中字母分布频率与正常网站的域名中字母分布频率的差值是否大于预设阈值，得到是否大于预设阈值的特征；

确定所述过滤后的链接的域名是否与所述发件人邮箱域名不一致，且所述发件人邮箱域名是否为所述过滤后的链接的域名的子串，得到是否与所述发件人邮箱域名不一致且所述发件人邮箱域名是否为所述过滤后的链接的域名的子串的特征；

确定所述过滤后的链接是否存在预设网页脚本关键字和邮箱账号，得到是否存在所述预设网页脚本关键字和所述邮箱账号的特征。

结合第一方面，本发明实施例提供了第一方面的第六种可能的实施方式，其中，对所述预设链接特征进行向量化处理包括：

对所述是否使用IP的特征，所述是否不属于所述预设局域网段IP的特征，所述是否与所述文本描述的链接域名不符的特征，所述是否超过四级的特征，所述是否大于预设阈值的特征，所述是否与所述发件人邮箱域名不一致且所述发件人邮箱域名是否为所述过滤后的链接的域名的子串的特征，所述是否存在所述预设网页脚本关键字和所述邮箱账号的特征分别进行0或1向量化处理，得到所述待检测邮件的链接特征向量。

结合第一方面，本发明实施例提供了第一方面的第七种可能的实施方式，其中，通过预设分类模型对所述链接特征向量进行类型检测包括：

将所述链接特征向量输入至所述预设分类模型，其中，所述预设分类模型包括以下任一种：朴素贝叶斯分类模型，支持向量机模型；

输出得到数值结果，其中，所述数值结果用于表征所述待检测邮件是否为钓鱼邮件；

将所述数值结果与预设边界阈值进行对比，并根据对比结果确定所述待检测邮件是否为钓鱼邮件，其中，所述预设边界阈值为是否为钓鱼邮件的边界值。

第二方面，本发明实施例还提供了一种基于链接特征分析的钓鱼邮件检测系统，包括：

获取模块，用于获取待检测邮件的内容中的链接；

过滤模块，用于按照预设过滤方式对所述链接进行过滤处理，得到过滤后的链接；

提取模块，用于提取所述过滤后的链接的预设链接特征，并对所述预设链接特征进行向量化处理，得到所述待检测邮件的链接特征向量，其中，所述预设链接特征用于区分钓鱼邮件和非钓鱼邮件；

类型检测模块，用于通过预设分类模型对所述链接特征向量进行类型检测，检测得到所述待检测邮件是否为钓鱼邮件。

结合第二方面，本发明实施例提供了第二方面的第一种可能的实施方式，其中，所述获取模块包括：

获取单元，用于获取所述待检测邮件；

解析单元，用于根据多用途互联网邮件扩展类型标准对所述待检测邮件进行解析，得到所述待检测邮件的发件人邮箱域名和所述待检测邮件的内容；

提取单元，用于提取所述待检测邮件的内容中的链接，进而得到所述待检测邮件的内容中的链接。

本发明实施例带来了以下有益效果：

在本实施例中，先获取待检测邮件的内容中的链接；然后，按照预设过滤方式对链接进行过滤处理，得到过滤后的链接；进而，提取过滤后的链接的用于区分钓鱼邮件和非钓鱼邮件的预设链接特征，并对预设链接特征进行向量化处理，得到待检测邮件的链接特征向量；最终，通过预设分类模型对链接特征向量进行分类检测，检测得到待检测邮件是否为钓鱼邮件。通过上述描述可知，在本实施例中，进行预设链接特征提取时，提取的是过滤后的链接，而非所有的链接，减少了系统资源的浪费，提高了检测效率，另外，提取的预设链接特征能够很好的区分钓鱼邮件和非钓鱼邮件，所以在基于预设链接特征进行钓鱼邮件检测时，准确性好，识别度高，缓解了现有的钓鱼邮件检测方法检测效率低下，准确性差的技术问题。

本发明的其他特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种基于链接特征分析的钓鱼邮件检测方法的流程图；

图2为本发明实施例提供的获取待检测邮件的内容中的链接的流程图；

图3为本发明实施例提供的按照预设过滤方式对链接进行过滤处理的流程图；

图4为本发明实施例提供的提取过滤后的链接的预设链接特征的流程图；

图5为本发明实施例提供的通过预设分类模型对链接特征向量进行类型检测的流程图；

图6为本发明实施例提供的一种基于链接特征分析的钓鱼邮件检测系统的示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为便于对本实施例进行理解，首先对本发明实施例所公开的一种基于链接特征分析的钓鱼邮件检测方法进行详细介绍。

实施例一：

根据本发明实施例，提供了一种基于链接特征分析的钓鱼邮件检测方法的实施例，需要说明的是在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图1是根据本发明实施例的一种基于链接特征分析的钓鱼邮件检测方法，如图1所示，该方法包括如下步骤：

步骤S102，获取待检测邮件的内容中的链接；

步骤S104，按照预设过滤方式对链接进行过滤处理，得到过滤后的链接；

在本发明实施例中，过滤处理主要是为了过滤掉相似的链接，避免重复检测，提高检测效率，具体的过滤过程将在下文中进行详细描述。

步骤S106，提取过滤后的链接的预设链接特征，并对预设链接特征进行向量化处理，得到待检测邮件的链接特征向量，其中，预设链接特征用于区分钓鱼邮件和非钓鱼邮件；

现有技术中，提取得到的相关特征没有很好的区分性，即不能很好的区分钓鱼邮件和非钓鱼邮件。

而本发明在得到过滤后的连接后，进一步提取过滤后的链接的预设链接特征，该预设链接特征多样化，能够很好的区分钓鱼邮件和非钓鱼邮件。在提取得到过滤后的链接的预设链接特征后，进一步对该预设链接特征进行向量化处理，得到待检测邮件的链接特征向量。具体内容将在下文中进行详细描述。

步骤S108，通过预设分类模型对链接特征向量进行类型检测，检测得到待检测邮件是否为钓鱼邮件。

在得到链接特征向量后，进一步通过预设分类模型对链接特征向量进行类型检测，得到待检测邮件是否为钓鱼邮件。

上述内容对本发明的基于链接特征分析的钓鱼邮件检测方法进行了简要介绍，下面对其中涉及到的具体内容进行详细介绍。

在本发明的一个可选实施方式中，参考图2，步骤S102，获取待检测邮件的内容中的链接包括如下步骤：

步骤S201，获取待检测邮件；

具体的，获取待检测邮件的方式有以下两种：

第一种方式：

(1)在网络流量中提取邮件数据流，其中，邮件数据流至少包括：POP协议的数据流，SMTP协议的数据流，IMAP协议的数据流；

(2)对邮件数据流进行解析，进而得到邮件格式的待检测邮件；

具体的，在得到邮件数据流后，邮件数据流中可能嵌入有加密或者邮件编码不同的各种形式，所以，要对邮件数据流进行解析，得到邮件格式的待检测邮件。

第二种方式：

在邮件格式的文件中读取待检测邮件。

步骤S202，根据多用途互联网邮件扩展类型标准对待检测邮件进行解析，得到待检测邮件的发件人邮箱域名和待检测邮件的内容；

在得到待检测邮件后，进一步根据多用途互联网邮件扩展类型标准(即MIME标准)对待检测邮件进行解析，解析得到待检测邮件的发件人邮箱域名和待检测邮件的内容。

步骤S203，提取待检测邮件的内容中的链接，进而得到待检测邮件的内容中的链接。

提取待检测邮件的内容中的链接的过程具体如下：

(1)判断待检测邮件的格式类型；

(2)如果格式类型为HTML格式类型，则根据HTML标准提取标签a中的链接和标签area中的链接，并将标签a中的链接和标签area中的链接作为待检测邮件的内容中的链接；其中，标签a和标签area中保存有链接；

(3)如果格式类型为文本格式类型，则采用正则表达式提取待检测邮件的内容中的链接。

上述内容对获取待检测邮件的内容中的链接的过程进行了详细介绍，下面对链接的过滤处理过程进行详细介绍。

在本发明的一个可选实施方式中，参考图3，步骤S104，按照预设过滤方式对链接进行过滤处理包括如下步骤：

步骤S301，在链接中过滤出与自身邮件白名单中的域名不同的域名所对应的链接，得到第一过滤后的链接；

具体的，自身邮件白名单是同一个域名的链接提取过一次预设链接特征后则放入该名单，这封邮件的下一个相同域名的链接的预设链接特征将不会再提取。

步骤S302，在第一过滤后的链接中过滤出与预设域名白名单中的域名不同的域名所对应的链接，得到第二过滤后的链接，并将与预设域名白名单中的域名相同的域名保存至自身邮件白名单；

具体的，预设域名白名单是由用户配置的，用户可以在界面上配置自己认为安全的域名白名单，这样在对链接进行过滤时将不会过滤得到该域名下的所有链接。

步骤S303，在第二过滤后的链接中过滤出与Alexa白名单中的域名不同的域名所对应的链接，得到第三过滤后的链接，并将与Alexa白名单中的域名相同的域名保存至自身邮件白名单；

具体的，Alexa是一家专门发布网站世界排名的网站。Alexa白名单是互联网上访问量排行前10万的网站的域名名单，这些域名在本发明中视为安全的，将不会检测这些域名下的所有链接，所以会将包含这些域名的链接过滤去除掉。

步骤S304，在第三过滤后的链接中过滤出与发件人邮箱域名不同的域名所对应的链接，进而得到过滤后的链接，并将与发件人邮箱域名相同的域名和过滤后的链接的域名保存至自身邮件白名单。

具体的，当发件人邮箱域名和链接域名不一致时，这封邮件的链接可能是来自非官方，将会对这些链接进行检测，所以，要过滤出与发件人邮箱域名不同的域名所对应的链接。

上述内容对链接的过滤过程进行了，详细介绍，下面对提取预设链接特征的过程进行详细介绍。

在本发明的一个可选实施方式中，参考图4，步骤S106，提取过滤后的链接的预设链接特征包括如下步骤：

步骤S401，确定过滤后的链接的域名是否使用IP，得到是否使用IP的特征；

具体的，是通过正则匹配的方式确定是否使用IP的特征，其中，IP的表现形式可分为点分十进制、超7位数的十进制数字或者十六进制数字。

比如：http://www.baidu.com/apt/s这种格式的链接为域名形式的链接，当该链接的域名位置更改为IP形式时，如http://192.168.10.222/apt/s，这种网址是不经过域名认证的，所以存在混淆，将这种特征作为确定钓鱼邮件的特征之一，即如果过滤后的链接的域名使用IP，则有可能为钓鱼邮件。

步骤S402，确定IP是否不属于预设局域网段IP，得到是否不属于预设局域网段IP的特征；

具体的，如果使用IP，进一步确定IP是否不属于预设局域网段IP，该预设局域网段IP为192.168.0.0—192.168.255.255，如果是，则有可能为是钓鱼邮件；如果不是，则不是钓鱼邮件。而如果没有使用IP，则不是钓鱼邮件，标记为0。

步骤S403，确定过滤后的链接的域名是否与文本描述的链接域名不符，得到是否与文本描述的链接域名不符的特征；

比如：文本描述为：www.baidu.com，但是点击后真实的链接的网址是www.sina.com，即为过滤后的链接的域名与文本描述的链接域名不符。

步骤S404，确定过滤后的链接的域名是否超过四级，得到是否超过四级的特征；

比如：www.baidu.com为二级域名，www.sina.apt.baidu.com为四级域名，当级数很多时，容易出现混淆，如上述链接，域名会被认为是sina的域名，实际上为baidu的域名。

步骤S405，确定过滤后的链接的域名中字母分布频率与正常网站的域名中字母分布频率的差值是否大于预设阈值，得到是否大于预设阈值的特征；

具体的，如果大于预设阈值，说明该过滤后的链接可能为恶意链接，即其对应的邮件为钓鱼邮件，

步骤S406，确定过滤后的链接的域名是否与发件人邮箱域名不一致，且发件人邮箱域名是否为过滤后的链接的域名的子串，得到是否与发件人邮箱域名不一致且发件人邮箱域名是否为过滤后的链接的域名的子串的特征；

比如，过滤后的链接为www.baidu.apt.com，其对应的发件人邮箱为tom@baidu.com，发件人邮箱域名为baidu，而链接域名为apt，域名的子串为baidu，这容易混淆，也为钓鱼邮件的一个特征。

步骤S407，确定过滤后的链接是否存在预设网页脚本关键字和邮箱账号，得到是否存在预设网页脚本关键字和邮箱账号的特征。

具体的，预设网页脚本关键字可能为php、asp、jsp等web脚本关键字，邮箱账号可能为test@example.com等。

在本发明的一个可选实施方式中，对预设链接特征进行向量化处理包括：

对是否使用IP的特征，是否不属于预设局域网段IP的特征，是否与文本描述的链接域名不符的特征，是否超过四级的特征，是否大于预设阈值的特征，是否与所述发件人邮箱域名不一致且发件人邮箱域名是否为过滤后的链接的域名的子串的特征，是否存在预设网页脚本关键字和邮箱账号的特征分别进行0或1向量化处理，得到待检测邮件的链接特征向量。

具体的，对上述得到的特征分别进行0或1向量化处理，是则为1，否则为0，如此便能够得到待检测邮件的链接特征向量(即包含有多个0和1的向量)。

上述内容具体介绍了提取预设链接特征的过程和对预设链接特征进行向量化处理的过程，下面对链接特征向量进行类型检测的过程进行详细介绍。

在本发明的一个可选实施方式中，参考图5，步骤S108，通过预设分类模型对链接特征向量进行类型检测包括如下步骤：

步骤S501，将链接特征向量输入至预设分类模型，其中，预设分类模型包括以下任一种：朴素贝叶斯分类模型，支持向量机模型；

具体的，朴素贝叶斯分类模型是基于贝叶斯定理与特征条件独立假设的分类方法，即NaiveBayes。支持向量机模型是一种监督学习模型，它们都是通过钓鱼邮件的样本和非钓鱼邮件的样本的预设链接特征得到的。

步骤S502，输出得到数值结果，其中，数值结果用于表征待检测邮件是否为钓鱼邮件；

步骤S503，将数值结果与预设边界阈值进行对比，并根据对比结果确定待检测邮件是否为钓鱼邮件，其中，预设边界阈值为是否为钓鱼邮件的边界值。

使用本发明的方法进行钓鱼邮件检测，解决了现有方法在样本量特征分布不均匀，且样本容量不足的情况下造成的误报情况，并提高了检测效率。本发明中提出的一些预设链接特征，可以有效地区分钓鱼邮件与正常邮件，识别度很高。因此即使在实际环境中，本发明也具有很大的适用性。

本发明的方法能够及时准确的发现互联网实际环境中的邮件欺骗，在钓鱼邮件对互联网用户隐私、财产安全构成威胁前，能够及时检测出来。

实施例二：

本发明实施例还提供了一种基于链接特征分析的钓鱼邮件检测系统，该基于链接特征分析的钓鱼邮件检测系统主要用于执行本发明实施例上述内容所提供的基于链接特征分析的钓鱼邮件检测方法，以下对本发明实施例提供的基于链接特征分析的钓鱼邮件检测系统做具体介绍。

图6是根据本发明实施例的一种基于链接特征分析的钓鱼邮件检测系统的示意图，如图6所示，该基于链接特征分析的钓鱼邮件检测系统主要包括获取模块10，过滤模块20，提取模块30和类型检测模块40，其中：

获取模块，用于获取待检测邮件的内容中的链接；

过滤模块，用于按照预设过滤方式对链接进行过滤处理，得到过滤后的链接；

提取模块，用于提取过滤后的链接的预设链接特征，并对预设链接特征进行向量化处理，得到待检测邮件的链接特征向量，其中，预设链接特征用于区分钓鱼邮件和非钓鱼邮件；

类型检测模块，用于通过预设分类模型对链接特征向量进行类型检测，检测得到待检测邮件是否为钓鱼邮件。

在本实施例中，先获取待检测邮件的内容中的链接；然后，按照预设过滤方式对链接进行过滤处理，得到过滤后的链接；进而，提取过滤后的链接的用于区分钓鱼邮件和非钓鱼邮件的预设链接特征，并对预设链接特征进行向量化处理，得到待检测邮件的链接特征向量；最终，通过预设分类模型对链接特征向量进行分类检测，检测得到待检测邮件是否为钓鱼邮件。通过上述描述可知，在本实施例中，进行预设链接特征提取时，提取的是过滤后的链接，而非所有的链接，减少了系统资源的浪费，提高了检测效率，另外，提取的预设链接特征能够很好的区分钓鱼邮件和非钓鱼邮件，所以在基于预设链接特征进行钓鱼邮件检测时，准确性好，识别度高，缓解了现有的钓鱼邮件检测系统检测效率低下，准确性差的技术问题。

可选地，获取模块包括：

获取单元，用于获取待检测邮件；

解析单元，用于根据多用途互联网邮件扩展类型标准对待检测邮件进行解析，得到待检测邮件的发件人邮箱域名和待检测邮件的内容；

提取单元，用于提取待检测邮件的内容中的链接，进而得到待检测邮件的内容中的链接。

可选地，获取单元包括：

第一提取子单元，用于在网络流量中提取邮件数据流，其中，邮件数据流至少包括：POP协议的数据流，SMTP协议的数据流，IMAP协议的数据流；

解析子单元，用于对邮件数据流进行解析，进而得到邮件格式的待检测邮件；

或者，

读取子单元，用于在邮件格式的文件中读取待检测邮件。

可选地，提取单元包括：

判断子单元，用于判断待检测邮件的格式类型；

第二提取子单元，如果格式类型为HTML格式类型，则根据HTML标准提取标签a中的链接和标签area中的链接，并将标签a中的链接和标签area中的链接作为待检测邮件的内容中的链接；

第三提取子单元，如果格式类型为文本格式类型，则采用正则表达式提取待检测邮件的内容中的链接。

可选地，过滤模块包括：

第一过滤单元，用于在链接中过滤出与自身邮件白名单中的域名不同的域名所对应的链接，得到第一过滤后的链接；

第二过滤单元，用于在第一过滤后的链接中过滤出与预设域名白名单中的域名不同的域名所对应的链接，得到第二过滤后的链接，并将与预设域名白名单中的域名相同的域名保存至自身邮件白名单；

第三过滤单元，用于在第二过滤后的链接中过滤出与Alexa白名单中的域名不同的域名所对应的链接，得到第三过滤后的链接，并将与Alexa白名单中的域名相同的域名保存至自身邮件白名单；

第四过滤单元，用于在第三过滤后的链接中过滤出与发件人邮箱域名不同的域名所对应的链接，进而得到过滤后的链接，并将与发件人邮箱域名相同的域名和过滤后的链接的域名保存至自身邮件白名单。

可选地，提取模块包括：

第一确定单元，用于确定过滤后的链接的域名是否使用IP，得到是否使用IP的特征；

第二确定单元，用于确定IP是否不属于预设局域网段IP，得到是否不属于预设局域网段IP的特征；

第三确定单元，用于确定过滤后的链接的域名是否与文本描述的链接域名不符，得到是否与文本描述的链接域名不符的特征；

第四确定单元，用于确定过滤后的链接的域名是否超过四级，得到是否超过四级的特征；

第五确定单元，用于确定过滤后的链接的域名中字母分布频率与正常网站的域名中字母分布频率的差值是否大于预设阈值，得到是否大于预设阈值的特征；

第六确定单元，确定过滤后的链接的域名是否与发件人邮箱域名不一致，且发件人邮箱域名是否为过滤后的链接的域名的子串，得到是否与发件人邮箱域名不一致且发件人邮箱域名是否为过滤后的链接的域名的子串的特征；

第七确定单元，用于确定过滤后的链接是否存在预设网页脚本关键字和邮箱账号，得到是否存在预设网页脚本关键字和邮箱账号的特征。

可选地，提取模块还用于：

对是否使用IP的特征，是否不属于预设局域网段IP的特征，是否与文本描述的链接域名不符的特征，是否超过四级的特征，是否大于预设阈值的特征，是否与发件人邮箱域名不一致且发件人邮箱域名是否为过滤后的链接的域名的子串的特征，是否存在预设网页脚本关键字和邮箱账号的特征分别进行0或1向量化处理，得到待检测邮件的链接特征向量。

可选地，类型检测模块包括：

输入单元，用于将链接特征向量输入至预设分类模型，其中，预设分类模型包括以下任一种：朴素贝叶斯分类模型，支持向量机模型；

输出单元，用于输出得到数值结果，其中，数值结果用于表征待检测邮件是否为钓鱼邮件；

第八确定单元，用于将数值结果与预设边界阈值进行对比，并根据对比结果确定待检测邮件是否为钓鱼邮件，其中，预设边界阈值为是否为钓鱼邮件的边界值。

本发明实施例所提供的系统，其实现原理及产生的技术效果和前述方法实施例相同，为简要描述，系统实施例部分未提及之处，可参考前述方法实施例中相应内容。

本发明实施例所提供的基于链接特征分析的钓鱼邮件检测方法及系统的计算机程序产品，包括存储了程序代码的计算机可读存储介质，程序代码包括的指令可用于执行前面方法实施例中的方法，具体实现可参见方法实施例，在此不再赘述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统和装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

另外，在本发明实施例的描述中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

在本发明的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

最后应说明的是：以上实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于链接特征分析的钓鱼邮件检测方法，其特征在于，包括：

获取待检测邮件的内容中的链接；

2.根据权利要求1所述的方法，其特征在于，获取待检测邮件的内容中的链接包括：

获取所述待检测邮件；

3.根据权利要求2所述的方法，其特征在于，获取所述待检测邮件包括：

或者，

在邮件格式的文件中读取所述待检测邮件。

4.根据权利要求2所述的方法，其特征在于，提取所述待检测邮件的内容中的链接包括：

判断所述待检测邮件的格式类型；

5.根据权利要求2所述的方法，其特征在于，按照预设过滤方式对所述链接进行过滤处理包括：

6.根据权利要求2所述的方法，其特征在于，提取所述过滤后的链接的预设链接特征包括：

7.根据权利要求6所述的方法，其特征在于，对所述预设链接特征进行向量化处理包括：

8.根据权利要求1所述的方法，其特征在于，通过预设分类模型对所述链接特征向量进行类型检测包括：

9.一种基于链接特征分析的钓鱼邮件检测系统，其特征在于，包括：

获取模块，用于获取待检测邮件的内容中的链接；

10.根据权利要求9所述的系统，其特征在于，所述获取模块包括：

获取单元，用于获取所述待检测邮件；