CN112019506B

CN112019506B - 基于行为识别的钓鱼邮件检测方法、电子装置及介质

Info

Publication number: CN112019506B
Application number: CN202010734958.9A
Authority: CN
Inventors: 陆嘉杰; 范渊
Original assignee: DBAPPSecurity Co Ltd
Current assignee: DBAPPSecurity Co Ltd
Priority date: 2020-07-28
Filing date: 2020-07-28
Publication date: 2023-04-18
Anticipated expiration: 2040-07-28
Also published as: CN112019506A

Abstract

本申请涉及一种基于行为识别的钓鱼邮件检测方法、电子装置和存储介质。该基于行为识别的钓鱼邮件检测方法包括：获取待检测邮件的内容中的链接，并对链接进行过滤处理，得到第一链接；在预设虚拟运行系统中访问第一链接，得到行为特征数据；在行为特征数据中检测恶意行为特征数据，并根据恶意行为特征数据确定待检测邮件是否为钓鱼邮件。通过本申请，解决了相关技术中通过静态检测识别钓鱼邮件存在误报和漏报率高的问题，实现了降低链接检测的误报率和漏报率，提高钓鱼邮件中恶意链接的检出率的有益效果。

Description

基于行为识别的钓鱼邮件检测方法、电子装置及介质

技术领域

本申请涉及计算机技术领域，特别是涉及基于行为识别的钓鱼邮件检测方法、电子装置及存储介质。

背景技术

钓鱼邮件主要是在邮件中呈现具有误导性质的链接，该链接指向恶意网页，点击了邮件中的链接并输入密码或者隐私信息，就会造成隐私泄露。随着技术的发展，尤其是钓鱼邮件技术的不断改进，通常恶意攻击者会在钓鱼邮件中植入恶意链接以引诱受害者点击触发钓鱼攻击。

现有中实现对钓鱼邮件检测的方案是通过提取邮件的特征向量，然后根据特征向量在向量机模型(SVM)中进行钓鱼邮件的识别，同时，现有中还有采用对邮件的链接特征进行检测，并在分类模型对检测出的链接特征进行类型检测而识别出钓鱼邮件的方案。

现有相关技术中，对于钓鱼邮件的检测只是对邮件中的链接进行特征向量检测，而特征向量检测属于静态检测，通过静态检测识别钓鱼邮件存在误报和漏报率高的不足。

目前针对相关技术中通过静态检测识别钓鱼邮件存在误报和漏报率高的问题，尚未提出有效的解决方案。

发明内容

本申请实施例提供了一种基于行为识别的钓鱼邮件检测方法、电子装置及存储介质，以至少解决相关技术中通过静态检测识别钓鱼邮件存在误报和漏报率高的问题。

第一方面，本申请实施例提供了一种基于行为识别的钓鱼邮件检测方法，包括：获取待检测邮件的内容中的链接，并对所述链接进行过滤处理，得到第一链接；在预设虚拟运行系统中访问所述第一链接，得到行为特征数据，其中，所述行为特征数据包括在所述虚拟运行系统中所述第一链接触发的操作行为；在所述行为特征数据中检测恶意行为特征数据，并根据所述恶意行为特征数据确定所述待检测邮件是否为钓鱼邮件。

在其中一些实施例中，在所述行为特征数据中检测恶意行为特征数据，并根据所述恶意行为特征数据确定所述待检测邮件是否为钓鱼邮件包括：

在所述行为特征数据中检测与预设恶意行为特征数据对应的所述恶意行为特征数据，其中，所述恶意行为特征数据包括恶意行为和恶意行为类别，所述恶意行为类别包括恶意回连、恶意下载、恶意调用和恶意修改；

在威胁等级表中查询检测出的所述恶意行为的威胁等级，其中，所述威胁等级表包括恶意行为的恶意行为类别与该恶意行为的威胁等级的对应关系；

判断所述恶意行为中是否具有威胁等级为高危等级的所述恶意行为，并在判断到所述恶意行为中具有威胁等级为高危等级的所述恶意行为的情况下，确实所述待检测邮件为钓鱼邮件。

在其中一些实施例中，在判断所述恶意行为中没有威胁等级为高危等级的所述恶意行为情况下，所述方法还包括：

在所述恶意行为特征数据中检测每一类所述恶意行为类别中所述恶意行为的项数；

判断每一类所述恶意行为类别中所述恶意行为的项数是否大于预设阈值；

在判断到至少有一类所述恶意行为类别中的所述恶意行为的项数大于预设阈值的情况下，确定所述待检测邮件为钓鱼邮件。

在其中一些实施例中，在预设虚拟运行系统中动态访问所述第一链接，得到行为特征数据包括：在沙箱系统中联网访问所述第一链接，得到所述行为特征数据。

在其中一些实施例中，获取待检测邮件的内容中的链接包括：获取所述待检测邮件；根据多用途互联网邮件扩展类型标准对所述待检测邮件进行解析，得到所述待检测邮件的发件人邮箱域名和所述待检测邮件的内容；提取所述待检测邮件的内容中的链接，得到所述待检测邮件的内容中的链接。

在其中一些实施例中，获取所述待检测邮件包括：在网络流量中提取邮件数据流，其中，所述邮件数据流至少包括：POP协议的数据流，SMTP协议的数据流，IMAP协议的数据流；对所述邮件数据流进行解析，进而得到邮件格式的待检测邮件；或者，在邮件格式的文件中读取所述待检测邮件。

在其中一些实施例中，提取所述待检测邮件的内容中的链接包括：

判断所述待检测邮件的格式类型；其中，所述格式类型包括HTML格式类型和文本格式类型；在判断到所述待检测邮件的所述格式类型为HTML格式类型的情况下，根据HTML标准提取超链接中的链接和area标签中的链接，并将所述超链接中的链接和所述area标签中的链接作为所述待检测邮件的内容中的链接；在判断到所述待检测邮件的所述格式类型为文本格式类型的情况下，采用正则表达式提取所述待检测邮件的内容中的链接。

在其中一些实施例中，对所述链接进行过滤处理包括：在所述链接中过滤出与自身邮件白名单中的域名不同的域名所对应的链接，得到第一过滤后的链接；在所述第一过滤后的链接中过滤出与预设域名白名单中的域名不同的域名所对应的链接，得到第二过滤后的链接，并将与所述预设域名白名单中的域名相同的域名保存至所述自身邮件白名单；在所述第二过滤后的链接中过滤出与Alexa白名单中的域名不同的域名所对应的链接，得到第三过滤后的链接，并将与所述Alexa白名单中的域名相同的域名保存至所述自身邮件白名单；在所述第三过滤后的链接中过滤出与所述发件人邮箱域名不同的域名所对应的链接，得到所述第一链接，并将与所述发件人邮箱域名相同的域名和所述第一链接的域名保存至所述自身邮件白名单。

第二方面，本申请实施例提供了一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行第一方面所述的基于行为识别的钓鱼邮件检测方法。

第三方面，本申请实施例提供了一种存储介质，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行第一方面所述的基于行为识别的钓鱼邮件检测方法。

相比于相关技术，本申请实施例提供的一种基于行为识别的钓鱼邮件检测方法、电子装置及存储介质，通过获取待检测邮件的内容中的链接，并对链接进行过滤处理，得到第一链接；在预设虚拟运行系统中访问第一链接，得到行为特征数据；在行为特征数据中检测恶意行为特征数据，并根据恶意行为特征数据确定待检测邮件是否为钓鱼邮件。通过本申请，解决了相关技术中通过静态检测识别钓鱼邮件存在误报和漏报率高的问题，实现了降低链接检测的误报率和漏报率，提高钓鱼邮件中恶意链接的检出率的有益效果。

本申请的一个或多个实施例的细节在以下附图和描述中提出，以使本申请的其他特征、目的和优点更加简明易懂。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是本发明实施例的基于行为识别的钓鱼邮件检测方法的终端的硬件结构框图；

图2是根据本申请实施例的基于行为识别的钓鱼邮件检测方法的流程图；

图3是根据本申请实施例的基于行为识别的钓鱼邮件检测装置的结构框图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行描述和说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。基于本申请提供的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

显而易见地，下面描述中的附图仅仅是本申请的一些示例或实施例，对于本领域的普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图将本申请应用于其他类似情景。此外，还可以理解的是，虽然这种开发过程中所作出的努力可能是复杂并且冗长的，然而对于与本申请公开的内容相关的本领域的普通技术人员而言，在本申请揭露的技术内容的基础上进行的一些设计，制造或者生产等变更只是常规的技术手段，不应当理解为本申请公开的内容不充分。

在本申请中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是，本申请所描述的实施例在不冲突的情况下，可以与其它实施例相结合。

除非另作定义，本申请所涉及的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制，可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形，意图在于覆盖不排他的包含；例如包含了一系列步骤或模块(单元)的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可以还包括没有列出的步骤或单元，或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电气的连接，不管是直接的还是间接的。本申请所涉及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。本申请所涉及的术语“第一”、“第二”、“第三”等仅仅是区别类似的对象，不代表针对对象的特定排序。

本申请中描述的各种技术可用于信息安全领域的钓鱼邮件的检测。

在对本申请的实施例进行描述和说明之前，先对本申请中使用的相关技术进行说明如下：

沙箱(Sandboxie)，又叫沙盘，是一个虚拟系统程序，允许在沙盘环境中运行浏览器或其他程序，因此运行所产生的变化可以随后删除。

本实施例提供的方法实施例可以在终端、计算机或者类似的运算装置中执行。以运行在终端上为例，图1是本发明实施例的基于行为识别的钓鱼邮件检测方法的终端的硬件结构框图。如图1所示，终端可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104，可选地，上述终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述终端的结构造成限定。例如，终端还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

存储器104可用于存储计算机程序，例如，应用软件的软件程序以及模块，如本发明实施例中的基于行为识别的钓鱼邮件检测方法对应的计算机程序，处理器102通过运行存储在存储器104内的计算机程序，从而执行各种功能应用以及数据处理，即实现上述的方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输设备106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括终端的通信供应商提供的无线网络。在一个实例中，传输设备106包括一个网络适配器(Network Interface Controller，简称为NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输设备106可以为射频(Radio Frequency，简称为RF)模块，其用于通过无线方式与互联网进行通讯。

本实施例提供了一种基于行为识别的钓鱼邮件检测方法，图2是根据本申请实施例的基于行为识别的钓鱼邮件检测方法的流程图，如图2所示，该流程包括如下步骤：

步骤S201，获取待检测邮件的内容中的链接，并对链接进行过滤处理，得到第一链接。

在本实施例中，在获取待检测邮件的内容中的链接后，对链接进行过滤处理是按预设过滤方式进行的过滤的，且过滤处理主要是为了过滤掉相似的链接，避免重复检测，提高检测效率。

步骤S202，在预设虚拟运行系统中访问第一链接，得到行为特征数据，其中，行为特征数据包括在虚拟运行系统中第一链接触发的操作行为。

在本实施例中，通过在预设虚拟运行系统中联网访问第一链接，通过第一链接对应的内容在预设虚拟运行系统内的响应，而获得对应的行为特征数据。在本实施例中，获取的行为特征数据包括回连行为、下载行为、调用系统API、系统注册表修改，更具体的包括如下两大类：一类是，下载运行可执行程序或脚本，包括：主动获取鼠标位置，获取用户磁盘信息，收集电脑配置信息，修改系统注册表，配置随系统自启动，目录遍历查找指定文件，调用加密算法库，安装消息钩子记录用户操作，检测运行环境、不满足时自动退出，进程数据重写(控制线程上下文方式)，内存解密PE文件，远程下载可执行文件；一类是，链接打开的网页执行窃取用户信息的javascri脚本，包括：窃取用户cookie，窃取用户计算机配置信息，窃取用于真实IP地址、MAC地址。

步骤S203，在行为特征数据中检测恶意行为特征数据，并根据恶意行为特征数据确定待检测邮件是否为钓鱼邮件。

在本实施例中，在从行为特征数据中检测出恶意行为特征数据后，通过对恶意行为数据特征进行两步判断，来确定待检测邮件是否为钓鱼邮件。上述两步判断包括：判断恶意行为特征数据的威胁等级，当威胁等级为高危等级时，判定待检测邮件为钓鱼邮件；在恶意行为特征数据的威胁等级低于高危等级时，通过统计上述行为特征数据出现的项数是否超过预设阈值，满足预设阈值，则判定待检测邮件为钓鱼邮件，例如：当检测到的行为特征数据中出现了下载运行可执行程序或脚本中的两项以上，或者，检测到的行为特征数据中出现了链接打开的网页执行窃取用户信息的javascript脚本中的任意一项，则判定待检测邮件为钓鱼邮件。

通过上述步骤S201至步骤S203，采用获取待检测邮件的内容中的链接，并对链接进行过滤处理，得到第一链接；在预设虚拟运行系统中访问第一链接，得到行为特征数据；在行为特征数据中检测恶意行为特征数据，并根据恶意行为特征数据确定待检测邮件是否为钓鱼邮件，通过获取邮件的链接并在虚拟运行环境中对链接进行动态检测研判，从而识别邮件是否为钓鱼邮件，解决了相关技术中通过静态检测识别钓鱼邮件存在误报和漏报率高的问题，实现了降低链接检测的误报率和漏报率，提高钓鱼邮件中恶意链接的检出率的有益效果。

在其中一些实施例中，在行为特征数据中检测恶意行为特征数据，并根据恶意行为特征数据确定待检测邮件是否为钓鱼邮件包括如下步骤：

在行为特征数据中检测与预设恶意行为特征数据对应的恶意行为特征数据，其中，恶意行为特征数据包括恶意行为和恶意行为类别，恶意行为类别包括恶意回连、恶意下载、恶意调用和恶意修改。

在本实施例中，恶意回连、恶意下载、恶意调用和恶意修改均属于下载运行可执行程序或脚本这个恶意行为的大类别，在本实施例中，恶意行为的大类别还包括：链接打开的网页执行窃取用户信息的javascript脚本。

在威胁等级表中查询检测出的恶意行为的威胁等级，其中，威胁等级表包括恶意行为的恶意行为类别与该恶意行为的威胁等级的对应关系。

在本实施例中，威胁等级表是通过执行某一恶意行为观察其危害程度而评级出的数据表格，在威胁等级表中，每一类型的恶意行为对应一个威胁等级，通过查表，可快速知晓该恶意行为的威胁等级。

判断恶意行为中是否具有威胁等级为高危等级的恶意行为，并在判断到恶意行为中具有威胁等级为高危等级的恶意行为的情况下，确实待检测邮件为钓鱼邮件。

通过上述在行为特征数据中检测与预设恶意行为特征数据对应的恶意行为特征数据；在威胁等级表中查询检测出的恶意行为的威胁等级；判断恶意行为中是否具有威胁等级为高危等级的恶意行为，并在判断到恶意行为中具有威胁等级为高危等级的恶意行为的情况下，确实待检测邮件为钓鱼邮件，实现了通过行为特征数据的威胁等级判断钓鱼邮件，并在待检测邮件的链接触发的行为特征数据中存在高危等级的恶意行为特征时，确定待检测邮件为钓鱼邮件，如此，提高钓鱼邮件检出率。

在其中一些实施例中，在判断恶意行为中没有威胁等级为高危等级的恶意行为情况下，还执行如下步骤：

在恶意行为特征数据中检测每一类恶意行为类别中恶意行为的项数。

在本实施例中，恶意行为特征数据的恶意行为类别包括如下两大类：一类是，下载运行可执行程序或脚本，它包括如下恶意行为：主动获取鼠标位置，获取用户磁盘信息，收集电脑配置信息，修改系统注册表，配置随系统自启动，目录遍历查找指定文件，调用加密算法库，安装消息钩子记录用户操作，检测运行环境、不满足时自动退出，进程数据重写(控制线程上下文方式)，内存解密PE文件，远程下载可执行文件；一类是，链接打开的网页执行窃取用户信息的javascri脚本，它包括如下恶意行为：窃取用户cookie，窃取用户计算机配置信息，窃取用于真实IP地址、MAC地址。

判断每一类恶意行为类别中恶意行为的项数是否大于预设阈值。

在判断到至少有一类恶意行为类别中的恶意行为的项数大于预设阈值的情况下，确定待检测邮件为钓鱼邮件。

在本实施例中，通过统计上述行为特征数据出现的项数是否超过预设阈值，满足预设阈值，则判定待检测邮件为钓鱼邮件，例如：当检测到的行为特征数据中出现了下载运行可执行程序或脚本中的两项以上，或者，检测到的行为特征数据中出现了链接打开的网页执行窃取用户信息的javascript脚本中的任意一项，则判定待检测邮件为钓鱼邮件。

通过上述在恶意行为特征数据中检测每一类恶意行为类别中恶意行为的项数；判断每一类恶意行为类别中恶意行为的项数是否大于预设阈值；在判断到至少有一类恶意行为类别中的恶意行为的项数大于预设阈值的情况下，确定待检测邮件为钓鱼邮件，实现了在待检测邮件的链接触发的行为特征数据中不存在高危等级的恶意行为特征的情况下，通过判断出现的恶意行为的项数来判断钓鱼邮件，籍以降低链接检测的误报率和漏报率并提高钓鱼邮件中恶意链接的检出率。

在其中一些实施例中，在预设虚拟运行系统中动态访问第一链接，得到行为特征数据包括如下步骤：在沙箱系统中联网访问第一链接，得到行为特征数据。

在本实施例中，访问第一链接是在沙箱系统中进行的，基于第一链接运行的程序不会对计算机系统产生永久性伤害，避免了运行钓鱼邮件中的链接对计算机系统造成的损坏。

在其中一些实施例中，获取待检测邮件的内容中的链接包括如下步骤：

获取待检测邮件。

在本实施例中，获取待检测邮件的方式有以下两种：

第一种：在网络流量中提取邮件数据流，其中，邮件数据流至少包括：POP协议的数据流，SMTP协议的数据流，IMAP协议的数据流；对邮件数据流进行解析，进而得到邮件格式的待检测邮件。

第二种：在邮件格式的文件中读取待检测邮件。

根据多用途互联网邮件扩展类型标准对待检测邮件进行解析，得到待检测邮件的发件人邮箱域名和待检测邮件的内容。

在本实施例中，在得到待检测邮件后，根据多用途互联网邮件扩展类型标准(MIME标准)对待检测邮件进行解析，解析得到待检测的发件人邮件域名和待检测邮件的内容。

提取待检测邮件的内容中的链接，得到待检测邮件的内容中的链接。

在其中一些实施例中，提取待检测邮件的内容中的链接包括如下步骤：

判断待检测邮件的格式类型；其中，格式类型包括HTML格式类型和文本格式类型。

在判断到待检测邮件的格式类型为HTML格式类型的情况下，根据HTML标准提取超链接(HTML中的<a>标签)中的链接和area标签(带有可点击区域的图像映射)中的链接，并将超链接中的链接和area标签中的链接作为待检测邮件的内容中的链接。其中，超链接和area标签中保存有链接。

在判断到待检测邮件的格式类型为文本格式类型的情况下，采用正则表达式提取待检测邮件的内容中的链接。

在其中一些实施例中，对链接进行过滤处理包括如下步骤：

在链接中过滤出与自身邮件白名单中的域名不同的域名所对应的链接，得到第一过滤后的链接。

在本实施例中，自身邮件白名单是同一个域名的链接提取过一次预设链接特征后则放入该名单，这封邮件的下一个相同域名的链接的预设链接特征将不会再提取。

在第一过滤后的链接中过滤出与预设域名白名单中的域名不同的域名所对应的链接，得到第二过滤后的链接，并将与预设域名白名单中的域名相同的域名保存至自身邮件白名单。

在本实施例中，预设域名白名单是由用户配置的，用户可以在界面上配置自己认为安全的域名白名单，这样在对链接进行过滤时将不会过滤得到该域名下的所有链接。

在第二过滤后的链接中过滤出与Alexa白名单中的域名不同的域名所对应的链接，得到第三过滤后的链接，并将与Alexa白名单中的域名相同的域名保存至自身邮件白名单。

在本实施例中，Alexa白名单是互联网上访问量排行前10万的网站的域名名单，这些域名在本申请实施例中视为安全的，将不会检测这些域名下的所有链接，所以会将包含这些域名的链接过滤去除掉。

需要说明的是，Alexa是一家专门发布网站世界排名的网站。

在第三过滤后的链接中过滤出与发件人邮箱域名不同的域名所对应的链接，得到第一链接，并将与发件人邮箱域名相同的域名和第一链接的域名保存至自身邮件白名单。

在本实施例中，当发件人邮箱域名和链接域名不一致时，这封邮件的链接可能是来自非官方，将会对这些链接进行检测，所以，要过滤出与发件人邮箱域名不同的域名所对应的链接。

需要说明的是，在上述流程中或者附图的流程图中示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本实施例还提供了一种基于行为识别的钓鱼邮件检测装置，该装置用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”、“单元”、“子单元”等可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

图3是根据本申请实施例的基于行为识别的钓鱼邮件检测装置的结构框图，如图3所示，该装置包括：

获取模块31，用于获取待检测邮件的内容中的链接，并对链接进行过滤处理，得到第一链接；

处理模块32，与获取模块31耦合连接，用于在预设虚拟运行系统中访问第一链接，得到行为特征数据；其中，行为特征数据包括在虚拟运行系统中第一链接触发的操作行为；

检测模块33，与处理模块32耦合连接，用于在行为特征数据中检测恶意行为特征数据，并根据恶意行为特征数据确定待检测邮件是否为钓鱼邮件。

在其中一些实施例中，检测模块33用于在行为特征数据中检测与预设恶意行为特征数据对应的恶意行为特征数据，其中，恶意行为特征数据包括恶意行为和恶意行为类别，恶意行为类别包括恶意回连、恶意下载、恶意调用和恶意修改；在威胁等级表中查询检测出的恶意行为的威胁等级，其中，威胁等级表包括恶意行为的恶意行为类别与该恶意行为的威胁等级的对应关系；判断恶意行为中是否具有威胁等级为高危等级的恶意行为，并在判断到恶意行为中具有威胁等级为高危等级的恶意行为的情况下，确实待检测邮件为钓鱼邮件。

在其中一些实施例中，在判断恶意行为中没有威胁等级为高危等级的恶意行为情况下，检测模块33还用于在恶意行为特征数据中检测每一类恶意行为类别中恶意行为的项数；判断每一类恶意行为类别中恶意行为的项数是否大于预设阈值；在判断到至少有一类恶意行为类别中的恶意行为的项数大于预设阈值的情况下，确定待检测邮件为钓鱼邮件。

在其中一些实施例中，处理模块32用于在沙箱系统中联网访问第一链接，得到行为特征数据。

在其中一些实施例中，获取模块31用于获取待检测邮件；根据多用途互联网邮件扩展类型标准对待检测邮件进行解析，得到待检测邮件的发件人邮箱域名和待检测邮件的内容；提取待检测邮件的内容中的链接，得到待检测邮件的内容中的链接。

在其中一些实施例中，获取模块31还用于在网络流量中提取邮件数据流，其中，邮件数据流至少包括：POP协议的数据流，SMTP协议的数据流，IMAP协议的数据流；对邮件数据流进行解析，进而得到邮件格式的待检测邮件；或者，用于在邮件格式的文件中读取待检测邮件。

在其中一些实施例中，获取模块31还用于判断待检测邮件的格式类型；其中，格式类型包括HTML格式类型和文本格式类型；在判断到待检测邮件的格式类型为HTML格式类型的情况下，根据HTML标准提取超链接中的链接和area标签中的链接，并将超链接中的链接和area标签中的链接作为待检测邮件的内容中的链接；在判断到待检测邮件的格式类型为文本格式类型的情况下，采用正则表达式提取待检测邮件的内容中的链接。

在其中一些实施例中，获取模块31还用于在链接中过滤出与自身邮件白名单中的域名不同的域名所对应的链接，得到第一过滤后的链接；在第一过滤后的链接中过滤出与预设域名白名单中的域名不同的域名所对应的链接，得到第二过滤后的链接，并将与预设域名白名单中的域名相同的域名保存至自身邮件白名单；在第二过滤后的链接中过滤出与Alexa白名单中的域名不同的域名所对应的链接，得到第三过滤后的链接，并将与Alexa白名单中的域名相同的域名保存至自身邮件白名单；在第三过滤后的链接中过滤出与发件人邮箱域名不同的域名所对应的链接，得到第一链接，并将与发件人邮箱域名相同的域名和第一链接的域名保存至自身邮件白名单。

需要说明的是，上述各个模块可以是功能模块也可以是程序模块，既可以通过软件来实现，也可以通过硬件来实现。对于通过硬件来实现的模块而言，上述各个模块可以位于同一处理器中；或者上述各个模块还可以按照任意组合的形式分别位于不同的处理器中。

本实施例还提供了一种电子装置，包括存储器和处理器，该存储器中存储有计算机程序，该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。

可选地，上述电子装置还可以包括传输设备以及输入输出设备，其中，该传输设备和上述处理器连接，该输入输出设备和上述处理器连接。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

S1，获取待检测邮件的内容中的链接，并对链接进行过滤处理，得到第一链接。

S2，在预设虚拟运行系统中访问第一链接，得到行为特征数据。

S3，在行为特征数据中检测恶意行为特征数据，并根据恶意行为特征数据确定待检测邮件是否为钓鱼邮件。

需要说明的是，本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例，本实施例在此不再赘述。

另外，结合上述实施例中的基于行为识别的钓鱼邮件检测方法，本申请实施例可提供一种存储介质来实现。该存储介质上存储有计算机程序；该计算机程序被处理器执行时实现上述实施例中的任意一种基于行为识别的钓鱼邮件检测方法。

本领域的技术人员应该明白，以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种基于行为识别的钓鱼邮件检测方法，其特征在于，包括：

获取待检测邮件的内容中的链接，并对所述链接进行过滤处理，得到第一链接；

在预设虚拟运行系统中访问所述第一链接，得到行为特征数据，其中，所述行为特征数据包括在所述虚拟运行系统中所述第一链接触发的操作行为；

在所述行为特征数据中检测恶意行为特征数据，并根据所述恶意行为特征数据确定所述待检测邮件是否为钓鱼邮件；

判断恶意行为特征数据的威胁等级，当威胁等级为高危等级时，判定待检测邮件为钓鱼邮件；在恶意行为特征数据的威胁等级低于高危等级时，通过统计上述行为特征数据出现的项数是否超过预设阈值，满足预设阈值，则判定待检测邮件为钓鱼邮件。

2.根据权利要求1所述的基于行为识别的钓鱼邮件检测方法，其特征在于，在判断所述恶意行为中没有威胁等级为高危等级的所述恶意行为情况下，所述方法还包括：

3.根据权利要求1所述的基于行为识别的钓鱼邮件检测方法，其特征在于，在预设虚拟运行系统中动态访问所述第一链接，得到行为特征数据包括：在沙箱系统中联网访问所述第一链接，得到所述行为特征数据。

4.根据权利要求1所述的基于行为识别的钓鱼邮件检测方法，其特征在于，获取待检测邮件的内容中的链接包括：

获取所述待检测邮件；

根据多用途互联网邮件扩展类型标准对所述待检测邮件进行解析，得到所述待检测邮件的发件人邮箱域名和所述待检测邮件的内容；

提取所述待检测邮件的内容中的链接，得到所述待检测邮件的内容中的链接。

5.根据权利要求4所述的基于行为识别的钓鱼邮件检测方法，其特征在于，获取所述待检测邮件包括：

在网络流量中提取邮件数据流，其中，所述邮件数据流至少包括：POP协议的数据流，SMTP协议的数据流，IMAP协议的数据流；

对所述邮件数据流进行解析，进而得到邮件格式的待检测邮件；或者，

在邮件格式的文件中读取所述待检测邮件。

6.根据权利要求4所述的基于行为识别的钓鱼邮件检测方法，其特征在于，提取所述待检测邮件的内容中的链接包括：

判断所述待检测邮件的格式类型；其中，所述格式类型包括HTML格式类型和文本格式类型；

在判断到所述待检测邮件的所述格式类型为HTML格式类型的情况下，根据HTML标准提取超链接中的链接和area标签中的链接，并将所述超链接中的链接和所述area标签中的链接作为所述待检测邮件的内容中的链接；

在判断到所述待检测邮件的所述格式类型为文本格式类型的情况下，采用正则表达式提取所述待检测邮件的内容中的链接。

7.根据权利要求4所述的基于行为识别的钓鱼邮件检测方法，其特征在于，对所述链接进行过滤处理包括：

在所述链接中过滤出与自身邮件白名单中的域名不同的域名所对应的链接，得到第一过滤后的链接；

在所述第一过滤后的链接中过滤出与预设域名白名单中的域名不同的域名所对应的链接，得到第二过滤后的链接，并将与所述预设域名白名单中的域名相同的域名保存至所述自身邮件白名单；

在所述第二过滤后的链接中过滤出与Alexa白名单中的域名不同的域名所对应的链接，得到第三过滤后的链接，并将与所述Alexa白名单中的域名相同的域名保存至所述自身邮件白名单；

在所述第三过滤后的链接中过滤出与所述发件人邮箱域名不同的域名所对应的链接，得到所述第一链接，并将与所述发件人邮箱域名相同的域名和所述第一链接的域名保存至所述自身邮件白名单。

8.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行权利要求1至7中任一项所述的基于行为识别的钓鱼邮件检测方法。

9.一种存储介质，其特征在于，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行权利要求1至7中任一项所述的基于行为识别的钓鱼邮件检测方法。