CN111222856A

CN111222856A - 一种邮件识别方法、装置、设备及存储介质

Info

Publication number: CN111222856A
Application number: CN202010044271.2A
Authority: CN
Inventors: 蒲大峰
Original assignee: Sangfor Technologies Co Ltd
Current assignee: Sangfor Technologies Co Ltd
Priority date: 2020-01-15
Filing date: 2020-01-15
Publication date: 2020-06-02

Abstract

本申请实施例公开了一种邮件识别方法、装置、设备及存储介质，该方法包括：基于网络流量中的邮件流量，确定包含有待检测文档的待检测邮件；判断待检测文档是否满足预设条件；其中，预设条件至少包括待检测文档中包含有图片；当待检测文档满足预设条件时，提取待检测文档的第一特征信息；其中，第一特征信息至少包括图片特征信息；基于第一特征信息，计算待检测邮件的第一恶意值；当第一恶意值超过预设阈值时，识别待检测邮件为鱼叉邮件。这样，通过多维度检测邮件附件的特征信息，尤其是图片虚化特征信息，能够准确识别具有恶意行为的鱼叉邮件，降低误报率。

Description

一种邮件识别方法、装置、设备及存储介质

技术领域

本申请涉及信息安全检测领域，尤其涉及一种邮件识别方法、装置、设备及存储介质。

背景技术

随着互联网的发展，电子邮件已经成为人们日常生活中一种重要的通信方式，也成为了网络攻击的目标。鱼叉邮件是一种钓鱼邮件的变种，与传统的钓鱼邮件不同，鱼叉邮件对目标用户具有针对性的设置一些极具诱惑力的内容，同时携带恶意的附件，诱使目标用户接收邮件后开启恶意附件，从而遭受攻击。由于鱼叉邮件利用用户自身的意识漏洞进行攻击，导致攻击成功的机率高；然而，目前缺少一种能够有效识别鱼叉邮件，进而防止用户遭受恶意攻击的方法，这也是网络安全领域一个亟待解决的问题。

发明内容

有鉴于此，本申请实施例提供一种邮件识别方法、装置、设备及存储介质，能够准确识别具有恶意行为的鱼叉邮件，降低鱼叉邮件的误报率。

为达到上述目的，本申请的技术方案是这样实现的：

第一方面，本申请实施例提供了一种邮件识别方法，该方法包括：

基于网络流量中的邮件流量，确定包含有待检测文档的待检测邮件；

判断待检测文档是否满足预设条件；其中，预设条件至少包括待检测文档中包含有图片；

当待检测文档满足预设条件时，提取待检测文档的第一特征信息；其中，第一特征信息至少包括图片特征信息；

基于第一特征信息，计算待检测邮件的第一恶意值；

当第一恶意值超过预设阈值时，识别待检测邮件为鱼叉邮件。

第二方面，本申请实施例提供了一种邮件识别装置，邮件识别装置包括获取单元、预选单元、提取单元、计算单元和判断单元；其中，

获取单元，配置为基于网络流量中的邮件流量，确定包含有待检测文档的待检测邮件；

预选单元，配置为判断待检测文档是否满足预设条件；其中，预设条件至少包括待检测文档中包含有图片；

提取单元，配置为当待检测文档满足预设条件时，提取待检测文档的第一特征信息；其中，第一特征信息至少包括图片特征信息；

计算单元，配置为基于第一特征信息，计算待检测邮件的第一恶意值；

判断单元，配置为当第一恶意值超过预设阈值时，识别待检测邮件为鱼叉邮件。

第三方面，本申请实施例提供了一种设备，该设备包括存储器和处理器；其中，

存储器，用于存储能够在处理器上运行的计算机程序；

处理器，用于在运行计算机程序时，执行如第一方面的方法。

第四方面，本申请实施例提供了一种计算机存储介质，计算机存储介质储存有邮件识别程序，邮件识别程序被至少一种处理器执行时实现第一方面的方法。

本申请实施例提供了一种邮件识别方法、装置、设备及存储介质，基于网络流量中的邮件流量，确定包含有待检测文档的待检测邮件；判断待检测文档是否满足预设条件；其中，预设条件至少包括待检测文档中包含有图片；当待检测文档满足预设条件时，提取待检测文档的第一特征信息；其中，第一特征信息至少包括图片特征信息；基于第一特征信息，计算待检测邮件的第一恶意值；当第一恶意值超过预设阈值时，识别待检测邮件为鱼叉邮件。这样，通过多维度检测邮件附件的特征信息，尤其是图片虚化特征信息，能够准确识别具有恶意行为的鱼叉邮件，降低误报率；另外，还能够检出具有对抗性、反检测的鱼叉邮件以及僵尸网络中的鱼叉邮件，同时提高了对高级可持续攻击或定向攻击的鱼叉邮件的检出率。

附图说明

图1为本申请实施例提供的一种邮件识别方法的流程示意图；

图2为本申请实施例提供的另一种邮件识别方法的流程示意图；

图3为本申请实施例提供的又一种邮件识别方法的流程示意图；

图4为相关技术方案提供的一种图片对应的梯度直方图示意图；

图5为本申请实施例提供的再一种邮件识别方法的流程示意图；

图6为本申请实施例提供的一种邮件识别方法的详细流程示意图；

图7为本申请实施例提供的一种邮件识别装置的组成结构示意图；

图8为本申请实施例提供的一种设备的硬件结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请各实施例中的技术方案进行清楚、完整地描述。

实施例1

在本申请的第一实施例中，参见图1，其示出了本申请实施例提供的一种邮件识别方法的流程示意图。如图1所示，该方法可以包括：

S101：基于网络流量中的邮件流量，确定包含有待检测文档的待检测邮件；

需要说明的是，本申请实施例的方法主要实现在传输层和数据链路层之间的网络层上，通过检测整个网络的流量来识别恶意流量。在目标监测网络的合适位置上，例如邮件服务器、邮件网关、被保护网络内部交换机端口镜像等，通过部署嗅探等方式可以抓取到被保护网络的往来邮件，根据相应协议规则解析后能够还原出整个邮件内容，筛选出包含有待检测文档的待检测邮件。

还需要说明的是，待检测文档可以是解析邮件流量后得到的邮件的对应的附件文档，也可以是在附件文档中经过一定规则筛选的，本申请实施例在此不做规定。

S102：判断所述待检测文档是否满足预设条件；其中，所述预设条件至少包括所述待检测文档中包含有图片；

需要说明的是，预设条件一般是定性条件，用于排除那些明显不是鱼叉邮件的邮件，以减少后续处理量。预设条件可以设置多种，例如：

(1)待检测邮件是否有1-2个待检测文档？

(2)待检测文档的附件的文件大小是否在预设范围内？

(3)待检测文档的附件中是否存在1-2个图片？

(4)待检测文档的页数和字符数是否在预设范围内？

(5)待检测文档中是否存在网址或者IP地址？

(6)待检测文档中是否存在宏信息？

(7)待检测邮件的发件人是否不在白名单？

当然，预设条件可以从上述举例的条件中选取几项进行组合，可以是“或”组合，即满足条件(1)或条件(2)或条件(3)，也可以是“和”组合，可以是满足条件(1)和条件(2)和条件(3)；另外，还可以根据装置的处理能力和主要的防范对象从鱼叉邮件中恶意文档的常见特征中选取。基于此，S102还可以具体包括：

判断所述待检测文档的文件内容是否符合预设标准以及所述待检测文档是否包含宏信息；其中，所述待检测文档的文件内容至少包括文件大小、图片数量和文档页数；

当所述待检测文档的文件内容符合预设标准且所述待检测文档包含宏信息时，确定所述待检测文档满足预设条件；

当所述待检测文档的文件内容不符合预设标准或所述待检测文档不包含宏信息时，确定所述待检测文档不满足预设条件。

需要说明的是，对待检测文档的文件内容的筛选至少包括文件大小、图片数量以及文档页数，在此，待检测文档的文件内容符合预设标准可以是文件大小、图片数量和文档页数均符合对应标准，即“和”条件；也可以是文件大小、图片数量和文档页数至少一项符合对应标准，即“或”条件。

以上均是本申请实施例中预设条件的示例，而不是具体规定。由于鱼叉邮件的恶意特征也会随着时间进行变化，而且与实际应用场景紧密相关；通常而言，预设条件可以根据实际应用场景进行具体设定，在此对预设条件不做详细规定。

还需要说明的是，对于不满足预设条件的待检测文档，认为其所在的邮件不是鱼叉邮件，可以直接将其丢弃，从而结束流程。

S103：当所述待检测文档满足预设条件时，提取所述待检测文档的第一特征信息；其中，所述第一特征信息至少包括图片特征信息；

需要说明的是，第一特征信息是基于待检测文档提取的，如字符内容、字符量等。但是，对于鱼叉邮件而言，其中的内容是经过精心设计的，可能是与目标用户生活、工作相关的，也就是说，鱼叉邮件的内容会非常近似于用户的正常邮件，利用常规参数比如诱惑字符、字符量等进行识别，可能无法识别出鱼叉邮件，这也是传统杀毒方式无法对鱼叉邮件进行查杀的根本原因。同时，相比较于正常邮件，鱼叉邮件的附件中的图片有一些特征，比如数量一般是1-2张，色彩比较多，包含特定虚化部位或者图片大小在一定范围，基于鱼叉邮件的图片特征信息，能够对待检测邮件是否是鱼叉邮件进行一定判断。

在上述方案中，所述图片特征信息至少包括图片虚化特征信息。

需要说明的是，据统计，鱼叉邮件中的图片经常含有虚化特征，这样能够使用户觉得这张图片“好像”是本人需要的图片或者“好像”是某一正常场景的图片，基于此，本申请实施例将图片虚化特征信息作为第一特征信息中包含的信息，可以有效提高鱼叉邮件的识别率，也可以明显降低误判率。

还需要说明的是，除了图片虚化特征信息之外，第一特征信息还可以包含一些其他可以识别鱼叉邮件的特征信息，比如前述的字符内容、字符量等。

S104：根据所述第一特征信息，计算所述待检测邮件的第一恶意值；

需要说明的是，第一特征信息可能有一个参数也可能有多个参数，当第一特征信息含有多个参数时，针对每一特征信息，都有对应的评分映射，通过对比待检测邮件与鱼叉邮件的每一项特征信息的符合程度，得出该项特征信息的子恶意值，然后基于子恶意值计算第一恶意值。

S105：当所述第一恶意值超过预设阈值时，识别所述待检测邮件为鱼叉邮件。

需要说明的是，预设阈值可以根据前述的计算规则、应用场景和安全需求进行相对的调整和设定，比如，在高安全需求的场合，如办公内网、内部资料传输系统等，可以设置较低的预设阈值，这样可以将恶意值较低的邮件也及时识别出来，提高检出率，增加防范的安全性；在低安全需求的场合，如娱乐为主的家庭终端或开放式公共终端，可以设置较高的预设阈值，仅将恶意值比较高的邮件识别出来，避免浪费机器的处理量，降低误报率。

实际使用中，针对鱼叉邮件的防御方法，主要有以下两种：第一种是动态执行，部署带有沙箱功能的防火墙、入侵检测、邮件网关等设备通过虚拟执行这些office附件，根据该恶意样本的系统调用的行为特征来判断该病毒样本是否为恶意样本；第二种是静态扫描，使用传统的杀毒软件扫描，通过扫描该病毒样本的文件特征与恶意特征库进行匹配来识别恶意样本。但是在相关技术方案中，这两种方式仍然存在如下缺陷：(1)传统的带有沙箱功能的防火墙、入侵检测、邮件网关等设备对office文件查杀的效率较低，部分高级威胁样本病毒具有反杀毒软件和反沙箱的功能，导致查杀失败；(2)流行的新型病毒可以绕过查杀规则，导致病毒漏报；(3)宏代码是一项重要的鱼叉邮件的恶意特征，是上述两种检测方法的重要依据，但是部分用户在正常工作中也经常使用宏代码提升工作效率，这导致静态扫描和动态执行检测后造成误报；(4)对部分高级可持续攻击、定向攻击等特殊场景下的检出效果较差。

本申请实施例提供了一种邮件识别方法，基于网络流量中的邮件流量，确定包含有待检测文档的待检测邮件；判断待检测文档是否满足预设条件；其中，预设条件至少包括待检测文档中包含有图片；当待检测文档满足预设条件时，提取待检测文档的第一特征信息；其中，第一特征信息至少包括图片特征信息；基于第一特征信息，计算待检测邮件的第一恶意值；当第一恶意值超过预设阈值时，识别待检测邮件为鱼叉邮件。这样，通过多维度检测邮件附件的特征信息，尤其是图片虚化特征信息，可以解决相关技术方案所存在的缺陷问题，从而能够准确识别具有恶意行为的鱼叉邮件，降低误报率；另外，还能够检出具有对抗性、反检测的鱼叉邮件以及僵尸网络中的鱼叉邮件，同时提高了对高级可持续攻击或定向攻击的鱼叉邮件的检出率。

实施例2

在本申请的第二实施例中，参见图2，其示出了本申请实施例提供的一种邮件识别方法的流程示意图，如图2所示，该方法可以包括：

S201：根据邮件协议对网络流量进行筛选，得到所述邮件流量；

需要说明的是，互联网通过不同的服务协议提供不同的服务，所以利用邮件协议可以高效、稳定的过滤网络流量抓取邮件流量，常见的邮件协议有简单邮件传输协议(Simple Mail Transfer protocol，SMTP)、第三代邮局协议(3rd Post Office Protocol，POP3)、第四代Internet消息访问协议(4th Internet Message Access Protocol，IMAP4)、超文本传输协议(HyperText Transfer Protocol，HTTP)、多用途Internet邮件扩展协议(Multipurpose Internet Mail Extension，MTME)和轻量目录访问协议(LightweightDirectory Access Protocol，LDAP)。

S202：对所述邮件流量进行解析，获得所述邮件流量对应的邮件附件；

需要说明的是，根据邮件流量所述的邮件协议，按照协议规则进行解析后可以获得对应的邮件，进而获得邮件的附件。此处，通过对邮件流量的解析实现了一次隐式筛选，即还原邮件流量获得对应的邮件后，如果邮件中没有附件，则认为该邮件流量是正常的邮件流量，丢弃该邮件流量并结束流程。

还需要说明的是，鱼叉邮件是一种高成功率的网络攻击手段，攻击者基于攻击目标的个人信息，通过将发件人仿冒成攻击目标的好友邮箱、知名网站，或者将邮件内容伪装成符合攻击目标感兴趣的内容，诱使用户点击邮件中的钓鱼链接或下载恶意附件，达到入侵攻击目标的个人系统的目的。据统计，鱼叉邮件一般是通过其中作为附件的恶意文档实现攻击，也就是说，对于不含有附件的邮件，可排除其是鱼叉邮件的可能性。基于此，首先判断所述邮件流量中是否含有附件，如果不含有附件，那么邮件流量中并不需要进行后续的检测，可丢弃邮件流量结束流程。对于含有邮件附件的邮件流量，获得其对应的邮件附件，以进行后续的识别。

S203：确定所述邮件附件的文件格式；

需要说明的是，邮件附件的数量可以为多个，此时，邮件附件又可分为三种情况：(1)一种情况为邮件附件是非压缩文件，那么邮件附件就是后续识别处理所针对的待检测文档；(2)另一种情况为邮件附件是压缩文件，此时后续识别处理所针对的对象实际上是解压压缩文件得到的解压文件，也就是说解压文件是待检测文档；(3)还一种情况是邮件附件中既有压缩文件又有非压缩文件，那么非压缩文件的邮件附件和解压压缩文件得到的文档都是后续操做所针对的对象，也就是说非压缩文件的邮件附件和解压文件都是待检测文档。

S204：当所确定的文件格式为非压缩包格式时，将所述邮件附件确定为所述待检测文档；

需要说明的是，S204是S203的后续步骤，也就是说，在进行S204时，已经获知了邮件附件的一些格式信息，而鱼叉邮件所携带的附件又往往具有特定的文件格式。所以，在确定待检测文档时，可以对文档的类型进一步筛选，比如筛选出office或者word文档作为后续处理的对象。

统计研究表明，鱼叉邮件中最常见的携带文档为office文档，占比高达65.4％，主要原因有以下两个方面：(1)office文档类型众多，从而导致漏洞类型比较多，攻击者可供选择的载体多；(2)office用户群体庞大。其中，在携带的office文档中，81.8％的文档是word类型，原因是很多恶意宏文档喜欢选用word作为载体，同时word类型软件的可利用漏洞比较多，如CVE-2017-0199。除此之外，excel类型和ppt类型也是常见的鱼叉邮件携带文档。基于此，可以进一步设置筛选条件，比较常见的筛选方式为待检测文档必须是office类型，或者更进一步，待检测文档必须是word类型时，才进行后续的识别处理，以降低处理量。所以，S204也可以替换为：

当所确定的文件格式为非压缩包格式时，在所述邮件附件中筛选出office文件确定为所述待检测文档；

这样，将邮件中的office文档进行后续处理，能够降低处理量。

S205：当所确定的文件格式为压缩包格式时，对所述邮件附件进行解压，将得到的解压文件确定为所述待检测文档。

需要说明的是，对于压缩文件，如zip、rar格式的文档，需要进行解压得到解压文件。同前述，此处也可以对文档的类型进一步筛选，所以S205也可以替换为：

当所确定的文件格式为压缩包格式时，对所述邮件附件进行解压，在得到的解压文件中筛选出office文件确定为所述待检测文档；

本申请实施例提供了一种邮件识别方法，通过上述实施例对前述实施例进行具体阐述，从中可以看出，通过多维度检测邮件附件的特征信息，尤其是图片虚化特征信息，能够准确识别具有恶意行为的鱼叉邮件，降低误报率；另外，还能够检出具有对抗性、反检测的鱼叉邮件以及僵尸网络中的鱼叉邮件，同时提高了对高级可持续攻击或定向攻击的鱼叉邮件的检出率。

实施例3

本申请的另一实施例中，如图3，其示出了本申请实施例提供的另一种邮件识别方法的流程示意图，如图3所示，该方法可以包括：

S301：判断所述待检测文档是否满足预设条件，如果否则丢弃待检测邮件结束流程；

需要说明的是，前述实施例中提到，可以设置office类型或者word类型作为待检测文档的筛选条件以降低处理量，但是office类型或word类型是工作生活中最为常用文件类型，如果对所有office类型或word类型的附件均进行后续的检测，仍然会造成处理量不必要的浪费。所以，在获得待检测文档后，可以根据待检测文档的文件内容和是否包含宏信息再进行依次筛选。基于此，S301可以具体包括：

需要说明的是，对于待检测文档的文件大小满足预设标准而言，其中的预设标准可以是阈值条件，即超过或者不超过某一阈值，也可是封闭条件，即在两个端值限定的区间内或者区间外。例如，如果所述待检测文档的文件内容包括文件大小和图片数量，对于文件大小，可以采用封闭条件进行判断，比如文件大小在0-3MB的范围之内，确定文件大小满足预设标准；而对于图片数量，可以采用阈值条件进行判断，比如图片数量大于等于2张时，确定图片数量满足预设标准。

需要说明的是，宏就是能组织到一起作为一独立的命令使用的一系列命令，通常鱼叉邮件在附件中设置一系列宏信息，当用户在不知情下进行某些操作时予以启动，进而盗取用户信息或者植入某些恶意程序。当然，在正常的工作生活中，宏信息能够带来高效的处理能力。

S302：当所述待检测文档满足预设条件时，将待检测文档转换得到第一文件；其中，第一文件表示利用超文本标记语言描述所述待检测文档的文件；

需要说明的是，超文本标记语言(Hyper Text Markup Language，html)是一种标识性的语言，它包括一系列的标签，通过这些标签可以将网络上的文档格式统一，使分散资源连接为一个逻辑整体，可以说明文字，图形、动画、声音、表格、链接等。同时，html类型的文件本质是一种标记文档，其文本信息前后都有标签标识，能够通过标签方便的提取某些信息。通过将待检测文档转换为html类型的第一文件，能够统一进行后续的分离提取操作。

需要说明的是，待检测文档可能包含具体的多种文件类型，例如，如果筛选office文件作为待检测文档，那么待检测文档可能是ppt、word或者excel，此时，如果不进行格式转换而直接进行第一特征信息的处理，难度是比较大的，也很难有统一的提取方式。因为office软件是微软旗下的商用软件，其文档规则并不是完全公开的，直接进行处理和提取存在一定问题。同时，微软在微软系统中预留了调用接口(com组件)，利用该接口可以方便地将office文件转化为html类型的第一文件，这样再从第一文件中分离图片和内容就十分方便。

S303：对所述第一文件进行内容分离，获得待检测文字和待检测图片；

需要说明的是，由于第一文件是利用html编写而成的，其文本信息前后都有标签标识，能够通过标签方便的进行分离，以便于后续的识别操作。

S304：从所述待检测文字中，提取文本特征信息；

需要说明的是，第一特征信息也可以分为两大类，一类是从待检测文字之中提取的文本特征信息，比如文字字符内容、字符数量和行数等，一类是从待检测图片之中提取的图片虚化特征信息。

S305：对所述文本特征信息进行子恶意值计算，得到第一子恶意值；

需要说明的是，针对文本特征信息根据评分规则进行计算，可以获得相应的第一子恶意值。其中，第一子恶意值仅为名称，并不限定数量，也就是说，当文本特征信息为多个时，其实有多个第一子恶意值。

S306：从所述待检测图片中，提取图片虚化特征信息；

需要说明的是，在本实施例中，仅以图片虚化特征信息作为图片特征信息。

S307：基于边缘检测算法对所述待检测图片中多个图片分别进行计算，得到多个待识别梯度直方图；其中，每一待识别梯度直方图用于指示所述多个图片中每一图片对应的虚化特征信息；

需要说明的是，由于本实施例仅利用图片虚化特征作为鱼叉邮件的判别标准，所以隐含的，如果待检测文档中没有图片，那么不认为其可能是鱼叉邮件，可以丢弃流量结束本次识别流程。

需要说明的是，实际使用中，边缘检测是图片处理和计算机视觉中的基本问题，边缘检测的目的是标识数字图片中亮度变化明显的点。图片属性中的显著变化通常反映了属性的重要事件和变化。这些变化包括深度上的不连续、表面方向不连续、物质属性变化和场景照明变化。边缘检测是图片处理和计算机视觉中，尤其是特征提取中的一个研究领域。通过边缘检测的处理后，生成一个图片的梯度直方图，参见图4，其示出了基于边缘检测算法提取到的图片梯度直方图示例，在图4中，横坐标是图片中各个像素点的位置映射，纵坐标是梯度值，在直方图比较高的A处，证明该处边缘较多，证明此处的图像比较“锐利”，在直方图比较低的B处，证明该处边缘较少，证明此处的图像比较“模糊”，有可能是被虚化的区域。通过图片的梯度直方图，可以获知关于图片的很多重要信息，而这可以作为鱼叉邮件判定的一个切入点。

需要说明的是，基于边缘检测算法计算待识别梯度直方图然后进行匹配，这个过程的计算量是比较大的。同时，对于鱼叉邮件而言，一般仅具有1-2张图片。基于此，一般会在前述的预设条件中设置“图片数量为1-2张”的条件，也就是说，S307中至多对两张图片进行检测，这是比较合理的。当然，本申请实施例也包含了对多张图片进行的检测。

需要说明的是，对于鱼叉邮件而言，其中的内容是经过精心设计的，可能是与目标用户生活、工作相关的，也就是说鱼叉邮件的内容会非常近似于用户的正常邮件，利用常规参数如字符识别、页数识别可能无法进行识别出鱼叉邮件，这也是传统杀毒方式无法对鱼叉邮件进行查杀的根本原因。经过调查，鱼叉邮件中的图片经常含有虚化特征，这样能够使用户觉得这张图片“好像”是我需要的图片或者“好像”是某一正常场景的图片，基于此，本实施例以图片虚化特征信息作为主要的判别参数，进行鱼叉邮件的检测。

S308：将得到的多个待识别梯度直方图和恶意特征库进行匹配，得到匹配结果；其中，所述恶意特征库包含多个恶意图片中的恶意梯度直方图；

需要说明的是，恶意特征库是大量恶意图片中的恶意梯度直方图组成的，具体的匹配规则可以为多种，包括根据待识别梯度直方图与最为相似的恶意梯度直方图的相似度赋予恶意值，然后对多个恶意值计算，这样做的结果更加精确当时计算量会相对大，所以也可以采用以下方法：

当任一待识别梯度直方图与恶意特征库中的任一恶意梯度直方图相似度超过阈值，得到匹配结果为成功；

当每一待识别梯度直方图与恶意特征库中的所有恶意梯度直方图相似度都不超过阈值，得到匹配结果为失败。

也就是说，对于待检测文档中的多张图像，只要有一张图像的梯度直方图与恶意梯度直方图的相似度达到了阈值，就输出匹配成功的结果，也就是“1”；否则，就输出匹配失败的结果，也就是“0”。

S309：基于所述匹配结果，确定所述第二子恶意值；

S310：确定所述第一子恶意值和所述第二子恶意值各自对应的预设权值；

需要说明的是，在鱼叉邮件的恶意特征中，不同的特征的指示性并不相同，所以可以赋予不同的权值，以达到全面检测的效果，同时也避免单一特征的计算造成误报或者漏报。

S311：根据所确定的预设权值以及所述第一子恶意值和所述第二子恶意值进行加权求和计算，得到所述第一恶意值；

需要说明的是，利用预设权值调整不同子恶意值的指示性，综合得到第一恶意值，可以有效避免误报。

S312：当所述第一恶意值超过预设阈值时，识别所述待检测邮件为鱼叉邮件。

这样，在得到的第一恶意值之后，将第一恶意值与预设阈值进行比较；如果第一恶意值没有超过预设阈值，那么可以认为待检测邮件为正常邮件，即识别待检测邮件为非鱼叉邮件；反之，如果第一恶意值超过预设阈值，那么可以认为待检测邮件为非正常邮件，即这时候可以识别待检测邮件为鱼叉邮件。

本申请实施例提供了一种邮件识别方法，通过上述实施例对前述实施例进行具体阐述，从中可以看出，通过多维度检测邮件附件的特征信息，尤其是图片虚化特征信息，能够准确识别具有恶意行为的鱼叉邮件，降低了误报率；另外，基于多维度检测邮件附件的特征信息，还能够检出具有对抗性、反检测的鱼叉邮件以及僵尸网络中的鱼叉邮件，同时提高了对高级可持续攻击或定向攻击的鱼叉邮件的检出率。

实施例4

在本申请的第四实施例中，参见图5，其示出了本申请实施例提供的再一种邮件识别方法的具体流程示意图，如图5，该方法可以包括：

S401：提取所述待检测邮件的第二特征信息；

需要说明的是，第二特征信息主要是从待检测邮件本身提取的，比如待检测邮件的发件人是否为白名单、待检测邮件的发件地址是否为合法地址，当然也可以关注待检测邮件的正文内容，如正文中是否含有恶意字符、恶意网址，甚至对于邮件正文中所含有的图片也可以提取图片虚化特征信息进行分析，这些都涵盖在本申请实施例的保护范围之内。这样，可以从待检测文档和带检测邮件本身属性两个维度进行识别，能够基本覆盖所有的鱼叉邮件恶意特征。

S402：基于所述第一特征信息和所述第二特征信息，计算所述待检测邮件的第一恶意值；

需要说明的是，计算第一恶意值时，可以根据第一特征信息得到一个值，然后再根据第二特征信息得到另一个值，将其相加得到第一恶意值；也可以将第一特征信息和第二特征信息一起计算，得到第一恶意值，这两种方法均涵盖在本申请实施例保护范围之内。

S403：当所述第一恶意值超过预设阈值时，识别所述待检测邮件为鱼叉邮件。

需要说明的是，由于第一特征信息仅仅是待检测邮件附件的特征信息，而不包括邮件本身的特征信息，所以为了更充分的进行判断，还可以考虑第二特征信息，即待检测邮件本身的特征信息，比如待检测邮件的发件地址，基于第一特征信息和第二特征信息综合得到恶意值；如果恶意值没有超过预设阈值，那么可以认为待检测邮件为正常邮件，即识别待检测邮件为非鱼叉邮件；反之，如果恶意值超过预设阈值，那么可以认为待检测邮件为非正常邮件，即这时候可以识别待检测邮件为鱼叉邮件，从而能够更准确地识别出一些仅从内容上难以与正常邮件区分的鱼叉邮件。

本申请实施例提供了一种邮件识别方法，通过上述实施例对前述实施例进行具体阐述，从中可以看出，通过多维度检测邮件附件的特征信息，尤其是图片虚化特征信息，同时还考虑了待检测邮件本身的特征信息，从而能够更准确地识别具有恶意行为的鱼叉邮件，降低了误报率；另外，基于多维度检测邮件附件的特征信息，还能够检出具有对抗性、反检测的鱼叉邮件以及僵尸网络中的鱼叉邮件，同时提高了对高级可持续攻击或定向攻击的鱼叉邮件的检出率。

实施例5

在本申请的第五实施例中，参见图6，其示出了本申请实施例提供的一种邮件识别方法的具体流程示意图，如图6，该方法可以包括：

S501:监测网络流量，通过协议识别得到邮件流量；

需要说明的是，在目标监测网络的邮件服务器上部署嗅探，通过识别邮件协议抓取邮件流量，其中邮件流量是从外部网络接收的邮件流量。

S502：还原邮件流量，筛选出其中的office附件；

需要说明的是，为了降低处理量，本申请实施例中仅对office文档进行后续检测，所以需要筛选出其中的office附件，如果不存在office附件，则丢弃该流量并结束流程。

还需要说明的是，通过格式识别可以获得邮件附件的文件格式，进而筛选出其中的office附件。格式识别可采用现有技术，如魔数识别、文件后缀识别等方法。其中，邮件附件的文件格式存在两种可能，当邮件附件为非压缩文档时，通过格式筛选，提取其中的office附件；当邮件附件为压缩文档则需要解压，然后提取其中的office附件。

还需要说明的是，office文件是一种统称，其中可以包含ppt、word、excel等多种文件类型格式。对于鱼叉邮件而言，最常见的病毒载体是word类型，但是也不排除其通过excel、ppt类型进行传播。

S503：判断office附件的大小是否满足预设范围；

需要说明的是，在判断office附件的大小是否满足预设范围之后，如果office附件的大小不满足预设条件，那么可以直接结束流程；如果office附件的大小满足预设条件，那么可以继续执行S504。

S504：判断office附件是否包含宏；

需要说明的是，在进一步判断office附件是否包含宏之后，如果office附件不包含宏，那么可以直接结束流程；如果office附件包含宏，那么可以继续执行S505。

这里，以文件大小和是否包含宏作为预设条件，从提取的office附件中确定出待检测文档，如果不满足预设条件，那么可以将其丢弃并结束流程，此处还隐含了对于office附件所包含图片的判断。

S505：将office附件转换成html文件，并将其中的内容分离成文档内容和图片内容；

需要说明的是，将待检测文档统一转换成html文件，在html文件中，每种信息前后都有标签标识，能够通过标签方便的进行分离，以便于后续的邮件识别操作。

S506：在文档内容中提取文档行数和恶意字符，分别计算对应的第一子恶意值；

需要说明的是，恶意字符是能够诱导使用者启动宏功能的字符，可以依据所需要防范的场合自行设定，比如在家庭使用环境下可以设置“支付”、“折扣”、“促销”等；在办公使用环境下可以设置“价格”、“订单”、“升级”等。

还需要说明的是，文档内容还可以包括文档页数、文档的标点符号特征、总字数等，本申请实施例不作限定。

S507：对于图片内容，通过边缘检测算法提取图片虚化特征信息，计算第二子恶意值；

需要说明的是，在本申请实施例中，第一特征信息包括有恶意字符、文档行数以及图片虚化特征信息。

S508：将上述子恶意值进行加权求和，得到第一恶意值；

这样，根据第一特征信息对待检测文档进行多维度计算，可以更准确地识别出鱼叉邮件。其中，在本申请实施例中，对于不同的子恶意值，可以分配不同的权重，然后基于所分配的权重以及子恶意值进行加权求和计算后，可以得到第一恶意值。

S509：判断所述第一恶意值是否超过预设阈值；

这里，如果判断结果为是，那么可以执行S510；如果判断结果为否，那么可以执行S511。

需要说明的是，由于鱼叉邮件的多样性和针对性，利用待检测文档的第一特征信息进行识别之后，当第一恶意值不超过预设阈值时，可能仍然不能确定该待检测邮件是否属于鱼叉邮件，此时还可以基于待检测邮件本身的特征信息进行判别。

S510：识别所述待检测邮件为鱼叉邮件。

S511：提取待检测邮件的发件人的网际协议地址，计算第三子恶意值；

需要说明的是，如果根据待检测文档的第一恶意值，无法判断待检测文档是否为鱼叉邮件，可以进一步结合待检测邮件的网际协议地址(Internet Protocol，IP)进行识别。这里，具体的识别规则可以参考当前时间段内鱼叉邮件的发件IP特征，比如是否为境外IP地址、是否为黑名单等，以确定出第三子恶意值。

S512：根据第三子恶意值和第一恶意值，计算得到第二恶意值；

需要说明的是，根据第三子恶意值和第一恶意值的综合计算，可以得到第二恶意值，然后根据第二恶意值对待检测邮件进行判别。

S513：判断第二恶意值是否超过预设阈值；如果是，执行S510，如果否结束流程。

需要说明的是，当第一恶意值没有超过预设阈值时，还可以考虑第二特征信息，即待检测邮件本身的特征信息，比如待检测邮件的发件地址。这时候可以得到第二恶意值，然后可以将第二恶意值与预设阈值进行比较；如果第二恶意值没有超过预设阈值，那么可以认为待检测邮件为正常邮件，即识别待检测邮件为非鱼叉邮件；反之，如果第二恶意值超过预设阈值，那么可以认为待检测邮件为非正常邮件，即这时候可以识别待检测邮件为鱼叉邮件，从而能够更准确地识别出一些仅从内容上难以与正常邮件区分的鱼叉邮件。

这里，如果判断结果为是，那么可以将待检测邮件判定为鱼叉邮件，即执行步骤S510；如果判断结果为否，那么可以结束流程。如此，可以在待检测文档和待检测邮件本身特征两个维度上，识别是否为鱼叉邮件，进一步提高识别率，同时降低误判率。

也就是说，本实施例可整体分为三步，第一步：通过协议过滤的方式解析对应的邮件流量如常见的邮件协议SMTP、Pop3等，通过对邮件流量的深度解析可以还原出邮件当中的附件文档，通过对附件文档的过滤筛选出待检测的特定类型的Office文件；第二步：针对待检测的office文件，通过相关算法将文档转化成html文件。从多个维度进行特征提取方法主要维度包括文档大小、文档页数、文档内容的行数、是否包含宏代码、文档当中的图片数量、图片是否存在特定模糊化方法进行特征提取；第三步：根据多个特征的权重比例进行计算，结合邮件发件人的源IP的信息可以确定该邮件是否为定向攻击的鱼叉邮件。

实施例6

本申请的第六实施例中，如图7，其示出了本申请实施例提供的一种邮件识别装置60的组成结构示意图。如图7所示，该邮件识别装置60包括获取单元601、预选单元602、提取单元603、计算单元604和判断单元605；其中，

获取单元601，配置为基于网络流量中的邮件流量，确定包含有待检测文档的待检测邮件；

预选单元602，配置为判断所述待检测文档是否满足预设条件；其中，所述预设条件至少包括所述待检测文档中包含有图片；

提取单元603，配置为当所述待检测文档满足预设条件时，提取所述待检测文档的第一特征信息；其中，所述第一特征信息至少包括图片特征信息；

计算单元604，配置为基于所述第一特征信息，计算所述待检测邮件的第一恶意值；

判断单元605，配置为当所述第一恶意值超过预设阈值时，识别所述待检测邮件为鱼叉邮件。

需要说明的是，所述邮件识别装置60可以作为数据包发送方和接收方中间的检测装置。在发送方为企业构建的局域网内部的用户，接收方为局域网外部的用户的场景下，所述邮件识别装置60可以设置在局域网边界的防火墙、入侵防御系统(IPS，IntrusionPrevention System)设备之前，或这集成在路由器或IPS设备中。在个人用户的场景下，所述邮件识别装置60也可以作为主机浏览器、邮件客户端或其他有可能涉及邮件接收的应用软件中的一个模块。

在上述方案中，所述获取单元601，具体配置为根据邮件协议对网络流量进行筛选，得到所述邮件流量；对所述邮件流量进行解析，获得所述邮件流量对应的邮件附件；确定所述邮件附件的文件格式；当所确定的文件格式为非压缩包格式时，将所述邮件附件确定为所述待检测文档；当所确定的文件格式为压缩包格式时，对所述邮件附件进行解压，将得到的解压文件确定为所述待检测文档。

在上述方案中，所述预选单元602，具体配置为判断所述待检测文档的文件内容是否符合预设标准以及所述待检测文档是否包含宏信息；其中，所述待检测文档的文件内容至少包括文件大小、图片数量和文档页数；当所述待检测文档的文件内容符合预设标准且所述待检测文档包含宏信息时，确定所述待检测文档满足预设条件；当所述待检测文档的文件内容不符合预设标准或所述待检测文档不包含宏信息时，确定所述待检测文档不满足预设条件。

在上述方案中，所述邮件识别装置60还包括转换单元和分离单元；其中，转换单元，配置为将待检测文档转换得到第一文件；其中，第一文件表示利用超文本标记语言描述所述待检测文档的文件；

分离单元，配置为对所述第一文件进行内容分离，获得待检测文字和待检测图片。

在上述方案中，所述提取单元603，还可以配置为从所述待检测文字中，提取文本特征信息；从所述待检测图片中，提取图片虚化特征信息；

相应地，所述计算单元604，还可以配置为：对所述文本特征信息进行子恶意值计算，得到第一子恶意值；对所述图片虚化特征信息进行子恶意值计算，得到第二子恶意值；基于所述第一子恶意值和所述第二子恶意值，计算所述待检测邮件的第一恶意值。

在上述方案中，所述计算单元604，还可以配置为基于边缘检测算法对所述待检测图片中多个图片分别进行计算，得到多个待识别梯度直方图；其中，每一待识别梯度直方图用于指示所述多个图片中每一图片对应的图片虚化特征信息；将所述多个待识别梯度直方图和恶意特征库进行匹配，得到匹配结果；其中，所述恶意特征库包含多个恶意图片中的恶意梯度直方图；基于所述匹配结果，确定所述第二子恶意值。

在上述方案中，所述计算单元604，还可以配置为确定所述第一子恶意值和所述第二子恶意值各自对应的预设权值；根据所确定的预设权值以及所述第一子恶意值和所述第二子恶意值进行加权求和计算，得到所述第一恶意值。

在上述方案中，所述提取单元603，还可以配置为所述文本特征信息至少包括文字行数和恶意字符；其中，所述恶意字符为引诱用户启动宏信息的字符。

在上述方案中，所述提取单元603，还可以配置为提取所述待检测邮件的第二特征信息；

相应地，所述计算单元604，还可以配置为基于所述第一特征信息和所述第二特征信息，计算所述待检测邮件的第一恶意值。

在上述方案中，当所述第一恶意值不超过预设阈值时，所述提取单元603，还可以配置为提取所述待检测邮件的第二特征信息；

相应地，所述计算单元604，还可以配置为根据所述第一恶意值和所述第二特征信息，计算第二恶意值；

相应地，所述判断单元605，还可以配置为当所述第二恶意值超过预设阈值时，识别所述待检测邮件为鱼叉邮件。

在上述方案中，所述第二特征信息至少包括所述待检测邮件对应的发件人的网际协议地址。

可以理解地，在本实施例中，“单元”可以是部分电路、部分处理器、部分程序或软件等等，当然也可以是模块，还可以是非模块化的。而且在本实施例中的各组成部分可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

所述集成的单元如果以软件功能模块的形式实现并非作为独立的产品进行销售或使用时，可以存储在一个计算机可读取存储介质中，基于这样的理解，本实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或processor(处理器)执行本实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

因此，本实施例提供了一种计算机存储介质，该计算机存储介质存储有邮件识别程序，所述邮件识别程序被至少一种处理器执行时实现前述实施例中任一项所述的方法的步骤。

基于上述邮件识别装置60的组成以及计算机存储介质，参见图8，其示出了本申请实施例提供的一种设备70的具体硬件结构示意图，可以包括：通信接口701、存储器702和处理器703；各个组件通过总线系统704耦合在一起。可理解，总线系统704用于实现这些组件之间的连接通信。总线系统704除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图8中将各种总线都标为总线系统704。其中，通信接口701，用于在与其他外部网元之间进行收发信息过程中，信号的接收和发送；

存储器702，用于存储能够在处理器703上运行的计算机程序；

处理器703，用于在运行所述计算机程序时，执行：

判断所述待检测文档是否满足预设条件；其中，所述预设条件至少包括所述待检测文档中包含有图片；

当所述待检测文档满足预设条件时，提取所述待检测文档的第一特征信息；其中，所述第一特征信息至少包括图片特征信息；

基于所述第一特征信息，计算所述待检测邮件的第一恶意值；

当所述第一恶意值超过预设阈值时，识别所述待检测邮件为鱼叉邮件。

可以理解，本申请实施例中的存储器702可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(Read-Only Memory，ROM)、可编程只读存储器(Programmable ROM，PROM)、可擦除可编程只读存储器(Erasable PROM，EPROM)、电可擦除可编程只读存储器(Electrically EPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory，RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(Static RAM，SRAM)、动态随机存取存储器(Dynamic RAM，DRAM)、同步动态随机存取存储器(Synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data RateSDRAM，DDRSDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM，ESDRAM)、同步链动态随机存取存储器(Synchronous link DRAM，SLDRAM)和直接内存总线随机存取存储器(Direct Rambus RAM，DRRAM)。本申请描述的系统和方法的存储器702旨在包括但不限于这些和任意其它适合类型的存储器。

而处理器703可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器703中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器703可以是通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器702，处理器703读取存储器702中的信息，结合其硬件完成上述方法的步骤。

可以理解的是，本申请描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现，处理单元可以实现在一个或多个专用集成电路(Application Specific Integrated Circuits，ASIC)、数字信号处理器(Digital SignalProcessing，DSP)、数字信号处理设备(DSP Device，DSPD)、可编程逻辑设备(ProgrammableLogic Device，PLD)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)、通用处理器、控制器、微控制器、微处理器、用于执行本申请所述功能的其它电子单元或其组合中。

对于软件实现，可通过执行本申请所述功能的模块(例如过程、函数等)来实现本申请所述的技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。

可选地，作为另一个实施例，处理器703还配置为在运行所述计算机程序时，执行前述实施例中任一项所述的方法的步骤。

以上所述，仅为本申请的较佳实施例而已，并非用于限定本申请的保护范围。

需要说明的是，在本申请中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

本申请所提供的几个方法实施例中所揭露的方法，在不冲突的情况下可以任意组合，得到新的方法实施例。

本申请所提供的几个产品实施例中所揭露的特征，在不冲突的情况下可以任意组合，得到新的产品实施例。

本申请所提供的几个方法或设备实施例中所揭露的特征，在不冲突的情况下可以任意组合，得到新的方法实施例或设备实施例。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种邮件识别方法，其特征在于，所述方法包括：

2.根据权利要求1所述的邮件识别方法，其特征在于，所述图片特征信息至少包括图片虚化特征信息。

3.根据权利要求1所述的邮件识别方法，其特征在于，所述基于网络流量中的邮件流量，确定包含有待检测文档的待检测邮件，包括：

根据邮件协议对网络流量进行筛选，得到所述邮件流量；

对所述邮件流量进行解析，获得所述邮件流量对应的邮件附件；

确定所述邮件附件的文件格式；

当所确定的文件格式为非压缩包格式时，将所述邮件附件确定为所述待检测文档；

当所确定的文件格式为压缩包格式时，对所述邮件附件进行解压，将得到的解压文件确定为所述待检测文档。

4.根据权利要求1所述的邮件识别方法，其特征在于，所述判断所述待检测文档是否满足预设条件，包括：

判断所述待检测文档的文件内容是否符合预设标准以及所述待检测文档是否包含宏信息；其中，所述待检测文档的文件内容包括文件大小、图片数量和文档页数；

5.根据权利要求1所述的邮件识别方法，其特征在于，在所述提取所述待检测文档的第一特征信息之前，所述方法还包括：

将所述待检测文档转换得到第一文件；其中，第一文件表示利用超文本标记语言描述所述待检测文档的文件；

对所述第一文件进行内容分离，获得待检测文字和待检测图片。

6.根据权利要求5所述的邮件识别方法，其特征在于，所述第一特征信息还包括文本特征信息，所述提取所述待检测文档的第一特征信息，包括：

从所述待检测文字中，提取文本特征信息；

从所述待检测图片中，提取图片特征信息；

相应地，所述根据所述第一特征信息，计算所述待检测邮件的第一恶意值，包括：

对所述文本特征信息进行子恶意值计算，得到第一子恶意值；

对所述图片特征信息进行子恶意值计算，得到第二子恶意值；

基于所述第一子恶意值和所述第二子恶意值，计算所述待检测邮件的第一恶意值。

7.根据权利要求6所述的邮件识别方法，其特征在于，当所述图片特征信息包括图片虚化特征信息时，所述对所述图片虚化特征信息进行子恶意值计算，得到第二子恶意值，包括：

基于边缘检测算法对所述待检测图片中多个图片分别进行计算，得到多个待识别梯度直方图；其中，每一待识别梯度直方图用于指示所述多个图片中每一图片对应的图片虚化特征信息；

将所述多个待识别梯度直方图和恶意特征库进行匹配，得到匹配结果；其中，所述恶意特征库包含多个恶意图片中的恶意梯度直方图；

基于所述匹配结果，确定所述第二子恶意值。

8.根据权利要求6所述的邮件识别方法，其特征在于，所述基于所述第一子恶意值和所述第二子恶意值，计算所述待检测邮件的第一恶意值，包括：

确定所述第一子恶意值和所述第二子恶意值各自对应的预设权值；

根据所确定的预设权值以及所述第一子恶意值和所述第二子恶意值进行加权求和计算，得到所述第一恶意值。

9.根据权利要求6所述的邮件识别方法，其特征在于，所述文本特征信息至少包括文字行数和恶意字符；其中，所述恶意字符为引诱用户启动宏信息的字符。

10.根据权利要求1所述的邮件识别方法，其特征在于，在所述提取所述待检测文档的第一特征信息之后，所述方法还包括：

提取所述待检测邮件的第二特征信息；

相应地，所述基于所述第一特征信息，计算所述待检测邮件的第一恶意值，包括：

基于所述第一特征信息和所述第二特征信息，计算所述待检测邮件的第一恶意值。

11.根据权利要求1所述的邮件识别方法，其特征在于，当所述第一恶意值不超过预设阈值时，所述方法还包括：

提取所述待检测邮件的第二特征信息；

根据所述第一恶意值和所述第二特征信息，计算第二恶意值；

当所述第二恶意值超过预设阈值时，识别所述待检测邮件为鱼叉邮件。

12.根据权利要求10-11任一项所述的邮件识别方法，其特征在于，所述第二特征信息至少包括所述待检测邮件对应的发件人的网际协议地址。

13.一种邮件识别装置，其特征在于：所述邮件识别装置包括获取单元、预选单元、提取单元、计算单元和判断单元；其中，

所述获取单元，配置为基于网络流量中的邮件流量，确定包含有待检测文档的待检测邮件；

所述预选单元，配置为判断所述待检测文档是否满足预设条件；其中，所述预设条件至少包括所述待检测文档中包含有图片；

所述提取单元，配置为当所述待检测文档满足预设条件时，提取所述待检测文档的第一特征信息；其中，所述第一特征信息至少包括图片特征信息；

所述计算单元，配置为基于所述第一特征信息，计算所述待检测邮件的第一恶意值；

所述判断单元，配置为当所述第一恶意值超过预设阈值时，识别所述待检测邮件为鱼叉邮件。

14.一种设备，其特征在于：所述设备包括存储器和处理器；其中，

所述存储器，用于存储能够在所述处理器上运行的计算机程序；

所述处理器，用于在运行所述计算机程序时，执行如权利要求1至12任一项所述的方法。

15.一种计算机存储介质，其特征在于，所述计算机存储介质存储有邮件识别程序，所述邮件识别程序被至少一种处理器执行时实现如权利要求1至12任一项所述的方法。