CN108259415B

CN108259415B - 一种邮件检测的方法及装置

Info

Publication number: CN108259415B
Application number: CN201611239345.8A
Authority: CN
Inventors: 李玉; 黄传明; 王占一; 张卓
Original assignee: Beijing Qihoo Technology Co Ltd
Current assignee: Beijing Qihoo Technology Co Ltd
Priority date: 2016-12-28
Filing date: 2016-12-28
Publication date: 2022-08-26
Anticipated expiration: 2036-12-28
Also published as: CN108259415A

Abstract

本发明公开了一种邮件检测的方法及装置，其中所述方法包括：从接收到的待测邮件中提取邮件头部分以及邮件正文部分；对所述待测邮件进行特征提取，获得所述待测邮件的关键特征，其中，所述关键特征包括从待测邮件的邮件头部分提取的邮件结构特征以及语义特征，以及，从邮件正文部分提取的文本特征、链接特征以及脚本特征；基于所述待测邮件的关键特征，确定所述待测邮件为钓鱼邮件的概率。本发明实施例可以提高钓鱼邮件检测的准确率，而且耗时少，节省资源。

Description

一种邮件检测的方法及装置

技术领域

本发明涉及数据安全技术领域，更具体地，涉及一种邮件检测的方法以及一种邮件检测的装置。

背景技术

随着互联网技术的快速发展，电子邮件成为人们工作和生活中不可或缺的通讯工具。与此同时，电子邮件带来的问题也逐渐显现，其中以钓鱼邮件危害最大。

网络钓鱼一般通过伪装成权威的组织(例如：银行、政府、电子支付网站、购物网站等)来骗取诸如用户名、密码、银行卡信息等用户的敏感信息。而钓鱼邮件是以电子邮件为媒介，冒充权威组织或个人给用户发送电子邮件，引导用户进入钓鱼者伪造的网站进行相应的操作从而盗取用户的信息，或利用社交工程的方法引导用户回复给钓鱼者想要得到的内容(例如：服务器管理员账号和密码)。钓鱼邮件是一种持续性很强的威胁，其数量逐年增多，并且其造成的财产损失也在逐年攀升。

在现有技术中，通常可以采用如下两种方式对钓鱼邮件进行检测：

第一种方式，人工对钓鱼邮件进行识别，该方法虽然准确率较高，但人工标记钓鱼邮件效率低、耗时长，并且人工标记的速度往往跟不上新增邮件的速度。

第二种方式，计算机识别，该方法也可以分为基于邮件中超链接的钓鱼邮件检测和基于邮件文本特征的钓鱼邮件检测。

(1)基于邮件中超链接的钓鱼邮件检测方法，首先提取出邮件中的超链接，然后将超链接与黑名单和白名单进行比对，或通过钓鱼网站识别技术判断超链接是否指向一个钓鱼网站，从而判断一封邮件是否为钓鱼邮件。

然而，上述的黑名单和白名单不能包含所有的超链接地址，所以误报率相对较高。而钓鱼网站识别技术则需要进行超链接相似度比对、网站相似度比对、网址类型、注册信息、DNS解析、网站中的超链接分析等一系列操作，非常耗时，耗费系统资源。

(2)基于邮件文本特征的钓鱼邮件检测方法，这种方法相对于上述基于超链接的钓鱼邮件检测方法更省时，但其只考虑邮件的文本特征，使得钓鱼邮件的检测不够准确。

发明内容

鉴于上述问题，本发明提出了一种邮件检测的方法及装置，能够满足结合了邮件的各个组成部分提取多样化的关键特征，从而提高钓鱼邮件检测的准确率。

第一方面，本发明实施例中提供了一种邮件检测的方法，所述方法包括：

从接收到的待测邮件中提取邮件头部分以及邮件正文部分；

对所述待测邮件进行特征提取，获得所述待测邮件的关键特征，其中，所述关键特征包括从待测邮件的邮件头部分提取的邮件结构特征以及语义特征，以及，从邮件正文部分提取的文本特征、链接特征以及脚本特征；

基于所述待测邮件的关键特征，确定所述待测邮件为钓鱼邮件的概率。

在一个可能的设计中，所述邮件头部分包括邮件结构信息，所述邮件结构特征从所述邮件结构信息中提取；

所述邮件结构特征包括如下特征的至少一种：

待测邮件是否为包含多个分段的混合结构类型；

所述邮件结构信息中包含的分段的个数；

所述邮件结构信息中是否包含超链接的分段；

所述邮件结构信息中是否包含表单的分段。

在一个可能的设计中，所述邮件头部分包括主题信息，所述语义特征从所述主题信息中提取；

所述语义特征包括如下特征：

所述主题信息中存在的一种或多种第一预定义词汇的数量。

在一个可能的设计中，所述第一预定义词汇包括如下类型的词汇的至少一种：

预设的危险词汇，所述危险词汇为引起用户执行与登录账号相关的操作的词汇；

预设的可疑词汇，所述可疑词汇为引起用户注意的词汇；

回复；

转发。

在一个可能的设计中，所述邮件正文部分包括正文显示的文本信息，所述文本特征从所述正文显示的文本信息内容中提取；

所述文本特征包括如下特征：

所述正文显示的文本信息中存在的一种或多种第二预定义词汇的数量。

在一个可能的设计中，所述第二预定义词汇包括如下类型的词汇的至少一种：

给用户造成危机感的词汇；

引导用户执行指定操作的词汇；

特定称呼的词汇。

在一个可能的设计中，所述邮件正文部分包括邮件中存在的URL地址，所述链接特征从所述URL地址中提取；

所述链接特征包括如下特征的至少一种：

邮件正文中存在的URL地址的总数量；

邮件正文中不同URL的数量，和/或，存在的重复的URL地址的数量与所述总数量的比例；

所述URL地址中是否存在特定字符和/或特定关键字；

所述URL地址是否与跳转后得到的地址一致；

所述URL地址是否为IP地址，和/或，URL地址为IP地址的数量；

邮件正文中是否存在多个域名和/或邮件正文中出现的域名的数量；

一个URL地址中是否存在多个域；

URL地址的域名部分中“.”字符的数量；

URL地址是否包含非预设端口信息，和/或，所述URL地址中包含端口信息的数量。

在一个可能的设计中，所述邮件正文部分包括邮件脚本信息，所述脚本特征从所述邮件脚本信息中提取；

所述脚本特征包括如下特征的至少一种：

邮件正文部分是否包含脚本信息；

邮件正文部分是否包含指定脚本函数和/或脚本属性。

在一个可能的设计中，所述基于所述待测邮件的关键特征，确定所述待测邮件为钓鱼邮件的概率的步骤包括：

将所述待测邮件的关键特征输入预设的分类模型，由所述分类模型输出所述待测邮件为钓鱼邮件的概率。

在一个可能的设计中，在所述从接收到的待测邮件中提取邮件头部分以及邮件正文部分的步骤之前，还包括：

创建分类模型，包括：

采集多个邮件样本；

针对每个邮件样本，分别获取对应的样本关键特征；

将所述多个邮件样本的样本关键特征组织成特征矩阵；

分别确定所述邮件样本的邮件类型；

基于所述特征矩阵以及所述邮件样本的邮件类型采用预设的训练算法进行训练，得到分类模型。

在一个可能的设计中，还包括：

基于所述概率判断所述待测邮件是否为钓鱼邮件；

按照预设处理策略对所述钓鱼邮件进行处理。

第二方面，本发明实施例中提供了一种邮件检测的装置，所述装置包括：

邮件内容提取模块，适于从接收到的待测邮件中提取邮件头部分以及邮件正文部分；

特征提取模块，适于对所述待测邮件进行特征提取，获得所述待测邮件的关键特征，其中，所述关键特征包括从待测邮件的邮件头部分提取的邮件结构特征以及语义特征，以及，从邮件正文部分提取的文本特征、链接特征以及脚本特征；

概率确定模块，适于基于所述待测邮件的关键特征，确定所述待测邮件为钓鱼邮件的概率。

所述邮件结构特征包括如下特征的至少一种：

待测邮件是否为包含多个分段的混合结构类型；

所述邮件结构信息中包含的分段的个数；

所述邮件结构信息中是否包含超链接的分段；

所述邮件结构信息中是否包含表单的分段。

所述语义特征包括如下特征：

所述主题信息中存在的一种或多种第一预定义词汇的数量。

预设的可疑词汇，所述可疑词汇为引起用户注意的词汇；

回复；

转发。

所述文本特征包括如下特征：

给用户造成危机感的词汇；

引导用户执行指定操作的词汇；

特定称呼的词汇。

所述链接特征包括如下特征的至少一种：

邮件正文中存在的URL地址的总数量；

所述URL地址中是否存在特定字符和/或特定关键字；

所述URL地址是否与跳转后得到的地址一致；

所述URL地址是否为IP地址，和/或，URL地址为IP地址的数量；

一个URL地址中是否存在多个域；

URL地址的域名部分中“.”字符的数量；

所述脚本特征包括如下特征的至少一种：

邮件正文部分是否包含脚本信息；

邮件正文部分是否包含指定脚本函数和/或脚本属性。

在一个可能的设计中，所述概率确定模块包括：

特征输入子模块，适于将所述待测邮件的关键特征输入预设的分类模型，由所述分类模型输出所述待测邮件为钓鱼邮件的概率。

在一个可能的设计中，还包括：

模型创建模块，适于创建分类模型，包括：

样本采集子模块，适于采集多个邮件样本；

样本特征提取子模块，适于针对每个邮件样本，分别获取对应的样本关键特征；

特征矩阵组织子模块，适于将所述多个邮件样本的样本关键特征组织成特征矩阵；

邮件类型确定子模块，适于分别确定所述邮件样本的邮件类型；

模型训练子模块，适于基于所述特征矩阵以及所述邮件样本的邮件类型采用预设的训练算法进行训练，得到分类模型。

在一个可能的设计中，还包括：

钓鱼邮件判断模块，适于基于所述概率判断所述待测邮件是否为钓鱼邮件；

钓鱼邮件处理模块，适于按照预设处理策略对所述钓鱼邮件进行处理。

相对于现有技术，本发明实施例对邮件的特征提取结合了邮件的各个组成部分(邮件头部分、邮件正文部分以及两者关联)，提取的关键特征可以包括从待测邮件的邮件头部分提取的邮件结构特征以及语义特征，以及，从邮件正文部分提取的文本特征、链接特征以及脚本特征，提高了邮件特征提取的多样性，并且这些关键特征能够更好的表示一封钓鱼邮件，从而利于钓鱼邮件的检测，提高钓鱼邮件检测的准确率，而且耗时少，节省资源。

本发明的这些方面或其他方面在以下实施例的描述中会更加简明易懂。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了根据本发明一个实施例的一种邮件检测的方法实施例的步骤流程图；

图2示出了根据本发明一个实施例的一种邮件检测的装置实施例的结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

在本发明的说明书和权利要求书及上述附图中的描述的一些流程中，包含了按照特定顺序出现的多个操作，但是应该清楚了解，这些操作可以不按照其在本文中出现的顺序来执行或并行执行，操作的序号如101、102等，仅仅是用于区分开各个不同的操作，序号本身不代表任何的执行顺序。另外，这些流程可以包括更多或更少的操作，并且这些操作可以按顺序执行或并行执行。需要说明的是，本文中的“第一”、“第二”等描述，是用于区分不同的消息、设备、模块等，不代表先后顺序，也不限定“第一”和“第二”是不同的类型。

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参照图1，示出了根据本发明一个实施例的一种邮件检测的方法实施例的步骤流程图，可以包括如下步骤：

步骤101，从接收到的待测邮件中提取邮件头部分以及邮件正文部分；

本发明实施例可以应用于邮件服务器端，当邮件服务器端接收到待测邮件以后，可以从待测邮件中提取邮件头部分(head)以及邮件正文部分(body)。

在具体实现中，可以采用MIME(Multipurpose Internet Mail Extensions，多用途互联网邮件扩展)标准对待测邮件进行解析，将待测邮件分为邮件头部分以及邮件正文部分。其中，MIME是互联网电子邮件普遍遵循的邮件技术规范，在MIME的支持下，图像、声音、动画等二进制文件都可方便的通过电子邮件来进行传递，极大地丰富了电子邮件的功能。MIME协议要求邮件的发送端和接收端必须有解读MIME协议的电子邮件程序，通过对MIME邮件格式的分析，可以实现对MIME邮件所含信息的读取。

MIME邮件规范中定义了大量域，分别用来存储与邮件相关的各种信息，如基本信息、格式信息、编码方式等重要内容。

域的基本格式是{域名}：{内容}。即，域由域名后面跟“：”再加上域的信息内容构成，一条域在邮件中占一行或者多行，域的首行左侧不能有空白字符，比如空格或者制表符，占用多行的域其后续行则必须以空白字符开头。域的信息内容中还可以包含属性，属性之间以“；”分隔，属性的格式如下：{属性名称}＝”{属性值}”。

作为本发明实施例的一种优选示例，邮件头部分可以包括但不限于如下域：发件人(from)、收件人(to)、主题信息(subject)、时间戳(date)、邮件唯一标识(Message-ID)、邮件结构信息(Content-Type)、内容传输编码方式(Content-Transfer-Encoding)、字符集(charset)、回复邮箱地址(reply-to，可缺省)、references(可缺省)，等等。

from域、to域以及subject域是一封邮件的基本组成信息，分别表示邮件的作者、收件地址以及邮件的主题。

date域表示建立邮件的时间。

Message-ID域用于对邮件进行标识。

Content-Type域定义了邮件中所含各种内容的类型以及相关属性。邮件所含的文本、超文本、附件等信息都按照对应Content-Type域所指定的媒体类型、存储位置、编码方式等信息存储在邮件中。

Content-Type域基本格式：Content-Type：{主类型}/{子类型}。

下表1中示出了MIME邮件中常见的主类型：

主类型	常见属性	参数含义
			Text(文本)	charset	文本信息所使用的字符集
Image(图像)	name	图像的名称
			Application(应用程序)	name	应用程序的名称
Multipart(分段)	boundary	邮件分段边界标识

表1

其中，针对Multipart类型，详述如下：

MIME邮件中各种不同类型的内容是分段存储的，各个段的排列方式、位置信息都通过Content-Type域的multipart类型来定义。multipart类型主要有三种子类型：mixed、alternative、related。

multipart/mixed类型：如果一封邮件中含有附件，那邮件的Content-Type域中需定义multipart/mixed类型，邮件通过multipart/mixed类型中定义的boundary标识将附件内容同邮件其它内容分成不同的段。

multipart/mixed类型的基本格式如下：

Content-Type：multipart/mixed；

boundary＝"{分段标识}"

multipart/alternative类型：MIME邮件可以传送超文本内容，但出于兼容性的考虑，一般在发送超文本格式内容的同时会同时发送一个纯文本内容的副本，如果邮件中同时存在纯文本和超文本内容，则邮件需要在Content-Type域中定义multipart/alternative类型，邮件通过其boundary中的分段标识将纯文本、超文本和邮件的其它内容分成不同的段。

multipart/alternative类型的基本格式如下：

Content-Type：multipart/alternative；

boundary＝"{分段标识}"

multipart/related类型：MIME邮件中除了可以携带各种附件外，还可以将其它内容以内嵌资源的方式存储在邮件中。比如在发送html格式的邮件内容时，可能使用图像作为html的背景，html文本会被存储在alternative段中，而作为背景的图像则会存储在multipart/related类型定义的段中。

multipart/related类型的基本格式如下：

Content-Type：multipart/related；

type＝"multipart/alternative"；

boundary＝"{分段标识}"

multipart的子类型中都定义了各自的boundary属性，邮件使用这些boundary中定义的字符串作为标识，将邮件内容分成不同的段，段体内的每个子段以“--”+boundary行开始，父段则以“--”+boundary+“--”行结束，不同段之间用空行分隔。

MIME邮件通过多个Content-Type域的multipart类型将内容分成不同的段，这些段在邮件中不是线形顺序排列的，而是存在一个互相包含的层次关系，multipart子类型之间的层次关系结构如下表2所示。

表2

Content-Transfer-Encoding域：MIME邮件可以传送图像、声音、视频以及附件，这些非ASCII码的数据都是通过一定的编码规则进行转换后附着在邮件中进行传递的。编码方式存储在邮件的Content-Transfer-Encoding域中，一封邮件中可能有多个Content-Transfer-Encoding域，分别对应邮件不同部分内容的编码方式。

MIME邮件中的数据编码可以包括Base64、Quoted-printable、7bit、8bit、binary等，而Base64编码或Quoted-printable编码较为常用。

其中，Base64编码的目的是将输入的数据全部转换成由64个指定ASCII字符组成的字符序列，这64个字符由{'A'-'Z'，'a'-'z'，'0'-'9'，'+'，'/'}构成。编码时将需要转换的数据每次取出6bit，然后将其转换成十进制数字，这个数字的范围最小为0，最大为63，然后查询{'A'-'Z'，'a'-'z'，'0'-'9'，'+'，'/'}构成的字典表，输出对应位置的ASCII码字符，这样每3个字节的数据内容会被转换成4个字典中的ASCII码字符，当转换到数据末尾不足3个字节时，则用“＝”来填充。

Quoted-printable编码的目的也是将输入的信息转换成可打印的ASCII码字符，但它是根据信息的内容来决定是否进行编码，如果读入的字节处于33-60、62-126范围内的，这些都是可直接打印的ASCII字符，则直接输出，如果不是，则将该字节分为两个4bit，每个用一个16进制数字来表示，然后在前面加“＝”，这样每个需要编码的字节会被转换成三个字符来表示。

charset是指邮件中各个段经Content-Transfer-Encoding解码后所显示的内容的编码类型，常见的编码有ASCII、Unicode、GBK、GB2312等，其作用是指定要显示的内容的编码格式，只有按照指定的编码格式打开内容才能显示正确的内容，使用错误的编码格式打开则会有乱码等情况发生。

references域中记录这封邮件之前被转发或者回复的邮件的唯一标识message-id，例如，邮件头中References中有5个值，其代表这封邮件之前有过5封转发或者回复的邮件，而该封邮件是在那几封邮件之后发送的，用于转发或者回复他人。References字段存在并且不为空的话则代表这封邮件之前就存在交互过程。

作为本发明实施例的一种优选示例，邮件正文部分可以包括但不限于如下信息：正文显示的文本信息(plain)、邮件脚本信息(script)、URL地址、邮件中存在的图片(img)、邮件的附件，等等。

在具体实现中，根据邮件头部分可以解析邮件正文部分，具体的，首先，可以根据multipart子类型之间的层次关系结构及各个boundary可以将邮件分为各个段，每个段中均会指明其Content-Type、charset及Content-Transfer-Encoding。根据Content-Type可以知道这个部分中存储的是什么类型的内容(multipart、text或者其他)。当类型为multipart时，说明仍有子类型，可以进一步展开。而类型为text时，其子类型可以为plain纯文本正文、html超文本正文，即text/plain、text/html，此为邮件的正文要显示的内容。此时可以根据Content-Type、charset、Content-Transfer-Encoding对内容进行解析：当Content-Type为text/plain时，根据Content-Transfer-Encoding解码出邮件文本内容，而后再根据charset解码出真正显示的内容(不解码可能显示乱码)；当Content-Type为text/html时，根据Content-Transfer-Encoding解码出邮件中的超正文文本html的内容，之后再根据charset解码html的内容，最后对html进行解析，抽取出正文显示的文本内容(同时也获得了邮件脚本信息、邮件中存在的超链接地址、邮件中存在的图片及其链接等信息)。

步骤102，对所述待测邮件进行特征提取，获得所述待测邮件的关键特征；

在具体实现中，可以通过正则表达式来匹配指定的域，然后从匹配结果中取出相关信息作为关键特征。

在实际中，关键特征可以包括真假型特征和计数型特征两类。真假型特征主要指的是邮件是否包含这些特征，如果包含则特征值为1，否则为0。计数型特征主要是用于该种特征在邮件出现的次数。

作为本发明实施例的一种优选示例，关键特征可以包括从待测邮件的邮件头部分提取的邮件结构特征以及语义特征，以及，从邮件正文部分提取的文本特征、链接特征以及脚本特征。

在一种实施方式中，邮件结构特征可以从邮件头部分的邮件结构信息(Content-Type域)中提取。

具体的，根据MIME标准，一封邮件可以由多个信息体部分(html、form表单、img等等)构成，并且这些部分可以是不同的，即Multipart。基于邮件的这种特性，钓鱼者通常运用复杂的邮件结构来构建一封看起更正式的钓鱼邮件，因此，本发明实施例可以对Content-Type域进行解析，得到邮件的邮件结构特征。

作为本发明实施例的一种优选示例，邮件结构特征可以包括如下特征的至少一种：

(1)待测邮件是否为包含多个分段的混合结构类型；

具体的，多个分段的混合结构类型即Multipart类型，如果待测邮件是Multipart类型则特征值为1，否则特征值为0。

(2)所述邮件结构信息中包含的分段的个数；

具体的，可以计算待测邮件中Multipart的个数，个数越多，邮件结构越复杂，越容易将钓鱼邮件伪装成正常邮件。

(3)所述邮件结构信息中是否包含超链接的分段；

具体的，由于html格式的邮件包含超链接，有助于钓鱼者实施钓鱼。因此，可以判断待测邮件是否为html格式的邮件，如果待测邮件是html格式的邮件则特征值为1，否则特征值为0。

在具体实现中，可以通过判断Content-Type类型中是否存在text/html来判断待测邮件是否为html格式的邮件，若存在，则待测邮件为html格式的邮件，若不存在，则待测邮件不为html格式的邮件。

(4)所述邮件结构信息中是否包含表单的分段。

具体的，正常的邮件中不会存在表单form，如果出现表单，则该邮件可能是钓鱼邮件。因此，还可以判断待测邮件中是否存在表单，存在表单则特征值为1，否则特征值为0。

在一种实施方式中，语义特征可以从主题信息(subject域)中提取。

作为本发明实施例的一种优选示例，语义特征包括如下特征：

所述主题信息中存在的一种或多种第一预定义词汇的数量。

在具体实现中，第一预定义词汇可以存储在预置的第一词汇数据库中。

首先可以对主题信息进行分词处理，得到一个或多个分词，然后将该一个或多个分词在第一词汇数据库中进行匹配，若某一分词命中第一词汇数据库，则将计数加1，最后得到该主题信息中所有命中第一词汇数据库的词汇的数量。

作为一种示例，第一预定义词汇可以包括如下类型的词汇的至少一种：

1)预设的危险词汇；

在实际中，钓鱼邮件通常会在主题中包含一些关键词汇从而引起用户的执行某种操作，则危险词汇可以为引起用户执行与登录账号相关的操作的词汇。例如，危险词汇可以包括账号(account)、密码(password)、登录(login)、点击(click)等关键词。

例如，待测邮件的主题信息中存在账号(account)、密码(password)、登录(login)、点击(click)四种匹配上危险词汇的关键词，每种关键词出现的次数一次，则该主题信息中危险词汇出现的的数量为4。

2)预设的可疑词汇；

在实际中，钓鱼邮件通常会在主题中包含一些关键词汇从而引起用户的注意，则可疑词汇可以为引起用户注意的词汇。例如，可疑词汇可以包括激活(activate)、认证(confirm)、更新(renew、upgrade、update)、通知(notification)、重要(importance)等关键词。

3)回复，即主题信息中包含“回复(re:)”这一关键词的个数。

4)转发，即主题信息中包含“转发(fwd:/fw:)”这一关键词的个数。

在实际中，通常钓鱼邮件由钓鱼者发出，不会被转发或被回复，回复和/或转发这些关键词出现的个数越多，则该待测邮件是钓鱼邮件的概率越小。

需要说明的是，上述四种关键词可以预设在同一数据库，或分别设定数据库，本发明对此不作限定。

在一种实施方式中，文本特征可以从邮件正文部分的正文显示的文本信息(plain)中提取。

作为本发明实施例的一种优选示例，文本特征可以包括如下特征：

plain中存在的一种或多种第二预定义词汇的数量。

在具体实现中，第二预定义词汇可以存储在预置的第二词汇数据库中。

在具体实现中，可以基于正则表达式算法统计plain中存在的一种或多种第二预定义词汇的数量。

作为一种示例，第二预定义词汇可以包括如下类型的词汇的至少一种：

1)给用户造成危机感的词汇；

在具体实现中，钓鱼者为了引起用户的注意，通常会在邮件正文中添加一些能够给用户造成危机感或者有利可图的词汇，从而引导用户进入其钓鱼网址。例如，账号过期(outdated)、账号被锁定(limit)、账号需要更新(renew、upgrade、update)、账号返现及各种优惠活动等等给给用户造成危机感的词汇。

2)引导用户执行指定操作的词汇；

在实际中，钓鱼者在给用户造成危机感后，一般会引导用户进入其钓鱼网站或者让用户回复某些内容。例如，引导用户执行指定操作的词汇可以包括：点击(click)下边的链接查看**内容、通过以下链接登录(login)以解锁(unlock)/更新(renew、update)/升级(upgrade)/您的账号(account)、通过以下链接登录以修改(modify)/重置(reset)您的密码(password)、请回复(reply)**内容等等一系列带有引导性的词汇。

3)特定称呼的词汇。

例如，特定称呼的词汇可以包括尊敬的*(中国银行、支付宝…)*用户/客户/顾客/会员等等。

具体的，通常一个正式的组织或个人会在邮件正文开头处添加对用户的尊称，例如：尊敬的*(姓名)*先生/女士，亲爱的*(账户名/昵称/…)*等等。而钓鱼者一般不知道用户的真实姓名或账号名称，所以通常会利用比较广泛的称呼，例如：尊敬的*(中国银行、支付宝…)*用户/客户/顾客/会员等等。

如果邮件正文中存在特定称呼的词汇的词汇则特征值为1，否则特征值为0。

在一种实施方式中，链接特征可以基于正则表达式，从邮件正文部分的URL地址中提取。

作为一种示例，链接特征包括如下特征的至少一种：

(1)邮件正文中存在的URL地址的总数量；

在实现中，可以通过正则表达式获取邮件正文中存在的URL地址的总数量。

进一步的，还可以获取邮件正文中外部url的数量以及内部url的数量。

例如，就一封邮件而言，外部url的范畴是指当点击这个url时会跳转到某个网页的url。而内部url则不会跳转到某个网页，只会跳转到邮件中的某个位置，内部url会在url中存在内部标志位。

(2)邮件正文中不同URL的数量，和/或，存在的重复的URL地址的数量与所述总数量的比例；

在实现中，也可以通过正则表达式来获取邮件正文中不同URL的数量。

进一步地，一封正常的邮件不会经常出现重复的网络链接url，而钓鱼邮件为了增加用户进入其钓鱼网站的概率，通常会在邮件中多次出现其钓鱼网站地址。因此，还可以获取存在的重复的URL地址的数量与邮件正文中存在的URL地址的总数量的比例。

在实际中，还可以计算邮件正文中不同URL的数量与邮件正文中存在的URL地址的总数量的比例。

(3)所述URL地址中是否存在特定字符和/或特定关键字；

作为一种示例，特定字符可以包括但不限于如下字符的一种或多种：“@”字符、重定向“//”字符(不包括http://和https://中的“//”字符)。

例如，链接中的“@”字符可能用于链接跳转，则可以判断URL地址中是否存在“@”字符。存在则特征值为1，否则特征值为0。

又如，判断URL地址中是否存在重定向“//”字符(不包括http://和https://中的“//”字符字符)。例如：http://www.aaa.com//http://www.bbb.com，其实际跳转的url地址为http://www.bbb.com。若存在重定向“//”字符则特征值为1，否则特征值为0。

作为一种示例，特定关键字可以包括但不限于如下关键字的一种或多种：点击(click)、登录(login)、升级(upgrade)、重置(renew)、更新(update)等关键字。

若存在特定关键字则特征值为1，否则特征值为0。

(4)所述URL地址是否与跳转后得到的地址一致；

具体的，可以判断邮件中显示的url地址是否与真实的url地址符合。若符合则特征值为1，否则特征值为0。

例如：邮件中显示的链接为http://www.aaa.com，而实际跳转的链接为http://www.bbb.com，两者并不一致，因此特征值为0。

(5)所述URL地址是否为IP地址，和/或，URL地址为IP地址的数量；

在实际中，正规的网站通常会有一个域名，而不是简单只用IP地址作为其url地址。如果URL地址为IP地址则特征值为1，否则特征值为0。

进一步的，还可以统计邮件正文中url地址为IP地址的数量。

(6)邮件正文中是否存在多个域名和/或邮件正文中出现的域名的数量；

具体的，可以采用正则表达式获取邮件正文中出现的域名domain的数量。

进一步的，如果该域名的数量大于1，则表示邮件正文中出现多个域名，此时，将特征值为1，否则，特征值为0。

(7)一个URL地址中是否存在多个域。

在实际中，许多钓鱼者通常用存在多个域的URL地址伪装其钓鱼网站的地址，从而迷惑用户。则如果一个url地址中存在多个域，例如，http://www.aaa.com.bbb.com，该url地址中包含aaa.com和bbb.com两个域，则特征值为1，否则特征值为0。

(8)URL地址的域名部分中“.”字符的数量；

正常情况下的域名除了顶级域名(cn)和二级域名(com.cn)外，不会有太多的子域名，所以可以通过统计URL地址的域名部分的“.”字符的数量判断该URL地址是否为一个相对正规的地址。

例如，http://www.aaa.com.cn/ccc/和http://www.aaa.bbb.com.cn/ccc两个url地址，其域名部分分别为www.aaa.com.cn和www.aaa.bbb.com.cn，对应的“.”字符的数量分别为3和4。

进一步的，如果某个URL地址的域名部分的“.”字符的数量大于预设阈值，则可以判定该域名可能是钓鱼者伪装的地址。如果URL地址的域名部分的“.”字符的数量大于预设阈值，则特征值为1，否则特征值为0。

(9)URL地址是否包含非预设端口信息，和/或，所述URL地址中包含端口信息的数量。

通常情况下，一个正规的网站不会向用户暴露使用的端口信息，即使出现端口信息也是常用的端口(即预设端口信息)，如包含不常用的端口(即非预设端口信息)，则可能是钓鱼者私自搭建的端口服务。因此，如果URL地址包含非预设端口信息，则特征值为1，否则特征值为0。

进一步的，还可以计算URL地址中包含端口信息的数量，该端口信息可以包括预设端口信息以及非预设端口信息。

在一种实施方式中，脚本特征可以从邮件正文部分的邮件脚本信息(script)中提取。

在具体实现中，判定待测邮件是否含有脚本语言的时候，可以先将文本内容全都转化为英文小写，然后遍历邮件文本内容，看是否有相应的脚本标记。

作为本发明实施例的一种优选示例，脚本特征包括如下特征的至少一种：

(1)邮件正文部分是否包含脚本信息；

在具体实现中，一封正常的邮件一般不会包含script脚本，例如javascript。如果一封包含脚本，钓鱼者可以利用Script脚本进行其想进行的操作，很容易在邮件中使用js注入攻击，比如当打开邮件时或鼠标放在邮件的某个区域时，弹出某个钓鱼网站或进行相应的操作。

因此，可以检测邮件正文部分是否包含脚本信息，例如Script脚本，如果是则特征值为1，否则特征值为0。

(2)邮件正文部分是否包含指定脚本函数和/或脚本属性。

作为一种示例，指定脚本函数可以包括类似于onclick的函数、类似于window.open()的函数等。

具体的，用户如果点击了邮件中某些元素，onclick函数将进行相应的操作。因此，可以判断脚本信息中是否包含类似于onclick的函数，若是则特征值为1，否则特征值为0。

另外，脚本可以打开一个新的浏览器窗口或查找一个已命名的窗口，因此，可以判断脚本信息中是否包含类似于window.open()的函数，若是则特征值为1，否则特征值为0。

作为一种示例，脚本属性可以包括类似于window.status的属性，类似于window.status的属性可设置或返回窗口状态栏中的文本，其可以隐藏超链接真正目的的钓鱼攻击，因此，若判断脚本信息中包含类似于window.status的属性，则特征值为1，否则特征值为0。

需要说明的是，本发明实施例从待测邮件中提取的特征并不限于上述邮件结构特征、语义特征、文本特征、链接特征以及脚本特征等，还可以包括其他特征，例如，图片的相关特征，可以从邮件正文部分获取图片img的数量、网络图片的数量、内嵌图片的数量。

又如，可以判断待测邮件的发送人与回复邮件时的收件人是否一致，若是则特征值为1，否则特征值为0。如果reply-to域存在，并且from域与reply-to域不相同，则该邮件可能是一封有问题的邮件。

又如，判定邮件中的references域是否存在并不为空，若否则特征值为1，否则特征值为1。如果references字段存在并不为空，则说明邮件存在回复队列，而钓鱼邮件一般不存在回复队列。

步骤103，基于所述待测邮件的关键特征，确定所述待测邮件为钓鱼邮件的概率。

在本发明实施例的一种优选实施例中，步骤103具体可以为：

具体的，通过步骤102得到待测邮件的关键特征以后，可以得到该待测邮件的特征向量，随后，可以将该特征向量输入到预先生成的分类模型中，经过该分类模型的处理，可以输出该待测邮件为钓鱼邮件的概率，例如，某一待测邮件为钓鱼邮件的概率是0.953。

在一种实施方式中，除了可以得到待测邮件为钓鱼邮件的概率以外，还可以得到待测邮件为正常邮件的概率，例如，某一待测邮件为钓鱼邮件的概率是0.953，则其为正常邮件的概率为0.047。

在本发明实施例的一种优选实施例中，还可以包括如下步骤：

基于所述概率判断所述待测邮件是否为钓鱼邮件；按照预设处理策略对所述钓鱼邮件进行处理。

具体的，当得到待测邮件为钓鱼邮件的概率以后，可以按照预设规则根据该概率判定待测邮件是否为钓鱼邮件，例如，若待测邮件为钓鱼邮件的概率小于或等于某一概率阈值时(例如，0.5)，则该待测邮件为正常邮件，大于概率阈值时，则该待测邮件为钓鱼邮件。或者，待测邮件为钓鱼邮件的概率落入某个区间所限定的范围时，该邮件为钓鱼邮件，在某个区间所限定的范围以外时，则该邮件为正常邮件。或者，当得到待测邮件为钓鱼邮件的概率以后，将该概率加权后得到的值如果落入某个范围，则该邮件为钓鱼邮件，等等。本发明实施例对根据上述待测邮件为钓鱼邮件的概率判断待测邮件是否为钓鱼邮件的方式不作限定。

当然，也可以将上述根据上述根据待测邮件为钓鱼邮件的概率判断待测邮件是否为钓鱼邮件的判断方式内置在分类模型模型中，则分类模型输入的结果可以包括待测邮件为钓鱼邮件的概率、待测邮件为正常邮件的概率和/或待测邮件是否为钓鱼邮件等。

在实际中，在输出待测邮件是否为钓鱼邮件的结果时，这个结果可以用预设的标签表示，例如，如果待测邮件为正常邮件，可以用数值“1”表示，如果待测邮件为钓鱼邮件，可以用数值“0”表示。

在一种实施方式中，在获得待测邮件为钓鱼邮件的概率或确定待测邮件为钓鱼邮件以后，可以根据不同的需求采取不同的处理策略，例如：对钓鱼邮件进行删除，或隔离到特定的文件夹。

在另一种实施方式中，还可以根据概率值的不同制定不同的处理策略。

例如，设定待测邮件为钓鱼邮件的概率为pr，若pr>＝0.7，则对应的处理策略可以为隔离该邮件到特定文件夹；若0.5<pr<0.7，则对应的处理策略可以为提醒用户该邮件可能是钓鱼邮件；若pr<＝0.5，则对应的处理策略可以为待测邮件为正常邮件，不做处理。

在本发明实施例的一种优选实施例中，分类模型可以采用如下方式创建：

S1，采集多个邮件样本；

在具体实现中，服务器可以从网络中采集多个邮件文件，作为训练数据的样本数据。

S2，针对每个邮件样本，分别获取对应的样本关键特征；

针对每个邮件样本，可以分别获取其对应的样本关键特征。

作为一种示例，与上述关键特征类似，样本关键特征可以包括但不限于样本邮件结构特征、样本语义特征、样本文本特征、样本链接特征以及样本脚本特征等。

每个邮件样本的样本关键特征的获取方式可以参考步骤101以及步骤102中关于关键特征的获取方法，本发明实施例在此不再赘述。

S3，将所述多个邮件样本的样本关键特征组织成特征矩阵；

得到邮件样本的样本关键特征以后，可以将该样本关键特征表示为一个多维特征向量[f1,f2,…,fn]，其中，n为样本关键特征的数量，f1,f2,…,fn分别代表邮件样本的第一维样本关键特征，第二维样本关键特征和第n维样本关键特征。若有m封邮件样本，则可以构成m*n的特征矩阵A，形如：

其中，每一个行向量表示一封邮件n个特征，每一个列向量表示一个特

征在m封邮件中特征值。

在具体实现中，可根据实际需求，对特征矩阵中的列向量进行归一化或者保持列向量不变等处理。

S4，分别确定所述邮件样本的邮件类型；

得到特征矩阵以后，针对每封邮件样本，可以确定对应的邮件类型，该邮件类型可以用标签表示，例如，若确定邮件样本为钓鱼邮件则对应的标签为1，否则，若邮件样本为正常邮件则对应的标签为0。

在具体实现中，为了保证模型的正确性，每封邮件样本的邮件类型可以由人为进行确定，并填写相应的标签。

S5，基于所述特征矩阵以及所述邮件样本的邮件类型采用预设的训练算法进行训练，得到分类模型。

在具体实现中，得到特征矩阵以及每封邮件样本的邮件类型以后，可以将特征矩阵以及每封邮件样本的邮件类型输入到机器学习模型中采用预设的机器学习算法进行模型训练，最终得到能够识别钓鱼邮件的分类模型。

作为一种示例，对于机器学习算法的选择，可以包括bagging类的随机森林randomforest的算法、boosting类的xgboost算法等，这些算法相对于其他算法限制更少，并且能够有效的防止过拟合等现象的发生。

在实际中，得到分类模型以后，还可以按照预设的更新周期对分类模型进行更新。

其中，更新周期可以根据实际资源和业务需求设定，例如，可以设定一周或更长的时间作为更新周期。

在进行分类模型的更新时，可以在分类模型时添加新的训练数据，例如，新识别的钓鱼邮件(经判断一定是钓鱼邮件)，这样可以增加钓鱼邮件的形式，有助于模型的更新和准确率的提高。

需要说明的是，该分类模型可以部署在邮件服务器端，直接对邮件进行处理，从而在邮递给用户时直接采用相应的处理策略。

在本发明实施例中，对邮件的特征提取结合了邮件的各个组成部分(邮件头部分、邮件正文部分以及两者关联)，提取的关键特征可以包括从待测邮件的邮件头部分提取的邮件结构特征以及语义特征，以及，从邮件正文部分提取的文本特征、链接特征以及脚本特征，提高了邮件特征提取的多样性，并且这些关键特征能够更好的表示一封钓鱼邮件，从而利于钓鱼邮件的检测，提高钓鱼邮件检测的准确率，而且耗时少，节省资源。

参照图2，示出了根据本发明一个实施例的一种邮件检测的装置实施例的结构框图，具体可以包括如下模块：

邮件内容提取模块201，适于从接收到的待测邮件中提取邮件头部分以及邮件正文部分；

特征提取模块202，适于对所述待测邮件进行特征提取，获得所述待测邮件的关键特征，其中，所述关键特征包括从待测邮件的邮件头部分提取的邮件结构特征以及语义特征，以及，从邮件正文部分提取的文本特征、链接特征以及脚本特征；

概率确定模块203，适于基于所述待测邮件的关键特征，确定所述待测邮件为钓鱼邮件的概率。

在本发明实施例的一种优选实施例中，所述邮件头部分包括邮件结构信息，所述邮件结构特征从所述邮件结构信息中提取；

所述邮件结构特征包括如下特征的至少一种：

待测邮件是否为包含多个分段的混合结构类型；

所述邮件结构信息中包含的分段的个数；

所述邮件结构信息中是否包含超链接的分段；

所述邮件结构信息中是否包含表单的分段。

在本发明实施例的一种优选实施例中，所述邮件头部分包括主题信息，所述语义特征从所述主题信息中提取；

所述语义特征包括如下特征：

所述主题信息中存在的一种或多种第一预定义词汇的数量。

在本发明实施例的一种优选实施例中，所述第一预定义词汇包括如下类型的词汇的至少一种：

预设的可疑词汇，所述可疑词汇为引起用户注意的词汇；

回复；

转发。

在本发明实施例的一种优选实施例中，所述邮件正文部分包括正文显示的文本信息，所述文本特征从所述正文显示的文本信息内容中提取；

所述文本特征包括如下特征：

在本发明实施例的一种优选实施例中，所述第二预定义词汇包括如下类型的词汇的至少一种：

给用户造成危机感的词汇；

引导用户执行指定操作的词汇；

特定称呼的词汇。

在本发明实施例的一种优选实施例中，所述邮件正文部分包括邮件中存在的URL地址，所述链接特征从所述URL地址中提取；

所述链接特征包括如下特征的至少一种：

邮件正文中存在的URL地址的总数量；

所述URL地址中是否存在特定字符和/或特定关键字；

所述URL地址是否与跳转后得到的地址一致；

所述URL地址是否为IP地址，和/或，URL地址为IP地址的数量；

一个URL地址中是否存在多个域；

URL地址的域名部分中“.”字符的数量；

在本发明实施例的一种优选实施例中，所述邮件正文部分包括邮件脚本信息，所述脚本特征从所述邮件脚本信息中提取；

所述脚本特征包括如下特征的至少一种：

邮件正文部分是否包含脚本信息；

邮件正文部分是否包含指定脚本函数和/或脚本属性。

在本发明实施例的一种优选实施例中，所述概率确定模块203可以包括如下子模块：

在本发明实施例的一种优选实施例中，所述装置还包括：

模型创建模块，适于创建分类模型，包括：

样本采集子模块，适于采集多个邮件样本；

在本发明实施例的一种优选实施例中，所述装置还包括：

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取存储器(RAM，RandomAccess Memory)、磁盘或光盘等。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上对本发明所提供的一种邮件检测的方法及装置进行了详细介绍，对于本领域的一般技术人员，依据本发明实施例的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

本发明公开了A1、一种邮件检测的方法，所述方法包括：

从接收到的待测邮件中提取邮件头部分以及邮件正文部分；

A2、如A1所述的方法，所述邮件头部分包括邮件结构信息，所述邮件结构特征从所述邮件结构信息中提取；

所述邮件结构特征包括如下特征的至少一种：

待测邮件是否为包含多个分段的混合结构类型；

所述邮件结构信息中包含的分段的个数；

所述邮件结构信息中是否包含超链接的分段；

所述邮件结构信息中是否包含表单的分段。

A3、如A1所述的方法，所述邮件头部分包括主题信息，所述语义特征从所述主题信息中提取；

所述语义特征包括如下特征：

所述主题信息中存在的一种或多种第一预定义词汇的数量。

A4、如A3所述的方法，所述第一预定义词汇包括如下类型的词汇的至少一种：

预设的可疑词汇，所述可疑词汇为引起用户注意的词汇；

回复；

转发。

A5、如A1所述的方法，所述邮件正文部分包括正文显示的文本信息，所述文本特征从所述正文显示的文本信息内容中提取；

所述文本特征包括如下特征：

A6、如A5所述的方法，所述第二预定义词汇包括如下类型的词汇的至少一种：

给用户造成危机感的词汇；

引导用户执行指定操作的词汇；

特定称呼的词汇。

A7、如A1所述的方法，所述邮件正文部分包括邮件中存在的URL地址，所述链接特征从所述URL地址中提取；

所述链接特征包括如下特征的至少一种：

邮件正文中存在的URL地址的总数量；

所述URL地址中是否存在特定字符和/或特定关键字；

所述URL地址是否与跳转后得到的地址一致；

所述URL地址是否为IP地址，和/或，URL地址为IP地址的数量；

一个URL地址中是否存在多个域；

URL地址的域名部分中“.”字符的数量；

A8、如A1所述的方法，所述邮件正文部分包括邮件脚本信息，所述脚本特征从所述邮件脚本信息中提取；

所述脚本特征包括如下特征的至少一种：

邮件正文部分是否包含脚本信息；

邮件正文部分是否包含指定脚本函数和/或脚本属性。

A9、根据A1-A8任一项所述的方法，所述基于所述待测邮件的关键特征，确定所述待测邮件为钓鱼邮件的概率的步骤包括：

A10、根据A9所述的方法，在所述从接收到的待测邮件中提取邮件头部分以及邮件正文部分的步骤之前，还包括：

创建分类模型，包括：

采集多个邮件样本；

针对每个邮件样本，分别获取对应的样本关键特征；

将所述多个邮件样本的样本关键特征组织成特征矩阵；

分别确定所述邮件样本的邮件类型；

A11、根据A1所述的方法，还包括：

基于所述概率判断所述待测邮件是否为钓鱼邮件；

按照预设处理策略对所述钓鱼邮件进行处理。

本发明还公开了B12、一种邮件检测的装置，所述装置包括：

B13、如B12所述的装置，所述邮件头部分包括邮件结构信息，所述邮件结构特征从所述邮件结构信息中提取；

所述邮件结构特征包括如下特征的至少一种：

待测邮件是否为包含多个分段的混合结构类型；

所述邮件结构信息中包含的分段的个数；

所述邮件结构信息中是否包含超链接的分段；

所述邮件结构信息中是否包含表单的分段。

B14、如B12所述的装置，所述邮件头部分包括主题信息，所述语义特征从所述主题信息中提取；

所述语义特征包括如下特征：

所述主题信息中存在的一种或多种第一预定义词汇的数量。

B15、如B14所述的装置，所述第一预定义词汇包括如下类型的词汇的至少一种：

预设的可疑词汇，所述可疑词汇为引起用户注意的词汇；

回复；

转发。

B16、如B12所述的装置，所述邮件正文部分包括正文显示的文本信息，所述文本特征从所述正文显示的文本信息内容中提取；

所述文本特征包括如下特征：

B17、如B16所述的装置，所述第二预定义词汇包括如下类型的词汇的至少一种：

给用户造成危机感的词汇；

引导用户执行指定操作的词汇；

特定称呼的词汇。

B18、如B12所述的装置，所述邮件正文部分包括邮件中存在的URL地址，所述链接特征从所述URL地址中提取；

所述链接特征包括如下特征的至少一种：

邮件正文中存在的URL地址的总数量；

所述URL地址中是否存在特定字符和/或特定关键字；

所述URL地址是否与跳转后得到的地址一致；

所述URL地址是否为IP地址，和/或，URL地址为IP地址的数量；

一个URL地址中是否存在多个域；

URL地址的域名部分中“.”字符的数量；

B19、如B12所述的装置，所述邮件正文部分包括邮件脚本信息，所述脚本特征从所述邮件脚本信息中提取；

所述脚本特征包括如下特征的至少一种：

邮件正文部分是否包含脚本信息；

邮件正文部分是否包含指定脚本函数和/或脚本属性。

B20、根据B12-B19任一项所述的装置，所述概率确定模块包括：

B21、根据B20所述的装置，还包括：

模型创建模块，适于创建分类模型，包括：

样本采集子模块，适于采集多个邮件样本；

B22、根据B12所述的装置，还包括：

Claims

1.一种邮件检测的方法，其特征在于，所述方法包括：

从接收到的待测邮件中提取邮件头部分以及邮件正文部分；

基于所述待测邮件的关键特征，确定所述待测邮件为钓鱼邮件的概率；

所述邮件头部分包括邮件结构信息，所述邮件结构特征从所述邮件结构信息中提取；

所述邮件结构特征包括如下特征的至少一种：

待测邮件是否为包含多个分段的混合结构类型；

所述邮件结构信息中包含的分段的个数；

所述邮件结构信息中是否包含表单的分段；

所述基于所述待测邮件的关键特征，确定所述待测邮件为钓鱼邮件的概率包括：

若所述待测邮件为包含多个分段的混合结构类型，则增加所述待测邮件为钓鱼邮件的概率；

若所述邮件结构信息中包含的分段的个数大于预设值，则增加所述待测邮件为钓鱼邮件的概率；

若所述邮件结构信息中包含表单的分段，则增加所述待测邮件为钓鱼邮件的概率。

2.如权利要求1所述的方法，所述邮件头部分包括邮件结构信息，所述邮件结构特征从所述邮件结构信息中提取；

所述邮件结构特征还包括如下特征：

所述邮件结构信息中是否包含超链接的分段。

3.如权利要求1所述的方法，所述邮件头部分包括主题信息，所述语义特征从所述主题信息中提取；

所述语义特征包括如下特征：

所述主题信息中存在的一种或多种第一预定义词汇的数量。

4.如权利要求3所述的方法，所述第一预定义词汇包括如下类型的词汇的至少一种：

预设的可疑词汇，所述可疑词汇为引起用户注意的词汇；

回复；

转发。

5.如权利要求1所述的方法，所述邮件正文部分包括正文显示的文本信息，所述文本特征从所述正文显示的文本信息内容中提取；

所述文本特征包括如下特征：

6.如权利要求5所述的方法，所述第二预定义词汇包括如下类型的词汇的至少一种：

给用户造成危机感的词汇；

引导用户执行指定操作的词汇；

特定称呼的词汇。

7.如权利要求1所述的方法，所述邮件正文部分包括邮件中存在的URL地址，所述链接特征从所述URL地址中提取；

所述链接特征包括如下特征的至少一种：

邮件正文中存在的URL地址的总数量；

所述URL地址中是否存在特定字符和/或特定关键字；

所述URL地址是否与跳转后得到的地址一致；

所述URL地址是否为IP地址，和/或，URL地址为IP地址的数量；

一个URL地址中是否存在多个域；

URL地址的域名部分中“.”字符的数量；

8.如权利要求1所述的方法，所述邮件正文部分包括邮件脚本信息，所述脚本特征从所述邮件脚本信息中提取；

所述脚本特征包括如下特征的至少一种：

邮件正文部分是否包含脚本信息；

邮件正文部分是否包含指定脚本函数和/或脚本属性。

9.根据权利要求1-8任一项所述的方法，所述基于所述待测邮件的关键特征，确定所述待测邮件为钓鱼邮件的概率的步骤包括：

10.根据权利要求9所述的方法，在所述从接收到的待测邮件中提取邮件头部分以及邮件正文部分的步骤之前，还包括：

创建分类模型，包括：

采集多个邮件样本；

针对每个邮件样本，分别获取对应的样本关键特征；

将所述多个邮件样本的样本关键特征组织成特征矩阵；

分别确定所述邮件样本的邮件类型；

11.根据权利要求1所述的方法，还包括：

基于所述概率判断所述待测邮件是否为钓鱼邮件；

按照预设处理策略对所述钓鱼邮件进行处理。

12.一种邮件检测的装置，其特征在于，所述装置包括：

概率确定模块，适于基于所述待测邮件的关键特征，确定所述待测邮件为钓鱼邮件的概率；

所述邮件结构特征包括如下特征的至少一种：

待测邮件是否为包含多个分段的混合结构类型；

所述邮件结构信息中包含的分段的个数；

所述邮件结构信息中是否包含表单的分段；

所述概率确定模块具体用于：

13.如权利要求12所述的装置，所述邮件头部分包括邮件结构信息，所述邮件结构特征从所述邮件结构信息中提取；

所述邮件结构特征还包括如下特征：

所述邮件结构信息中是否包含超链接的分段。

14.如权利要求12所述的装置，所述邮件头部分包括主题信息，所述语义特征从所述主题信息中提取；

所述语义特征包括如下特征：

所述主题信息中存在的一种或多种第一预定义词汇的数量。

15.如权利要求14所述的装置，所述第一预定义词汇包括如下类型的词汇的至少一种：

预设的可疑词汇，所述可疑词汇为引起用户注意的词汇；

回复；

转发。

16.如权利要求12所述的装置，所述邮件正文部分包括正文显示的文本信息，所述文本特征从所述正文显示的文本信息内容中提取；

所述文本特征包括如下特征：

17.如权利要求16所述的装置，所述第二预定义词汇包括如下类型的词汇的至少一种：

给用户造成危机感的词汇；

引导用户执行指定操作的词汇；

特定称呼的词汇。

18.如权利要求12所述的装置，所述邮件正文部分包括邮件中存在的URL地址，所述链接特征从所述URL地址中提取；

所述链接特征包括如下特征的至少一种：

邮件正文中存在的URL地址的总数量；

所述URL地址中是否存在特定字符和/或特定关键字；

所述URL地址是否与跳转后得到的地址一致；

所述URL地址是否为IP地址，和/或，URL地址为IP地址的数量；

一个URL地址中是否存在多个域；

URL地址的域名部分中“.”字符的数量；

19.如权利要求12所述的装置，所述邮件正文部分包括邮件脚本信息，所述脚本特征从所述邮件脚本信息中提取；

所述脚本特征包括如下特征的至少一种：

邮件正文部分是否包含脚本信息；

邮件正文部分是否包含指定脚本函数和/或脚本属性。

20.根据权利要求12-19任一项所述的装置，所述概率确定模块包括：

21.根据权利要求20所述的装置，还包括：

模型创建模块，适于创建分类模型，包括：

样本采集子模块，适于采集多个邮件样本；

22.根据权利要求12所述的装置，还包括：