CN102098235A

CN102098235A - 一种基于文本特征分析的钓鱼邮件检测方法

Info

Publication number: CN102098235A
Application number: CN2011100208966A
Authority: CN
Inventors: 张卫丰; 彭寅; 张迎周; 周国强; 陆柳敏; 许碧欢
Original assignee: Nanjing Post and Telecommunication University
Current assignee: Nanjing Post and Telecommunication University; Nanjing University of Posts and Telecommunications
Priority date: 2011-01-18
Filing date: 2011-01-18
Publication date: 2011-06-15
Anticipated expiration: 2031-01-18
Also published as: CN102098235B

Abstract

基于文本特征分析的钓鱼邮件检测方法，去除掉邮件中的非文本内容；利用了邮件解析器对邮件进行解析；利用了正则表达式算法提取了邮件中的网站链接；再次利用正则表达式算法提取了链接中的相关特征；利用域名注册检索引擎，得到了网站注册时间特征。运用这些所提取的文本特征，组成邮件的特征向量。通过实验，证明能够提高钓鱼邮件的精度和召回率，并节省程序运行的时间和开销。本发明从以往的这些文本特征中进行了筛选，将效果比较好的几个特征挑选出来，并结合钓鱼邮件的特点和现有的研究基础提出几种新的针对钓鱼邮件检测的文本特征。使用本发明对可疑邮件进行检测。

Description

一种基于文本特征分析的钓鱼邮件检测方法

技术领域

本发明涉及一种钓鱼邮件检测的方法，主要从邮件文本特征分析的角度对钓鱼邮件进行判断和识别，属于信息安全领域。

背景技术

随着网络普及和在线交易的增加，“网络钓鱼”行为变得异常猖獗。“钓鱼网站”是指犯罪分子做出的诈骗网站，通常与银行网站或其他知名网站几乎完全相同，从而引诱网站使用者在“钓鱼网站”上提交出敏感信息(如：用户名、口令、帐号或信用卡详细信息等)[1]。而电子邮件就成为这些犯罪分子散布这些“钓鱼网站”的最佳途径，这就导致了钓鱼邮件数量急剧膨胀。

网络钓鱼结构体系如图1所示，攻击的过程：首先向用户发送一封类似来自正规网站的钓鱼邮件，并引诱用户点击邮件中所含有的链接(通常使用如用户网银账号异常需要验证账号密码或者购物网站有特大优惠等理由)，从而将用户骗到一个通过精心设计与目标组织的网站非常相似的钓鱼网站上来，然后获取用户在该钓鱼网站上输入的个人敏感信息，例如银行帐号、银行密码等。通常在整个攻击过程，受害者不会有任何被骗的感觉。这些敏感信息对钓鱼网站持有者具有非常大的吸引力，通过使用窃取到的个人信息，他们可以将受害人的网银账号中的资金全部转走，或者假冒受害人进行金融欺诈，从而获得巨大的经济利益。这将使受害者们遭受到巨大的经济损失。因此，从“网络钓鱼”的源头——“钓鱼邮件”的检测着手，防范网络钓鱼，愈发的显示出其重要性和必要性。

当前的钓鱼邮件判别主要靠计算机自动识别和人工标记识别两种方式，人工标记识别，准确性可以得到保证，但是速度显然太慢了，也不适用于大量的数据处理工作[2]。计算机自动识别目前主要基于对邮件的文本特征和图片特征检测来判定是否为钓鱼邮件，计算机主要通过提取邮件的文本、图片特征，对这些特征进行分析或进行机器学习，从而判断是否为钓鱼邮件。

Fette针对邮件正文中的链接有提出10个特征，然后用随机树、支持向量机和决策树等多种分类器等进行训练和测试[3]。发现随机树分类器可以单独使用，也可以结合现有的垃圾邮件过滤器使用，后者效果更佳。Bergholz在Fette的基础上，除了一些基本的邮件特征外，还提出由训练的马尔可夫链和新的潜在的主题等级模型产生的邮件特征，然后用分类器进行分类[5]。就基本特征而言，Bergholz没有Fette的性能好，但加上两个基于模型的特征后发现误判数减少了三分之二。

也有很多采用分类器分类的方法，比如Abu-Nimeh从钓鱼网页传播的角度提出了一种针对钓鱼邮件的特征提取[4]。该方法主要对邮件提取了若干特征，比较了六种机器学习方法在邮件特征分类上的效果。该方法拓展了钓鱼网页的特征研究的思路，在一定程度上进一步提高了钓鱼网页检测的精度，但是这种方法在抽取钓鱼网页特征时仍然只是采用了单个网页的信息，因而容易被钓鱼网页制作者欺骗。

Zhang在2007年提出了一种新颖的基于内容的检测钓鱼网页的方法——CANTINA[7]。该方法通过借助第三方的工具(比如搜索引擎)来检测钓鱼网页，它首先统计网页中的词频-反文档词频算法(TF-IDF)词条，把排序靠前的几个词条利用搜索引擎检索，如果该网页不出现在搜索结果的前面30个结果中，则认为是钓鱼网页。该方法具有较高的精率度和较小的误判率。

[1]L.Cranor，S.Egelman，J.Hong，and Y.Zhang.Phishing phish：An evaluation ofanti-phishing toolbars.Technical report，Carnegie Mellon University，Nov.2006

[2]Collin Jackson，Daniel R.Simon，Desney S.Tan，and Adam Barth.An Evaluation ofExtended Validation and Picture-in-Picture Phishing Attacks.Proceedings ofUsable Security(USEC′07)，February 2007..

[3]Fette，I.，N.Sadeh，and A.Tomasic.Learning to Detect Phishing Emails.ISRITechnical Report.CMU-ISRI-06-112，2006.http://reports-archive.adm.cs.cmu.edu/anon/isri2006/abstracts/06-112.html

[4]S.Abu-Nimeh，D.Nappa，X.Wang，and S.Nair.A Comparison of MachineLearning Techniques for Phishing Detection.Proceedings of the eCrimeResearchers Summit，2007.

[5]A.Bergholz，J.-H.Chang，G.Paaβ，F.Reichartz，and S.Strobel.Improved PhishingDetection Using Model-based Features.Proceedings of the Con-ference on Emailand Anti-Spam(CEAS)，2008.

[6]A.Bergholz，G.Paaβ，F.Reichartz，S.Strobel，M.-F.Moens，and B.Witten.Detecting Known and New Salting Tricks in Unwanted Emails.ProceedingsConference on Email an AntiSpam CEAS 2008.

[7]Zhang，Y.，Hong，J.，Cranor，L.CANTINA：A Content-Based Approach toDe-tecting Phishing Web Sites.Proceedings of the 16^th international conferenceonWorld Wide Web，2007.

发明内容

技术问题：本发明的目的是提供一种基于文本特征分析的钓鱼邮件检测及方法。以往钓鱼邮件的检测主要通过对文本特征的分析，但是选取的文本特征的效果好坏参差不齐，导致误判率比较高，从而无法达到实际使用的要求。本发明从以往的这些文本特征中进行了筛选，将效果比较好的几个特征挑选出来，并结合钓鱼邮件的特点和现有的研究基础提出几种新的针对钓鱼邮件检测的文本特征。使用本发明对可疑邮件进行检测，大大提高了命中精度和召回率。

技术方案：钓鱼攻击发起者一般会将邮件中的钓鱼网站链接经过处理，伪装成跟合法网站的链接相似的摸样，然后引诱用户点击这类链接。本发明主要对可疑邮件进行链接特征提取，经过统计分析找到这些网站链接中普遍被认为是符合钓鱼邮件的特点文本特征，从而达到钓鱼邮件检测的目的。

与此同时，钓鱼邮件通常会含有一些网络脚本语言，邮件的格式一般不为纯文本格式，并且经常被垃圾邮件过滤器识别为是垃圾邮件。

本发明的基于文本特征分析的钓鱼邮件检测方法主要分为以下步骤：

一、对样本集进行特征提取

步骤1).利用邮件解析器对邮件进行解析，将邮件中所含的图片、动画、附件等非文本部分去掉，得到所需要的邮件数据；

步骤2).对于邮件的头部部分，所需提取的特征为邮件正文的格式和邮件的发送时间，一般邮件都是纯文本格式、html格式或者两者兼而有之；

步骤3).对于文本内容的处理，主要利用正则表达式匹配算法编写相应的代码，将邮件中所有的网站链接部分都提取出来；

步骤4).基于正则表达式算法在处理匹配文本中相应字符上的优势，在提取以下特征时，依然采用正则表达式算法：邮件中是否含有基于IP地址型的网页链接；链接中是否含有@符号；链接中是否含有“-”符号；邮件中所含的链接个数；链接中域名的个数；链接中点号分隔符的个数；链接中％分隔符的个数；链接中使用http协议的次数；

步骤5).判定邮件是否含有脚本语言的时候，先将文本内容全都转化为英文小写，然后遍历邮件文本内容，看是否有相应的脚本标记；

步骤6).在检测网页链接所导向的网站的注册时间时，利用了WHOIS域名检索引擎，利用该检索引擎，检测相关域名的注册信息，其中包括域名的注册时间，结合从邮件头部中提取的邮件发送时间，得到该两者的间隔时间，从而判断是否过短；

步骤7).把这些特征统计好后，得到了每一封邮件的多维特征向量；

二、利用训练集训练分类器模型

步骤21).对于训练集中的每一封邮件进行标记，设定标签位，普通邮件标记为“0”，钓鱼邮件标记为“1”；

步骤22).在提取好的多维文本特征向量中加入标签位，组成该邮件的特征向量；

步骤23).选择合适的分类器对训练集邮件进行分类，在此过程中，经过对比使用支持向量机分类器，然后利用训练集对该分类器进行训练，从而得到所需要的支持向量机分类模型；

三、利用分类模型检测可疑邮件

步骤31).对可疑邮件进行文本特征提取，整个提取过程与特征提取部分的步骤1)-步骤7)一致，完成提取工作以后，得到该可疑邮件的特征向量；

步骤32)将步骤31)所得结果，送入支持向量机模型中进行钓鱼邮件和普通邮件的分类。

有益效果：由于基于邮件的文本特征分析手段，本发明具有以下一些优点和有益成果：

高准确率：机器学习主要的评价指标为精度和召回率。在钓鱼邮件的检测识别中，精度表示机器判断为钓鱼邮件的邮件中，确实属于钓鱼邮件所占的比例；召回率表示所有钓鱼邮件中被机器判定识别为钓鱼邮件所占的比例。因此精度和召回率越高则效果越好。经过实验，证明本发明提出的文本型特征模型在机器学习模型进行机器学习以后，检测钓鱼邮件精度和召回率都很高，该结果与目前最好的几种钓鱼邮件自动检测技术基本处于同一档次。

应用广泛：由于本发明实际提出了一种基于邮件文本型特征分析检测方案，所以在邮件的特征检测上用途广泛。

附图说明

图1是通过钓鱼邮件攻击的网络钓鱼结构体系。

图2是基于文本特征分析的钓鱼邮件检测过程。

具体实施方式

实现的步骤如下：

1)利用相关工具，把整个邮件包含中的图片、动画、附件等信息剔除掉，然后利用邮件解析器将整个邮件解析，得到邮件头部和正文部分的相关信息；

2)分别针对邮件的头部和正文部提取检测所需要的文本特征，组成该邮件的特征向量；

3)用机器学习方法进行训练，获得分类器模型和阈值；

4)选定好分类器和阈值以后，对可疑邮件进行分类预测。

本发明技术方案主要分为三大部分：

1、特征提取部分：完成对邮件文本特征的提取

钓鱼攻击发起者一般会将邮件中的钓鱼网站链接经过处理，伪装成跟合法网站的链接相似的摸样，然后引诱用户点击这类链接。因此，钓鱼邮件中所包含的网站链接一定包含很多特征，将这些特征进行提取，并将这些特征分为真假型特征和计数型特征两类。

真假型特征：主要指的是邮件是否含有这些特征，如果包含则特征值为1，否则为0。这类特征主要有：邮件正文是否为纯文本格式、是否含有脚本语句、是否含有基于IP地址型的网页链接、邮件发送者的邮箱域名与邮件链接中的一级域名是否一致、网站的注册时间与邮件发送日期间隔是否达到设定值、链接中是否含有@符号、链接中是否含有“-”符号。

计数型特征：主要是用于该种特征在邮件出现的次数。该种特征主要有：邮件含有的网页链接的个数、链接中域名的个数、链接中点号的个数、链接中％符号的个数、链接中http协议使用的次数。

具体步骤如下：

步骤1)利用邮件解析器对邮件进行解析，同时将邮件中所含的图片、动画、附件等非文本部分去掉，得到所需要的邮件数据；

步骤2)对于邮件的头部部分，本发明所需提取的特征为邮件正文的格式和邮件的发送时间。一般邮件都是纯文本格式、html格式或者两者兼而有之；

步骤3)对于文本内容的处理，主要利用正则表达式匹配算法编写相应的代码，将邮件中所有的网站链接部分都提取出来；

步骤4)基于正则表达式算法在处理匹配文本中相应字符上的优势，本发明在提取以下特征时，依然采用正则表达式算法：邮件中是否含有基于IP地址型的网页链接；链接中是否含有@符号；链接中是否含有“-”符号；邮件中所含的链接个数；链接中域名的个数；链接中点号分隔符的个数；链接中％分隔符的个数；链接中使用http协议的次数；

步骤5)判定邮件是否含有脚本语言的时候，先将文本内容全都转化为英文小写，然后遍历邮件文本内容，看是否有相应的脚本标记；

步骤6)在检测网页链接所导向的网站的注册时间时，本发明利用了域名检索引擎。利用相应的域名检索引擎，可以检测相关域名的注册信息，其中包括了域名的注册时间。结合从邮件头部中提取的邮件发送时间，得到该两者的间隔时间，从而判断是否过短；

步骤7)把这些特征统计好后，得到了邮件的一组多维特征向量。

2、训练阶段部分：对训练数据集中的邮件进行标记，然后用标记好的邮件训练出

本发明所需要的分类模型

步骤21)对于训练集中的邮件进行标记，设定标签位，普通邮件标记为“0”，钓鱼邮件标记为“1”。

步骤22)在提取得到的多维文本特征向量中加入标签位，组成该邮件的特征向量。

步骤23)选择合适的分类器对训练集邮件进行分类。在此过程中，经过对比本发明使用支持向量机分类器，然后利用训练集对该分类器进行训练，从而得到所需要的支持向量机分类模型。

3、检测阶段部分：使用训练好的支持向量机分类模型对可疑邮件进行检测

步骤31)对可疑邮件进行文本特征提取，整个提取过程与特征提取部分的步骤1)-步骤7)一致，完成提取工作以后，得到该可疑邮件的特征向量。

Claims

1.一种基于文本特征分析的钓鱼邮件检测方法，其特征在于该方法主要分为以下步骤：

一、对样本集进行特征提取

二、利用训练集训练分类器模型

三、利用分类模型检测可疑邮件