CN105138921B

CN105138921B - 基于页面特征匹配的钓鱼网站目标域名识别方法

Info

Publication number: CN105138921B
Application number: CN201510505960.8A
Authority: CN
Inventors: 王伟平; 张兵; 钟萍; 王建新
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2015-08-18
Filing date: 2015-08-18
Publication date: 2018-02-09
Anticipated expiration: 2035-08-18
Also published as: CN105138921A

Abstract

本发明公开了一种基于页面特征匹配的钓鱼网站目标域名识别方法，包括以下步骤：步骤1：获取一个待识别的钓鱼网站的URL，将该URL地址中嵌套的域名、页面源代码中超链接所包含的域名、搜索引擎搜索结果中的域名和常用的被钓鱼目标域名都加入到目标域名识别范围；步骤2：从目标域名识别范围去除CDN缓存加速服务器的域名；步骤3：目标识别算法的特征相似性计算；步骤4：将目标域名识别范围D中的每个域名的特征相似性S按照从大到小的顺序进行排列，选取相似度最大的域名作为最终的钓鱼网站目标域名，目标检测结束。该基于页面特征匹配的钓鱼网站目标域名识别方法具有识别准确率高的优点。

Description

基于页面特征匹配的钓鱼网站目标域名识别方法

技术领域

本发明属于网络安全领域，涉及一种基于页面特征匹配的钓鱼网站目标域名识别方法。

背景技术

钓鱼网站的大量涌现，不仅给互联网用户的财产安全带来威胁，而且会影响被钓鱼攻击的公司的名誉并削弱其可信度。就商业而言，商标是每个公司最重要的资产，公司需要几年甚至更长的时间才可以建立起让消费者信任的商标。钓鱼攻击的受害者将会发现很难与那些似乎不能保护其资产和私密安全性的公司进行交易合作。客户的信任是一种难以估量的资产，但失去它对任何公司来说都是一个坏消息。在这样的网络钓鱼环境中，如何有效识别钓鱼网站的目标域名将有着重大意义，这将为各大商业公司提前做好防御通知工作。

近几年，在钓鱼网站目标识别方面，从识别方法来看，一般分为两步，先确定钓鱼目标的范围，然后依据相关特征的相似性作为钓鱼网站与目标之间的相似性的定量指标，从中确定相似性最大的目标。

国内外很多研究学者针对钓鱼网站的检测方法进行了大量实验，但是在识别钓鱼网站目标方面仍有不足：首先是方法本身大都只考虑从钓鱼网站的链接地址出发，根据钓鱼网站和目标网站之间的单向链接关系来寻找目标网站，当钓鱼网站和目标网站之间的链接关系不是那么明显的时候就会识别不正确；其次是目标范围选取上没有考虑URL地址中的嵌套域名；第三是现有方法大部分采用页面上超链接所占比重来进行域名识别，但如果钓鱼网站的目标网站使用了CDN缓存加速服务，则对该钓鱼网站进行识别时，页面链接中所有对目标网站静态资源的链接地址都将自动转换成CDN缓存加速服务器的域名，这在一定程度上会影响识别方法的准确率；第四是现有钓鱼网站已经开始利用希腊字母与拉丁字母之间的相似性来逃避检测程序的检测。

因此，针对上述问题，有必要设计一种基于页面特征匹配的钓鱼网站目标域名识别方法。

发明内容

本发明所要解决的技术问题是提供一种基于页面特征匹配的钓鱼网站目标域名识别方法，该基于页面特征匹配的钓鱼网站目标域名识别方法具有识别准确率高的优点。

发明的技术解决方案如下：

一种基于页面特征匹配的钓鱼网站目标域名识别方法，包括以下步骤：

步骤1：获取一个待识别的钓鱼网站的URL，URL是网络资源统一定位符；将该URL地址中嵌套的域名、页面源代码中超链接所包含的域名、搜索引擎搜索结果【按页面关键词搜索得到的域名】中的域名和常用的被钓鱼目标域名都加入到目标域名识别范围；

步骤2：从目标域名识别范围去除CDN缓存加速服务器的域名，形成可疑目标范围集合D；CDN为内容分发网络；

步骤3：目标识别算法的特征相似性计算：

对可疑目标范围集合D中的每个域名d_j∈D(j＝1，2，...，N)计算基于URL地址特征、搜索特征和页面内容特征的六种特征值M_i(i＝1，...，6)，并计算每种特征的权重W_i，然后计算其特征相似性S：

N为可疑目标范围集合D中的域名总数；

步骤4：将目标域名识别范围D中的每个域名的特征相似性S按照从大到小的顺序进行排列，选取相似度最大的域名作为最终的钓鱼网站目标域名，目标检测结束。

所述的步骤1中，在获取钓鱼网站页面代码的时候增加预处理操作，参考希腊字母简表，将代码中所有的希腊字母转换成拉丁字母。

在步骤2中，计算PR值，PR为网页排名，将PR值为0的域名从目标范围中删除，以去除CDN缓存加速服务器对检测方法的干扰。

在步骤3中，URL地址中嵌套的域名、页面源代码中超链接所包含的域名、搜索引擎搜索结果这三个方面提取出以下六种特征，(1)URL地址是否包含可疑目标网站顶级域名、(2)URL地址是否包含可疑目标网站二级域名、(3)网页标题是否包含可疑目标网站二级域名、(4)页面超链接包含可疑目标网站顶级域名的次数、(5)提取的页面7个关键词是否包含可疑目标网站二级域名和(6)搜索结果中包含可疑目标网站顶级域名的次数；

对于i＝1，2，3，5，M_i＝0表示特征匹配不成功，或者M_i＝1表示特征匹配成功；另外，M₄和M₆为第4个和第6个特征匹配成功的次数。

在步骤3中，权值W₁和W₂采用训练样本统计的方式获得，选取Phishtank上K个钓鱼网站样例作为特征权值计算样本；对于特征1，假设样本中URL嵌套可疑目标网站顶级域名的数目共有K1个，嵌套的域名是真实目标网站的样本数为X1，则W₁＝X₁/K₁；对于特征2，假设样本中URL嵌套可疑目标网站二级域名的数目共有K₂个，嵌套的域名是真实目标网站的样本数为X₂，则W₂＝X₂/K₂。K取值要求大于等于300。

在步骤3中，权值W₃和W₅采用训练样本统计的方式获得，选取Phishtank上K个钓鱼网站样例作为特征权值计算样本。对于特征3，假设样本中网页标题包含真实目标网页的二级域名的有X₃个，则W₃＝X₃/K。同样，对于特征5，假设样本中页面关键词包含真实目标网站二级域名的数目是X₅，则W₅＝X₅/K。

在步骤3的流程执行过程中，权值W₄和W₆的计算加入链接中域名匹配的次数因子k4和k6，其步骤为：同样选取Phishtank上K个钓鱼网站样例作为特征权值计算样本，对于特征4，假设样本集中第i个样本的页面超链接包含真实目标网站顶级域名的次数为y_4i，则次数因子对于特征6，假设样本集中第i个样本依据页面关键词搜索结果中包含真实目标网站顶级域名的次数为y_6i，则次数因子(即样本平均包含次数)

特征4和特征6的权值计算公式分别为w₄＝X₄/(K·k₄)和w₆＝X₆/(K·k₆)，其中，X₄为样本集(即样本集合)中页面超链接包含真实目标网站顶级域名的样本数，X₆为样本集中依据页面关键词搜索结果中包含真实目标网站顶级域名的样本数。

步骤1中，将常用的被钓鱼目标域名加入到目标域名识别范围，常用的被钓鱼目标域名从Phishtank网站获取，获取的方法是：

在phishtank上采样600个钓鱼网站样本，对其伪造目标域名进行统计，将被伪造频率最高的前12个域名添加到目标域名范围中。

目标域名是钓鱼网站的伪造对象域名。例如某个钓鱼网站企图伪造支付宝页面，该钓鱼网站的目标域名就是支付宝页面的域名。目标识别是指当给定某钓鱼网站的页面域名，能够自动识别出该钓鱼页面所伪造的页面的域名。

对本发明的一些名词作说明：

CDN：Content Delivery/Distribution Network，中文称为内容分发网络；

PR：PageRank，中文称为网页排名。

本发明的特点有：

(1)在获取钓鱼网站页面代码的时候增加预处理，将代码中所有的希腊字母转换成拉丁字母。

(2)解决CDN缓存加速服务器所带来的影响

因为单从域名上无法直接识别域名是否属于CDN缓存加速服务器，但通过实验发现CDN缓存加速服务器域名的PR值为0。因此为了解决CDN缓存加速服务器所带来的影响，将PR值为0的域名从目标范围中去除。

(3)目标识别算法的特征相似性计算

从URL地址特征、搜索特征和页面内容特征三方面提取六种特征，特征包括：URL地址是否包含可疑目标网站顶级域名、URL地址是否包含可疑目标网站二级域名、网页标题是否包含可疑目标网站二级域名、页面超链接包含可疑目标网站顶级域名的次数、提取页面7个关键词是否包含可疑目标网站二级域名和搜索结果中包含可疑目标网站顶级域名的次数。

由于钓鱼网页的链接和搜索引擎搜索结果中出现次数越多的域名就越有可能是真实的目标域名，同时由于特征4和特征6为满足特征的次数，为了避免覆盖掉其它特征的重要程度，因此对特征4和特征6的满足次数进行统计，并在设定W₄和W₆权值时加入链接中域名匹配的次数因子。

最后，域名的相似性等于六种特征值和权值的乘积之和。

有益效果：

本发明在确定目标范围时，除了提取直链域名和非直链域名，加入URL地址中的嵌套域名纳入目标识别范围，可以精准目标范围。

如果钓鱼网站的目标网站使用了CDN缓存加速服务，则对该钓鱼网站进行识别时，页面链接中所有对目标网站静态资源的链接地址都将自动转换成CDN缓存加速服务器的域名。因此采用去除CDN缓存加速服务器的域名，可以提高准确率。

为了避免钓鱼网站利用希腊字母与拉丁字母之间的相似性来逃避检测程序的检测，增加在获取钓鱼网站页面代码的时候预处理，将页面代码中的希腊字母转换成对应的拉丁字母，提高关键词提取的正确率。

目标域名识别方法不仅考虑钓鱼网站和目标网站之间的链接关系，而且还考虑了钓鱼网站的URL地址、页面标题、页面超链接、页面关键词分别与目标网站域名之间的关联关系，当钓鱼网站与目标网站之间的链接关系不是那么明显的时候，本发明的方法也能够进行识别。

总之，本发明的基于页面特征匹配的钓鱼网站目标域名识别方法，考虑URL地址中嵌套的域名、页面源代码中超链接所包含的域名和搜索引擎搜索结果中的域名，以及将常用的被钓鱼目标域名加入到钓鱼目标范围，并从目标范围去除CDN缓存加速服务器的域名，形成目标域名识别范围。同时在获取钓鱼网站页面代码增加预处理操作。并且提出了一种基于页面特征匹配的目标域名识别算法。该算法从URL地址、页面内容和搜索引擎搜索结果这三个方面总结出六种页面特征，并为每种特征设置相应的权重，然后对目标范围中的每个域名进行特征相似度匹配，最后选取相似度最大的域名作为目标域名。本发明具有准确率高的特点。

附图说明

图1为目标范围确定方法图；

图2为目标域名识别方法流程示意图。

具体实施方式

以下将结合附图和具体实施例对本发明做进一步详细说明：

实施例1：

图1是本发明的目标范围确定方法图，步骤如下：

将钓鱼网站URL地址中嵌套的域名、页面源代码中超链接所包含的域名和搜索引擎搜索结果中的域名都加入到可能的目标范围中来。同时，将常用的被钓鱼目标域名也加入到目标范围中，以此扩大目标范围。

常用的被钓鱼目标是指经常被钓鱼网站模仿的合法网站。Phishtank是基于社区的反钓鱼式攻击服务，可以提供存活的钓鱼网站。在Phishtank上采样600个样本钓鱼网站样本，统计其伪造的目标域名，将被伪造频率最高的前12个目标域名(paypal.com、apple.com、google.com、ebay.com等)添加到目标域名范围中。

另一方面为了解决CDN缓存加速服务器所带来的影响，将PR值(网页的排名)为0的域名从目标范围中去除。这是因为通过实验发现所有的CDN缓存加速服务器域名的PR值都为0。

图2是本发明的目标域名识别方法流程示意图，步骤如下：

在确定目标范围之后，进行特征加权和计算。本发明关注的特征包含三个方面，即URL地址特征、页面内容特征和搜索引擎搜索结果特征，从这三个方面提取出六种特征，然后对可疑目标域名范围中的每个域名进行特征相似性匹配，有针对性的查找目标域名。提取的六种特征如表1所示。

表1 用于识别目标域名的6种特征

附注a：本文中的所有顶级域名均指二级域名加域名后缀，如apple.com。

附注b：页面超链接不仅考虑a标签的href属性，还考虑了script标签的src属性、link标签的href属性和img标签的src属性。

在此，M_i表示第i个特征的特征值，对于i＝1，2，3，5，M_i＝0表示特征匹配不成功，M_i＝1表示特征匹配成功；另外，M₄和M₆为第4个和第6个特征匹配成功的次数。例如http：//camilleblock.com/images/www.apple.uk/www.apple.com这个钓鱼网页，其URL地址中就包含了苹果公司的顶级域名，在与可疑目标www.apple.com相似性匹配时，M₁＝1。同时在进行特征4匹配时，发现该钓鱼网页的所有超链接地址中共出现了10次apple.com的域名，则M₄＝10。

选取Phishtank上K个钓鱼网站样例作为特征权值计算样本，对特征权值计算样本进行统计，并根据统计结果对每个特征设置相应的权值。对于特征1，假设样本中存在可疑域名嵌套的样本共有K₁个，嵌套的域名是真实目标网站的样本数为X₁，则权值W₁的计算公式如式(1)。

同理可计算出W₂。对于特征3，如果钓鱼网页的标题中包含真实目标网页的二级域名有X₃个，则W₃的计算公式如式(2)。

同理可计算出W₅。由于特征4和特征6为满足特征的次数，为了不会覆盖掉其它特征的重要程度，对特征4和特征6的满足次数进行统计时加入链接中域名匹配的次数因子。假设样本集合中第i个样本的页面超链接包含真实目标网站顶级域名的次数为y_4i，则特征4的平均满足次数见式(3)。

同理，对于特征6，样本集中第i个样本依据页面关键词搜索结果中包含真实目标网站顶级域名的次数为y_6i，则样本平均包含次数见式(4)。

因此特征4和特征6的权值计算公式分别为w₄＝X₄/(K·k₄)和w₆＝X₆/(K·k₆)，其中X₄为样本集中页面超链接包含真实目标网站顶级域名的样本数，X₆为样本集中依据页面关键词搜索结果中包含真实目标网站顶级域名的样本数。所有特征权值计算方式如表2所示。

表2 特征权值计算结果

对可疑目标范围集合D中的每个域名d_j∈D(j＝1，2，...，N)，根据六种特征值M_i(i＝1，...，6)和其特征的权重W_i，计算其特征相似性S_j如下所示。

然后将每个域名的特征相似性按照从大到小的顺序排列，将特征相似性最大的域名作为最终的目标域名T。

假设

s_j＝max(s₁，s₂，...，s_n) (6)

则

T＝d_j (7)

采用本发明进行钓鱼网站目标域名识别，将钓鱼网页URL地址中的嵌套域名和出现频率较高的钓鱼目标域名纳入到可疑目标域名集合中，有效扩大可疑目标范围。利用网页PR值排除了CDN缓存加速服务器所带来的影响，对页面代码进行预处理，解决了检测程序不能识别希腊字母的问题。总结六种用于识别钓鱼网页目标域名的关键特征，并设置相应特征权值，选取最大的相似性为目标网站。该发明方法，不仅考虑钓鱼网站和目标网站之间的链接关系，而且还考虑了钓鱼网站的URL地址、页面标题、页面超链接、页面关键词分别与目标网站域名之间的关联关系，具有目标网站识别准确率高的特点。

实施例2：

从Phishtank上抓取了大量现存的钓鱼网站样本，对本发明的方法进行实验测试。测试数据全部采自Phishtank上已被确认的最新的钓鱼网站，从中抓取600个钓鱼网站样本，并人工检查其对应的真实目标域名，作为目标识别准确与否的依据。

所有样本对应的目标域名共有29个，将被伪造频率最高的前12个目标域名添加到可疑目标范围，其中目标域名为paypal.com的钓鱼网页数量最多，占样本数的44.5％。从600个钓鱼网站样本中随机选择10组样本集合，每个集合都包含300个钓鱼网站样本，利用这10组样本集合进行权值计算。同时固定选取后300个样例作为测试样本进行测试，在10组权值样本得到的不同权值情况下的测试结果如表3所示。

表3 10组不同权值进行目标识别的结果

本发明方法自动构造目标域名集合，有针对性的查找目标域名，利用Phishtank上已经被确认的钓鱼网站进行测试，测试结果表明该方法能够达到很好的识别效果，正确率在97％以上。

Claims

1.一种基于页面特征匹配的钓鱼网站目标域名识别方法，其特征在于，包括以下步骤：

步骤1：获取一个待识别的钓鱼网站的URL，URL是网络资源统一定位符；将该URL地址中嵌套的域名、页面源代码中超链接所包含的域名、搜索引擎搜索结果中的域名和常用的被钓鱼目标域名都加入到目标域名识别范围；

步骤3：目标识别算法的特征相似性计算：

对可疑目标范围集合D中的每个域名d_j∈D计算基于URL地址特征、搜索特征和页面内容特征的六种特征值M_i，其中j＝1,2,...,N，i＝1,...,6，并计算每种特征的权重W_i，然后计算其特征相似性S：

<mrow> <mi>S</mi> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mn>6</mn> </munderover> <msub> <mi>W</mi> <mi>i</mi> </msub> <mo>&CenterDot;</mo> <msub> <mi>M</mi> <mi>i</mi> </msub> </mrow>

N为可疑目标范围集合D中的域名总数；

步骤4：将目标域名识别范围D中的每个域名的特征相似性S按照从大到小的顺序进行排列，选取相似度最大的域名作为最终的钓鱼网站目标域名，目标检测结束；

对于i＝1,2,3,5，M_i＝0表示特征匹配不成功，或者M_i＝1表示特征匹配成功；另外，M₄和M₆为第4个和第6个特征匹配成功的次数。

2.根据权利要求1所述的基于页面特征匹配的钓鱼网站目标域名识别方法，其特征在于，所述的步骤1中，在获取钓鱼网站页面代码的时候增加预处理操作，参考希腊字母简表，将代码中所有的希腊字母转换成拉丁字母。

3.根据权利要求1所述的基于页面特征匹配的钓鱼网站目标域名识别方法，其特征在于，在步骤2中，计算PR值，PR为网页排名，将PR值为0的域名从目标范围中删除，以去除CDN缓存加速服务器对检测方法的干扰。

4.根据权利要求1所述的基于页面特征匹配的钓鱼网站目标域名识别方法，其特征在于，在步骤3中，权值W₁和W₂采用训练样本统计的方式获得，选取Phishtank上K个钓鱼网站样例作为特征权值计算样本；对于特征1，假设样本中URL嵌套可疑目标网站顶级域名的数目共有K₁个，嵌套的域名是真实目标网站的样本数为X₁，则W₁＝X₁/K₁；对于特征2，假设样本中URL嵌套可疑目标网站二级域名的数目共有K₂个，嵌套的域名是真实目标网站的样本数为X₂，则W₂＝X₂/K₂；K取值要求大于等于300。

5.根据权利要求1所述的基于页面特征匹配的钓鱼网站目标域名识别方法，其特征在于，在步骤3中，权值W₃和W₅采用训练样本统计的方式获得，选取Phishtank上K个钓鱼网站样例作为特征权值计算样本；对于特征3，假设样本中网页标题包含真实目标网页的二级域名的有X₃个，则W₃＝X₃/K；同样，对于特征5，假设样本中页面关键词包含真实目标网站二级域名的数目是X₅，则W₅＝X₅/K；K取值要求大于等于300。

6.根据权利要求1所述的基于页面特征匹配的钓鱼网站目标域名识别方法，其特征在于，在步骤3的流程执行过程中，权值W₄和W₆的计算加入链接中域名匹配的次数因子k4和k6，其步骤为：同样选取Phishtank上K个钓鱼网站样例作为特征权值计算样本，对于特征4，假设样本集中第i个样本的页面超链接包含真实目标网站顶级域名的次数为y_4i，则次数因子对于特征6，假设样本集中第i个样本依据页面关键词搜索结果中包含真实目标网站顶级域名的次数为y_6i，则次数因子K取值要求大于等于300；

特征4和特征6的权值计算公式分别为w₄＝X₄/(K·k₄)和w₆＝X₆/(K·k₆)，其中，X₄为样本集中页面超链接包含真实目标网站顶级域名的样本数，X₆为样本集中依据页面关键词搜索结果中包含真实目标网站顶级域名的样本数。

7.根据权利要求4-6任一项所述的基于页面特征匹配的钓鱼网站目标域名识别方法，其特征在于，步骤1中，将常用的被钓鱼目标域名加入到目标域名识别范围，常用的被钓鱼目标域名从Phishtank网站获取，获取的方法是：