CN104077396A

CN104077396A - 一种钓鱼网站检测方法及装置

Info

Publication number: CN104077396A
Application number: CN201410310819.8A
Authority: CN
Inventors: 肖喜; 付鹏; 刘睿彤; 李清; 王振龙
Original assignee: Shenzhen Graduate School Tsinghua University
Current assignee: Shenzhen Graduate School Tsinghua University
Priority date: 2014-07-01
Filing date: 2014-07-01
Publication date: 2014-10-01
Anticipated expiration: 2034-07-01
Also published as: CN104077396B

Abstract

本发明公开了一种钓鱼网站检测方法及装置，方法包括如下步骤：客户端获取被访问网页的待检测URL，客户端对被访问网页的待检测URL进行检测，获得客户端检测结果，所述客户端检测结果表示了所述被访问网页与钓鱼网站的相关程度；客户端将待检测URL发送给服务器，并接收服务器发送的对所述待检测URL进行检测得到的服务器检测结果，所述服务器检测结果表示了所述被访问网页与钓鱼网站的相关程度；客户端根据所述客户端检测结果和服务器检测结果对所述待检测URL进行综合评判，以判断所述待检测URL是否属于钓鱼网站。本发明可以提高检测钓鱼网站的准确度。

Description

一种钓鱼网站检测方法及装置

【技术领域】

本发明涉及计算机领域，尤其涉及一种钓鱼网站检测方法及装置。

【背景技术】

随着信息时代的到来，越来越多的人开始利用互联网进行工作，购物，学习和娱乐等级活动。正是由于网民的逐渐增加，使得网络安全隐患的危害随之加深。网络钓鱼攻击就是众多安全隐患中的一种。同时钓鱼攻击也被认为是当今在线交易中最危险的一种欺诈形式。网络钓鱼Phishing是一种在线身份伪造的欺诈方式，使用社交工程和技术伎俩等手段窃取用户的个人敏感信息。

网络的社交工程是指，钓鱼的攻击者利用具有欺骗性的电子邮件和假冒的web登陆页面等，来进行网络诈骗活动。被攻击的用户往往会泄露重要的个人隐私。网络钓鱼诈骗者通常利用其仿冒的钓鱼站点，将自己伪装成知名的网上银行、热门的网络购物商和大型的网络游戏提供方等可信品牌，并且利用人性的弱点，以各种理由如中将信息、银行网站升级更新资料等等，来诱骗用户泄露自己的私人敏感信息，然后利用这些个人敏感信息谋取利益。网络钓鱼的技术伎俩是指，钓鱼攻击者利用恶意软件等技术来获取用户的机密信息。攻击者向用户的计算机中植入Keylogger、木马、间谍软件等恶意软件。当用户在正常的web站点提交个人敏感信息的时候，也就被攻击者的恶意软件所捕获，并发送回攻击者。

经济上的利益使得钓鱼攻击越来越猖獗，频繁的攻击使用用户信息感下降，对人们的正常工作，学习和生活造成了极大的影响，甚至还会影响到网上交易的发展，由此可见钓鱼攻击的危害之大，而研究如何抵御钓鱼攻击就显得尤其重要。目前一些钓鱼网站的检测装置虽然取得了一定的成果，但也存在一些风险。

黑白名单检测机制，其主要是应用过滤的原理将常规网站与钓鱼网站进行区分。所谓的黑名单是指其中数据均为钓鱼网址，白名单刚好与之相反为可信网站。该种机制的优势在于单练的字符串匹配可以实现快速命中，进而提供精确的结果反馈。其不足之处在于不能识别新产生的钓鱼网站，需要对知识库进行更新操作。

URL特征检测机制，其主要是应用URL字符串的某些钓鱼特征，并利用现今较为成熟的基于概率论的数学模型，进行是否是钓鱼网站的合理性估计。例如逻辑回归模型，该模型将一个事件发生的概率对应为一条S型的逻辑曲线，作为二分分类器使用时，通常将其阈值设置为0.5。这种方法虽然能取得一定的检测效果，但是单纯的URL特征检测使得该装置误判的风险较大。

页面文本特征检测机制，其主要是对页面源代码中的纯文本信息，进行分析、关键词提取和相似度对比，最终给出是否为钓鱼网站的预测。其预测方法存在多种方案，例如可以选用数学模型对提取的信息片进行处理并给出最终结果、也可以通过计算信息片与钓鱼模板的相似度进行相应的预测。

页面DOM文档对象模型特征检测机制，其主要是对页面源代码的DOM结构进行分析，最终给出特征检测页面是钓鱼页面的可能性。该种检测机制的提出主要是由于，当前钓鱼黑色生产链模板化生产，即相同的钓鱼模板添加上不同的以社交工程为钓鱼手段的欺诈性文字，就可以变为不同的钓鱼网站。所以该种方案的提出也是对单纯文本特征识别的一种补充。

第三方辅助信息检测机制，该种检测机制借助了可信的第三方机构提供的数据，作为测评该网站是否为钓鱼网站的理论依据。例如谷歌的PageRank排名、黑名单API库、ALEXA流量排名、Whois信息等都可以作为判定该网站是否具有钓鱼欺诈风险的辅助性依据,但不能够精确的判断出正在访问的网站是否为钓鱼网站。

身份认证的机制，合法网站都会有自己的证书，而钓鱼网站由于生存周期比较短，而从申请证书到证书颁发的周期比钓鱼网站的生存周期还要长，因此钓鱼网站一般不会有自己的合法的证书，那么，可以通过身份认证的方法来检测钓鱼网站。虽然身份认证方式检测钓鱼网站能取得不错的效果，但由于使用互联网的用户安全知识参差不齐，这种方法在实际应用中十分困难。

综合分析现有技术可知，现有的钓鱼网站检测技术的准确度都不够高。

【发明内容】

为了克服现有技术的不足，本发明提供了一种钓鱼网站检测方法，以提高对钓鱼网站检测准确度。

一种钓鱼网站检测方法，包括如下步骤：

S10步骤，客户端获取被访问网页的待检测URL；

S20步骤，所述客户端对所述待检测URL进行检测，获得客户端检测结果，所述客户端检测结果表示了所述被访问网页与钓鱼网站的相关程度；

S30步骤，所述客户端将所述待检测URL发送给服务器，并接收所述服务器发送的服务器检测结果，所述服务器检测结果表示了所述被访问网页与钓鱼网站的相关程度；

S40步骤，所述客户端根据所述客户端检测结果和所述服务器检测结果对所述待检测URL进行综合评判，以判断所述待检测URL是否属于钓鱼网站；其中，所述服务器检测结果和所述客户端检测结果在所述综合评判中具有不同的影响权重。

利用客户端检测结果和服务器检测结果进行综合评判，综合了客户端和服务器的两个检测结果，相比于现有技术仅仅依靠服务器或者客户端的检测而判断钓鱼网站，本方案提高了检测钓鱼网站的准确度。

在一个优选的实施例中，所述S20步骤包括如下步骤：

S201步骤，所述客户端从所述待检测URL提取出目标域名，并执行S202步骤；

S202步骤，所述客户端计算所述目标域名与所述客户端存储的白名单中的白名单域名之间的域名相似度，并执行S203步骤；

S203步骤，若所述域名相似度等于1，则所述客户端判断所述被访问网页为正常网站；若所述域名相似度大于域名相似度阈值且小于1，则所述客户端判断所述被访问网页为钓鱼网站；若所述域名相似度小于所述域名相似度阈值，则所述客户端对所述待检测URL进行检测，获得客户端检测结果。

本方案中，通过提取被访问网页的多组特征，使得作出的评判结果更加准确，也就是说客户端检测结果更加准确。

在一个优选的实施例中，所述S40步骤包括以下步骤：

根据如下算法判断所述待检测URL是否属于钓鱼网站：

确定评价因子集合U＝{u₁,u₂,...u_i,...,u_m},其中，所述客户端检测结果的数量为多个，评价因子集合U的元素u_i表示所述客户端检测结果中的第i个客户端检测结果；

确定用于表示所述被访问网页分类的评价等级集合V＝{v₁,v₂,...v_j...,v_n}，其中，评价等级集合V的元素v_j表示所述评价等级集合V的第j个评价等级，一个评价等级v_j代表所述被访问网页的一个分类；

确定所述评价因子u_i对所述评价等级v_j的隶属度ri_j，并确定隶属度集合r_i＝{r_i1,r_i2,...,r_in}，其中所述隶属度集合r_i表示所述评价因子u_i分别对所述评价等级集合V的所有评价等级的隶属度；

确定模糊子集A＝{a₁,a₂,...,a_i...,a_m}，其中，模糊子集A的元素a_i表示所述评价因子u_i在综合评判中的影响权重；

确定等价子集B:

其中，b_j为所述评价等级v_j对所述等价子集B的隶属度,o是广义模糊算子；

确定所述等价子集B中最大的b_j,将所述最大的b_j对应的评价等级v_j作为所述被访问网页的评价等级。

在一个优选的实施例中，根据如下算法判断所述待检测URL是否属于钓鱼网站：

确定所述评价因子集合U＝{u₁,u₂,u₃},确定所述评价等级集合V＝{v₁,v₂,v₃},确定所述模糊子集A＝{a₁,a₂,a₃}；其中，所述客户端检测结果包括第一客户端检测结果和第二客户端检测结果，所述第一客户端检测结果是所述客户端将所述被访问网页的网页特征和所述待检测URL的URL特征输入复合分类器后获得的复合分类器结果，所述第二客户端检测结果是所述客户端将所述待检测URL输入简单分类器后获得的简单分类器结果，u₁,u₂和u₃分别表示第一客户端检测结果、所述服务器检测结果和第二客户端检测结果，v₁,v₂和v₃分别表示正常网站、可疑网站和钓鱼网站，a₁,a₂和a₃分别表示所述第一客户端检测结果、所述服务器检测结果和所述第二客户端检测结果在综合评判中的影响权重；

确定所述等价子集B：

其中，参数b₁表示正常网站对所述评价子集B的隶属度，参数b₂表示可疑网站对所述评价子集B的隶属度，参数b₃表示钓鱼网站对所述评价子集B的隶属度；a₁、a₂和a₃分别为所述第一客户端检测结果、所述服务器检测结果和所述第二客户端检测结果在综合评判中的影响权重，r₁₁、r₁₂和r₁₃分别为所述第一客户端检测结果对正常网站、可疑网站和钓鱼网站的隶属度，r₂₁、r₂₂和r₂₃分别为所述服务器检测结果对正常网站、可疑网站和钓鱼网站的隶属度，r₂₁、r₂₂和r₂₃分别为所述第二客户端检测结果对正常网站、可疑网站和钓鱼网站的隶属度；

在参数b₁、b₂和b₃中，若所述参数b₁最大，则将所述被访问网页判定为正常网站；若所述参数b₂最大，则将所述被访问网页判定为可疑网站；若所述参数b₃最大，则将所述被访问网页判定为钓鱼网站。

确定所述评价因子集合U＝{u₁,u₂,u₃},确定所述评价等级集合V＝{v₁,v₂},确定所述模糊子集A＝{a₁,a₂,a₃}；其中，所述客户端检测结果包括第一客户端检测结果和第二客户端检测结果，所述第一客户端检测结果是所述客户端将所述被访问网页的网页特征和所述待检测URL的URL特征输入复合分类器后获得的复合分类器结果，所述第二客户端检测结果是所述客户端将所述待检测URL输入简单分类器后获得的简单分类器结果，u₁,u₂和u₃分别表示第一客户端检测结果、所述服务器检测结果和第二客户端检测结果，v₁和v₂分别表示正常网站和钓鱼网站，a₁,a₂和a₃分别表示所述第一客户端检测结果、所述服务器检测结果和所述第二客户端检测结果在综合评判中的影响权重；

确定所述等价子集B：

其中，参数b₁表示判断结果对正常网站的隶属度，参数b₂表示判断结果对钓鱼网站的隶属度；a₁、a₂和a₃分别为所述第一客户端检测结果、所述服务器检测结果和所述第二客户端检测结果在综合评判中的影响权重，r₁₁和r₁₂分别为所述第一客户端检测结果对正常网站和钓鱼网站的隶属度，r₂₁和r₂₂分别为所述服务器检测结果对正常网站和钓鱼网站的隶属度，r₃₁和r₃₂分别为所述第二客户端检测结果对正常网站和钓鱼网站的隶属度；

在参数b₁和b₂中，若所述参数b₁较大，则将所述被访问网页判定为正常网站；若所述参数b₂较大，则将所述被访问网页判定为钓鱼网站。

在一个优选的实施例中，客户端检测结果为0和1时分别表示在所述计算客户端检测结果步骤中的所述被访问网页是正常网站和钓鱼网站；

服务器检测结果为0和1时分别表示在所述获取服务器检测结果步骤中的所述被访问网页是正常网站和钓鱼网站；

客户端简单检测结果为0和1时分别表示在所述简单分类步骤中的所述被访问网页是正常网站和钓鱼网站；

所述的钓鱼网站检测方法还包括如下步骤，根据如下算法计算隶属度：

u (x) = \{\begin{matrix} 1 - FPR, & x = 0 \\ 1 - TPR, & x = 1 \end{matrix};

r₁₁+r₁₂＝1,r₂₁+r₂₂＝1,r₃₁+r₃₂＝1；

其中，u(x)表示客户端检测结果、服务器检测结果或客户端简单检测结果对正常网站或钓鱼网站的隶属度，x表示客户端检测结果、服务器检测结果和客户端简单检测结果的数值；FPR和TPR分别为通过客户端检测结果、服务器检测结果和客户端简单检测结果进行统计所得总检测率和总误判率。

通过上述算法对客户端检测结果、服务器检测结果和客户端简单检测结果进行综合评判，可以使得客户端获得更加精确的综合评价结果；另外，通过将被访问网页判定为可疑网站，进一步细化了评判被访问网页的分类，可以为用户提供更加准确的分类，客户端可以更加准确地警示用户。

在一个优选的实施例中，所述服务器通过如下步骤得到服务器检测结果：

S302步骤，所述服务器根据所述待检测URL获取第一IP集；

S303步骤，所述服务器从所述被访问网页中提取关键词，并执行S304步骤；

S304步骤，所述服务器根据所述关键词在搜索引擎上进行搜索获得排在前N名的URL，并执行S305步骤；

S305步骤，所述服务器根据所述排在前N名的URL获取第二IP集；

S306步骤，所述服务器判断所述待检测URL是否在所述服务器中的钓鱼网站黑名单中，若是则判断所述被访问网页是钓鱼网站，否则执行S307步骤；

S307步骤，所述服务器计算所述第一IP集和所述第二IP集的所述IP集合相似度，其中，所述第一IP集的任一IP元素与所述第二IP集的任一IP元素的相似度中的最大值是所述IP集合相似度，所述IP集合相似度作为所述服务器检测结果。

在一个优选的实施例中，在所述S303步骤中，所述服务器通过分类器提取关键词：

提取训练样本中的关键词的关键词特征、位置特征、词频特征和词性特征，并将所述关键词的关键词特征、位置特征、词频特征和词性特征作为输入对所述分类器进行训练；

其中，词语为关键词和非关键词时所述关键词特征分别为1和0；词语为关键词和非关键词时所述词频特征为1和0，所述词频特征为1和0时对应的词语出现的频率分别大于设定频率和不大于设定频率；词语为关键词和非关键词时所述词性特征为1和0时，所述词性特征为1和0时对应的词语为名词和非名词；词语为关键词和非关键词时所述位置特征为1和0，所述位置特征为1和0时对应的词语出现于特殊位置和非特殊位置；

将测试样本输入所述分类器进行训练；

获取所述被访问网页中的待检测的词语的特征，所述待检测词语的特征包括：关键词特征、位置特征、词频特征和词性特征；

将所述待检测词语的特征作为所述分类器的输入，若所述分类器的输出为1，则判断所述待检测的词语为关键词，若所述分类器的输出为0，则判断所述待检测的词语为非关键词。

通过分类器对被访问网页提取关键词，从而可以获得更为准确的关键词，从而可以进一步提高判断被访问网页是否属于钓鱼网站的准确度。

本发明还提供了一种钓鱼网站检测装置包括客户端检测单元、服务器检测单元和综合判断单元；

所述客户端检测单元用于获取被访问网页的待检测URL，对所述待检测URL进行检测，获得客户端检测结果，所述客户端检测结果表示了所述被访问网页与钓鱼网站的相关程度；

所述服务器检测单元用于将所述待检测URL发送给服务器，并接收所述服务器发送的服务器检测结果，所述服务器检测结果表示了所述被访问网页与钓鱼网站的相关程度；

所述综合判断单元用于根据所述客户端检测结果和所述服务器检测结果对所述待检测URL进行综合评判，以判断所述待检测URL是否属于钓鱼网站；其中，所述服务器检测结果和所述客户端检测结果在综合评判中具有不同的影响权重。

在一个优选的实施例中，所述客户端检测单元包括：

第一客户端子单元，用于从所述待检测URL提取出目标域名；

第二客户端子单元，用于计算所述目标域名与所述客户端存储的白名单中的白名单域名之间的域名相似度；

第三客户端子单元，所述第三客户端子单元用于：若所述域名相似度等于1，则判断所述被访问网页为正常网站；若所述域名相似度大于域名相似度阈值且小于1时，则判断所述被访问网页为钓鱼网站；若所述域名相似度小于所述域名相似度阈值，则所述客户端检测单元对所述待检测URL进行检测，获得客户端检测结果。

在一个优选的实施例中，所述综合判断单元包括：

第一综合判断子单元，用于确定评价因子集合U＝{u₁,u₂,...u_i,...,u_m},其中，所述客户端检测结果的数量为多个，评价因子集合U的元素u_i表示所述客户端检测结果中的第i个客户端检测结果；

第二综合判断子单元，用于确定用于表示所述被访问网页分类的评价等级集合V＝{v₁,v₂,...v_j...,v_n}，其中，评价等级集合V的元素v_j表示所述评价等级集合V的第j个评价等级，一个评价等级v_j代表所述被访问网页的一个分类；

第三综合判断子单元，用于确定所述评价因子u_i对所述评价等级v_j的隶属度ri_j，并确定隶属度集合r_i＝{r_i1,r_i2,...,r_in}，其中所述隶属度集合r_i表示所述评价因子u_i分别对所述评价等级集合V的所有评价等级的隶属度；

第四综合判断子单元，用于确定模糊子集A＝{a₁,a₂,...,a_i...,a_m}，其中，模糊子集A的元素a_i表示所述评价因子u_i在综合评判中的影响权重；

第五综合判断子单元，用于确定等价子集B:

第六综合判断子单元，用于确定所述等价子集B中最大的b_j,将所述最大的b_j对应的评价等级v_j作为所述被访问网页的评价等级。

利用客户端检测结果和服务器检测结果进行综合评判，综合了客户端和服务器的两个检测结果，从而提高了检测钓鱼网站的准确度。

【附图说明】

图1是本发明一种实施例的钓鱼网站检测方法流程图；

图2是本发明一种实施例的客户端钓鱼网站检测方法流程图；

图3是本发明一种实施例的服务器钓鱼网站检测方法流程图；

图4是本发明一种实施例的钓鱼网站综合评判方法流程图。

【具体实施方式】

以下对发明的较佳实施例作进一步详细说明。

待检测URL待检测URL如图1所示，为本发明提供的一种实施例的钓鱼网站检测方法，包括如下步骤：

S10，客户端获取待检测URL。

作为一种可选的实施方式，客户端获取待检测URL(Uniform Resource Locator，统一资源定位符)，例如，可获取到网页页面中的URL、邮件正文中的URL、即时通讯信息中的URL等待检测URL，具体不受本发明实施例的限制。例如，当用户通过客户端访问某个网页的下载链接URL(待检测URL)时，客户端可获取到该待检测URL。

S20，客户端获取客户端检测结果。

作为一种可选的实施方式，客户端对待检测URL进行检测，获得客户端检测结果，所述客户端检测结果表示了所述被访问网页与钓鱼网站的相关程度。

S30，客户端获取服务器检测结果。

作为一种可选的实施方式，客户端将该待检测URL发送给服务器，服务器对待检测URL进行检测，获得服务器检测结果，所述服务器检测结果表示了所述被访问网页与钓鱼网站的相关程度；然后，服务器将服务器检测结果发送给客户端，进而客户端接收到服务器返回的服务器检测结果。

S40，综合评判。

作为一种可选的实施方式，客户端根据所述客户端检测结果和服务器检测结果对所述待检测URL进行综合评判，以判断所述待检测URL是否属于钓鱼网站；其中，所述服务器检测结果和所述客户端检测结果在所述综合评判中具有不同的影响权重。具体实现中，所述服务器检测结果和客户端检测结果在综合评判中分别具有较大影响权重和较小影响权重。

进一步可选的，步骤S20和S30，可同时，也可以先执行其中一个步骤，再执行另一个步骤，其中，图1仅示出其中一种发明实施例，具体不受本发明实施例的限制。

利用客户端检测结果和服务器检测结果进行综合评判，综合了客户端和服务器的两个检测结果，相比于现有技术仅仅通过服务器或者客户端的检测而判断钓鱼网站，本实施例的方法提高了检测钓鱼网站的准确度。

在一个实施例中，S20步骤中获取客户端检测结果，对待检测URL的检测包括如下步骤，如图2所示。

S201，提取目标域名。

客户端通过URL找出目标域名(浏览器根据URL到达的域名)。目标域名一般情况下是URL的真正域名，但在特殊情况下不是真正域名，目标域名可以取二级或三级(最多三级,越少越好)。

S202，计算目标域名相似度。

a)构建白名单域名

在客户端存储白名单域名，白名单的数据单元保存形式与目标域名一样，只保存域名(仅包含顶级域名和二级域名)，采用最近访问优先策略，动态更新白名单顺序。

b)计算域名相似度

客户端可以使用编辑距离算法计算该目标域名与白名单中的某个域名的相似度。

S203，域名相似度与阈值进行比较。

若域名相似度为1，则说明被访问网页与白名单中的某个域名完全匹配，客户端将该被访问网页判为正常网站；若域名相似度小于1但大于某个设定的域名相似度阈值，即与白名单中某个域名相似，就执行S211步骤，客户端将被访问网页判为钓鱼网站；若域名相似度<域名相似度阈值，则进行下一步的检测，执行S204步骤和S206步骤。

经过研究发现，钓鱼网站经常利用相似字符来伪装域名，如：{I,1,i,l}{vv,w}{nn,m},{0,O},{Z,2},{O,Q},{E,F},{g,9},{8,B},{b,6},{5,S},{y,v},{rn,m}，上述每个集合中，每个元素之间相似度很高，而浏览器的URL地址栏里面的字通常也较小，如果不仔细看很容易混淆；还有的钓鱼网站通过拼写来实现域名混淆，如：Nokia,Konia，如有这些情况相似度应该比较高。

S204，判断被访问网页是否有Form。

钓鱼网站一般都是通过Form来窃取用户账号信息。

客户端解析HTML的DOM树，查找Form标签，看是否能找到Form。如果页面中没有Form，则可视为普通的正常网站，客户端将被访问网站判断为正常网站；若有Form，则执行步骤S205，提取网页特征做进一步的判断。

S205，提取网页特征

作为一种可选的实施方式，提取的网页特征可包括：

(1)HTML文本特征

网站Title：标题<title>和</title>之间的内容。网站描述：标签<meta>中name属性值为keywords和description，对应的content属性的内容。从<head><title>中找出keywords，然后看是否有描述不一致的地方(如meta，domain等)。

(2)Form的特征

Form中action属性内容：标签<Form>中action的属性值。SFH(Server FormHandler)的action字段的value值：foreign domain为不正常，empty为正常。

(3)链接目标

html标签<a>的href属性的内容AURL(url of anchor)<a href＝””>href的数量。<img>元素src属性的内容RURL(request url)<img src＝”url”>请求image的数目。Script(JavaScript，src)tag的数目。Link(CSS，href)tag的数目。

(4)运用TF-IDF算法提取网页正文MB(Main Body)。

(5)网站版权信息(copyright备案号)。

(6)可疑链接(suspicious links)。

(7)链接文本：html标签<a>和</a>之间的文本内容。

(8)图像的文本特征：<img>元素<alt>属性的内容。

(9)不正常的SSL。

(10)不正常的证书。

使用网站域名注册信息查询算法，查询网站的注册信息，主要包括域名注册时间、过期时间、域名归属地或备案号等信息。而不使用whois查询，因为whois查询返回的很多信息是不需要的信息。而通过网站域名注册信息查询算法则能够直接有效的提取所需要的有用信息。

S206，提取URL特征。

客户端提取待检测URL特征，判断被访问网页的待检测URL是否具有以下特征：

(1)URL域名是IP形式

(2)URL中包含端口号

(3)URL中含有16进制

(4)URL域名级数超过5级

(5)URL路径带点(.)

(6)URL路径中存在phish(钓鱼)关键词

(7)低级域名的位置出现高级域名

(8)URL过长(例如，URL超过50个字符)

(9)使用特殊字符进行URL伪装(％转义后的内容)

(10)URL中的路径级数过多(例如，符号/的个数过多)

(11)URL包含,-，_

经过对正常网页、尤其是网银、购物网站等大型的网站的URL的分析，这些网页的URL很少出现上述特征，因而可以将上述特征作为判断网页是否是钓鱼网站的一个重要依据。

S207，简单分类器初步分类。

客户端可以采用决策树对被访问网页进行分类。先通过数据挖掘等方法提取被访问网页最主要的URL特征，根据URL特征的重要性进行排序，重要性排列次序可参见步骤S206中列举的次序，然后构造决策树，若检测到被访问网页明显具有步骤S206中的特征，客户端直接将被访问网页判断为钓鱼网站，从而获得客户端简单检测结果(客户端初步分类器结果)，例如被访问网页出现步骤S206中多个特征的，或者出现的特征为排列在较为靠前的特征。

S208，使用复合分类器行分类。

此处以AROW分类器为例阐述复合分类器分类的过程，但不局限于AROW分类器。

首先，要对AROW分类模型进行训练。

(1)选取黑名单库(例如PhishTank等提供)的若干钓鱼网站和通过google等搜索引擎随机搜索的若干排名靠前的网站作为正常网站作为训练的样本，对训练样本进行标记，0为正常网站，1为钓鱼网站。

(2)提取特征，计算特征值，生成特征向量。特征包括如上所列HTML文本特征和URL特征。记为如下特征向量：

T＜t₁,t₂,t₃,t₄,t₅,t₆,t₇,t₈,t₉,t₁₀,t₁₁,t₁₂,t₁₃,t₁₄,t₁₅,t₁₆,t₁₇,t₁₈,t₁₉,t₂₀,t₂₁,t₂₂＞

网站Title：标题<title>和</title>之间的内容。网站描述：标签<meta>中name属性值为keywords和description，对应的content属性的内容。从<head><title>中找出keywords，正常网站内容一致，钓鱼网站内容往往不一致，因此可计算内容的相似度为t₁,相似度为两者的最长公共子序列与字符串长度较大者的比值，如下所示：

t_{1} = \frac{LCS (title, keywords)}{\max_length (title, keywords)}

式中LCS(title,keywords)是title与keywords最长公共子序列的长度，max_length(title,keywords)表示二者字符串长度的最大值。

钓鱼网站为了获取用户信息，HTML文本中一定有form，因此，没有form的网站一定是正常的网站，特征值t₂计算方式如下：

html标签<a>的href属性的内容AURL(url of anchor)<a href＝””>href的数量、<img>元素src属性的内容RURL(request url)<img src＝”url”>请求image的数目、Script(JavaScript，src)tag的数目、Link(CSS，href)tag的数目。正常网站的这些数目一般较少，而钓鱼网站通常要引用其他网站的资源，数目较多，由此可以计算t₃的值如下：

查看网页版权信息是否正常。从法律角度看，版权保护是随着作品(无论是文字，还是图片)的问世的即刻就得到版权的保护的，并不是必须要声明。但是作为惯例，这一小行文字还是有很好加强意识，提醒浏览者，所观看的内容是受到版权保护的。正确的格式应该是：Copyright[dates]by由此计算特征值t₄公式如下：

通过检查是否存在可疑的链接，可疑链接如链接的URL不符合正常URL的一些特征(如上文提到的特征)等，由此计算特征值t₅如下所示：

通过检查是否存在可疑证书，正常网站一般都会由特定的机构颁发证书，而证书的颁发周期一般比较长，比钓鱼网站的生存周期长很多，因此，钓鱼网站一般是没有证书的，而有的钓鱼网站为了混淆用户，会造假的证书，或者显示证书不能正常显示等不正常情况，由此计算t₆的值，如下所示：

通过检查是否存在可疑cookie计算t₇的值。在Javascript脚本里,一个cookie实际就是一个字符串属性，当读取cookie的值时，就得到一个字符串，里面包含当前WEB页使用的所有cookies的名称和值，每个cookie除了name名称和value值这两个属性以外，还有四个属性：expires过期时间、path路径、domain域名、以及secure安全。由于cookie往往包含了用户的一些敏感信息，如登录名称密码等，而有的钓鱼网站通过cookie路径属性可能会泄漏用户敏感信息，一些不正常的cookie路径例如路径级数较多等，此外，过期时间太长，域名不正常，安全属性secure不为true等等，往往都是可疑的。计算t₇公式如下所示：

检查链接文本：html标签<a>和</a>之间的文本内容，html<a>标签定义超链接，用于从一张页面链接到另一张页面。<a>元素最重要的属性是href属性，它指示链接的目标。查看链接目标中URL是否正常,即检查URL是否符合正常URL的一些特征(如上文提到的特征)等，由此来计算特征值t₈如下所示：

运用TF-IDF算法提取网页正文MB(Main Body)，计算网页正文MB与title的相似度表示他们的特征值，计算特征值记为t₉,如下所示：

t_{9} = \frac{LCS (title, MB)}{\max_length (title, MB)}

检查图像的文本特征：<img>元素<alt>属性的内容。查看这些内容是否正常，当用户把鼠标移动到img元素上时，Internet Explorer会显示出alt属性的值。这种行为并不正确。所有其他的浏览器正在向规范靠拢，只要当图像无法显示时，才会显示出替代文本。对应特征值t₁₀计算方法如下所示：

检查是否存在不正常的SSL，SSL即Secure Sockets Layer安全套接层，不正常的SSL如端口号不正确等。对应特征值t₁₁，如果存在不正常的SSL，则特征值为1，不存在不正常的SSL则特征值为0，计算公式如下所示：

提取URL特征，看URL域名中是否为IP形式，为了隐藏真实域名，钓鱼网站的域名往往是IP形式，由此计算t₁₂的值如下：

检查URL中是否含有端口号，由此计算t₁₃的值如下形式：

检查URL中是否含有16进制数，由此计算t₁₄的值如下形式：

检查URL域名级数是否超过5级，正常网站域名级数一般不超过5级，钓鱼网站通过使用多级域名来进行伪装，计算其特征值t₁₅的公式如下：

检查URL路径中是否带有点，由此计算特征值t₁₆公式如下：

查看URL路径中是否存在phish关键词，phish关键词包括confirm,account,banking,secure,ebayisapi,webscr,login,signin,paypal,free,lucky,bonus等，这些词经常出现在钓鱼网站的路径中，由此得特征值t₁₇的计算公式如下：

查看低级域名的位置是否出现高级域名，计算t₁₈的值如下：

查看URL的总长度，一般正常网站的URL总长度不超过50个字符，而钓鱼网站进行了大量伪装，导致URL比较长，往往长度超过50字符的URL为钓鱼网站URL，由此计算t₁₉的值如下：

检查是否使用了特殊字符进行URL伪装(如％进行转义)，由此计算t₂₀的值公式如下：

查看URL中的路径级数是否过多，正常网站URL中路径的级数一般不多，而钓鱼网站路径级数一般较多，由此计算t₂₁的值公式如下：

检查URL中是否包含、-，这两种字符一般不会出现在正常网站的URL中，由此计算t₂₂的值的公式如下：

(3)将如上方式计算所得的特征向量T<t₁,t₂,t₃,……,t₂₂>,结合该网站是否为钓鱼网站(标记是否为1)，作为AROW分类器的输入，完成对AROW分类器的训练。

然后，使用已经训练好的AROW分类器对未知网站进行分类,判断该网站是否为钓鱼网站。

(1)对于待检测的网站,按照与训练样本同样的方法提取特征，求得特征值生成该网站对应的特征向量T<t₁,t₂,t₃,……,t₂₂>。

(2)将特征向量T<t₁,t₂,t₃,……,t₂₂>作为训练好的AROW分类器的输入，AROW分类器则会输出一个值，该输出值为0或者1。如果输出为0，说明输入的特征向量对应的网站为正常网站；如果输出值为1，是说明输入的特征向量对应的网站为钓鱼网站。在本实施例中，这个输出值则是客户端检测结果(客户端符合分类器结果)。

此外，AROW分类器有较好的在线学习功能，对于最终的评价结果，可以结合该待测网站的特征向量，当作训练样本对AROW分类器进行训练,使得AROW分类器能够进行实时的参数优化。

S209，记录客户端结果与特征向量。

客户端将客户端检测结果和分类器的特征向量记录下来，等待服务器端检测结果，然后进行综合评判。

在本实施例中，通过比较域名相似度与阈值的大小关系来判断被访问网页是正常网站、可疑网站还是钓鱼网站，并进一步通过判断被访问网页是否具有Form，以及通过复合分类器根据网页特征和URL特征进行分类，从而得出客户端检测结果，以表示被访问网页与钓鱼网站的相关程度，这样尽可能多地提取被访问网页的特征进行评判，提高了客户端检测的精确度。

在一个实施例中，服务器对待检测URL的检测包括如下步骤，如图3所示。

S301，服务器获取客户端发送的待检测URL。

S302，获取URL对应的IP集S1。

提取待检测URL对应的域名，通过DNS解析(原来PING检测改为DNS解析)，获取该域名对应的第一IP集S1。

S303,提取被访问网页关键词。

使用分类器的思想来提取网页关键词。

提取训练样本中的关键词的关键词特征、位置特征、词频特征和词性特征。具体实现中，提取训练样本中关键词的关键词特征，关键词特征例如关键测的位置特征、，词性特征，词频特征等，生成特征向量，并将所述关键词的关键词特征、位置特征、词频特征和词性特征作为输入对所述分类器进行训练。对于待检测的网站，使用训练好的分类器选择关键词。

例如，使用SVM分类器模型，但不局限于该模型。如下所示为使用SVM分类器提取关键词的训练过程和使用训练好的SVM分类器分类的过程。

首先，使用测试样本对分类器进行训练。

具体的，可将测试样本输入所述分类器进行训练；

具体实现中，具体步骤如下：

(1)选择一些文本作为测试样本，人工的对测试样本中的一些词进行区分，标记为0或1，0代表非关键词，1代表关键词。测试样本例如测试文本。

(2)提取这些词的特征，计算特征值，特征包括词在文本中的位置特征，词性特征，词频特征等等,为了表达的方便，此处只选择位置特征、词性特征、词频特征为特征生成特征向量

U＜location,property,frequency＞

对于位置特征，测试文本的关键词一般出现在文本的段首、段尾以及中间段的首句和尾句。记这些位置为特殊位置，得到关于位置特征的特征值的计算公式如下：

对于词性特征，测试文本的关键词一般都为名词，而不可能为形容词、副词、连词等，那么，如果是名词，则这个特征对应的特征值为1，如果不是名词，则特征值为0。得到词性特征值的计算公式如下：

对于词频特征，测试文本的关键词一般在文本中经常出现，词频较高，记在文本中出现次数超过5次为高频，对应的特征值为1，否则为0，得到如下频率特征值的计算公式如下：

(3)将每个词的每个特征的特征值组合成该词的一个特征向量U<location,property,frequency>，结合该词是否为关键词(标记是否为1)，作为SVM的输入，完成对SVM的训练。

然后，使用已经训练好的SVM分类器对未知文本中的词进行分类，挑选出该文本的关键词。未知文本例如被访问网页中的待检测的词语。

(1)对于未知文本中的词，按照与训练样本同样的方法提取特征，求特征值生成该词对应的特征向量U<location,property,frequency>。

(2)将特征向量U<location,property,frequency>作为训练好的SVM分类器的输入，SVM分类器则会输出一个值，该输出值为0或者1。如果输出为0，说明输入的特征向量对应的词不是该文本的关键词；如果输出值为1，是说明输入的特征向量对应的词是该文本的关键词。

(3)依次将未知文本中的词按如上步骤输入SVM分类器进行分类，则可检测并输出未知文本的所有关键词。S304，通过搜索引擎搜索关键词。

服务器根据S303步骤获得的关键词，在搜索引擎(例如谷歌、百度等)中进行搜索相关网页。

S305，将搜索前N结果的URL转换成对应的IP集S2。

服务器根据S304步骤中得到的搜索相关网页结果中，找到排在前N位的URL，提取对应的域名，然后通过DNS解析，获取排在前N位的URL的域名对应的第二IP集S2。S306，判断待检测URL是否在黑名单中。

将待检测URL与服务器存储的钓鱼网站黑名单进行比较，若待检测URL在黑名单中，则执行步骤S308，服务器断定被访问网站为钓鱼网站。若待检测URL不在黑名单中，则执行步骤S307。

S307,计算IP集S1与S2的相似度。

服务器计算第一IP集S1与第二IP集S2的IP集合相似度，若IP集合相似度小于阈值，则说明被访问网页是在模仿某个网站，则服务器判断被访问网页是钓鱼网站。如果IP集合相似度为1，即第一IP集S1与第二IP集S2有交集，则服务器判断被访问网页为正常网站。

IP集合的相似度，指的是其中一个IP集中每个IP元素与另一个IP集合中每个IP元素的相似度的最大值，即分别计算S1中的每个IP元素与S2中的每个元素的之间相似度，将得到的一组相似度中选择最大的即为IP集合的相似度。

在本实施例中，第一IP集S1与第二IP集S2的相似度作为服务器检测结果，显然，服务器还可以利用其它方式计算被访问网页与钓鱼网站的相关程度，例如可以参照客户端的计算访问网页与钓鱼网站的相关程度的方法，同样，客户端也可以参照服务器的方法计算客户端检测结果。服务器记录服务器检测结果，并将服务器检测结果送回客户端供客户端进行综合评价。

本实施例中，通过分类器提取网页关键词，从而提高了提取关键词的精确度；另外计算第一IP集S1和第二IP集S2的相似度，提高了服务器判断被访问网页是否属于钓鱼网站的精确度。

如图4所示，一个实施例的客户端的综合评判步骤。

综合评判是指对客户端得到的结果和服务器端得到的结果进行综合评估，作出一个最合适的判断结果。在评估的过程中，客户端的结果和服务器端的结果的权重是不一样的，一般情况下服务器端的权重要大一些(因为服务器的判断比客户端的判断要更加准确)。综合评判是对受到多个因素制约的事物或对象作出一个总的评价。由于从多方面对事物进行评价难免带有模糊性和主观性，采用模糊数学的方法进行综合评判将使结果尽量客观从而取得更好的实际效果。因此，可以采用多因素的模糊性综合评判方法。

模糊综合评判方法就是以模糊数学为基础，将一些边界不清，不易定量的因素定量化，对问题进行综合评价的一种方法。模糊综合评判是运用模糊变换的原理，应用最大隶属度原则，对某一对象进行全面评判，它能比较顺利地解决传统方法难以解决的“模糊性”评判与决策问题，是一种行之有效的辅助决策方法。

设要考虑的评价因子构成的评价因子集合U＝{u₁,u₂,...,u_m},评价等级构成评价等级集合V＝{v₁,v₂,...,v_n}。对评价因子集合U中的某一个因素u_i作因素评价，确定因素u_i对评价等级v_j的隶属度ri_j,得到第i种因素u_i的单因素评判集r_i＝{r_i1,r_i2,...,r_in},这样就构造出一个总的评价矩阵R,R是一个模糊关系。对于多因素评判，要考虑各因素在总评价中的影响程度，其影响程度的大小形成因素集U上的一个模糊子集A＝{a₁,a₂,...,a_m}。

当A和R已知时，作模糊变换进行评判：

其中：B为评价集V上的等价模糊子集，b_i为等级v_i对综合评判的等价模糊子集B的隶属度。若要作出决策，按照最大隶属度原则，最大的b_i所对应的等级v_i作为综合评判的结果，o是广义模糊算子。在本方案中使用模糊综合评价的具体步骤示例如下：

如图4所示，一个实施例中采用二分类器进行综合评判，例如复合分类器采用AROW分类器，例如服务器端计算得到的IP集相似度可以是1或0(输出结果与二分类器类似)，进一步可选的，计算得到的IP集相似度还可以为其他数值，具体不受本发明实施例的限制。综合评判步骤包括以下步骤：

S401，确定评价因子：

获取客户端复合分类器的分类结果、服务器端检测结果和客户端初步分类器的分类结果为评价对象的评价因子，记为U＝{u₁,u₂,u₃}。

S402，确定评价等级：

对评价的因素集的结果进行综合评价，得到两种结果，即评价结果的两种等级，分别为正常网站和钓鱼网站，记为V＝{v₁,v₂}。

S403，各评价因子对评价等级的隶属度。

取隶属度函数为:

u (x) = \{\begin{matrix} 1 - FPR, & x = 0 \\ 1 - TPR, & x = 1 \end{matrix};

其中FPR和TPR分别通过初步分类器的分类结果、复合分类器的分类结果、服务器端检测结果进行实验统计所得总检测率和总误判率。

因素u_i对评价等级v_i的隶属度r_i1＝u(x),且r_i1+r_i2＝1。由此可以分别计算出r₁₁,r₁₂,r₂₁,r₂₂,r₃₁,r₃₂,从而可以得到总的评价矩阵R。

S404，确定各评价因子的权重：

由于客户端复合分类器的分类结果、服务器端检测结果、客户端初步分类器的分类结果对最终结果的影响程度是不相同的，因此，要设置不同的影响权重，记为A＝{a₁,a₂,a₃}。

S405，进行综合评价：

当求得A和R时，作模糊变换进行评判：

o是广义模糊算子，在本方案中，取为普通乘法。从而可以计算出B＝(b₁,b₂)即为综合评价得出的结果，如果b₁＞b₂，则说明为正常网站，否则为钓鱼网站。

如图4所示，一个实施例中分类器输出结果为区间[0，1]上的某个值，例如复合分类器采用神经网络等，服务器端计算两个IP集的相似度，综合评判步骤包括以下步骤：

S401，确定评价因子：

取客户端复合分类器的分类结果、服务器端检测结果、客户端初步分类器的分类结果为评价对象的评价因子，记为U＝{u₁,u₂,u₃}。

S402，确定评价等级：

对评价的因素集的结果进行综合评价，得到两种结果，即评价结果的三种等级，分别为正常网站、可疑网站和钓鱼网站，记为V＝{v₁,v₂,v₃}。

各因素的评价如下表所示：表中m1,m₂,m₃,m₄为通过实验测定的阈值。

S403，各评价因子对评价等级的隶属度：

通过隶属度函数求出各评价因素对各评价等级的隶属度ri_j。例如取隶属度函数为如下线性函数：

u (x) = \{\begin{matrix} 1, x &GreaterEqual; m_{1} \\ L (x - m), m_{1} < x < m_{2} \\ 0, x \leq m_{2} \end{matrix}

其中，L为系数，可通过上表参数求得，m₁,m₂是相似两个等级的临界值，如上表所示，m取m₁,m₂中的一个值。

S404，确定各评价因子的权重：

S405，进行综合评价：

当求得A和R时，作模糊变换进行评判：

b₁,b₂,b₃分别代表正常网站、可疑网站和钓鱼网站对所述等价子集B的隶属度，因此，取这三个值中最大的一个对应的结果即为综合评判的结果。例如，如果b₁是三者中的最大值，则判断为正常网站，如果b₂是三者中的最大值，则判断为可疑网站，如果b₃是三者中的最大值，则判断为钓鱼网站。

当前的很多钓鱼网站检测方案存在的最大问题就是误判率较高，即把正常网站判为钓鱼网站。而本方案中，在客户端根据客户端检测结果和服务器检测结果对待检测URL进行综合评判之后，如果综合评判结果判断为钓鱼网站或不正常网站，则可显示警告信息，警告信息例如，“您户正在访问的网站可能为钓鱼网站，继续访问风险较大”，并提供与用户交互的按钮等，例如用户可通过界面的按钮人工判断选择是否继续进行访问，得到用户对最终检测结果的触控指令，可让用户自行判断是否为钓鱼网站，以此来减少误判。

在接收到用户对最终检测结果的触控指令后，可根据该触控指令、综合评判结果以及客户端记录的对应网站的特征向量返回到复合分类器进行训练，进而对分类器进行优化，从而实现在线学习功能。

本实施例中，客户端采用模糊算法进行综合评判，使得对客户端初步分类器结果、客户端复合分类器结果和服务器检测结果的综合评判更加准确。

进一步可选的，本发明实施例还提供一种钓鱼网站检测装置，其中，本发明实施例所示的钓鱼网站检测装置，用于执行本发明图1或附图2所示实施例的方法，为了便于说明，仅示出了与本发明实施例相关的部分，具体技术细节未揭示的，请参照本发明图1或附图2所示的实施例。

具体实现中，本发明实施例提供的钓鱼网站检测装置可以包括客户端检测单元、服务器检测单元和综合判断单元；

所述客户端检测单元可以包括：

第一客户端子单元，用于从所述待检测URL提取出目标域名；

在一个优选的实施例中，所述综合判断单元包括：

第三综合判断子单元，用于确定所述评价因子ui对所述评价等级v_j的隶属度ri_j，并确定隶属度集合r_i＝{r_i1,r_i2,...,r_in}，其中所述隶属度集合r_i表示所述评价因子u_i分别对所述评价等级集合V的所有评价等级的隶属度；

第五综合判断子单元，用于确定等价子集B:

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明由所提交的权利要求书确定的专利保护范围。

Claims

1.一种钓鱼网站检测方法，其特征是，包括如下步骤：

S10步骤，客户端获取被访问网页的待检测URL；

2.如权利要求1所述的钓鱼网站检测方法，其特征是，所述S20步骤包括如下步骤：

3.如权利要求1或2所述的钓鱼网站检测方法，其特征是，所述S40步骤包括以下步骤：

根据如下算法判断所述待检测URL是否属于钓鱼网站：

确定等价子集B:

4.如权利要求3所述的钓鱼网站检测方法，其特征是，

根据如下算法判断所述待检测URL是否属于钓鱼网站：

确定所述等价子集B：

5.如权利要求3所述的钓鱼网站检测方法，其特征是，

根据如下算法判断所述待检测URL是否属于钓鱼网站：

确定所述等价子集B：

6.如权利要求1所述的钓鱼网站检测方法，其特征是，所述服务器通过如下步骤得到服务器检测结果：

S302步骤，所述服务器根据所述待检测URL获取第一IP集；

S305步骤，所述服务器根据所述排在前N名的URL获取第二IP集；

7.如权利要求6所述的钓鱼网站检测方法，其特征是，在所述S303步骤中，所述服务器通过分类器提取关键词：

将测试样本输入所述分类器进行训练；

8.一种钓鱼网站检测装置，其特征是，包括客户端检测单元、服务器检测单元和综合判断单元；

9.如权利要求8所述的钓鱼网站检测装置，其特征是，所述客户端检测单元包括：

第一客户端子单元，用于从所述待检测URL提取出目标域名；

10.如权利要求8或9所述的钓鱼网站检测装置，其特征是，所述综合判断单元包括：

第五综合判断子单元，用于确定等价子集B: