CN106302319A

CN106302319A - 一种钓鱼网站检测方法和设备

Info

Publication number: CN106302319A
Application number: CN201510251259.8A
Authority: CN
Inventors: 张建
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2015-05-15
Filing date: 2015-05-15
Publication date: 2017-01-04

Abstract

本申请公开了一种钓鱼网站检测方法和设备，该方法包括：利用多层次钓鱼网站特征样本集检测待检测网站中是否存在所述多层次钓鱼网站特征样本集中的特征，所述多层次钓鱼网站特征样本集包含与已知钓鱼网站的特征相关的特征；若所述待检测网站中存在所述多层次钓鱼网站特征样本集中的特征，且所述待检测网站中存在的多层次钓鱼网站特征样本集中的特征的风险评估值的总和超过阈值，则确定所述网站为钓鱼网站；以此利用多层次钓鱼网站特征样本集对待检测网站进行识别，实现了对钓鱼网站的及时识别。

Description

一种钓鱼网站检测方法和设备

技术领域

本申请实施例涉及通信技术领域，特别涉及一种钓鱼网站检测方法和设备。

背景技术

现有的钓鱼网站检测方案中，是在用户被欺诈之后向安全厂商反馈，安全厂商再通过客户端或人工的方式来对钓鱼网站的域名进行收集，这样的方式存在严重的滞后性，无法针对发布的新钓鱼网站进行及时有效地防御，另外钓鱼网站的生命周期很短，经常更换域名，这样即使相同的钓鱼网站周期性更换域名，现有的检测方式无法检测出来。

发明内容

本申请提出了一种钓鱼网站检测方法和设备，用以实现对钓鱼网站的实时准确的检测。

为此，本申请提出了一种钓鱼网站检测方法，包括：

检测待检测网站中是否存在所述多层次钓鱼网站特征样本集中的特征，所述多层次钓鱼网站特征样本集包含与已知钓鱼网站相关的特征；

若所述待检测网站中存在所述多层次钓鱼网站特征样本集中的特征，且所述待检测网站中存在的多层次钓鱼网站特征样本集中的特征的风险评估值总和超过阈值，则确定所述待检测网站为钓鱼网站。

可选的，所述多层次钓鱼网站特征样本集的生成，具体包括：

获取多层次特征数据；

在所述多层次特征数据中获取与已知钓鱼网站相关的特征的集合作为多层次钓鱼网站特征样本集，并基于危害程度和与已知钓鱼网站的特征的相关程度为所述多层次钓鱼网站特征样本集中的特征赋予风险评估值。

可选的，所述网站数据包括：新增的网站数据，更新的网站数据，预定领域的网站数据；

所述获取网站数据，具体包括：

定时获取预定时间内新增的网站数据；和/或

定时获取预定时间内更新的网站数据；和/或

定时基于预定关键字获取预定领域的网站数据。

可选的，在所述多层次特征数据中获取与已知钓鱼网站相关的特征的集合作为多层次钓鱼网站特征样本集，并基于危害程度和与已知钓鱼网站的特征的相关程度为所述多层次钓鱼网站特征样本集中的特征赋予风险评估值，具体包括：

在所述多层次特征数据中获取与已知钓鱼网站相关的特征的集合作为多层次钓鱼网站特征样本集，并根据与已知钓鱼网站的特征的相关程度为所述多层次钓鱼网站特征样本集中的特征分别赋予相关程度值，其中，相关程度越高，相关程度值越大；

基于所述多层次钓鱼网站特征样本集中的特征在所述多层次特征数据出现的频率确定所述多层次钓鱼网站特征样本集中的特征的危害程度，并基于危害程度为所述多层次钓鱼网站特征样本集中的特征分别赋予危害程度值；

基于所述相关程度值和所述危害程度值为所述多层次钓鱼网站特征样本集中的特征赋予风险评估值。

可选的，所述已知钓鱼网站的特征是通过对已知的钓鱼网站进行聚类分析提取的；

所述已知钓鱼网站的特征，包括：

网站代码信息，网站域名信息，网站所属人信息。

可选的，所述方法还包括：

当确定所述网站为钓鱼网站时，提取所述网站的特征作为已知钓鱼网站的特征，并拦截所述网站，以及通知给用户。

本申请还提出了一种钓鱼网站检测设备，包括：

检测模块，用于检测待检测网站中是否存在所述多层次钓鱼网站特征样本集中的特征，所述多层次钓鱼网站特征样本集包含与已知钓鱼网站相关的特征；

确定模块，用于当所述待检测网站中存在所述多层次钓鱼网站特征样本集中的特征，且所述待检测网站中存在的多层次钓鱼网站特征样本集中的特征的风险评估值总和超过阈值时，确定所述待检测网站为钓鱼网站。

可选的，所述钓鱼网站检测设备还包括：还包括：获取模块和处理模块；

其中，获取模块，用于获取多层次特征数据；

处理模块，在所述多层次特征数据中获取与已知钓鱼网站相关的特征的集合作为多层次钓鱼网站特征样本集，并基于危害程度和与已知钓鱼网站的特征的相关程度为所述多层次钓鱼网站特征样本集中的特征赋予风险评估值。

可选的，所述多层次特征数据包括：新增的网站数据，更新的网站数据，预定领域的网站数据；

所述获取模块，具体用于：

定时获取预定时间内新增的网站数据；和/或

定时获取预定时间内更新的网站数据；和/或

定时基于预定关键字获取预定领域的网站数据。

可选的，所述处理模块，具体用于：

所述已知钓鱼网站的特征，包括：

网站代码信息，网站域名信息，网站所属人信息。

可选的，所述设备还包括：

拦截模块，用于当确定所述网站为钓鱼网站时，提取所述网站的特征作为已知钓鱼网站的特征，并拦截所述网站，以及通知给用户。

与现有技术相比，本申请中通过多层次特征数据和已知钓鱼网站的特征来获取与所述特征相关的多层次钓鱼网站特征样本集，基于危害程度和与已知钓鱼网站的特征的相关程度为所述多层次钓鱼网站特征样本集中的特征赋予风险评估值，以便后续需要检测所述网站时，利用多层次钓鱼网站特征样本集对网站进行检测，以此实现了对钓鱼网站的及时准确的检测。

附图说明

图1为本申请实施例提出的一种钓鱼网站检测方法的流程示意图；

图2为本申请实施例中的获取多层次钓鱼网站特征样本集中特征的示意图；

图3为本申请实施例提出的一种钓鱼网站检测设备的结构示意图。

具体实施方式

如背景技术，现有技术中无法实时准确地检测到钓鱼网站，本申请中公开了一种钓鱼网站检测方法和设备，实现了对钓鱼网站的实时准确识别。

本申请实施例一公开了一种钓鱼网站检测方法，如图1所示，包括以下步骤：

步骤101、检测待检测网站中是否存在多层次钓鱼网站特征样本集中的特征，多层次钓鱼网站特征样本集包含与已知钓鱼网站相关的特征。

当需要对网站进行检测时，例如当浏览到某个网站时，启动对该网站的检测，具体的，提取该待检测网站的特征，并判断该待检测网站中的特征中是否存在多层次钓鱼网站特征样本集中的特征，例如检测的结果为存在(例如存在多层次钓鱼网站特征样本集中的特征1、特征2、特征3)或者不存在任何特征；而具体的，多层次钓鱼网站特征样本集中的生成，具体包括以下步骤：

步骤A、获取多层次特征数据。

其中，多层次特征数据，具体用于查找与一个或多个特征相关的多个层次的特征，例如通过多层次特征数据查找特征1确定与特征1相关的特征(例如特征2)，继续查找与特征2相关的特征(例如特征3)，以此类推，由于后续利用多层次特征数据查找与钓鱼网站的特征相关的多层次钓鱼网站特征数据，因此多层次特征数据可以包括但不限于：新增的网站数据，更新的网站数据，预定领域的网站数据；获取多层次特征数据，具体包括：定时获取预定时间内新增的网站数据；和/或定时获取预定时间内更新的网站数据；和/或定时基于预定关键字获取预定领域的网站数据。

具体的，为了保证识别的准确性，需要在一定范围内进行已知钓鱼网站的特征的匹配，而范围越大，准确性越高，因此获取多层次特征数据以便后续利用多层次特征数据对已知钓鱼网站的特征进行匹配，而考虑到多层次特征数据是实时变化的，不断有新的网站产生，也不断有网站的数据发生更新，因此定时获取新增的网站数据和更新的网站数据，另外，考虑到钓鱼网站是用于窃取用户提交的银行帐号、密码等私密信息的，以此来达到非法获利的目的，因此可以有针对性的获取在金融，电子商务等领域的网站的网站数据；具体的网站数据可以利用关键字来获取，例如以“中奖”为关键词获取所有与之相关的网站的网站数据，除此以外，还可以基于网站的特征(例如域名注册信息、域名所属人信息，域名注册地信息等)来获取与网站的特征相关网站的网站数据。

步骤B、在多层次特征数据中获取与已知钓鱼网站相关的特征的集合作为多层次钓鱼网站特征样本集，并基于危害程度和与已知钓鱼网站的特征的相关程度为多层次钓鱼网站特征样本集中的特征赋予风险评估值。

具体的在获取了多层次特征数据之后，需要基于已知钓鱼网站的特征作为关键字来在多层次特征数据中找与已知钓鱼网站的特征的相关特征的集合来作为多层次钓鱼网站特征样本集，而具体的已知钓鱼网站的特征可以通过对已知的钓鱼网站进行聚类分析提取的。

例如已知的钓鱼网站有网站1,网站2,网站3，对该三个网站进行聚类分析，获取这三个网站的特征，例如网站中网页的源码、域名及子域名、网站所属人信息等；以此通过收集已知钓鱼网站的数据来得到已知钓鱼网站的特征；而具体的已知钓鱼网站的特征中，可以包括：网站代码信息(例如关键脚本等信息)，网站域名信息(例如网站域名申请人，联系人，注册商、时间、域名服务器等信息)，网站所属人信息(例如网站域名所属人姓名，网站所属人的交际关系，网站所属人经常访问的网站以及IP，所属人的其他网站等信息)，当然除此以外，还可以包括很多其他的特征，例如已知钓鱼网站的外链等，只要能体现钓鱼网站的特征，该特征可以标识钓鱼网站就都可以，并不限于以上的几种特征，该特征可以是钓鱼网站的所有特征。

在获取了多层次特征数据以及已知钓鱼网站的特征之后，需要在在多层次特征数据中获取与已知钓鱼网站相关的特征的集合作为多层次钓鱼网站特征样本集，并基于危害程度和与已知钓鱼网站的特征的相关程度为多层次钓鱼网站特征样本集中的特征赋予风险评估值，其具体的过程如下：

在多层次特征数据中获取与已知钓鱼网站相关的特征的集合作为多层次钓鱼网站特征样本集，并根据与已知钓鱼网站的特征的相关程度为多层次钓鱼网站特征样本集中的特征分别赋予相关程度值，其中，相关程度越高，相关程度值越大；基于多层次钓鱼网站特征样本集中的特征在多层次特征数据出现的频率确定多层次钓鱼网站特征样本集中的特征的危害程度，并基于危害程度为多层次钓鱼网站特征样本集中的特征分别赋予危害程度值；基于相关程度值和危害程度值为多层次钓鱼网站特征样本集中的特征赋予风险评估值。

具体的，多层次钓鱼网站特征样本集中包含有与已知钓鱼网站相关的特征数据，以已知钓鱼网站的特征中的网站域名信息来进行说明，例如要查找的钓鱼网站的网站域名信息是网站域名申请人(例如为申请人A)，也即利用申请人A来作为第一层特征数据，在多层次特征数据中查找与申请人A相关的其他层的特征数据，例如第二层特征数据为申请人A申请的其他域名，申请人A的交际圈中的其他人(例如用户B、用户C等)，申请人A经常访问的网站信息(例如网站1、网站2)等等，即第二层特征数据为与申请人A直接相关的特征数据；除了直接相关的特征数据，还可以有间接相关的特征数据，例如第三层特征数据，以上述为例，还可以查找用户B，用户C所申请的域名，用户B，用户C的人际关系中与之相关的其他人，用户B，用户C经常访问的网站信息，用户B，用户C的账户沟通信息等等，除此以外，还可以基于第二层特征数据查找第三层特征数据，以此类推。除此以外，还有其他的钓鱼网站的特征数据，例如代码1，可以查找代码1所存在的其他网站，与代码1相识度达到一定程度的其他代码(例如代码2)，以及代码2所存在的网站(例如网站4)，还可以继续查找网站4的申请人，域名信息等等，其他的，例如网站所属人信息等等与此类似，所查找到的特征数据(包括已知钓鱼网站的特征)的集合即为多层次钓鱼网站特征样本集。

而具体的在生成多层次钓鱼网站特征样本集之后，为多层次钓鱼网站特征样本集中的特征进行赋值，其中赋予的值有相关程度值和危害程度值，例如其他人(例如B)申请的域名等等，以此类推；例如网站域名申请人为A，则在多层次特征数据中查找A所申请的其他域名，例如A还申请了域名1(例如赋予相关程度值为0.5)以及域名2(例如赋予相关程度值为0.6)、该域名1和域名2是多层次钓鱼网站特征样本集中的特征，继续在网站数据中查找域名1的网站特征(例如，源代码，关键脚本，网站域名所属人信息等等)，和域名2的网站特征，域名1的网站特征与域名2的网站特征也同样是多层次钓鱼网站特征样本集中的特征，并以查找到的域名1的网站特征和域名2的网站特征在多层次特征数据中继续查找；另外还可以查找A的交际圈，例如查找到A经常联系的或者有经济往来的有B(例如赋予相关程度值为0.7)和C(例如赋予相关程度值为0.8)，则继续在多层次特征数据中对B和C进行与A相同的查找，以此类推；上述的值都是相关程度值，至于危害程度值，则获取上述查找到的多层次钓鱼网站特征样本集中的特征在多层次特征数据中的出现次数，并按照次数多少赋予危害程度值，例如B出现的次数有109次，为其赋予危害程度值为9，则B作为多层次钓鱼网站特征样本集中的特征，基于相关程度值与危害程度值为该特征赋予风险评估值，其中该特征的风险评估值可以是该特征的相关程度值与危害程度值的乘积，即为6.3＝0.7×9，也可以是相关程度值与危害程度值平方的乘积，如为56.7＝0.7×9²，当然除此以外，还可以基于别的规则或者算法来确定风险评估值，只要是基于相关程度和危害程度来确定的即可。以此在多层次特征数据中找到与已知钓鱼网站的特征相关的多层次钓鱼网站特征样本集中的特征，形成如图2所示的多层次钓鱼网站特征样本集的特征图。

以已知钓鱼网站的特征作为出发点，不断查找与已知钓鱼网站相关的特征(例如命名为特征1)，并继续查找与特征1(例如为代码1)相关的特征2(例如为代码2)，查找与特征2相关的特征3(例如为网站4)，其中，特征1、2、3都是特征与已知钓鱼网站的特征相关的多层次钓鱼网站特征样本集中的特征，除了特征1、2、3以外，还可以有其他的数据，例如域名(例如123.168.02.15)，钓鱼网站的申请人(例如为姓名，刘某某)等等，其中在获取多层次钓鱼网站特征样本集中的特征时，是针对一个一个的钓鱼网站的特征进行查找的，可以继续查找与域名123.168.2.15相关的特征，例如域名123.168.23.16与域名123.168.2.15属于同一服务器，就可以将域名123.168.23.16设置为与域名123.168.2.15相关的下一层域名，至于申请人，可以查找与刘某某存在经济关系的其他人，例如陈某某等等，以此不断的向深层次进行查找，后续利用多层次钓鱼网站特征样本集中的特征则是首先提取待检测的网站的特征，来一个一个匹配多层次钓鱼网站特征数据，若匹配上，则根据匹配上的特征的权值来对网站进行识别，以此将所有看似没有关联的信息关联起来，并根据相关程度赋予权值，具体的若权值越高，就说明与已知钓鱼网站的相关程度越高，也即存在该特征的网站是钓鱼网站的可能越高。

步骤102、若待检测网站中存在多层次钓鱼网站特征样本集中的特征，且待检测网站中存在的多层次钓鱼网站特征样本集中的特征的风险评估值总和超过阈值，则确定待检测网站为钓鱼网站。

仍以上述为例进行说明，若检测结果为网站中存在多层次钓鱼网站特征样本集中的特征，例如存在特征1(假设风险评估值为1.8)、特征2(假设风险评估值为3.2)、特征3(假设风险评估值为为4.5),其风险评估值总和为10.3＝1.8+3.2+4.5，而阈值为10，则可以确定该网站为钓鱼网站；而若是风险评估值总和不超过阈值，则认为该网站为正常网站，并继续检测需要检测的网站。

在步骤104之后，也即在判断了网站为钓鱼网站后，提取网站的特征为已知钓鱼网站的特征存储在预设的钓鱼网站数据库中，同时拦截网站，以及将检测的结果通知给用户；以此不断的丰富已知钓鱼网站的特征，以便后续更好地识别钓鱼网站。

为了对本申请进行进一步的说明，本申请实施例二还公开了一种钓鱼网站检测设备，如图3所示，包括：

检测模块301，用于检测待检测网站中是否存在所述多层次钓鱼网站特征样本集中的特征，所述多层次钓鱼网站特征样本集包含与已知钓鱼网站相关的特征；；

确定模块302，用于当所述待检测网站中存在所述多层次钓鱼网站特征样本集中的特征，且所述待检测网站中存在的多层次钓鱼网站特征样本集中的特征的风险评估值总和超过阈值时，确定所述待检测网站为钓鱼网站。

具体的，所述钓鱼网站检测设备还包括：获取模块和处理模块；其中，

获取模块，用于获取多层次特征数据；

处理模块，用于在所述多层次特征数据中获取与已知钓鱼网站相关的特征的集合作为多层次钓鱼网站特征样本集，并基于危害程度和与已知钓鱼网站的特征的相关程度为所述多层次钓鱼网站特征样本集中的特征赋予风险评估值。

所述多层次特征数据包括：新增的网站数据，更新的网站数据，预定领域的网站数据；

所述获取模块，具体用于：

定时获取预定时间内新增的网站数据；和/或

定时获取预定时间内更新的网站数据；和/或

定时基于预定关键字获取预定领域的网站数据。

具体的，所述处理模块，具体用于：

具体的，所述已知钓鱼网站的特征是通过对已知的钓鱼网站进行聚类分析提取的；

所述已知钓鱼网站的特征，包括：

网站代码信息，网站域名信息，网站所属人信息。

具体的，所述设备还包括：

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到本申请可以通过硬件实现，也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施场景所述的方法。

本领域技术人员可以理解附图只是一个优选实施场景的示意图，附图中的模块或流程并不一定是实施本申请所必须的。

本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中，也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块，也可以进一步拆分成多个子模块。

上述本申请序号仅仅为了描述，不代表实施场景的优劣。

以上公开的仅为本申请的几个具体实施场景，但是，本申请并非局限于此，任何本领域的技术人员能思之的变化都应落入本申请的保护范围。

Claims

1.一种钓鱼网站检测方法，其特征在于，包括：

检测待检测网站中是否存在多层次钓鱼网站特征样本集中的特征，所述多层次钓鱼网站特征样本集包含与已知钓鱼网站相关的特征；

若所述待检测网站中存在所述多层次钓鱼网站特征样本集中的特征，且所述待检测网站中存在的多层次钓鱼网站特征样本集中的特征的风险评估值的总和超过阈值，则确定所述待检测网站为钓鱼网站。

2.如权利要求1所述的方法，其特征在于，所述多层次钓鱼网站特征样本集的生成，具体包括：

获取多层次特征数据；

3.如权利要求2所述的方法，其特征在于，所述多层次特征数据包括：新增的网站数据，更新的网站数据，预定领域的网站数据；

所述获取网站数据，具体包括：

定时获取预定时间内新增的网站数据；和/或

定时获取预定时间内更新的网站数据；和/或

定时基于预定关键字获取预定领域的网站数据。

4.如权利要求2所述的方法，其特征在于，在所述多层次特征数据中获取与已知钓鱼网站相关的特征的集合作为多层次钓鱼网站特征样本集，并基于危害程度和与已知钓鱼网站的特征的相关程度为所述多层次钓鱼网站特征样本集中的特征赋予风险评估值，具体包括：

5.如权利要求1-4任意一项所述的方法，其特征在于，所述已知钓鱼网站的特征是通过对已知的钓鱼网站进行聚类分析提取的；

所述已知钓鱼网站的特征，包括：

网站代码信息，网站域名信息，网站所属人信息。

6.如权利要求2所述的方法，其特征在于，所述方法还包括：

7.一种钓鱼网站检测设备，其特征在于，包括：

检测模块，用于检测待检测网站中是否存在多层次钓鱼网站特征样本集中的特征，所述多层次钓鱼网站特征样本集包含与已知钓鱼网站相关的特征；

8.如权利要求7所述的设备，其特征在于，所述钓鱼网站检测设备还包括：获取模块和处理模块；

其中，所述获取模块，用于获取多层次特征数据；

所述处理模块，用于在所述多层次特征数据中获取与已知钓鱼网站相关的特征的集合作为多层次钓鱼网站特征样本集，并基于危害程度和与已知钓鱼网站的特征的相关程度为所述多层次钓鱼网站特征样本集中的特征赋予风险评估值。

9.如权利要求8所述的设备，其特征在于，所述多层次特征数据，包括：新增的网站数据，更新的网站数据，预定领域的网站数据；

所述获取模块，具体用于：

定时获取预定时间内新增的网站数据；和/或

定时获取预定时间内更新的网站数据；和/或

定时基于预定关键字获取预定领域的网站数据。

10.如权利要求8所述的设备，其特征在于，所述处理模块，具体用于：

11.如权利要求7-10任意一项所述的设备，其特征在于，所述已知钓鱼网站的特征是通过对已知的钓鱼网站进行聚类分析提取的；

所述已知钓鱼网站的特征，包括：

网站代码信息，网站域名信息，网站所属人信息。

12.如权利要求8所述的设备，其特征在于，所述设备还包括：