CN111669353A

CN111669353A - 钓鱼网站检测方法及系统

Info

Publication number: CN111669353A
Application number: CN201910176012.2A
Authority: CN
Inventors: 王南飞; 张振海; 胡泽柱
Original assignee: SF Technology Co Ltd
Current assignee: SF Technology Co Ltd; SF Tech Co Ltd
Priority date: 2019-03-08
Filing date: 2019-03-08
Publication date: 2020-09-15

Abstract

本申请公开了一种钓鱼网站检测方法及系统，所述方法包括：对批量网站的URL进行特征提取；对提取的URL特征数据进行无监督的聚类分析；根据聚类分析结果，确定最佳参数和最佳预测模型；根据所述最佳预测模型对新的网站URL进行检测。根据本申请的实施例的钓鱼网站检测方法，能够对提取的URL特征进行聚类分析，获取最佳参数构建机器学习算法，具有良好的泛化能力，对新出现的钓鱼网站具有很好的预测判断能力。

Description

钓鱼网站检测方法及系统

技术领域

本公开一般涉及网络安全技术，具体涉及钓鱼网站检测方法及系统。

背景技术

随着互联网的发展，互联网用户在网络上使用的账号与密码的安全越来越重要。不法分子经常采用钓鱼网站获取用户账号和密码。他们通过模仿真实的网站页面结构，诱导用户输入自己真实的用户以及密码，进而获取到用户的数据，给用户带来极大的损失，因而钓鱼网站的检测对于用户安全使用网络非常重要。

现有的检测方法大多针对钓鱼网站内部的网页布局的检测，来判断是不是具有钓鱼网站的属性，或者利用黑白名单过滤已知的钓鱼网站，这些方法均有一定的滞后性，并且需要人来不断的维护与更新表征钓鱼网站的特征的标签，无法对新出现的钓鱼网站进行及时的捕捉与识别。用户应用中主要依靠浏览器和安全防护软件鉴别钓鱼网站，有些新的钓鱼网站由于未被安全人员发现，所以安全软件的预测的能力是有限的。

发明内容

在下文中给出关于本发明的简要概述，以便提供关于本发明的某些方面的基本理解。应当理解，这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分，也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念，以此作为稍后论述的更详细描述的前序。

鉴于上述问题，本申请在第一方面提供一种钓鱼网站检测方法，所述方法包括：对批量网站的URL(统一资源定位符)进行特征提取；对提取的URL特征数据进行无监督的聚类分析；根据聚类分析结果，确定最佳参数和最佳预测模型；根据所述最佳预测模型对新的网站URL进行检测。

根据本申请的实施例的钓鱼网站检测方法，能够对提取的URL特征进行聚类分析，获取最佳参数构建机器学习算法，具有良好的泛化能力，对新出现的钓鱼网站具有很好的预测判断能力。

本申请还在第二方面提供一种钓鱼网站检测系统，所述系统包括：聚类分析模块，被配置为对提取的URL特征数据进行无监督的聚类分析；模型确定模块，被配置为根据聚类分析结果，确定最佳参数和最佳预测模型；网站检测模块，被配置为根据所述最佳预测模型对新的网站URL进行检测。

根据本申请的实施例的钓鱼网站检测系统，同样具有上述技术优势，此不赘述。

附图说明

参照下面结合附图对本发明实施例的说明，会更加容易地理解本发明的以上和其它目的、特点和优点。附图中的部件只是为了示出本发明的原理。在附图中，相同的或类似的技术特征或部件将采用相同或类似的附图标记来表示。

图1示出根据本申请一个实施例的钓鱼网站检测方法的流程图；

图2示出根据本申请一个实施例的钓鱼网站检测系统的组成框图；

图3示出用于执行图1实施例的钓鱼网站检测方法的计算机系统的组成框图。

具体实施方式

下面参照附图来说明本发明的实施例。在本发明的一个附图或一种实施方式中描述的元素和特征可以与一个或更多个其它附图或实施方式中示出的元素和特征相结合。应当注意，为了清楚的目的，附图和说明中省略了与本发明无关的、本领域普通技术人员已知的部件和处理的表示和描述。

图1为本发明一个实施例提供的钓鱼网站检测方法的流程图。该方法包括以下步骤：

S100：对批量网站的URL进行特征提取。

可以预先收集办公环境中的网站URL作为钓鱼网站检测算法设计中的数据样本。无监督学习的训练数据是无标签的，训练目标是在不给任何额外提示的情况下，对观察值进行分类或区分等。这里，收集的网站URL数据(训练数据)是无标签的。可以根据以下策略中的一个或几个相结合来判断是否为钓鱼网站，作为钓鱼网站的特征：

(1)检测URL是否含有IP地址

如果使用IP地址作为URL中域名的替代，例如一个URL是http://125.98.3.123/fake.html，则可以确认有人试图窃取他们的个人信息。如果URL中含有IP地址，则标记为0(具有钓鱼网站的风险，以下相同)，否则为1(不是钓鱼网站或钓鱼网站的风险很小，以下相同)。

(2)检测URL的长度

钓鱼网站的设计者会采用较长的URL来隐藏其域名中的不合理的部分，例如一个URL如下：

“http://federmacedoadv.com.br/3f/aze/ab51e2e319e51502f416dbe46b773a5e/？cmd＝_home&amp；dispatch＝11004d58f5b74f8dc1e7c2e8dd4105e811004d58f5b74f8dc1e7c2e8dd4105e8@phishing.website.html”。

如果URL的字符串长度大于54(经验值)，则标记为0，认为具有钓鱼网站的风险，否则标记为1。

(3)检测URL中是否含有“@”；

在URL中使用“@”符号会导致浏览器忽略“@”符号之前的所有内容，并且实际地址通常跟在“@”符号后面。如果URL含有@，则标记为0，否则标记为1。例如，一个URL是http://www.baidu.com@http://www.xxx.com，前面用正常网址迷惑用户，实际无效。后面隐藏着真正的钓鱼网址。实际浏览器采用的地址仅取“@”后面的URL。

(5)检测URL中“//”的位置

不管是http还是HTTPS，正常的符号“//”在URL中的位置是固定的。如果“//”的位置不对，则标记为0，否则标记为0。例如，一个钓鱼网站URL的地址示例是：“htttp:www//xxx.com”。

(6)检测URL是否含有连接符“-”

对于URL中含有“-”的话，该URL具有钓鱼网站属性的概率很大；如果含有“-”，则标记为0，否则标记为1。例如，一个钓鱼网站URL的示例是：“www.bai-d-u.com”。

(7)检测URL中除去顶级域名之后点的个数

除去URL中的最后的一个点，含有两个及以上的点，则是钓鱼网站，标记为0，否则标记为1。例如，一个钓鱼网站URL的地址示例是：“www.baiducom”。

(8)检测URL是否是一个可访问的地址

用于测试URL是否是一个可访问(有响应)的地址。可以访问则为1，不可以访问为0。可访问是指该地址有正常内容的网页返回作为响应。

(9)检测请求的URL和网页返回的URL是否是同一个URL

测试请求的URL和网页往返回的URL是否是同一个URL，若是，则为1若否，则为0。这是测试URL是否重定向到其他的URL，若重定向到其他URL，则是钓鱼网站的风险很大。

(10)检测URL所包含域名的注册时长

钓鱼网站往往具有很短的生命周期，所以URL包含域名的注册的时长也是检测钓鱼网站的特征之一，如果域名的注册的时间小于6个月，标记为0，大于等于6个月，标记为1。

(11)检测网站的流量；以及

这个特征用来衡量网站的受欢迎程度，由于钓鱼网站的生命周期短，可能不在Alexa database(Alexa，the Web Information Company.,1996)的数据集中，所以某个网站没有流量或者没有被Alexa识别，则标记为0，如果排名大于100000(经验值)，标记为0，否则标记为1。

(12)检测外部指向网站的链接的个数。

如果外部指向待检测网站的链接的个数小于或等于2，则标记为0，否则标记为1。

根据上述提取的URL数据特征及其出现的频率，继续执行聚类分析。

执行步骤S200：对提取的URL特征数据进行无监督的聚类分析。可以分两步来操作：

1)在执行聚类分析之前，对于上面按照各种策略提取的特征，进行数据预处理，利用PCA(主成分分析)算法，降低数据的维度，保留数据的最大的信息成分。

2)利用DBSCAN聚类算法，将降维之后的数据进行无监督的聚类，将簇定义为密度相连的点的最大集合，把具有足够高密度的区域划分为簇，并可在噪声的数据中发现任意形状的聚类。

DBSCAN聚类算法的一般过程如下：

输入：样本集D＝(x₁,x₂,...,x_m)，邻域参数(∈,MinPts),样本距离度量方式。

输出：簇划分C。

1)初始化核心对象集合

初始化聚类簇数k＝0，初始化未访问样本集合Γ＝D,簇划分

2)对于j＝1,2,...m,按下面的步骤找出所有的核心对象：

a)通过距离度量方式，找到样本x_j的∈邻域子样本集N∈(x_j)；

b)如果子样本集样本个数满足|N∈(x_j)|≥MinPts，将样本xjxj加入核心对象样本集合：Ω＝Ω∪{x_j}；

3)如果核心对象集合

则算法结束，否则转入步骤4；

4)在核心对象集合Ω中，随机选择一个核心对象o，初始化当前簇核心对象队列Ωcur＝{o},初始化类别序号k＝k+1，初始化当前簇样本集合Ck＝{o},更新未访问样本集合Γ＝Γ-{o}；

5)如果当前簇核心对象队列

则当前聚类簇Ck生成完毕,更新簇划分C＝{C₁,C₂,...,C_k},更新核心对象集合Ω＝Ω-C_k，转入步骤3。

6)在当前簇核心对象队列Ω_cur中取出一个核心对象o′,通过邻域距离阈值∈∈找出所有的∈-邻域子样本集N∈(o′)，令Δ＝N∈(o′)∩Γ。更新当前簇样本集合C_k＝C_k∪Δ,更新未访问样本集合Γ＝Γ-Δ,更新Ωcur＝Ωcur∪(Δ∩Ω)-o′，转入步骤5。

输出结果为：簇划分C＝{C₁,C₂,...,C_k}。

在具体的算法参数设计中，经过多次验证，可以得到参数是：最大的同类之间样本的距离eps为0.05～0.2，优选为0.05，一个样本附近的点的个数，即被认为是核心点的数目min_sample(即MinPts)为3～10，优选为3，距离的判断的原则采用欧式距离。

接着，执行步骤S300：根据聚类分析结果，确定最佳参数和最佳预测模型。

根据衡量预测能力的一组指标，多次调整预测模型的参数，通过对比测试集对钓鱼网站的预测能力，选取最佳模型，将其作为最佳预测模型。

最后，执行步骤S400：根据获得的最佳预测模型对新的网站URL进行检测。

聚类分析确定最佳参数的过程同时也是预测模型的学习过程。多次进行预测模型的学习过程，通过预测的结果来发现最佳的参数。

预测模型的学习也是利用数据获取最佳模型的过程，将对应最佳的参数的最佳模型进行数据序列化保存，就得到最佳预测模型。

将最佳预测模型进行加载，并对URL进行前面的特征的逻辑判断获取数据，就可以预测是否是钓鱼网站。

这样，获得的钓鱼网站检测方法，能够对提取的URL特征进行聚类分析，获取最佳参数构建机器学习算法，又具有良好的泛化能力，对新出现的钓鱼网站具有很好的预测判断能力。

根据本申请的第二方面，本申请还提供一种根据上述钓鱼网站检测方法的钓鱼网站检测系统1，如图2所示。该系统1包括：特征提取模块2，被配置为对批量网站的URL进行特征提取；聚类分析模块3，被配置为对提取的URL特征数据进行无监督的聚类分析；模型确定模块4，被配置为根据聚类分析结果，确定最佳参数和最佳预测模型；网站检测模块5，被配置为根据所述最佳预测模型对新的网站URL进行检测。

根据本申请的具体实施例，聚类分析模块3被配置为使用DBSCAN聚类算法进行聚类分析。

根据本申请的具体实施例，特征提取模块2被配置为：对批量网站的URL进行特征提取包括对以下特征检测的任何组合：

检测URL是否含有IP地址；

检测URL的长度；

检测URL中是否含有@；

检测URL中//的位置；

检测URL是否含有连接符“-”；

检测URL中除去顶级域名之后点的个数；

检测URL是否是一个可访问的地址；

检测请求的URL和网页返回的URL是否是同一个URL；

检测域名的注册时长；

检测网站的流量；以及

检测外部指向网站的链接的个数。

在另外一个方面，本申请还提供一种可以由计算机系统执行的计算机程序，图3示出执行该计算机程序的计算机系统的组成示意图。计算机系统包括中央处理单元(CPU)301，其可以根据存储在只读存储器(ROM)302中的程序或者从存储部分加载到随机访问存储器(RAM)303中的程序而执行各种适当的动作和处理。在RAM303中，还存储有系统操作所需的各种程序和数据。CPU 301、ROM 302以及RAM 303通过总线304彼此相连。输入/输出(I/O)接口305也连接至总线304。

以下部件连接至I/O接口305：包括键盘、鼠标等的输入部分306；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分；包括硬盘等的存储部分308；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分309。通信部分309经由诸如因特网的网络执行通信处理。驱动器也根据需要连接至I/O接口305。可拆卸介质311，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器310上，以便于从其上读出的计算机程序根据需要被安装入存储部分308。

特别地，根据本发明的实施例，上文参考流程图1和图2描述的过程可以被实现为计算机软件程序。例如，本发明的图1的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行上述流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分从网络上被下载和安装，和/或从可拆卸介质被安装。在该计算机程序被中央处理单元(CPU)301执行时，执行本申请的系统中限定的上述功能。

需要说明的是，本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本发明实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现，所描述的单元也可以设置在处理器中。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定。所描述的单元或模块也可以设置在处理器中。

作为另一方面，本申请还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该电子设备执行时，使得该电子设备实现如上述实施例中所述的方法。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该电子设备执行时，使得该电子设备实现如上述实施例中所述的电子邮件发送方法。

例如，所述电子设备可以实现如图1中所示的钓鱼网站检测方法，包括：对批量网站的URL进行特征提取；对提取的URL特征数据进行无监督的聚类分析；根据聚类分析结果，确定最佳参数和最佳预测模型；根据所述最佳预测模型对新的网站URL进行检测。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

此外，尽管在附图中以特定顺序描述了本公开中方法的各个步骤，但是，这并非要求或者暗示必须按照该特定顺序来执行这些步骤，或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，以及/或者将一个步骤分解为多个步骤执行等。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种钓鱼网站检测方法，其特征在于，所述方法包括：

对批量网站的URL进行特征提取；

对提取的URL特征数据进行无监督的聚类分析；

根据聚类分析结果，确定最佳参数和最佳预测模型；

根据所述最佳预测模型对新的网站URL进行检测。

2.根据权利要求1所述的钓鱼网站检测方法，其特征在于，所述聚类分析使用DBSCAN聚类算法。

3.根据权利要求1所述的钓鱼网站检测方法，其特征在于，在对提取的URL特征数据进行无监督的聚类分析时，先利用PCA算法对所述URL特征数据进行降维处理。

4.根据权利要求2所述的钓鱼网站检测方法，其特征在于，使用所述DBSCAN聚类算法计算最大的同类之间样本的距离eps为0.05～0.2。

5.根据权利要求2所述的钓鱼网站检测方法，其特征在于，使用所述DBSCAN聚类算法计算一个样本点附近核心点的数目为3～10。

6.根据权利要求2所述的钓鱼网站检测方法，其特征在于，所述DBSCAN聚类算法使用欧式距离作为比较基准。

7.根据权利要求2所述的钓鱼网站检测方法，其特征在于，对批量网站的URL进行特征提取包括对以下特征检测的任何组合：

检测URL是否含有IP地址；

检测URL的长度；

检测URL中是否含有@；

检测URL中//的位置；

检测URL是否含有连接符“-”；

检测URL中除去顶级域名之后点的个数；

检测URL是否是一个可访问的地址；

检测请求的URL和网页返回的URL是否是同一个URL；

检测域名的注册时长；

检测网站的流量；以及

检测外部指向网站的链接的个数。

8.一种钓鱼网站检测系统，其特征在于，所述系统包括：

特征提取模块，被配置为对批量网站的URL进行特征提取；

聚类分析模块，被配置为对提取的URL特征数据进行无监督的聚类分析；

模型确定模块，被配置为根据聚类分析结果，确定最佳参数和最佳预测模型；

网站检测模块，被配置为根据所述最佳预测模型对新的网站URL进行检测。

9.根据权利要求8所述的钓鱼网站检测系统，其特征在于，所述聚类分析模块被配置为使用DBSCAN聚类算法进行所述聚类分析。

10.根据权利要求8所述的钓鱼网站检测系统，其特征在于，所述特征提取模块被配置为：对批量网站的URL进行特征提取包括对以下特征检测的任何组合：

检测URL是否含有IP地址；

检测URL的长度；

检测URL中是否含有@；

检测URL中//的位置；

检测URL是否含有连接符“-”；

检测URL中除去顶级域名之后点的个数；

检测URL是否是一个可访问的地址；

检测请求的URL和网页返回的URL是否是同一个URL；

检测域名的注册时长；

检测网站的流量；以及

检测外部指向网站的链接的个数。