CN113132340A

CN113132340A - 一种基于视觉与主机特征的钓鱼网站识别方法及电子装置

Info

Publication number: CN113132340A
Application number: CN202010046787.0A
Authority: CN
Inventors: 喻灵婧; 周钊宇; 刘庆云
Original assignee: Institute of Information Engineering of CAS
Current assignee: Institute of Information Engineering of CAS
Priority date: 2020-01-16
Filing date: 2020-01-16
Publication date: 2021-07-16
Anticipated expiration: 2040-01-16
Also published as: CN113132340B

Abstract

本发明公开了一种基于视觉与主机特征的钓鱼网站识别方法及电子装置，其步骤包括：将提取一网关中的一镜像流量进行基于域名的过滤，以判断所述镜像流量对应的网页是否为第一可疑网页；获取判定为所述第一可疑网页的一张或多张网页快照，并将所述网页快照与目标网站的商标图片集进行子图匹配，以判断第一可疑网页是否为第二可疑网页；将提取的所述第二可疑网页的IP地址与所述目标网站的IP地址集合进行聚类，以判断所述第二可疑网页是否为钓鱼网站。本发明利用搜索引擎构成自动化商标图片采集工具，采用基于子图匹配和异常点检测的方法，使得钓鱼网站更难以进行绕过，从而提高了钓鱼网站识别的召回率。

Description

一种基于视觉与主机特征的钓鱼网站识别方法及电子装置

技术领域

本发明涉及安全技术领域，尤其涉及一种基于视觉与主机特征的钓鱼网站识别方法及电子装置。

背景技术

目前的钓鱼网站检测方法大致可根据是否针对特定目标网站分类两类。

对于无特定目标网站的方法而言，大都通过抽取钓鱼网站所共有的特征(包括URL的文本内容与结构，HTML的内容与结构等)并使用机器学习算法，例如逻辑回归，朴素贝叶斯，决策树，SVM(支持向量机)等进行模型训练，进而完成对钓鱼网站的预测。除此之外，可以根据未知网页的内容，使用特定算法(例如TF-IDF，OCR等)提取网页关键字作为网页身份，并利用搜索引擎对该身份进行搜索，通过比较搜索结果的域名与该未知网页的域名的相似度判断该未知网页是否为钓鱼网页。对于有特定目标网站的方法而言，大都选用网页截图、网页图片资源、网页HTML的树型结构以及网页URL等内容，并使用编辑距离等方式比较某未知网页与目标网页的相似度。

例如中国专利申请CN105357221A公开了一种识别钓鱼网站的方法及装置，其方法包括：获取已知钓鱼网站的URL作为样本URL；根据样本URL的特征信息训练检测模型；使用检测模型对未知URL的特征信息进行匹配，获得未知URL的检测结果。该专利申请通过对钓鱼网站的URL进行机器训练，以达到识别钓鱼网站的目的。

对于不基于目标网站的方法而言，由于钓鱼网站的内容完全由攻击者决定，导致现有工作所选用的特征容易被攻击者篡改，因此这些攻击者能够绕过检测。对于基于目标网站的检测方法而言，较难以被绕过的方法大都采取商标图片作为特征，因为将商标图片作为对网站的标识更能达到欺骗用户的目的。但是能获取比较准确商标图片的工作需要人工识别，相对应的自动化从页面中截取商标图片的方法的准确率相对较低。

同时目前已有工作都需要基于网页内容特征进行展开，对于使用HTTPS的内容加密的钓鱼网站还没有检测方法。

发明内容

本发明的目的在于提供一种基于视觉与主机特征的钓鱼网站识别方法及电子装置，用户使用本发明公开的方法，不仅能从流量中自动化地检测基于HTTP的钓鱼网站，同时与现有方法相比拥有更高的召回率(即更难被攻击者绕过)。并且可以在无需客户端参与的情况下发现部分利用HTTPS加密传输的钓鱼网站。

一种部署于镜像流量服务器的基于视觉与主机特征的钓鱼网站识别方法，其步骤包括：

1)将提取一网关中的一镜像流量进行基于域名的过滤，以判断所述镜像流量对应的网页是否为第一可疑网页；

2)获取判定为所述第一可疑网页的一张或多张网页快照，并将所述网页快照与目标网站的商标图片集进行子图匹配，以判断第一可疑网页是否为第二可疑网页；

3)将提取的所述第二可疑网页的IP地址与所述目标网站的IP地址集合进行聚类，以判断所述第二可疑网页是否为钓鱼网站。

进一步地，所述镜像流量为HTTP流量或HTTPS流量。

进一步地，所述HTTP流量的进行基于域名的过滤步骤包括：

1)使域名白名单对HTTP流量中的host name字段进行子串匹配，获取所述HTTP流量对应的域名不在域名白名单的第一流量；

2)根据所述第一流量的HTML文本内容进行表单判断，获取所述HTML文本内容中包含关键字的第二流量，得到所述第二流量对应的第一可疑网页；

所述HTTPS流量的进行基于域名的过滤步骤包括：

1)使域名白名单对HTTPS流量中的SNI字段进行子串匹配，获取所述HTTPS流量对应的域名不在域名白名单的第三流量；

2)获取所述第三流量对应的第一可疑网页。

进一步地，获取所述HTTP流量的URL并进行主动访问，得到一张所述网页快照；

获取所述HTTPS流量对应的网页快照的方法，其步骤包括：

1)从所述HTTPS流量的SNI字段中获取所述HTTPS流量对应的域名信息；

2)直接访问所述域名信息对应域名得到相应网页，得到所述第一可疑网页的第一HTTPS流量网页快照；

3)使用搜索引擎搜索所述域名信息，并访问搜索结果中的若干搜索域名与所述搜索域名相同的网页，从而得到第一可疑网页的第二HTTPS流量网页快照集；

4)将所述第一HTTPS流量网页快照与所述第二HTTPS流量网页快照集进行并集，得到多张所述网页快照。

进一步地，将所述目标网站域名和“logo”作为关键词进行搜索，将获取的前若干个返回的图片结果作为所述目标网站的所述商标图片集。

进一步地，将匹配成功的所述第二可疑网页使用主机特征进行识别，将识别成功的所述第二可疑网页判断为钓鱼网站。

进一步地，使用SIFT算法与FLANN算法进行所述子图匹配；使用one-class SVM算法对所述第二可疑网页的所述IP地址与所述目标网站的所述IP地址集合进行聚类。

一种部署于客户端的基于视觉与主机特征的钓鱼网站识别方法，其步骤包括：

1)访问一未知网页，并判断所述未知网页是否为第一可疑网页；

一种存储介质，所述存储介质中存储有计算机程序，其中，所述计算机程序执行上述方法。

一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行上述方法。

利用本发明提供的方法进行钓鱼网站的识别，具有以下优点：

1、利用搜索引擎构成自动化商标图片采集工具；

2、利用搜索引擎和SSL协议的SNI字段完成对部分使用HTTPS网页的主动访问；

3、提出商标图片自动获取的方式并可以进行实时更新，从而使系统自动化并提高了子图匹配的准确度；

4、可以在不需要客户端参与的情况下，利用搜索引擎和HTTPS的SNI字段对部分使用HTTPS的钓鱼网站进行识别；

5、采用基于子图匹配和异常点检测的方法，使得钓鱼网站更难以进行绕过，从而提高了钓鱼网站识别的召回率。

附图说明

图1是本发明方法从镜像流量服务器上获取流量并识别钓鱼网站的流程图。

具体实施方式

下面结合附图和具体较佳实施方式对本发明作进一步详细的说明。

本发明提供的基于视觉和主机特征的钓鱼网站识别方法，适用于目标防护网站(一个或多个)给定的场景，该方法的主要步骤包括：第一步，使用白名单对流量中网站域名进行匹配过滤，如果匹配成功，则证明这些流量产生于用户对正常网站的访问；如果匹配失败，则需要进一步检测。第二步，主动访问第一步中匹配失败的URL(HTTP)或域名(HTTPS)并获取其网页快照，与目标网站的商标图片进行子图匹配，如果匹配失败，则证明是无关网站；否则为可疑网页并进行下一步检测。第三步，获取第二步中可疑网页的IP地址并与目标网站的真实IP地址进行聚类分析以完成异常点检测，如果可疑网页的IP地址被检测为非异常点，则证明其属于合法网站；否则属于钓鱼网站。

在白名单匹配过滤阶段，使用域名白名单对镜像流量中的host name字段(HTTP)和SNI字段(HTTPS)进行子串匹配，如果匹配成功，则证明这些流量不是来自钓鱼网站的流量，将其过滤掉；否则，对于HTTP流量，利用HTML文本内容进行表单判断，如果HTML中不包含表单关键字(例如form)，则证明该网页无法获取用户信息，并将其视为非钓鱼网站的流量进行过滤；否则，该网站有可能窃取用户的私人信息，进行进一步分析。其中白名单可自定义，但该方法中域名白名单不应包含提供网站承载服务的域名(例如https://sites.google.com)，同时应包含大型知名网站(例如各搜索引擎)所拥有的域名。

在子图匹配阶段，对于指定的目标网站，通过搜索引擎，将目标网站域名和“logo”作为关键词进行搜索，并获取前n个返回的图片结果作为目标网站的商标图片。对于一个使用HTTP的未知网页，获取其URL并进行主动访问，得到未知网页的网页快照(截图)；对于一个使用HTTPS的未知网页，首先从SSL协议的SNI字段中获取其域名信息，接着一方面直接访问该域名得到相应网页，另一方面利用搜索引擎搜索该域名并访问所有搜索结果中域名与该域名相同的网页，从而得到未知网页所在网站各网页快照。

然后使用SIFT(Lowe,D.G.:Distinctive image features from scale-invariant keypoints.International journal of computer vision 60(2),91–110(2004))和FLANN算法(Muja,M.,Lowe,D.G.:Fast approximate nearest neighbors withautomatic algorithm configuration.VISAPP(1)2(331-340),2(2009))将商标图片与未知网页快照进行子图匹配。具体来说，定义logo图片上的特定点到快照图片上该点的最近邻点和次近邻点的距离的比率为匹配率，并为匹配率设定一个阈值R，计算logo图片中匹配率超过R的点占logo图片所有点的比例作为相似度sim。当相似度sim大于一定阈值时认为匹配成功。若匹配成功则说明未知网页中含有商标图片，进而被标记为可疑网页(若检测出网站的任一子网页为钓鱼网页，则称该网站为钓鱼网站)；否则被标记为无关网页。

进一步地，本方法前提是给定需要防护的目标网站，根据这些目标网站使用搜索引擎获取其商标图片。这些获取到的商标图片即可看作黑名单，即当未知网页中出现这些商标图片时将其看作可疑网站(而非钓鱼网站)，进而使用主机特征对可疑网站进行识别判断该可疑网站为合法网站还是钓鱼网站，从而判断上述可疑网页是否为钓鱼网站。

在异常点检测阶段，使用one-class SVM算法(Chang,C.C.,Lin,C.J.:Libsvm:Alibrary for support vector machines.ACM TIST 2(3),27(2011))对合法目标网站IP集合和未知网站的IP地址进行聚类，若未知网站的IP地址不在目标网站IP集合所属类别中，则称其为异常点，即判断该未知网页属于钓鱼网站。

下述为本发明的具体实施例：

实例1基于视觉和主机特征的钓鱼网站识别方法

以部署于镜像流量服务器为例：

1)获取目标网站商标图片。给定目标网站使用搜索引擎搜索“网站域名+logo”获取5个最靠前的商标图片。

2)捕获流量。本方法采用并联方式识别分析指定网关的镜像流量，因此在镜像的流量服务器上使用tcpdump对指定端口流量进行捕获；

3)解包。解包获得HTTP流量的服务端IP地址、服务端主机名、URL、HTML文本内容以及HTTPS流量的服务端IP地址、服务端主机名(从SNI字段获取)，同时使用目标网站的域名与流量中未知网站的域名进行子串匹配从而获得目标网站的IP地址集合；

4)白名单过滤。对于HTTP流量通过host name字段判断其域名是否在域名白名单上，若不在，则执行步骤5)，否则，判断其为正常网页，对于HTTPS流量通过SNI字段判断其域名是否在域名白名单上，若不在，则执行步骤6)，否则判断其为正常网页；

5)表单过滤。判断HTTP流量中的HTML文本中是否包含表单关键字，若包含则执行步骤7)，否则，判断其为正常网页；

6)获取HTTPS网页快照。

6.1)主动访问HTTPS流量中SNI字段所示主机名，获取网页快照。

6.2)通过搜索引擎搜索主机名，对于返回结果URL中主机名与SNI字段所示主机名相同的网页，主动访问获取其网页快照集；

获取所有网页快照后进行步骤8)；

7)获取HTTP网页快照。主动访问HTTP流量中的URL，获取网页快照，进行步骤8)；

8)子图匹配。利用SIFT和FLANN算法计算目标网站商标图片与所获取的网页快照的相似度。首先选取0.5作为匹配率的阈值，在此情况下，当相似度阈值大于0.09时判断未知网页快照中不含有目标网站的商标图片，判断其为正常网页，否则进行步骤9)；

9)基于主机特征的钓鱼网站识别。将8)中网页的IP地址与3)中获得的目标网站的合法IP地址集合进行聚类，利用one-class SVM进行异常点检测。若显示为异常点，则判断该网站为钓鱼网站，否则判断该网站为正常网站。

实例2基于视觉和主机特征的钓鱼网站识别方法

以部署于客户端为例：

1)获取目标网站商标图片。给定目标网站使用搜索引擎获取5个最靠前的商标图片。

2)获取目标网站IP地址集合。通过获取客户端流量，并将目标网站的域名与流量域名进行子串匹配从而获得目标网站的IP地址集合；

3)客户端对未知网页进行访问的过程中获取未知网页服务端的IP地址；

4)白名单过滤。对于客户端访问的网页判断其域名是否在域名白名单上，若不在，则执行步骤5)，否则，判断其为正常网页；

5)表单过滤。判断客户端访问的网页中的HTML文本中是否包含表单关键字，若包含则执行步骤6)，否则，判断其为正常网页；

6)获取网页快照。对客户端访问的网页生成网页快照，进行步骤7)；

7)子图匹配。利用SIFT和FLANN算法计算目标网站商标图片与所获取的网页快照的相似度。首先选取0.5作为匹配率的阈值，在此情况下，当相似度阈值大于0.09时判断未知网页快照中不含有目标网站的商标图片，判断其为正常网页，否则进行步骤8)；

8)基于主机特征的钓鱼网站识别。将3)中网页的IP地址与2)中获得的目标网站的合法IP地址集合进行聚类，利用one-class SVM进行异常点检测。若显示为异常点，则判断该网站为钓鱼网站，否则判断该网站为正常网站。

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，图片的地理位置信息也无需限制在exif信息之中可以是一个附加地理位置信息的图片，均包括在本发明的专利保护范围内。

Claims

1.一种部署于镜像流量服务器的基于视觉与主机特征的钓鱼网站识别方法，其步骤包括：

2.如权利要求1所述的方法，其特征在于，所述镜像流量为HTTP流量或HTTPS流量。

3.如权利要求2所述的方法，其特征在于，所述HTTP流量的进行基于域名的过滤步骤包括：

所述HTTPS流量的进行基于域名的过滤步骤包括：

2)获取所述第三流量对应的第一可疑网页。

4.如权利要求1所述的方法，其特征在于，获取所述HTTP流量的URL并进行主动访问，得到一张所述网页快照；

获取所述HTTPS流量对应的网页快照的方法，其步骤包括：

5.如权利要求1所述的方法，其特征在于，将所述目标网站域名和“logo”作为关键词进行搜索，将获取的前若干个返回的图片结果作为所述目标网站的所述商标图片集。

6.如权利要求1所述的方法，其特征在于，将所述第二可疑网页使用主机特征进行识别，将识别成功的所述第二可疑网页判断为钓鱼网站。

7.如权利要求1所述的方法，其特征在于，使用SIFT算法与FLANN算法进行所述子图匹配；使用one-class SVM算法对所述第二可疑网页的所述IP地址与所述目标网站的所述IP地址集合进行聚类。

8.一种部署于客户端的基于视觉与主机特征的钓鱼网站识别方法，其步骤包括：

9.一种存储介质，所述存储介质中存储有计算机程序，其中，所述计算机程序执行权利要求1-8中任一方法。

10.一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行权利要求1-8中任一方法。