CN116633684B

CN116633684B - 网络钓鱼检测方法、系统、电子设备和可读存储介质

Info

Publication number: CN116633684B
Application number: CN202310884830.4A
Authority: CN
Inventors: 陆志成
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Suzhou Software Technology Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Suzhou Software Technology Co Ltd
Priority date: 2023-07-19
Filing date: 2023-07-19
Publication date: 2023-10-13
Anticipated expiration: 2043-07-19
Also published as: CN116633684A

Abstract

本发明提供一种网络钓鱼检测方法、系统、电子设备和可读存储介质，该网络钓鱼检测方法包括：获取疑似钓鱼网站域名总数据集；确定总数据集中全部或部分域名的信息熵值、去重后的元音字母比例值以及域名与防护网站的域名字符串相似度中的至少一项；根据三个元素中的至少一项确定全部或部分域名的分值；根据分值确定不同钓鱼检测防护等级下的域名集合；根据需求的钓鱼检测防护等级选择对应的域名集合，对域名集合中的网站进行检测。本发明选定三个元素中的至少一项作为确定全部或部分域名的分值的依据，并且根据分值确定不同等级下的域名集合，能够在缩小范围内后的域名集合中实现对钓鱼网站的检测，使得钓鱼网站检测过程更为快速便捷。

Description

网络钓鱼检测方法、系统、电子设备和可读存储介质

技术领域

本发明实施例涉及网络钓鱼技术领域，尤其涉及一种网络钓鱼检测方法、系统、电子设备和可读存储介质。

背景技术

网络钓鱼(Phishing)是基于社会工程学的一种窃取个人敏感信息的手段。网络钓鱼者意图引导用户到URL(Uniform Resource Locator)或接口外观与真正网站几无二致的假冒网站输入私密信息，再利用用户这些私密信息进行非法获利。网络钓鱼在人们生活与互联网关联愈发密切的现代，给电子商务行业以及人们生活带来了巨大的损害。

钓鱼网站检测分为服务器防御和用户端防御。服务端防御指的是网站服务端通过数字水印、数字指纹等技术向用户证明身份的合法性；用户端防御指用户在浏览器安装插件，这些插件基于URL黑白名单、URL特征、网站特征、机器学习、视觉相似等技术来检测钓鱼网站，在用户输入敏感数据前给予用户提醒。这些钓鱼检测机制都可归于被动防御且最终都得让用户自行判断，存在易被忽略等风险。

现有的网络钓鱼检测方法有如下缺点：第一，常见的网络钓鱼检测技术中URL黑白名单检测技术简单、精准率高，但更新速率缓慢无法及时跟上新钓鱼网站生成速度，并且依赖人工审核；基于机器学习的URL检测技术仅对URL特征做大量的训练测试，误报率高；视觉相似检测技术基于网站内容但受限于分辨率、广告通知更新、模板复用等因素。

第二，目前钓鱼网站检测机制都为被动式，检测生效的时候意味着用户已经遇到了钓鱼事件，让安全意识与技术弱势的用户最终判定钓鱼网站身份，存有较大风险。同时检测的误报率与插件安装的繁琐性影响用户的使用体验且难以做到推广覆盖。

第三，现有的钓鱼检测机制往往倾向于某一模块，仅基于URL本身或者网页文本内容来判断，误差率大，且检测只对于样本进行研究，未进行封装供外部使用。

第四，从云服务供应商角度出发，在为用户提供站点防护、周期安全扫描的服务场景下，也需要为用户提供额外的钓鱼网站检测功能来从多维度为用户打造可靠、安全、高效的在线网站服务，提升网站公信力。但是基于上述钓鱼检测技术云服务供应商无法将钓鱼网站检测功能封装为通用的外部服务供用户使用。

发明内容

本发明实施例提供一种网络钓鱼检测方法、系统、电子设备和可读存储介质，以解决现有的在提高检测准确率和域名集更新速度的情况下，根据不同防护等级选取不同域名集合的钓鱼网站的进行主动检测的问题。

为了解决上述技术问题，本发明是这样实现的：

第一方面，本发明实施例提供了一种网络钓鱼检测方法，包括：

获取疑似钓鱼网站域名总数据集；

确定所述疑似钓鱼网站域名总数据集中全部或部分域名的信息熵值、去重后的元音字母比例值以及域名与防护网站的域名字符串相似度中的至少一项；

根据所述全部或部分域名的信息熵值、去重后的元音字母比例值以及域名与防护网站的域名字符串相似度中的至少一项确定所述全部或部分域名的分值；

根据所述全部或部分域名的分值确定不同钓鱼检测防护等级下的域名集合；

根据需求的钓鱼检测防护等级选择对应的所述域名集合，对所述域名集合中的网站进行检测。

可选的，所述获取疑似钓鱼网站域名总数据集包括以下至少之一项：

获取疑似钓鱼网站地址；

获取补充近似域名集；

获取补充近似域名集。

可选的，所述疑似钓鱼网站地址包括以下至少之一项：

调整所述防护网站的主域名的排序得到的近似域名集；

对所述防护网站的主域名，和/或，所述近似域名集进行相似字符替换得到的近似域名集；

对所述防护网站的主域名，和/或，所述近似域名集，和/或，近似域名集进行关键字符串插入得到的近似域名集；

对所述防护网站的主域名，和/或，所述近似域名集，和/或，近似域名集，和/或，近似域名集进行多级域名扩充得到的近似域名集。

可选的，所述获取补充近似域名集包括：

检索已有钓鱼网站数据库，对所述钓鱼网站数据库的样本进行分析提取统一资源定位符特征规则；

根据所述统一资源定位符特征规则对所述防护网站进行变形，得到所述补充近似域名集；

其中，所述钓鱼网站数据库包括以下至少之一项：实际防护的钓鱼网站、人工审核过的钓鱼网站和流行的钓鱼网站。

可选的，所述补充近似域名集包括以下至少之一项：

对所述防护网站的域名进行置换操作得到的近似域名集；

对所述防护网站的域名进行专用词典单词组合的方式进行变形得到的近似域名集。

可选的，所述根据所述全部或部分域名的分值确定不同钓鱼检测防护等级下的域名集合还包括：

将所述全部或部分域名的分值按照从大到小的顺序排列得到域名排序；

根据不同钓鱼检测防护等级，按照所述域名排序从大到小选择对应数量的域名，组成不同钓鱼检测防护等级下的域名集合。

可选的，所述根据需求的钓鱼检测防护等级选择对应的所述域名集合，对所述域名集合中的网站进行检测包括：

对所述疑似钓鱼网站域名总数据集中的网站进行探活测试，筛选出存活的疑似钓鱼网站地址集；

对所述存活的疑似钓鱼网站地址集进行字符串身份筛选，筛选出存活的疑似钓鱼网站地址集；

对存活的疑似钓鱼网站地址集进行正常网站特征匹配，剔除符合所有特征匹配的网站，筛选出剩余存活的疑似钓鱼网站地址集；

对所述剩余存活的疑似钓鱼网站地址集进行网站相似度检测，将通过所述网站相似度检测的网站判定为钓鱼网站。

第二方面，本发明实施例提供了一种网络钓鱼检测系统，包括：

数据集模块，用于获取疑似钓鱼网站域名总数据集；

计算模块，用于确定所述疑似钓鱼网站域名总数据集中全部或部分域名的信息熵值、去重后的元音字母比例值以及域名与防护网站的域名字符串相似度中的至少一项；

分值模块，用于根据所述全部或部分域名的信息熵值、去重后的元音字母比例值以及域名与防护网站的域名字符串相似度中的至少一项确定所述全部或部分域名的分值；

集合模块，用于根据所述全部或部分域名的分值确定不同钓鱼检测防护等级下的域名集合；

检测模块，用于根据需求的钓鱼检测防护等级选择对应的所述域名集合，对所述域名集合中的网站进行检测。

第三方面，本发明实施例提供了一种电子设备，包括：处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序，所述程序被所述处理器执行时实现如上述第一方面所述的网络钓鱼检测方法的步骤。

第四方面，本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上述第一方面所述的网络钓鱼检测方法的步骤。

在本发明中，首先获取疑似钓鱼网站域名总数据集；确定疑似钓鱼网站域名总数据集中全部或部分域名的信息熵值、去重后的元音字母比例值以及域名与防护网站的域名字符串相似度中的至少一项，通过较为灵活的选取总数据集中的全部或部分域名以及选取三种元素中的至少一项，使得域名集合的选取更为轻量化；根据三种元素中的至少一项确定全部或部分域名的分值，通过分值确定不同钓鱼检测防护等级下的域名集合；再根据需求的钓鱼检测防护等级选择对应的域名集合，对域名集合中的网站进行检测，即可按用户防护等级动态定制调整检测粒度，能够将被动检测钓鱼网站改为主动检测，可以在缩小范围内后的域名集合中实现对钓鱼网站的检测，因此钓鱼网站检测过程更为快速便捷，也可以对网络环境安防措施进行有效补充。具有提高钓鱼网站检测效率，更新速率快，提升网络安全等级，提升云用户体验感知等技术效果。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1是本发明实施例提供的一种网络钓鱼检测方法的流程图；

图2是本发明实施例提供的一种钓鱼网站主动发现与检测的流程图；

图3是本发明实施例提供的一种域名生成网络工作流程图；

图4是本发明实施例提供的一种域名网站检测流程图；

图5是本发明实施例提供的一种网络钓鱼检测系统的结构示意图；

图6是本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参考图1，本发明实施例提供了一种网络钓鱼检测方法，包括：

步骤11：获取疑似钓鱼网站域名总数据集；

步骤12：确定所述疑似钓鱼网站域名总数据集中全部或部分域名的信息熵值、去重后的元音字母比例值以及域名与防护网站的域名字符串相似度中的至少一项；

步骤13：根据所述全部或部分域名的信息熵值、去重后的元音字母比例值以及域名与防护网站的域名字符串相似度中的至少一项确定所述全部或部分域名的分值；

步骤14：根据所述全部或部分域名的分值确定不同钓鱼检测防护等级下的域名集合；

步骤15：根据需求的钓鱼检测防护等级选择对应的所述域名集合，对所述域名集合中的网站进行检测。

请参考图2和图3，本发明实施例提供一种域名生成网络，由子网络1、2、3组成，用于实现上述步骤11-步骤14。其中，子网络1主要分为三层：Layer1、Layer2和Layer3，用于实现步骤11，按不同规则生成近似域名总数据集；子网络2，用于实现步骤12和13，从而获得全部或部分域名的分值；子网络3用于实现步骤14，确定不同钓鱼检测防护等级下的域名集合。

请参考图3，本发明实施例中，可选的，所述获取疑似钓鱼网站域名总数据集包括以下至少之一项：

获取疑似钓鱼网站地址；

获取补充近似域名集；

获取补充近似域名集。

本发明实施例中的获取疑似钓鱼网站域名总数据集可以由域名生成网络的子网络1实现，疑似钓鱼网站域名总数据集可以根据用户需求进行选择，灵活度更高，能够做到轻量化生成域名集。在疑似钓鱼网站生成集合上，基于云平台服务特点给出快速检测钓鱼网站的方法，还可应用于用户防护网站环境周期检查，系统可靠性评分系统。

请参考图3，本发明实施例中，可选的，所述疑似钓鱼网站地址包括以下至少之一项：

调整所述防护网站的主域名的排序得到的近似域名集；

本发明实施例中的获取疑似钓鱼网站地址可以由域名生成网络的子网络1的 Layer1实现，从用户开启防护的网站地址中提取出主域名，通过匹配积累的相似字符库规则来构建疑似钓鱼网站地址。

具体来说，Layer1根据提取规则以逗号分隔从右至左遍历剔除顶级域名以及收录的二级域名后缀，从用户开启防护的网站地址中提取出主域名。如tmall.com提取后的“tmall”核心字符串。

假设提取出的主域名有n个字符，则调整字符排序后共能输出n!个近似域名，得到近似域名集。

进一步的，通过匹配积累的相似字符库规则来构建疑似钓鱼网站地址。部分相似字符库表如表1所示：

表1：部分相似字符库表

原字符	相似字符
		a	b、d、g
p	9、q、b
		u	v
v	u、y
		z	2

对近似域名集的m个近似域名每个位置字符进行相似字符库规则替换，m为近似域名数，假设每个字符的相似字符数量为R，为了简化流程这边R数量为表1相似字符数加上自己本身。则每个域名替换后可生成k个近似域名：，共输出个近似域名，组成近似域名集，其中，n为字符数，n与近似域名集中的x等价。所述防护网站的主域名进行相似字符替换得到近似域名集，其中近似域名集包括近似域名集，和/或，近似域名集。

对近似域名集中的K个近似域名进行关键字符串插入，可选择前置插入、后置插入以及任意位置插入，如“tmall”字符串分别转换为“mytmall”、“tmall1”、“t-mall”。值得说明的是，这些关键字符串积累存储在云服务供应商数据库中，通过业务验证不断学习累加。设每个域名插入关键字符串后可生成i个近似域名，插入K个关键字符串则可生成个近似域名：，组成近似域名集。对所述防护网站的主域名进行关键字符串插入得到近似域名集，对近似域名集的主域名进行关键字符串插入得到近似域名集。近似域名集包括近似域名集，和/或，近似域名集，和/或，近似域名集。

进一步的，还可以对近似域名集中近似域名进行一级、三级域名替换或者更多级域名扩充，如“www.tmall.com”转换为“blog.tmall.top”与“www.tmall.xy.com”，每个域名记为可扩充成e个近似域名，去重操作后重复域名数量记为D，可以生成个近似域名，组成近似域名集。对所述防护网站的主域名进行多级域名扩充得到近似域名集，对近似域名集的主域名进行多级域名扩充得到近似域名集，对近似域名集的主域名进行多级域名扩充得到近似域名集。其中近似域名集包括近似域名集，和/或，近似域名集，和/或，近似域名集，和/或，近似域名集。

本发明实施例还可以对相似字符、疑似域名、所插入的关键字符串进行入库，通过云平台实际防护结果，进行不断学习扩充以及优化。

请参考图3，本发明实施例中，可选的，所述获取补充近似域名集包括：

本发明实施例中的获取疑似钓鱼网站地址可以由域名生成网络的子网络1的 Layer2实现，检索已有钓鱼网站数据库，对实际防护、人工审核遇到的、未被Layer1覆盖到的样本进行分析提取URL特征规则，对防护域名进行变形，生成补充近似域名集。

请参考图3，本发明实施例中，可选的，所述补充近似域名集包括以下至少之一项：

对所述防护网站的域名进行置换操作得到的近似域名集；

本发明实施例中的获取疑似钓鱼网站地址可以由域名生成网络的子网络1的 Layer3实现，使用基于置换与词典的域名生成算法（Domain Generation Algorithm，DGA），对防护域名进行置换操作与专用词典单词组合的方式变形，生成补充近似域名集。

上述由生成域名生成网络的子网络1旨在尽可能多的生成用户防护网站周围环境中可能存在的近似域名，供后续检测使用。并且用户可以根据需求选择域名的集合，可以选择生成的大范围域名集，也可以选择生成包含、和任意组合的域名集。

请参考图3，考虑实际监测工作中，子网络1生成的近似域名数量过多且未体现优先级，不利于后续云服务下快速检测，提供及时响应服务。因此引入子网络2，将基于计算的效率性与结果鲁棒性，综合信息熵、元音字母比例和域名字符串相似度三个元素的任意组合进行域名排序。

本发明实施例中，可选的，所述根据所述全部或部分域名的信息熵值、去重后的元音字母比例值以及域名与防护网站的域名字符串相似度中的至少一项确定所述全部或部分域名的分值包括：

确定所述全部或部分域名参与分值计算的信息熵值、去重后的元音字母比例值以及域名与防护网站的域名字符串相似度的权重系数；

归一化所述全部或部分域名参与分值计算的信息熵值、去重后的元音字母比例值以及域名与防护网站的域名字符串相似度；

将所述全部或部分域名参与分值计算的归一化后的信息熵值、去重后的元音字母比例值以及域名与防护网站的域名字符串相似度和对应的权重系数相结合，得到所述全部或部分域名的分值。

本发明实施例中，根据生成的全部或部分域名确定各域名的信息熵值，计算公式如下：

；其中，表示域名字符所出现概率，其中，信息熵值越高，表征域名组成字符越无序。

在本发明实施例中，确定各域名的去重后的元音字母比例，其中确定各域名的去重后的元音字母比例的伪代码如下：

Map<String, Double>vowelProp(Set<String>domainList){

removeDupChar(domainList);

HashMap<String, Double>pvowel = new HashMap();

for (String domain : domainList){

map.put(domain,

getRatioStr(getVowel(domain).length(),domain.length()

));

}

return pvowel ;

}

在本发明实施例中，利用优化设计的字符串相似度计算方法，计算防护网站A与疑似钓鱼网站B 两者域名字符串相似度，优化设计的字符串相似度计算公式如下：

；其中，标识A字符串的长度，为AB比较首次不匹配的字符所在位置，为防护网站A与疑似钓鱼网站B的最长公共子串长度，为LD距离。

值得说明的是，本计算方法中优化部分为引入修正因子扩展计算防护网站A 与疑似钓鱼网站的和都相同的场景下的字符串相似度。

进一步的，为增强度量准确性，本发明实施例中选择三个元素均参与分值计算，具体的分值确定过程如下：

基于随机森林对信息熵、元音字母比例和域名字符串相似度SS的影响权重进行度量，计算公式如下：

；其中，x为域名总样本，C为类别数，为总样本第r维特征均值，为第y类集合的样本数，为y类的第r维特征均值，为第y类的第r维特征方差平方，分子表征类内方差，分母表征类间方差。

值得说明的是域名总样本为疑似钓鱼网站域名总数据集中全部或部分域名，样本数量由用户自行选择，灵活度更高。

归一化各域名样本中各域名的信息熵值、去重后的元音字母比例值以及域名与防护网站的域名字符串相似度。

结合权重系数作为各域名的分值Count，即将各域名样本归一化后的信息熵值、去重后的元音字母比例值以及域名与防护网站的域名字符串相似度和对应的权重系数相结合，得到各域名样本分值Count，进一步的，就可以将各域名按照其分值Count从大到小排序，得到域名排序；域名排序越靠前，域名的优先级越高。

本发明实施例中，可选的，所述根据所述全部或部分域名的分值确定不同钓鱼检测防护等级下的域名集合还包括：

在本发明实施例中，按照钓鱼检测防护等级与域名数量的对应关系，确定不同钓鱼检测防护等级下的域名集合，即钓鱼检测防护等级越高，对应的域名数量越多，可以由子网络3实现按钓鱼检测防护等级划分域名。

在本发明实施例中，可以通过域名排序来选取指定防护等级下的指定数量的域名集合，即按照域名分值从大到小排序来选取指定防护等级下的指定数量的域名集合，举例来说，钓鱼检测防护等级T对应的域名数量为d，按照域名的域名排序从高到低（优先级从高到低）依次选择出d个域名组成等级T下的域名集合。后续就可按照需求的钓鱼检测防护等级选择相应范围内的近似域名进行快速检测，以从选择的近似域名中检测得到钓鱼网站。

在本发明实施例中，还可以不根据分值（优先级）对域名进行排序，直接根据不同防护等级划分不同的分值范围来确定域名集合，举例来说，在钓鱼检测防护等级T下对应[a,b)分值范围下的域名，当然，也可以先按照钓鱼检测防护等级与域名数量的对应关系确定分值范围，然后再根据分值范围确定域名集合，举例来说，钓鱼检测防护等级T对应的域名数量为d，按照数量选定[a,b)分值的域名集合，其中[a,b)分值范围内包含d个域名。

本发明实施例中，通过分值排序和分值范围划分的方法区分不同的域名集合更加方便和清晰，且容易实现。

除上述域名集合生成的方法外，还提供一种对主动生成的疑似钓鱼网站地址快速检测方法。主动探测与检测机制相较于基于浏览器插件以及深度学习等检测方法更为快速便捷，适用于云环境上短周期用户环境扫描与评分感知。

请参考图4，本发明实施例中，可选的，所述根据需求的钓鱼检测防护等级选择对应的所述域名集合，对所述域名集合中的网站进行检测包括：

本发明实施例中，对所述域名集合中的网站进行检测主要包括以下几个步骤：

步骤a：首先对疑似钓鱼网站域名总数据集中的网站进行探活测试与对比，值得注意的是，为保证检测的全面性，探活测试与对比是针对总数据集中的网站进行，当然用户有其他需求时，探活测试与对比也可以是针对小范围集合的测试。对生成的疑似钓鱼网站URL 使用发送Ping包或者域名解析方法进行探活测试，响应正常则URL地址有效。若响应失败或有异常抛出，则间隔一定时间（可以为2s）重复测试两次，若连续两次失败则视为URL无效。进一步的，考虑到若用户域名为在云服务供应商侧一体购买，还可以将用户域名管理列表接口中的数据与疑似钓鱼网站集合进行比对后，剔除用户购买域名与自己添加解析的多级域名，筛选出存活的疑似钓鱼网站地址集。

步骤b：对所述存活的疑似钓鱼网站地址集进行字符串身份筛选，具体来说，由于钓鱼网站往往对主域名进行变形，但页面内部跳转大多还是保留了原网站链接地址。因此可以基于web页面身份进行筛选，提取页面内所有外链出现频率最高的主域名字符串与其本身域名字符串身份做比对，不符合判定为钓鱼网站，否则做进一步判断，即进一步筛选出存活的疑似钓鱼网站地址集做进一步判断。

步骤c：对存活的疑似钓鱼网站地址集进行正常网站特征匹配，提取表征近似钓鱼网站的代表性URL特征、页面特征，特征向量，对存活的疑似钓鱼网站地址集进行特征匹配，其中：

URL中不包含ip地址且点分符号数不大于3个；

使用HTTPS协议；

web页面含有copyright与ICP号；

web页面中不含有form表单；

页内链接地址所在域与页面所在域一致；

满足以上所有条件则标识该网站为正常网站。

对存活的疑似钓鱼网站地址集进行正常网站特征匹配，剔除符合所有特征匹配的网站，筛选出剩余存活的疑似钓鱼网站地址集。

步骤d：对剩余存活的疑似钓鱼网站地址集进行网站相似度检测，检测与防护网站的网页文本相似度、结构相似度与视觉相似中的至少一项。

为了增加迷惑性，钓鱼者通常会将网站页面源码进行直接拷贝，仅对少部分登陆模块或者跳转模块进行修改嵌入，但随着钓鱼网站生成技术更新，钓鱼者利用反钓鱼原理进行检测规避，会对页面元素进行替换或用大量的图片进行文本替换，干预常规检测手段。从多个层面对网站相似度进行检测，有效克服单一层面检测范围不全、呆板的问题。

本发明实施例为对网站的网页文本相似度、结构相似度与视觉相似均检验的实施例，主要包括以下步骤：

步骤（1）：对网页文本进行分词，得到候选特征词集合。使用改进的维度特征计算关系式，计算网站对应的维度特征值，改进的表达式为：

；

其中，为词在页面文本的词频；为词的反文本频数；式为词的类间分布信息增益；C为类别； m为类别数；为类别的概率；表示词在类别出现概率。

为词的类内分布信息增益，计算公式为：

=；其中，为词在类文本出现的频数；为词在类第j个文本中出现的频数；n为类文本总数。

其中，词的类间分布信息增益可体现词在越少的类别中出现，词权重越高，越关键；其中，词的类内分布信息增益可体现词在类别中、文本中出现频数越多，分类能力越强，越关键。

步骤（2）：对两个网站生成维度特征值向量，用户防护网站，疑似钓鱼网站，计算公式如下：

；求解出两个网站的相似度，并且通过遍历匹配两个网站分词结果集得出共有词比例。选取一定量已有钓鱼网站与其原始网站相似度和共有词比例作为样本数据，利用统计产品与服务解决方案软件（Statistical Product Service Solutions，SPSS）进行因子分析，得出成分矩阵与成分得分矩阵后，确定这两个因素的归一化权重系数。那么网页文本相似度可以由以下计算公式确定：

；其中，为原始网站相似度的归一化权重系数。

步骤（3）：使用改进后的简单树匹配算法，对HTML标签的可替代性进行纳管，如<P> 就可由<DIV>替换。如果两个文档对象模型（Document Object Model，DOM）树的根节点相同或者是可替换的标签则继续对其子树进行匹配，否则认为两颗DOM树相似度为0。将两个网页解析为DOM树，元素展开为树分支与结点形式。使用自定义改进简单树匹配算法计算得出用户防护网站与近似钓鱼网站的页面结构相似性，其中，伪代码如下：

if(A和树B的根节点的标签不同或者根节点的标签不可替换){

return;

}else {

int t=树A第一层子树的个数；k=树B第一层子树的个数；

for(int i =1;i<t;i++){

for(int j =1;j<n;i++){

int w[i,j] = self(Ai，Bj)；

int m[i,j] = max{m[i,j-1],m[i-1,j],m[i-1,j-1]+w[i,j]}

}

return m[t,k]+1

}

步骤（4）：对疑似钓鱼网站网页的截图与防护网站页面的截图进行对比，具体包括：

首先将截图缩小到n×n，共个像素，然后再转换为灰度图G，并计算灰度图G的像素平均值，遍历灰度图G中每个像素与像素平均值进行比较，若像素小于像素平均值则记为0；若像素不小于像素平均值则记为1，得出比特二进制串。

计算疑似钓鱼网站网页截图和防护网站页面截图的比特二进制串的汉明距离，距离越大表征两者差异越大。

步骤（5）：当网页文本相似度、结构相似度、视觉相似度均超过设定阈值，则可判定两者相似，该疑似钓鱼网站确认为钓鱼威胁网站，用户防护网站存在钓鱼事件。

本发明首先生成疑似钓鱼网站大范围域名集，然后基于信息熵、元音字母比例和域名字符串相似度三个元素中的至少一项进行域名排序，进一步按照需求的钓鱼检测防护等级选择相应范围内的近似域名进行检测。并且，本发明还支持按照顺序采用探活测试、web页面身份筛选、URL特征、页面特征，以及网页文本相似度、结构相似度、视觉相似度进行钓鱼网站检测。本发明可以，对用户防护网站环境监测进行有效补充，避免用户被动判断钓鱼网站，本发明中的钓鱼网站检测方法更为快速便捷，适用于云环境上短周期用户环境扫描与评分感知。因此具有提高钓鱼网站检测效率，保障网络安全性，以及提升云用户体验感知等技术效果。

请参考图5，本发明还提供一种网络钓鱼检测系统50，包括：

数据集模块51，用于获取疑似钓鱼网站域名总数据集；

计算模块52，用于确定所述疑似钓鱼网站域名总数据集中全部或部分域名的信息熵值、去重后的元音字母比例值以及域名与防护网站的域名字符串相似度中的至少一项；

分值模块53，用于根据所述全部或部分域名的信息熵值、去重后的元音字母比例值以及域名与防护网站的域名字符串相似度中的至少一项确定所述全部或部分域名的分值；

集合模块54，用于根据所述全部或部分域名的分值确定不同钓鱼检测防护等级下的域名集合；

检测模块55，用于根据需求的钓鱼检测防护等级选择对应的所述域名集合，对所述域名集合中的网站进行检测。

可选的，所述数据集模块51包括以下至少之一项：

第一数据集子模块，用于获取疑似钓鱼网站地址；

第二数据集子模块，用于获取补充近似域名集；

第三数据集子模块，用于获取补充近似域名集。

可选的，所述疑似钓鱼网站地址包括以下至少之一项：

调整所述防护网站的主域名的排序得到的近似域名集；

可选的，所述第二数据集子模块包括：

第二数据集第一子模块，用于检索已有钓鱼网站数据库，对所述钓鱼网站数据库的样本进行分析提取统一资源定位符特征规则；

第二数据集第二子模块，用于根据所述统一资源定位符特征规则对所述防护网站进行变形，得到所述补充近似域名集；

可选的，所述补充近似域名集包括以下至少之一项：

对所述防护网站的域名进行置换操作得到的近似域名集；

可选的，所述集合模块54还包括：

第一集合子模块，用于将所述全部或部分域名的分值按照从大到小的顺序排列得到域名排序；

第二集合子模块，用于根据不同钓鱼检测防护等级，按照所述域名排序从大到小选择对应数量的域名，组成不同钓鱼检测防护等级下的域名集合。

可选的，所述检测模块55包括：

第一检测子模块，用于对所述疑似钓鱼网站域名总数据集中的网站进行探活测试，筛选出存活的疑似钓鱼网站地址集；

第二检测子模块，用于对所述存活的疑似钓鱼网站地址集进行字符串身份筛选，筛选出存活的疑似钓鱼网站地址集；

第三检测子模块，用于对存活的疑似钓鱼网站地址集进行正常网站特征匹配，剔除符合所有特征匹配的网站，筛选出剩余存活的疑似钓鱼网站地址集；

第四检测子模块，用于对所述剩余存活的疑似钓鱼网站地址集进行网站相似度检测，将通过所述网站相似度检测的网站判定为钓鱼网站。

本发明实施例提供的网络钓鱼检测系统能够实现图1至图4的方法实施例实现的各个过程，并达到相同的技术效果，为避免重复，这里不再赘述。

本发明实施例提供了一种电子设备60，参见图6所示，图6为本发明实施例电子设备60的原理框图，包括处理器61，存储器62及存储在存储器62上并可在处理器61上运行的程序或指令，程序或指令被处理器执行时实现本发明的任一项网络钓鱼检测方法中的步骤。

本发明实施例提供了一种可读存储介质，可读存储介质上存储程序或指令，程序或指令被处理器执行时实现如上述任一项的网络钓鱼检测方法的实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体,可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存 (PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器 (DRAM)、其他类型的随机存取存储器 (RAM)、只读存储器(ROM)、电可擦除可编程只读存储器 (EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器 (CD-ROM)、数字多功能光盘 (DVD) 或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体 (transitory media)，如调制的数据信号和载波。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质（如ROM/RAM、磁碟、光盘）中，包括若干指令用以使得一台服务分类设备（可以是手机，计算机，服务器，空调器，或者网络设备等）执行本申请各个实施例所述的方法。

以上所述仅是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种网络钓鱼检测方法，其特征在于，包括：

获取与防护网站对应的疑似钓鱼网站域名总数据集；

确定所述疑似钓鱼网站域名总数据集中全部或部分域名的信息熵值、去重后的元音字母比例值以及域名与所述防护网站的域名字符串相似度中的至少一项；

根据所述全部或部分域名的信息熵值、去重后的元音字母比例值以及域名与所述防护网站的域名字符串相似度中的至少一项确定所述全部或部分域名的分值；

根据所述全部或部分域名的分值确定不同钓鱼检测防护等级下的域名集合，其中，所述钓鱼检测防护等级越高，对应域名集合中的域名数量越多；

2.根据权利要求1所述的方法，其特征在于，所述获取与防护网站对应的疑似钓鱼网站域名总数据集包括以下至少之一项：

获取疑似钓鱼网站地址S₁；

获取补充近似域名集S₂；

获取补充近似域名集S₃。

3.根据权利要求2所述的方法，其特征在于，所述疑似钓鱼网站地址S₁包括以下至少之一项：

调整所述防护网站的主域名的排序得到的近似域名集S₁₁；

对所述防护网站的主域名，和/或，所述近似域名集S₁₁进行相似字符替换得到的近似域名集S₁₂；

对所述防护网站的主域名，和/或，所述近似域名集S₁₁，和/或，近似域名集S₁₂进行关键字符串插入得到的近似域名集S₁₃；

对所述防护网站的主域名，和/或，所述近似域名集S₁₁，和/或，近似域名集S₁₂，和/或，近似域名集S₁₃进行多级域名扩充得到的近似域名集S₁₄。

4.根据权利要求2所述的方法，其特征在于，所述获取补充近似域名集S₂包括：

根据所述统一资源定位符特征规则对所述防护网站进行变形，得到所述补充近似域名集S₂；

5.根据权利要求2所述的方法，其特征在于，所述补充近似域名集S₃包括以下至少之一项：

对所述防护网站的域名进行置换操作得到的近似域名集S₃₁；

对所述防护网站的域名进行专用词典单词组合的方式进行变形得到的近似域名集S₃₂。

6.根据权利要求1所述的方法，其特征在于，所述根据所述全部或部分域名的分值确定不同钓鱼检测防护等级下的域名集合还包括：

7.根据权利要求1所述的方法，其特征在于，所述根据需求的钓鱼检测防护等级选择对应的所述域名集合，对所述域名集合中的网站进行检测包括：

对所述疑似钓鱼网站域名总数据集中的网站进行探活测试，筛选出存活的疑似钓鱼网站地址集S¹；

对所述存活的疑似钓鱼网站地址集S¹进行字符串身份筛选，筛选出存活的疑似钓鱼网站地址集S²；

对存活的疑似钓鱼网站地址集S²进行正常网站特征匹配，剔除符合所有特征匹配的网站，筛选出剩余存活的疑似钓鱼网站地址集S³；

对所述剩余存活的疑似钓鱼网站地址集S³进行网站相似度检测，将通过所述网站相似度检测的网站判定为钓鱼网站。

8.一种网络钓鱼检测系统，其特征在于，包括：

数据集模块，用于获取与防护网站对应的疑似钓鱼网站域名总数据集；

计算模块，用于确定所述疑似钓鱼网站域名总数据集中全部或部分域名的信息熵值、去重后的元音字母比例值以及域名与所述防护网站的域名字符串相似度中的至少一项；

分值模块，用于根据所述全部或部分域名的信息熵值、去重后的元音字母比例值以及域名与所述防护网站的域名字符串相似度中的至少一项确定所述全部或部分域名的分值；

集合模块，用于根据所述全部或部分域名的分值确定不同钓鱼检测防护等级下的域名集合，其中，所述钓鱼检测防护等级越高，对应域名集合中的域名数量越多；

9.一种电子设备，其特征在于，包括：处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序，所述程序被所述处理器执行时实现如权利要求1至7中任一项所述的网络钓鱼检测方法的步骤。

10.一种计算机可读存储介质，其特征在于，计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的网络钓鱼检测方法的步骤。