CN114095278B

CN114095278B - 一种基于混合特征选择框架的钓鱼网站检测方法

Info

Publication number: CN114095278B
Application number: CN202210059367.5A
Authority: CN
Inventors: 赵立凡; 秦素娟; 温巧燕; 李明柱; 张胜; 陈飞; 陈静华
Original assignee: Nanjing Mingbo Internet Safety Innovation Research Institute Co ltd; Beijing University of Posts and Telecommunications
Current assignee: Nanjing Mingbo Internet Safety Innovation Research Institute Co ltd; Beijing University of Posts and Telecommunications
Priority date: 2022-01-19
Filing date: 2022-01-19
Publication date: 2022-05-24
Anticipated expiration: 2042-01-19
Also published as: CN114095278A

Abstract

本发明涉及一种基于混合特征选择框架的钓鱼网站检测方法，采用全新设计策略，基于预设各初选类型特征，根据模型预测时间指标和准确率指标，确定最佳特征截止位置，生成目标特征组，最后将该目标特征组送入决策树分类器进行模型调参、训练模型，获得钓鱼网页检测模型，用于钓鱼网站检测系统；整个方案从混合特征选择框架方面入手，提高了特征选择的稳定性，打破以往人工设置阈值方法所带来准确率和系统检测速率无法平衡的问题，从而提升了钓鱼网站的检测效率和准确度，有效提高了网络的整体防护能力。

Description

一种基于混合特征选择框架的钓鱼网站检测方法

技术领域

本发明涉及一种基于混合特征选择框架的钓鱼网站检测方法，属于钓鱼网站侦测技术领域。

背景技术

为保护用户避免遭到钓鱼攻击，国内外众多研究已经进行了多项工作，钓鱼网站的检测技术主要分为三类：基于黑白名单技术、基于启发式检测、基于机器学习的方法。

1.基于黑白名单技术

基于黑白名单技术是防止网络钓鱼攻击的最简单方法之一，目前主流的浏览器集成了黑白名单以抵御网络钓鱼攻击。Google浏览器通过自动更新黑名单列表来阻止恶意网站进行钓鱼攻击，用户可以通过Google安全浏览API检查带访问站点的安全性。Jain A K和GuptaB.B等人在2016年提出了一种自动更新白名单的技术来检测钓鱼攻击，该方法使用超链接功能检查网页的合法性，访问页面时从其源代码中提取超链接并将其用于网络钓鱼检测算法，此方法可以有效检测各种类型的攻击。

Adam Oest等人2020年提出一种新型检测方法，他们首先提取网络事件，这些事件可以从原始的网络流量日志，如图像或样式元素的请求，或从网络跟踪器或JavaScriptweb应用程序代码的预处理数据中获得。然后使用时间戳注释每个被接收的事件，并提取进一步的属性，如IP地址、用户代理、会话标识符、引用的URL和被访问的URL。接着对引用URL和被访问URL属性，用白名单过滤法来消除正常情况下预期会发生的良性事件，例如对组织的合法网站的请求或与经批准的合作伙伴网站上的推荐人的请求。此后，通过字符串匹配技术将剩余事件的URL与来自其他数据源的已知钓鱼网站URL库进行比对，发现其相关性，这种相关性可以发现一些可能只与以前报告的URL使用类似的主机名或路径，但有其他不同之处的新型钓鱼URL。

2.基于启发式检测

基于启发式的技术不依赖任何预定义的黑白名单，通常需要人工提取网页中的启发式规则来识别网络钓鱼。Rao等人提出了一个应用程序Jail-Phish，他可以提高基于搜索引擎技术的准确性，可以识别出托管在受感染服务器上的网络钓鱼站点以及新注册的合法站点，并且准确率高达98.61%，而FPR小于0.64%

3.基于机器学习的方法

基于机器学习的识别技术依据从网站中提取的特征识别网络钓鱼。通常网络钓鱼网站与正常网站存在可区分的特征，并且机器学习在这方面效果显著。常见的特征提取自URL、HTML、JavaScript、CSS以及第三方服务。Huaping Yuan等人从URL以及网页的链接中提取特征来检测钓鱼网站及其目标，除了给定URL的基本特征，还根据网页中的链接提取了特征矩阵用于模型训练，并比较了多种机器学习算法的性能，其中深度森林表现出较好的性能，TPP为98.3%，误报率为2.6%。此外，该方法还可以无视网站使用的语言，并提出了一种基于搜索算子的钓鱼网站目标检测方法。

Boshen Chen等人提出一种基于CSS特征的网页恶意重定向链接检测方法。此方法提取了诸如网页内容中宽度和高度为零的元素的数量、overflow属性为hidden的数量等新型特征，用于针对性的检测使用遮蔽技术来隐藏恶意重定向的网站。通过与常规方法对比实验证明，使用CSS特征模型准确率高达98%，但对于存在iframe标签的重定向网站，SVM模型会产生误判现象。

虽然基于机器学习的钓鱼监测系统的准确性主要取决于所选的特征，但是所提特征的冗余性和不相关性不仅会增加计算成本，还会导致系统的精度下降，所以高效的特征选择算法对于检测钓鱼网站也很重要。

发明内容

本发明所要解决的技术问题是提供一种基于混合特征选择框架的钓鱼网站检测方法，采用全新设计策略，提升了钓鱼网站的检测效率和准确度，有效提高了网络的整体防护能力。

本发明为了解决上述技术问题采用以下技术方案：本发明设计了一种基于混合特征选择框架的钓鱼网站检测方法，通过步骤A至步骤D，获得钓鱼网页检测模型，然后按步骤i，应用钓鱼网页检测模型，针对待检测网页实现钓鱼检测；

步骤A. 针对预设数量

个已知样本网址所对应样本网页对应钓鱼网页标签或非钓鱼网页标签的有效样本网址，按不同样本子数据集之间允许存在相同有效样本网址，以及单个样本子数据集包含至少

个有效样本网址，执行划分获得

个样本子数据集，且全部样本子数据集中的有效样本网址覆盖全部

个有效样本网址，然后进入步骤B；

步骤B. 针对各个样本子数据集，根据预设各初选类型特征，获得各个样本子数据集分别所对应的综合特征组，然后进入步骤C；

步骤C. 获得各个样本子数据集分别所对应综合特征组之间的并集，作为目标特征组，然后进入步骤D；

步骤D. 根据全部

个有效样本网址分别所对应样本网页的样本源代码分别对应目标特征组中各初选类型特征的特征值，以及全部

个有效样本网址分别所对应样本网页对应钓鱼网页标签或非钓鱼网页标签，以样本源代码对应目标特征组中各初选类型特征的特征值为输入，样本源代码对应样本网页对应钓鱼网页标签或非钓鱼网页标签为输出，针对预设分类网络进行训练，获得钓鱼网页检测模型；

步骤i. 获得待检测网页的源代码对应目标特征组中各初选类型特征的特征值，并应用钓鱼网页检测模型，获得待检测网页对应钓鱼网页标签或非钓鱼网页标签，针对待检测网页实现钓鱼检测。

作为本发明的一种优选技术方案：所述步骤B中，分别针对各个样本子数据集，执行如下步骤B1至步骤B6，获得样本子数据集所对应的综合特征组；进而获得各个样本子数据集分别所对应的综合特征组，然后进入步骤C；

步骤B1. 分别针对样本子数据集中各有效样本网址所对应样本网页的样本源代码，按预设非数据字符库，剔除样本源代码中的非数据字符，更新该样本子数据集中各有效样本网址分别所对应样本网页的样本源代码，然后进入步骤B2；

步骤B2. 分别针对该样本子数据集中各有效样本网址所对应样本网页的样本源代码，获得样本源代码分别对应预设各初选类型特征的特征值，进而获得各样本源代码分别对应预设各初选类型特征的特征值，然后进入步骤B3；

步骤B3. 根据各样本源代码分别对应预设各初选类型特征的特征值，分别应用各特征选择方法，针对各个初选类型特征进行打分、排序，获得各特征选择方法下、各初选类型特征的排序，构成各个初选特征排序，然后进入步骤B4；

步骤B4. 针对各个初选特征排序，获得各初选特征排序下

个初选特征组分别所对应的预测时长与准确度，然后进入步骤B5；其中，

表示初选类型特征的数量；

步骤B5. 针对各个初选特征排序，根据初选特征排序下

个初选特征组分别所对应的预测时长与准确度，获得各个初选特征排序分别所对应的中级特征组，然后进入步骤 B6；

步骤B6. 获得各初选特征排序分别所对应中级特征组之间的交集，构成该样本子数据集所对应的综合特征组。

作为本发明的一种优选技术方案：所述步骤B1中，分别针对样本子数据集中各有效样本网址所对应样本网页的样本源代码，按预设非数据字符库，应用正则表达式匹配方式或字符串匹配方式，剔除样本源代码中的非数据字符，更新该样本子数据集中各有效样本网址分别所对应样本网页的样本源代码。

作为本发明的一种优选技术方案：所述步骤B3中，所述各特征选择方法包括信息增益特征选择方法、对称不确定性特征选择方法、卡方检验特征选择方法。

作为本发明的一种优选技术方案：所述步骤B4中，分别针对各个初选特征排序，执行如下步骤B4-1至步骤B4-4，获得初选特征排序下

个初选特征组分别所对应的预测时长与准确度；进而获得各初选特征排序下

个初选特征组分别所对应的预测时长与准确度，然后进入步骤B5；

步骤B4-1. 初始化参数

，并进入步骤B4-2；

步骤B4-2. 选择初选特征排序中第1个初选类型特征至第

个初选类型特征，构成第

个初选特征组，然后进入步骤B4-3；

步骤B4-3. 根据该样本子数据集中各样本源代码分别对应第

个初选特征组中各初选类型特征的特征值，以及该各样本源代码分别对应样本网页对应钓鱼网页标签或非钓鱼网页标签，以样本源代码对应第

个初选特征组中各初选类型特征的特征值为输入，样本源代码对应样本网页对应钓鱼网页标签或非钓鱼网页标签为输出，针对预设网络进行训练，获得训练后网络所对应的准确度，并获得训练后网络针对预设数量样本网页进行预测所对应的预测时长，构成第

个初选特征组所对应的预测时长与准确度，然后进入步骤B4- 4；

步骤B4-4. 判断

是否大于初选类型特征的数量

，是则即获得该初选特征排序下

个初选特征组分别所对应的预测时长与准确度；否则针对

的值进行加1更新，并返回步骤B2-2。

作为本发明的一种优选技术方案：步骤B5. 分别针对各个初选特征排序，根据初选特征排序下

个初选特征组分别所对应的预测时长与准确度，执行如下步骤B5-1至步骤 B5-6，获得初选特征排序所对应的中级特征组；进而获得各个初选特征排序分别所对应的中级特征组，然后进入步骤B6；

步骤B5-1. 构建以初选特征组所包含初选类型特征数量为横坐标、预测时长为纵坐标的时长坐标系，并根据初选特征排序下

个初选特征组分别所对应的预测时长，获得该初选特征排序下

个初选特征组分别对应时长坐标系中的各节点；

同时构建以初选特征组所包含初选类型特征数量为横坐标、准确度为纵坐标的准确坐标系，并根据初选特征排序下

个初选特征组分别所对应的准确度，获得该初选特征排序下

个初选特征组分别对应准确坐标系中的各节点；

然后进入步骤B5-2；

步骤B5-2. 分别针对时长坐标系与准确坐标系，首先获得坐标系中各节点分别相较横坐标上与其相邻前一节点在纵坐标上的差值，作为各节点分别所对应的差值，然后获得各节点所对应差值分别与横坐标上与其相邻前一节点所对应差值的比值，作为各节点分别所对应的差值变化率，然后进入步骤B5-3；

步骤B5-3. 分别针对时长坐标系与准确坐标系，判断坐标系中各节点分别所对应的差值变化率是否满足预设差值高波动范围，是则定义节点为改变点，否则定义节点为非改变点，然后进入步骤B5-4；

步骤B5-4. 分别针对时长坐标系与准确坐标系，针对坐标系中横坐标相邻改变点之间以直线相连，并选择沿横坐标轴方向上各段纵坐标值呈预设目标单一方向变化趋势折线的起点，作为各个拐点，进而获得时长坐标系中的各个拐点、准确坐标系中的各个拐点，然后进入步骤B5-5；

步骤B5-5. 分别针对时长坐标系中的各个拐点，获得拐点所对应横坐标上初选类型特征数量，并获得准确坐标系横坐标上该初选类型特征数量所对应节点对应的准确度，结合该拐点对应时长坐标系的预测时长，按预设准确度权重、预设预测时长权重，执行加权计算获得该拐点所对应的综合结果，进而获得该初选特征排序下、时长坐标系中各拐点分别所对应的综合结果；

同时分别针对准确坐标系中的各个拐点，获得拐点所对应横坐标上初选类型特征数量，并获得时长坐标系横坐标上该初选类型特征数量所对应节点对应的预测时长，结合该拐点对应准确坐标系的准确度，按预设准确度权重、预设预测时长权重，执行加权计算获得该拐点所对应的综合结果，进而获得该初选特征排序下、准确坐标系中各拐点分别所对应的综合结果；然后进入步骤B5-6；

步骤B5-6. 根据该初选特征排序下、时长坐标系中各拐点分别所对应的综合结果，以及该初选特征排序下、准确坐标系中各拐点分别所对应的综合结果，选择最大综合结果所对应拐点在所属坐标系中对应横坐标上的初选类型特征数量，结合该初选特征排序获得相对应的初选特征组，作为该初选特征排序所对应的中级特征组。

作为本发明的一种优选技术方案：所述步骤B5-3中，分别针对时长坐标系与准确坐标系，判断坐标系中各节点分别所对应的差值变化率是否满足

或

，是则定义节点为改变点，否则定义节点为非改变点。

作为本发明的一种优选技术方案：所述步骤B5-4中，分别针对时长坐标系与准确坐标系，针对坐标系中横坐标相邻改变点之间以直线相连，并选择沿横坐标轴方向上各段纵坐标值以上升变化趋势折线的起点，作为各个拐点，进而获得时长坐标系中的各个拐点、准确坐标系中的各个拐点。

作为本发明的一种优选技术方案：所述步骤B5-4中，分别针对时长坐标系与准确坐标系，针对坐标系中横坐标相邻改变点之间以直线相连，并选择沿横坐标轴方向上各段纵坐标值以下降变化趋势折线的起点，作为各个拐点，进而获得时长坐标系中的各个拐点、准确坐标系中的各个拐点。

作为本发明的一种优选技术方案：所述步骤D中的预设分类网络为决策树模型。

本发明所述一种基于混合特征选择框架的钓鱼网站检测方法，采用以上技术方案与现有技术相比，具有以下技术效果：

本发明所设计基于混合特征选择框架的钓鱼网站检测方法，采用全新设计策略，基于预设各初选类型特征，根据模型预测时间指标和准确率指标，确定最佳特征截止位置，生成目标特征组，最后将该目标特征组送入决策树分类器进行模型调参、训练模型，获得钓鱼网页检测模型，用于钓鱼网站检测系统；整个方案从混合特征选择框架方面入手，提高了特征选择的稳定性，打破以往人工设置阈值方法所带来准确率和系统检测速率无法平衡的问题，从而提升了钓鱼网站的检测效率和准确度，有效提高了网络的整体防护能力。

附图说明

图1是本发明所设计基于混合特征选择框架的钓鱼网站检测方法的框架示意图；

图2是本发明所设计基于混合特征选择框架的钓鱼网站检测方法的应用示意图。

具体实施方式

下面结合说明书附图对本发明的具体实施方式作进一步详细的说明。

本发明所设计一种基于混合特征选择框架的钓鱼网站检测方法，实际应用当中，如图1和图2所示，通过步骤A至步骤D，获得钓鱼网页检测模型，然后按步骤i，应用钓鱼网页检测模型，针对待检测网页实现钓鱼检测。

步骤A. 针对预设数量

个有效样本网址，执行划分获得

个有效样本网址，然后进入步骤B。

步骤B. 针对各个样本子数据集，根据预设各初选类型特征，获得各个样本子数据集分别所对应的综合特征组，然后进入步骤C。

实际应用当中，上述步骤B中，分别针对各个样本子数据集，执行如下步骤B1至步骤B6，获得样本子数据集所对应的综合特征组；进而获得各个样本子数据集分别所对应的综合特征组，然后进入步骤C。

步骤B1. 分别针对样本子数据集中各有效样本网址所对应样本网页的样本源代码，按预设非数据字符库，应用正则表达式匹配方式或字符串匹配方式，剔除样本源代码中的非数据字符，诸如‘&’、‘;’、‘&#x’等，更新该样本子数据集中各有效样本网址分别所对应样本网页的样本源代码，然后进入步骤B2。

步骤B2. 分别针对该样本子数据集中各有效样本网址所对应样本网页的样本源代码，获得样本源代码分别对应预设各初选类型特征的特征值，进而获得各样本源代码分别对应预设各初选类型特征的特征值，然后进入步骤B3。

实际应用当中，预设各初选类型特征诸如下表1所示。

表1

特征	含义
		NumDots	URL中 . 的数量
SubdomainLevel	URL中子域名级别数
		PathLevel	URL中路径深度
UrlLength	URL中URL长度
		NumDash	URL中破折号数
NumDashInHostname	URL中域名中破折号数
		AtSymbol	URL中@数
TildeSymbol	URL中~数
		NumUnderscore	URL中_数
NumPercent	URL中%数
		NumQueryComponents	URL中查询数
NumAmpersand	URL中&数
		NumHash	URL中#数
NumNumericChars	URL中数字字符数
		NoHttps	HTTPS是否存在于URL
RandomString	随机字符串是否存在于URL
		IpAddress	域名中是否包含ip地址
DomainInSubdomains	顶级域名和国家域名是否在子域名中
		DomainInPaths	顶级域名和国家域名是否在路径中
HttpsInHostname	HTTPS在主机名中
		HostnameLength	主机名长度
PathLength	路径长度
		QueryLength	查询长度
DoubleSlashInPath	路径中是否存在//
		EmbeddedBrandName	子域名和路径中是否嵌入品牌名，品牌名即网页中最频繁出现域名
PctExtHyperlinks	外部超链接百分比
		PctExtResourceUrls	外部资源URLs百分比
InsecureForms	不安全表单，action属性中是否包含未使用HTTPS的URL
		ExtFormAction	表单action属性是否包含来自外部域的URL
AbnormalFormAction	表单action属性是否包含‘#’，‘about：blank’，空字符串或者‘JavaScript：true’
		FrequentDomainNameMismatch	网页中最常见域名与URL域名是否匹配
RightClickDisabled	检查网页中是否包含JavaScript指令禁止右键点击
		PopUpWindow	检查网页中是否包含JavaScript指令弹窗
SubmitInfoToEmail	检查网页中是否包含提交信息给邮箱 ‘mailto’
		IframeOrFrame	是否使用Frame框架
MissingTitle	是否缺失Title tag

步骤B3. 根据各样本源代码分别对应预设各初选类型特征的特征值，分别应用诸如信息增益特征选择方法、对称不确定性特征选择方法、卡方检验特征选择方法的特征选择方法，针对各个初选类型特征进行打分、排序，获得各特征选择方法下、各初选类型特征的排序，构成各个初选特征排序，然后进入步骤B4。

步骤B4. 针对各个初选特征排序，获得各初选特征排序下

表示初选类型特征的数量。

上述步骤B4在实际应用当中，分别针对各个初选特征排序，执行如下步骤B4-1至步骤B4-4，获得初选特征排序下

个初选特征组分别所对应的预测时长与准确度，然后进入步骤B5。

步骤B4-1. 初始化参数

，并进入步骤B4-2。

步骤B4-2. 选择初选特征排序中第1个初选类型特征至第

个初选类型特征，构成第

个初选特征组，然后进入步骤B4-3。

步骤B4-3. 根据该样本子数据集中各样本源代码分别对应第

个初选特征组所对应的预测时长与准确度，然后进入步骤B4- 4。

步骤B4-4. 判断

是否大于初选类型特征的数量

，是则即获得该初选特征排序下

个初选特征组分别所对应的预测时长与准确度；否则针对

的值进行加1更新，并返回步骤B2-2。

步骤B5. 分别针对各个初选特征排序，根据初选特征排序下

个初选特征组分别所对应的预测时长与准确度，执行如下步骤B5-1至步骤B5-6，获得初选特征排序所对应的中级特征组；进而获得各个初选特征排序分别所对应的中级特征组，然后进入步骤B6。

个初选特征组分别对应时长坐标系中的各节点。

个初选特征组分别所对应的准确度，获得该初选特征排序下

个初选特征组分别对应准确坐标系中的各节点；然后进入步骤B5-2。

步骤B5-2. 分别针对时长坐标系与准确坐标系，首先获得坐标系中各节点分别相较横坐标上与其相邻前一节点在纵坐标上的差值，作为各节点分别所对应的差值，然后获得各节点所对应差值分别与横坐标上与其相邻前一节点所对应差值的比值，作为各节点分别所对应的差值变化率，然后进入步骤B5-3。

步骤B5-3. 分别针对时长坐标系与准确坐标系，判断坐标系中各节点分别所对应的差值变化率是否满足

或

，是则定义节点为改变点，否则定义节点为非改变点，然后进入步骤B5-4。

步骤B5-4. 分别针对时长坐标系与准确坐标系，针对坐标系中横坐标相邻改变点之间以直线相连，并选择沿横坐标轴方向上各段纵坐标值呈预设目标单一方向变化趋势折线的起点，作为各个拐点，进而获得时长坐标系中的各个拐点、准确坐标系中的各个拐点，然后进入步骤B5-5。

实际应用当中，上述步骤B5-4具体可以采用下述两种实施例中的任意一种。

其一，步骤B5-4中，分别针对时长坐标系与准确坐标系，针对坐标系中横坐标相邻改变点之间以直线相连，并选择沿横坐标轴方向上各段纵坐标值以上升变化趋势折线的起点，作为各个拐点，进而获得时长坐标系中的各个拐点、准确坐标系中的各个拐点。

其二，步骤B5-4中，分别针对时长坐标系与准确坐标系，针对坐标系中横坐标相邻改变点之间以直线相连，并选择沿横坐标轴方向上各段纵坐标值以下降变化趋势折线的起点，作为各个拐点，进而获得时长坐标系中的各个拐点、准确坐标系中的各个拐点。

步骤B5-5. 分别针对时长坐标系中的各个拐点，获得拐点所对应横坐标上初选类型特征数量，并获得准确坐标系横坐标上该初选类型特征数量所对应节点对应的准确度，结合该拐点对应时长坐标系的预测时长，按预设准确度权重、预设预测时长权重，执行加权计算获得该拐点所对应的综合结果，进而获得该初选特征排序下、时长坐标系中各拐点分别所对应的综合结果。

同时分别针对准确坐标系中的各个拐点，获得拐点所对应横坐标上初选类型特征数量，并获得时长坐标系横坐标上该初选类型特征数量所对应节点对应的预测时长，结合该拐点对应准确坐标系的准确度，按预设准确度权重、预设预测时长权重，执行加权计算获得该拐点所对应的综合结果，进而获得该初选特征排序下、准确坐标系中各拐点分别所对应的综合结果；然后进入步骤B5-6。

步骤C. 获得各个样本子数据集分别所对应综合特征组之间的并集，作为目标特征组，然后进入步骤D。

步骤D. 根据全部

个有效样本网址分别所对应样本网页对应钓鱼网页标签或非钓鱼网页标签，以样本源代码对应目标特征组中各初选类型特征的特征值为输入，样本源代码对应样本网页对应钓鱼网页标签或非钓鱼网页标签为输出，针对决策树模型进行训练，获得钓鱼网页检测模型，其中，决策树模型的参数max_depth=3， min_weight_fraction_leaf=0。

关于预设分类网络的选择，设计过程当中，对比了SVM,、Naive_Bayes、DecisionTree、RandomForest四种机器学习模型，并使用GridSearchCV进行参数调优，最终选取决策树模型。

上述技术方案在实际应用当中，将经过钓鱼网页检测模型检测为钓鱼网页标签的网页，会被收集到对应数据库中，则之后对待检测网页进行检测时，可以先与该数据库进行比对，若比对成功，则直接判断待检测网页对应钓鱼网页标签，否则再进一步执行上述步骤i进行检测。

上述技术方案所设计基于混合特征选择框架的钓鱼网站检测方法，采用全新设计策略，基于预设各初选类型特征，根据模型预测时间指标和准确率指标，确定最佳特征截止位置，生成目标特征组，最后将该目标特征组送入决策树分类器进行模型调参、训练模型，获得钓鱼网页检测模型，用于钓鱼网站检测系统；整个方案从混合特征选择框架方面入手，提高了特征选择的稳定性，打破以往人工设置阈值方法所带来准确率和系统检测速率无法平衡的问题，从而提升了钓鱼网站的检测效率和准确度，有效提高了网络的整体防护能力。

上面结合附图对本发明的实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下做出各种变化。

Claims

1.一种基于混合特征选择框架的钓鱼网站检测方法，其特征在于：通过步骤A至步骤D，获得钓鱼网页检测模型，然后按步骤i，应用钓鱼网页检测模型，针对待检测网页实现钓鱼检测；

步骤A.针对预设数量N个已知样本网址所对应样本网页对应钓鱼网页标签或非钓鱼网页标签的有效样本网址，按不同样本子数据集之间允许存在相同有效样本网址，以及单个样本子数据集包含至少

个有效样本网址，执行划分获得n个样本子数据集，且全部样本子数据集中的有效样本网址覆盖全部N个有效样本网址，然后进入步骤B；

步骤B.针对各个样本子数据集，根据预设各初选类型特征，获得各个样本子数据集分别所对应的综合特征组，然后进入步骤C；

上述步骤B中，分别针对各个样本子数据集，执行如下步骤B1至步骤B6，获得样本子数据集所对应的综合特征组；进而获得各个样本子数据集分别所对应的综合特征组，然后进入步骤C；

步骤B1.分别针对样本子数据集中各有效样本网址所对应样本网页的样本源代码，按预设非数据字符库，剔除样本源代码中的非数据字符，更新该样本子数据集中各有效样本网址分别所对应样本网页的样本源代码，然后进入步骤B2；

步骤B2.分别针对该样本子数据集中各有效样本网址所对应样本网页的样本源代码，获得样本源代码分别对应预设各初选类型特征的特征值，进而获得各样本源代码分别对应预设各初选类型特征的特征值，然后进入步骤B3；

步骤B3.根据各样本源代码分别对应预设各初选类型特征的特征值，分别应用各特征选择方法，针对各个初选类型特征进行打分、排序，获得各特征选择方法下、各初选类型特征的排序，构成各个初选特征排序，然后进入步骤B4；

步骤B4.针对各个初选特征排序，获得各初选特征排序下L个初选特征组分别所对应的预测时长与准确度，然后进入步骤B5；其中，L表示初选类型特征的数量；

上述步骤B4中，分别针对各个初选特征排序，执行如下步骤B4-1至步骤B4-4，获得初选特征排序下L个初选特征组分别所对应的预测时长与准确度；进而获得各初选特征排序下L个初选特征组分别所对应的预测时长与准确度，然后进入步骤B5；

步骤B4-1.初始化参数l＝1，并进入步骤B4-2；

步骤B4-2.选择初选特征排序中第1个初选类型特征至第l个初选类型特征，构成第l个初选特征组，然后进入步骤B4-3；

步骤B4-3.根据该样本子数据集中各样本源代码分别对应第l个初选特征组中各初选类型特征的特征值，以及该各样本源代码分别对应样本网页对应钓鱼网页标签或非钓鱼网页标签，以样本源代码对应第l个初选特征组中各初选类型特征的特征值为输入，样本源代码对应样本网页对应钓鱼网页标签或非钓鱼网页标签为输出，针对预设网络进行训练，获得训练后网络所对应的准确度，并获得训练后网络针对预设数量样本网页进行预测所对应的预测时长，构成第l个初选特征组所对应的预测时长与准确度，然后进入步骤B4-4；

步骤B4-4.判断l+1是否大于初选类型特征的数量L，是则即获得该初选特征排序下L个初选特征组分别所对应的预测时长与准确度；否则针对l的值进行加1更新，并返回步骤B2-2；

步骤B5.针对各个初选特征排序，根据初选特征排序下L个初选特征组分别所对应的预测时长与准确度，获得各个初选特征排序分别所对应的中级特征组，然后进入步骤B6；

上述步骤B5.分别针对各个初选特征排序，根据初选特征排序下L个初选特征组分别所对应的预测时长与准确度，执行如下步骤B5-1至步骤B5-6，获得初选特征排序所对应的中级特征组；进而获得各个初选特征排序分别所对应的中级特征组，然后进入步骤B6；

步骤B5-1.构建以初选特征组所包含初选类型特征数量为横坐标、预测时长为纵坐标的时长坐标系，并根据初选特征排序下L个初选特征组分别所对应的预测时长，获得该初选特征排序下L个初选特征组分别对应时长坐标系中的各节点；

同时构建以初选特征组所包含初选类型特征数量为横坐标、准确度为纵坐标的准确坐标系，并根据初选特征排序下L个初选特征组分别所对应的准确度，获得该初选特征排序下L个初选特征组分别对应准确坐标系中的各节点；

然后进入步骤B5-2；

步骤B5-2.分别针对时长坐标系与准确坐标系，首先获得坐标系中各节点分别相较横坐标上与其相邻前一节点在纵坐标上的差值，作为各节点分别所对应的差值，然后获得各节点所对应差值分别与横坐标上与其相邻前一节点所对应差值的比值，作为各节点分别所对应的差值变化率，然后进入步骤B5-3；

步骤B5-3.分别针对时长坐标系与准确坐标系，判断坐标系中各节点分别所对应的差值变化率是否满足(-∞，-2.25]或[2，+∞)，是则定义节点为改变点，否则定义节点为非改变点，然后进入步骤B5-4；

步骤B5-4.分别针对时长坐标系与准确坐标系，针对坐标系中横坐标相邻改变点之间以直线相连，并选择沿横坐标轴方向上各段纵坐标值呈预设目标单一方向变化趋势折线的起点，作为各个拐点，进而获得时长坐标系中的各个拐点、准确坐标系中的各个拐点，然后进入步骤B5-5；

上述步骤B5-4中，分别针对时长坐标系与准确坐标系，针对坐标系中横坐标相邻改变点之间以直线相连，并选择沿横坐标轴方向上各段纵坐标值以上升变化趋势折线的起点，作为各个拐点，进而获得时长坐标系中的各个拐点、准确坐标系中的各个拐点；

或者上述步骤B5-4中，分别针对时长坐标系与准确坐标系，针对坐标系中横坐标相邻改变点之间以直线相连，并选择沿横坐标轴方向上各段纵坐标值以下降变化趋势折线的起点，作为各个拐点，进而获得时长坐标系中的各个拐点、准确坐标系中的各个拐点；

步骤B5-5.分别针对时长坐标系中的各个拐点，获得拐点所对应横坐标上初选类型特征数量，并获得准确坐标系横坐标上该初选类型特征数量所对应节点对应的准确度，结合该拐点对应时长坐标系的预测时长，按预设准确度权重、预设预测时长权重，执行加权计算获得该拐点所对应的综合结果，进而获得该初选特征排序下、时长坐标系中各拐点分别所对应的综合结果；

步骤B5-6.根据该初选特征排序下、时长坐标系中各拐点分别所对应的综合结果，以及该初选特征排序下、准确坐标系中各拐点分别所对应的综合结果，选择最大综合结果所对应拐点在所属坐标系中对应横坐标上的初选类型特征数量，结合该初选特征排序获得相对应的初选特征组，作为该初选特征排序所对应的中级特征组；

步骤B6.获得各初选特征排序分别所对应中级特征组之间的交集，构成该样本子数据集所对应的综合特征组；

步骤C.获得各个样本子数据集分别所对应综合特征组之间的并集，作为目标特征组，然后进入步骤D；

步骤D.根据全部N个有效样本网址分别所对应样本网页的样本源代码分别对应目标特征组中各初选类型特征的特征值，以及全部N个有效样本网址分别所对应样本网页对应钓鱼网页标签或非钓鱼网页标签，以样本源代码对应目标特征组中各初选类型特征的特征值为输入，样本源代码对应样本网页对应钓鱼网页标签或非钓鱼网页标签为输出，针对预设分类网络进行训练，获得钓鱼网页检测模型；

步骤i.获得待检测网页的源代码对应目标特征组中各初选类型特征的特征值，并应用钓鱼网页检测模型，获得待检测网页对应钓鱼网页标签或非钓鱼网页标签，针对待检测网页实现钓鱼检测。

2.根据权利要求1所述一种基于混合特征选择框架的钓鱼网站检测方法，其特征在于：所述步骤B1中，分别针对样本子数据集中各有效样本网址所对应样本网页的样本源代码，按预设非数据字符库，应用正则表达式匹配方式或字符串匹配方式，剔除样本源代码中的非数据字符，更新该样本子数据集中各有效样本网址分别所对应样本网页的样本源代码。

3.根据权利要求1所述一种基于混合特征选择框架的钓鱼网站检测方法，其特征在于：所述步骤B3中，所述各特征选择方法包括信息增益特征选择方法、对称不确定性特征选择方法、卡方检验特征选择方法。

4.根据权利要求1至3中任意一项所述一种基于混合特征选择框架的钓鱼网站检测方法，其特征在于：所述步骤D中的预设分类网络为决策树模型。