CN114095278B - 一种基于混合特征选择框架的钓鱼网站检测方法 - Google Patents
一种基于混合特征选择框架的钓鱼网站检测方法 Download PDFInfo
- Publication number
- CN114095278B CN114095278B CN202210059367.5A CN202210059367A CN114095278B CN 114095278 B CN114095278 B CN 114095278B CN 202210059367 A CN202210059367 A CN 202210059367A CN 114095278 B CN114095278 B CN 114095278B
- Authority
- CN
- China
- Prior art keywords
- sample
- feature
- primary selection
- coordinate system
- obtaining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 52
- 238000012549 training Methods 0.000 claims abstract description 9
- 238000003066 decision tree Methods 0.000 claims abstract description 5
- 230000008859 change Effects 0.000 claims description 29
- 238000010187 selection method Methods 0.000 claims description 17
- 238000004364 calculation method Methods 0.000 claims description 6
- 230000001174 ascending effect Effects 0.000 claims description 3
- 238000000546 chi-square test Methods 0.000 claims description 3
- 238000000034 method Methods 0.000 abstract description 15
- 238000013461 design Methods 0.000 abstract description 5
- 238000010801 machine learning Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 239000000284 extract Substances 0.000 description 5
- 230000009471 action Effects 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000012163 sequencing technique Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 101150114218 allB gene Proteins 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- AYEKOFBPNLCAJY-UHFFFAOYSA-O thiamine pyrophosphate Chemical compound CC1=C(CCOP(O)(=O)OP(O)(O)=O)SC=[N+]1CC1=CN=C(C)N=C1N AYEKOFBPNLCAJY-UHFFFAOYSA-O 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1441—Countermeasures against malicious traffic
- H04L63/1483—Countermeasures against malicious traffic service impersonation, e.g. phishing, pharming or web spoofing
Landscapes
- Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Computer Hardware Design (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种基于混合特征选择框架的钓鱼网站检测方法,采用全新设计策略,基于预设各初选类型特征,根据模型预测时间指标和准确率指标,确定最佳特征截止位置,生成目标特征组,最后将该目标特征组送入决策树分类器进行模型调参、训练模型,获得钓鱼网页检测模型,用于钓鱼网站检测系统;整个方案从混合特征选择框架方面入手,提高了特征选择的稳定性,打破以往人工设置阈值方法所带来准确率和系统检测速率无法平衡的问题,从而提升了钓鱼网站的检测效率和准确度,有效提高了网络的整体防护能力。
Description
技术领域
本发明涉及一种基于混合特征选择框架的钓鱼网站检测方法,属于钓鱼网站侦测技术领域。
背景技术
为保护用户避免遭到钓鱼攻击,国内外众多研究已经进行了多项工作,钓鱼网站的检测技术主要分为三类:基于黑白名单技术、基于启发式检测、基于机器学习的方法。
1.基于黑白名单技术
基于黑白名单技术是防止网络钓鱼攻击的最简单方法之一,目前主流的浏览器集成了黑白名单以抵御网络钓鱼攻击。Google浏览器通过自动更新黑名单列表来阻止恶意网站进行钓鱼攻击,用户可以通过Google安全浏览API检查带访问站点的安全性。Jain A K和GuptaB.B等人在2016年提出了一种自动更新白名单的技术来检测钓鱼攻击,该方法使用超链接功能检查网页的合法性,访问页面时从其源代码中提取超链接并将其用于网络钓鱼检测算法,此方法可以有效检测各种类型的攻击。
Adam Oest等人2020年提出一种新型检测方法,他们首先提取网络事件,这些事件可以从原始的网络流量日志,如图像或样式元素的请求,或从网络跟踪器或JavaScriptweb应用程序代码的预处理数据中获得。然后使用时间戳注释每个被接收的事件,并提取进一步的属性,如IP地址、用户代理、会话标识符、引用的URL和被访问的URL。接着对引用URL和被访问URL属性,用白名单过滤法来消除正常情况下预期会发生的良性事件,例如对组织的合法网站的请求或与经批准的合作伙伴网站上的推荐人的请求。此后,通过字符串匹配技术将剩余事件的URL与来自其他数据源的已知钓鱼网站URL库进行比对,发现其相关性,这种相关性可以发现一些可能只与以前报告的URL使用类似的主机名或路径,但有其他不同之处的新型钓鱼URL。
2.基于启发式检测
基于启发式的技术不依赖任何预定义的黑白名单,通常需要人工提取网页中的启发式规则来识别网络钓鱼。Rao等人提出了一个应用程序Jail-Phish,他可以提高基于搜索引擎技术的准确性,可以识别出托管在受感染服务器上的网络钓鱼站点以及新注册的合法站点,并且准确率高达98.61%,而FPR小于0.64%
3.基于机器学习的方法
基于机器学习的识别技术依据从网站中提取的特征识别网络钓鱼。通常网络钓鱼网站与正常网站存在可区分的特征,并且机器学习在这方面效果显著。常见的特征提取自URL、HTML、JavaScript、CSS以及第三方服务。Huaping Yuan等人从URL以及网页的链接中提取特征来检测钓鱼网站及其目标,除了给定URL的基本特征,还根据网页中的链接提取了特征矩阵用于模型训练,并比较了多种机器学习算法的性能,其中深度森林表现出较好的性能,TPP为98.3%,误报率为2.6%。此外,该方法还可以无视网站使用的语言,并提出了一种基于搜索算子的钓鱼网站目标检测方法。
Boshen Chen等人提出一种基于CSS特征的网页恶意重定向链接检测方法。此方法提取了诸如网页内容中宽度和高度为零的元素的数量、overflow属性为hidden的数量等新型特征,用于针对性的检测使用遮蔽技术来隐藏恶意重定向的网站。通过与常规方法对比实验证明,使用CSS特征模型准确率高达98%,但对于存在iframe标签的重定向网站,SVM模型会产生误判现象。
虽然基于机器学习的钓鱼监测系统的准确性主要取决于所选的特征,但是所提特征的冗余性和不相关性不仅会增加计算成本,还会导致系统的精度下降,所以高效的特征选择算法对于检测钓鱼网站也很重要。
发明内容
本发明所要解决的技术问题是提供一种基于混合特征选择框架的钓鱼网站检测方法,采用全新设计策略,提升了钓鱼网站的检测效率和准确度,有效提高了网络的整体防护能力。
本发明为了解决上述技术问题采用以下技术方案:本发明设计了一种基于混合特征选择框架的钓鱼网站检测方法,通过步骤A至步骤D,获得钓鱼网页检测模型,然后按步骤i,应用钓鱼网页检测模型,针对待检测网页实现钓鱼检测;
步骤A. 针对预设数量个已知样本网址所对应样本网页对应钓鱼网页标签或非
钓鱼网页标签的有效样本网址,按不同样本子数据集之间允许存在相同有效样本网址,以
及单个样本子数据集包含至少个有效样本网址,执行划分获得个样本子数据集,且
全部样本子数据集中的有效样本网址覆盖全部个有效样本网址,然后进入步骤B;
步骤B. 针对各个样本子数据集,根据预设各初选类型特征,获得各个样本子数据集分别所对应的综合特征组,然后进入步骤C;
步骤C. 获得各个样本子数据集分别所对应综合特征组之间的并集,作为目标特征组,然后进入步骤D;
步骤D. 根据全部个有效样本网址分别所对应样本网页的样本源代码分别对应
目标特征组中各初选类型特征的特征值,以及全部个有效样本网址分别所对应样本网页
对应钓鱼网页标签或非钓鱼网页标签,以样本源代码对应目标特征组中各初选类型特征的
特征值为输入,样本源代码对应样本网页对应钓鱼网页标签或非钓鱼网页标签为输出,针
对预设分类网络进行训练,获得钓鱼网页检测模型;
步骤i. 获得待检测网页的源代码对应目标特征组中各初选类型特征的特征值,并应用钓鱼网页检测模型,获得待检测网页对应钓鱼网页标签或非钓鱼网页标签,针对待检测网页实现钓鱼检测。
作为本发明的一种优选技术方案:所述步骤B中,分别针对各个样本子数据集,执行如下步骤B1至步骤B6,获得样本子数据集所对应的综合特征组;进而获得各个样本子数据集分别所对应的综合特征组,然后进入步骤C;
步骤B1. 分别针对样本子数据集中各有效样本网址所对应样本网页的样本源代码,按预设非数据字符库,剔除样本源代码中的非数据字符,更新该样本子数据集中各有效样本网址分别所对应样本网页的样本源代码,然后进入步骤B2;
步骤B2. 分别针对该样本子数据集中各有效样本网址所对应样本网页的样本源代码,获得样本源代码分别对应预设各初选类型特征的特征值,进而获得各样本源代码分别对应预设各初选类型特征的特征值,然后进入步骤B3;
步骤B3. 根据各样本源代码分别对应预设各初选类型特征的特征值,分别应用各特征选择方法,针对各个初选类型特征进行打分、排序,获得各特征选择方法下、各初选类型特征的排序,构成各个初选特征排序,然后进入步骤B4;
步骤B6. 获得各初选特征排序分别所对应中级特征组之间的交集,构成该样本子数据集所对应的综合特征组。
作为本发明的一种优选技术方案:所述步骤B1中,分别针对样本子数据集中各有效样本网址所对应样本网页的样本源代码,按预设非数据字符库,应用正则表达式匹配方式或字符串匹配方式,剔除样本源代码中的非数据字符,更新该样本子数据集中各有效样本网址分别所对应样本网页的样本源代码。
作为本发明的一种优选技术方案:所述步骤B3中,所述各特征选择方法包括信息增益特征选择方法、对称不确定性特征选择方法、卡方检验特征选择方法。
作为本发明的一种优选技术方案:所述步骤B4中,分别针对各个初选特征排序,执
行如下步骤B4-1至步骤B4-4,获得初选特征排序下个初选特征组分别所对应的预测时长
与准确度;进而获得各初选特征排序下个初选特征组分别所对应的预测时长与准确度,然
后进入步骤B5;
步骤B4-3. 根据该样本子数据集中各样本源代码分别对应第个初选特征组中各
初选类型特征的特征值,以及该各样本源代码分别对应样本网页对应钓鱼网页标签或非钓
鱼网页标签,以样本源代码对应第个初选特征组中各初选类型特征的特征值为输入,样本
源代码对应样本网页对应钓鱼网页标签或非钓鱼网页标签为输出,针对预设网络进行训
练,获得训练后网络所对应的准确度,并获得训练后网络针对预设数量样本网页进行预测
所对应的预测时长,构成第个初选特征组所对应的预测时长与准确度,然后进入步骤B4-
4;
作为本发明的一种优选技术方案:步骤B5. 分别针对各个初选特征排序,根据初
选特征排序下个初选特征组分别所对应的预测时长与准确度,执行如下步骤B5-1至步骤
B5-6,获得初选特征排序所对应的中级特征组;进而获得各个初选特征排序分别所对应的
中级特征组,然后进入步骤B6;
步骤B5-1. 构建以初选特征组所包含初选类型特征数量为横坐标、预测时长为纵
坐标的时长坐标系,并根据初选特征排序下个初选特征组分别所对应的预测时长,获得该
初选特征排序下个初选特征组分别对应时长坐标系中的各节点;
然后进入步骤B5-2;
步骤B5-2. 分别针对时长坐标系与准确坐标系,首先获得坐标系中各节点分别相较横坐标上与其相邻前一节点在纵坐标上的差值,作为各节点分别所对应的差值,然后获得各节点所对应差值分别与横坐标上与其相邻前一节点所对应差值的比值,作为各节点分别所对应的差值变化率,然后进入步骤B5-3;
步骤B5-3. 分别针对时长坐标系与准确坐标系,判断坐标系中各节点分别所对应的差值变化率是否满足预设差值高波动范围,是则定义节点为改变点,否则定义节点为非改变点,然后进入步骤B5-4;
步骤B5-4. 分别针对时长坐标系与准确坐标系,针对坐标系中横坐标相邻改变点之间以直线相连,并选择沿横坐标轴方向上各段纵坐标值呈预设目标单一方向变化趋势折线的起点,作为各个拐点,进而获得时长坐标系中的各个拐点、准确坐标系中的各个拐点,然后进入步骤B5-5;
步骤B5-5. 分别针对时长坐标系中的各个拐点,获得拐点所对应横坐标上初选类型特征数量,并获得准确坐标系横坐标上该初选类型特征数量所对应节点对应的准确度,结合该拐点对应时长坐标系的预测时长,按预设准确度权重、预设预测时长权重,执行加权计算获得该拐点所对应的综合结果,进而获得该初选特征排序下、时长坐标系中各拐点分别所对应的综合结果;
同时分别针对准确坐标系中的各个拐点,获得拐点所对应横坐标上初选类型特征数量,并获得时长坐标系横坐标上该初选类型特征数量所对应节点对应的预测时长,结合该拐点对应准确坐标系的准确度,按预设准确度权重、预设预测时长权重,执行加权计算获得该拐点所对应的综合结果,进而获得该初选特征排序下、准确坐标系中各拐点分别所对应的综合结果;然后进入步骤B5-6;
步骤B5-6. 根据该初选特征排序下、时长坐标系中各拐点分别所对应的综合结果,以及该初选特征排序下、准确坐标系中各拐点分别所对应的综合结果,选择最大综合结果所对应拐点在所属坐标系中对应横坐标上的初选类型特征数量,结合该初选特征排序获得相对应的初选特征组,作为该初选特征排序所对应的中级特征组。
作为本发明的一种优选技术方案:所述步骤B5-4中,分别针对时长坐标系与准确坐标系,针对坐标系中横坐标相邻改变点之间以直线相连,并选择沿横坐标轴方向上各段纵坐标值以上升变化趋势折线的起点,作为各个拐点,进而获得时长坐标系中的各个拐点、准确坐标系中的各个拐点。
作为本发明的一种优选技术方案:所述步骤B5-4中,分别针对时长坐标系与准确坐标系,针对坐标系中横坐标相邻改变点之间以直线相连,并选择沿横坐标轴方向上各段纵坐标值以下降变化趋势折线的起点,作为各个拐点,进而获得时长坐标系中的各个拐点、准确坐标系中的各个拐点。
作为本发明的一种优选技术方案:所述步骤D中的预设分类网络为决策树模型。
本发明所述一种基于混合特征选择框架的钓鱼网站检测方法,采用以上技术方案与现有技术相比,具有以下技术效果:
本发明所设计基于混合特征选择框架的钓鱼网站检测方法,采用全新设计策略,基于预设各初选类型特征,根据模型预测时间指标和准确率指标,确定最佳特征截止位置,生成目标特征组,最后将该目标特征组送入决策树分类器进行模型调参、训练模型,获得钓鱼网页检测模型,用于钓鱼网站检测系统;整个方案从混合特征选择框架方面入手,提高了特征选择的稳定性,打破以往人工设置阈值方法所带来准确率和系统检测速率无法平衡的问题,从而提升了钓鱼网站的检测效率和准确度,有效提高了网络的整体防护能力。
附图说明
图1是本发明所设计基于混合特征选择框架的钓鱼网站检测方法的框架示意图;
图2是本发明所设计基于混合特征选择框架的钓鱼网站检测方法的应用示意图。
具体实施方式
下面结合说明书附图对本发明的具体实施方式作进一步详细的说明。
本发明所设计一种基于混合特征选择框架的钓鱼网站检测方法,实际应用当中,如图1和图2所示,通过步骤A至步骤D,获得钓鱼网页检测模型,然后按步骤i,应用钓鱼网页检测模型,针对待检测网页实现钓鱼检测。
步骤A. 针对预设数量个已知样本网址所对应样本网页对应钓鱼网页标签或非
钓鱼网页标签的有效样本网址,按不同样本子数据集之间允许存在相同有效样本网址,以
及单个样本子数据集包含至少个有效样本网址,执行划分获得个样本子数据集,且
全部样本子数据集中的有效样本网址覆盖全部个有效样本网址,然后进入步骤B。
步骤B. 针对各个样本子数据集,根据预设各初选类型特征,获得各个样本子数据集分别所对应的综合特征组,然后进入步骤C。
实际应用当中,上述步骤B中,分别针对各个样本子数据集,执行如下步骤B1至步骤B6,获得样本子数据集所对应的综合特征组;进而获得各个样本子数据集分别所对应的综合特征组,然后进入步骤C。
步骤B1. 分别针对样本子数据集中各有效样本网址所对应样本网页的样本源代码,按预设非数据字符库,应用正则表达式匹配方式或字符串匹配方式,剔除样本源代码中的非数据字符,诸如‘&’、‘;’、‘&#x’等,更新该样本子数据集中各有效样本网址分别所对应样本网页的样本源代码,然后进入步骤B2。
步骤B2. 分别针对该样本子数据集中各有效样本网址所对应样本网页的样本源代码,获得样本源代码分别对应预设各初选类型特征的特征值,进而获得各样本源代码分别对应预设各初选类型特征的特征值,然后进入步骤B3。
实际应用当中,预设各初选类型特征诸如下表1所示。
表1
特征 | 含义 |
NumDots | URL中 . 的数量 |
SubdomainLevel | URL中子域名级别数 |
PathLevel | URL中路径深度 |
UrlLength | URL中URL长度 |
NumDash | URL中破折号数 |
NumDashInHostname | URL中域名中破折号数 |
AtSymbol | URL中@数 |
TildeSymbol | URL中~数 |
NumUnderscore | URL中_数 |
NumPercent | URL中%数 |
NumQueryComponents | URL中查询数 |
NumAmpersand | URL中&数 |
NumHash | URL中#数 |
NumNumericChars | URL中数字字符数 |
NoHttps | HTTPS是否存在于URL |
RandomString | 随机字符串是否存在于URL |
IpAddress | 域名中是否包含ip地址 |
DomainInSubdomains | 顶级域名和国家域名是否在子域名中 |
DomainInPaths | 顶级域名和国家域名是否在路径中 |
HttpsInHostname | HTTPS在主机名中 |
HostnameLength | 主机名长度 |
PathLength | 路径长度 |
QueryLength | 查询长度 |
DoubleSlashInPath | 路径中是否存在// |
EmbeddedBrandName | 子域名和路径中是否嵌入品牌名,品牌名即网页中最频繁出现域名 |
PctExtHyperlinks | 外部超链接百分比 |
PctExtResourceUrls | 外部资源URLs百分比 |
InsecureForms | 不安全表单,action属性中是否包含未使用HTTPS的URL |
ExtFormAction | 表单action属性是否包含来自外部域的URL |
AbnormalFormAction | 表单action属性是否包含‘#’,‘about:blank’,空字符串或者‘JavaScript:true’ |
FrequentDomainNameMismatch | 网页中最常见域名与URL域名是否匹配 |
RightClickDisabled | 检查网页中是否包含JavaScript指令 禁止右键点击 |
PopUpWindow | 检查网页中是否包含JavaScript指令 弹窗 |
SubmitInfoToEmail | 检查网页中是否包含提交信息给邮箱 ‘mailto’ |
IframeOrFrame | 是否使用Frame框架 |
MissingTitle | 是否缺失Title tag |
步骤B3. 根据各样本源代码分别对应预设各初选类型特征的特征值,分别应用诸如信息增益特征选择方法、对称不确定性特征选择方法、卡方检验特征选择方法的特征选择方法,针对各个初选类型特征进行打分、排序,获得各特征选择方法下、各初选类型特征的排序,构成各个初选特征排序,然后进入步骤B4。
上述步骤B4在实际应用当中,分别针对各个初选特征排序,执行如下步骤B4-1至
步骤B4-4,获得初选特征排序下个初选特征组分别所对应的预测时长与准确度;进而获得
各初选特征排序下个初选特征组分别所对应的预测时长与准确度,然后进入步骤B5。
步骤B4-3. 根据该样本子数据集中各样本源代码分别对应第个初选特征组中各
初选类型特征的特征值,以及该各样本源代码分别对应样本网页对应钓鱼网页标签或非钓
鱼网页标签,以样本源代码对应第个初选特征组中各初选类型特征的特征值为输入,样本
源代码对应样本网页对应钓鱼网页标签或非钓鱼网页标签为输出,针对预设网络进行训
练,获得训练后网络所对应的准确度,并获得训练后网络针对预设数量样本网页进行预测
所对应的预测时长,构成第个初选特征组所对应的预测时长与准确度,然后进入步骤B4-
4。
步骤B5. 分别针对各个初选特征排序,根据初选特征排序下个初选特征组分别
所对应的预测时长与准确度,执行如下步骤B5-1至步骤B5-6,获得初选特征排序所对应的
中级特征组;进而获得各个初选特征排序分别所对应的中级特征组,然后进入步骤B6。
步骤B5-1. 构建以初选特征组所包含初选类型特征数量为横坐标、预测时长为纵
坐标的时长坐标系,并根据初选特征排序下个初选特征组分别所对应的预测时长,获得该
初选特征排序下个初选特征组分别对应时长坐标系中的各节点。
同时构建以初选特征组所包含初选类型特征数量为横坐标、准确度为纵坐标的准
确坐标系,并根据初选特征排序下个初选特征组分别所对应的准确度,获得该初选特征排
序下个初选特征组分别对应准确坐标系中的各节点;然后进入步骤B5-2。
步骤B5-2. 分别针对时长坐标系与准确坐标系,首先获得坐标系中各节点分别相较横坐标上与其相邻前一节点在纵坐标上的差值,作为各节点分别所对应的差值,然后获得各节点所对应差值分别与横坐标上与其相邻前一节点所对应差值的比值,作为各节点分别所对应的差值变化率,然后进入步骤B5-3。
步骤B5-4. 分别针对时长坐标系与准确坐标系,针对坐标系中横坐标相邻改变点之间以直线相连,并选择沿横坐标轴方向上各段纵坐标值呈预设目标单一方向变化趋势折线的起点,作为各个拐点,进而获得时长坐标系中的各个拐点、准确坐标系中的各个拐点,然后进入步骤B5-5。
实际应用当中,上述步骤B5-4具体可以采用下述两种实施例中的任意一种。
其一,步骤B5-4中,分别针对时长坐标系与准确坐标系,针对坐标系中横坐标相邻改变点之间以直线相连,并选择沿横坐标轴方向上各段纵坐标值以上升变化趋势折线的起点,作为各个拐点,进而获得时长坐标系中的各个拐点、准确坐标系中的各个拐点。
其二,步骤B5-4中,分别针对时长坐标系与准确坐标系,针对坐标系中横坐标相邻改变点之间以直线相连,并选择沿横坐标轴方向上各段纵坐标值以下降变化趋势折线的起点,作为各个拐点,进而获得时长坐标系中的各个拐点、准确坐标系中的各个拐点。
步骤B5-5. 分别针对时长坐标系中的各个拐点,获得拐点所对应横坐标上初选类型特征数量,并获得准确坐标系横坐标上该初选类型特征数量所对应节点对应的准确度,结合该拐点对应时长坐标系的预测时长,按预设准确度权重、预设预测时长权重,执行加权计算获得该拐点所对应的综合结果,进而获得该初选特征排序下、时长坐标系中各拐点分别所对应的综合结果。
同时分别针对准确坐标系中的各个拐点,获得拐点所对应横坐标上初选类型特征数量,并获得时长坐标系横坐标上该初选类型特征数量所对应节点对应的预测时长,结合该拐点对应准确坐标系的准确度,按预设准确度权重、预设预测时长权重,执行加权计算获得该拐点所对应的综合结果,进而获得该初选特征排序下、准确坐标系中各拐点分别所对应的综合结果;然后进入步骤B5-6。
步骤B5-6. 根据该初选特征排序下、时长坐标系中各拐点分别所对应的综合结果,以及该初选特征排序下、准确坐标系中各拐点分别所对应的综合结果,选择最大综合结果所对应拐点在所属坐标系中对应横坐标上的初选类型特征数量,结合该初选特征排序获得相对应的初选特征组,作为该初选特征排序所对应的中级特征组。
步骤B6. 获得各初选特征排序分别所对应中级特征组之间的交集,构成该样本子数据集所对应的综合特征组。
步骤C. 获得各个样本子数据集分别所对应综合特征组之间的并集,作为目标特征组,然后进入步骤D。
步骤D. 根据全部个有效样本网址分别所对应样本网页的样本源代码分别对应
目标特征组中各初选类型特征的特征值,以及全部个有效样本网址分别所对应样本网页
对应钓鱼网页标签或非钓鱼网页标签,以样本源代码对应目标特征组中各初选类型特征的
特征值为输入,样本源代码对应样本网页对应钓鱼网页标签或非钓鱼网页标签为输出,针
对决策树模型进行训练,获得钓鱼网页检测模型,其中,决策树模型的参数max_depth=3,
min_weight_fraction_leaf=0。
关于预设分类网络的选择,设计过程当中,对比了SVM,、Naive_Bayes、DecisionTree、RandomForest四种机器学习模型,并使用GridSearchCV进行参数调优,最终选取决策树模型。
步骤i. 获得待检测网页的源代码对应目标特征组中各初选类型特征的特征值,并应用钓鱼网页检测模型,获得待检测网页对应钓鱼网页标签或非钓鱼网页标签,针对待检测网页实现钓鱼检测。
上述技术方案在实际应用当中,将经过钓鱼网页检测模型检测为钓鱼网页标签的网页,会被收集到对应数据库中,则之后对待检测网页进行检测时,可以先与该数据库进行比对,若比对成功,则直接判断待检测网页对应钓鱼网页标签,否则再进一步执行上述步骤i进行检测。
上述技术方案所设计基于混合特征选择框架的钓鱼网站检测方法,采用全新设计策略,基于预设各初选类型特征,根据模型预测时间指标和准确率指标,确定最佳特征截止位置,生成目标特征组,最后将该目标特征组送入决策树分类器进行模型调参、训练模型,获得钓鱼网页检测模型,用于钓鱼网站检测系统;整个方案从混合特征选择框架方面入手,提高了特征选择的稳定性,打破以往人工设置阈值方法所带来准确率和系统检测速率无法平衡的问题,从而提升了钓鱼网站的检测效率和准确度,有效提高了网络的整体防护能力。
上面结合附图对本发明的实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下做出各种变化。
Claims (4)
1.一种基于混合特征选择框架的钓鱼网站检测方法,其特征在于:通过步骤A至步骤D,获得钓鱼网页检测模型,然后按步骤i,应用钓鱼网页检测模型,针对待检测网页实现钓鱼检测;
步骤A.针对预设数量N个已知样本网址所对应样本网页对应钓鱼网页标签或非钓鱼网页标签的有效样本网址,按不同样本子数据集之间允许存在相同有效样本网址,以及单个样本子数据集包含至少个有效样本网址,执行划分获得n个样本子数据集,且全部样本子数据集中的有效样本网址覆盖全部N个有效样本网址,然后进入步骤B;
步骤B.针对各个样本子数据集,根据预设各初选类型特征,获得各个样本子数据集分别所对应的综合特征组,然后进入步骤C;
上述步骤B中,分别针对各个样本子数据集,执行如下步骤B1至步骤B6,获得样本子数据集所对应的综合特征组;进而获得各个样本子数据集分别所对应的综合特征组,然后进入步骤C;
步骤B1.分别针对样本子数据集中各有效样本网址所对应样本网页的样本源代码,按预设非数据字符库,剔除样本源代码中的非数据字符,更新该样本子数据集中各有效样本网址分别所对应样本网页的样本源代码,然后进入步骤B2;
步骤B2.分别针对该样本子数据集中各有效样本网址所对应样本网页的样本源代码,获得样本源代码分别对应预设各初选类型特征的特征值,进而获得各样本源代码分别对应预设各初选类型特征的特征值,然后进入步骤B3;
步骤B3.根据各样本源代码分别对应预设各初选类型特征的特征值,分别应用各特征选择方法,针对各个初选类型特征进行打分、排序,获得各特征选择方法下、各初选类型特征的排序,构成各个初选特征排序,然后进入步骤B4;
步骤B4.针对各个初选特征排序,获得各初选特征排序下L个初选特征组分别所对应的预测时长与准确度,然后进入步骤B5;其中,L表示初选类型特征的数量;
上述步骤B4中,分别针对各个初选特征排序,执行如下步骤B4-1至步骤B4-4,获得初选特征排序下L个初选特征组分别所对应的预测时长与准确度;进而获得各初选特征排序下L个初选特征组分别所对应的预测时长与准确度,然后进入步骤B5;
步骤B4-1.初始化参数l=1,并进入步骤B4-2;
步骤B4-2.选择初选特征排序中第1个初选类型特征至第l个初选类型特征,构成第l个初选特征组,然后进入步骤B4-3;
步骤B4-3.根据该样本子数据集中各样本源代码分别对应第l个初选特征组中各初选类型特征的特征值,以及该各样本源代码分别对应样本网页对应钓鱼网页标签或非钓鱼网页标签,以样本源代码对应第l个初选特征组中各初选类型特征的特征值为输入,样本源代码对应样本网页对应钓鱼网页标签或非钓鱼网页标签为输出,针对预设网络进行训练,获得训练后网络所对应的准确度,并获得训练后网络针对预设数量样本网页进行预测所对应的预测时长,构成第l个初选特征组所对应的预测时长与准确度,然后进入步骤B4-4;
步骤B4-4.判断l+1是否大于初选类型特征的数量L,是则即获得该初选特征排序下L个初选特征组分别所对应的预测时长与准确度;否则针对l的值进行加1更新,并返回步骤B2-2;
步骤B5.针对各个初选特征排序,根据初选特征排序下L个初选特征组分别所对应的预测时长与准确度,获得各个初选特征排序分别所对应的中级特征组,然后进入步骤B6;
上述步骤B5.分别针对各个初选特征排序,根据初选特征排序下L个初选特征组分别所对应的预测时长与准确度,执行如下步骤B5-1至步骤B5-6,获得初选特征排序所对应的中级特征组;进而获得各个初选特征排序分别所对应的中级特征组,然后进入步骤B6;
步骤B5-1.构建以初选特征组所包含初选类型特征数量为横坐标、预测时长为纵坐标的时长坐标系,并根据初选特征排序下L个初选特征组分别所对应的预测时长,获得该初选特征排序下L个初选特征组分别对应时长坐标系中的各节点;
同时构建以初选特征组所包含初选类型特征数量为横坐标、准确度为纵坐标的准确坐标系,并根据初选特征排序下L个初选特征组分别所对应的准确度,获得该初选特征排序下L个初选特征组分别对应准确坐标系中的各节点;
然后进入步骤B5-2;
步骤B5-2.分别针对时长坐标系与准确坐标系,首先获得坐标系中各节点分别相较横坐标上与其相邻前一节点在纵坐标上的差值,作为各节点分别所对应的差值,然后获得各节点所对应差值分别与横坐标上与其相邻前一节点所对应差值的比值,作为各节点分别所对应的差值变化率,然后进入步骤B5-3;
步骤B5-3.分别针对时长坐标系与准确坐标系,判断坐标系中各节点分别所对应的差值变化率是否满足(-∞,-2.25]或[2,+∞),是则定义节点为改变点,否则定义节点为非改变点,然后进入步骤B5-4;
步骤B5-4.分别针对时长坐标系与准确坐标系,针对坐标系中横坐标相邻改变点之间以直线相连,并选择沿横坐标轴方向上各段纵坐标值呈预设目标单一方向变化趋势折线的起点,作为各个拐点,进而获得时长坐标系中的各个拐点、准确坐标系中的各个拐点,然后进入步骤B5-5;
上述步骤B5-4中,分别针对时长坐标系与准确坐标系,针对坐标系中横坐标相邻改变点之间以直线相连,并选择沿横坐标轴方向上各段纵坐标值以上升变化趋势折线的起点,作为各个拐点,进而获得时长坐标系中的各个拐点、准确坐标系中的各个拐点;
或者上述步骤B5-4中,分别针对时长坐标系与准确坐标系,针对坐标系中横坐标相邻改变点之间以直线相连,并选择沿横坐标轴方向上各段纵坐标值以下降变化趋势折线的起点,作为各个拐点,进而获得时长坐标系中的各个拐点、准确坐标系中的各个拐点;
步骤B5-5.分别针对时长坐标系中的各个拐点,获得拐点所对应横坐标上初选类型特征数量,并获得准确坐标系横坐标上该初选类型特征数量所对应节点对应的准确度,结合该拐点对应时长坐标系的预测时长,按预设准确度权重、预设预测时长权重,执行加权计算获得该拐点所对应的综合结果,进而获得该初选特征排序下、时长坐标系中各拐点分别所对应的综合结果;
同时分别针对准确坐标系中的各个拐点,获得拐点所对应横坐标上初选类型特征数量,并获得时长坐标系横坐标上该初选类型特征数量所对应节点对应的预测时长,结合该拐点对应准确坐标系的准确度,按预设准确度权重、预设预测时长权重,执行加权计算获得该拐点所对应的综合结果,进而获得该初选特征排序下、准确坐标系中各拐点分别所对应的综合结果;然后进入步骤B5-6;
步骤B5-6.根据该初选特征排序下、时长坐标系中各拐点分别所对应的综合结果,以及该初选特征排序下、准确坐标系中各拐点分别所对应的综合结果,选择最大综合结果所对应拐点在所属坐标系中对应横坐标上的初选类型特征数量,结合该初选特征排序获得相对应的初选特征组,作为该初选特征排序所对应的中级特征组;
步骤B6.获得各初选特征排序分别所对应中级特征组之间的交集,构成该样本子数据集所对应的综合特征组;
步骤C.获得各个样本子数据集分别所对应综合特征组之间的并集,作为目标特征组,然后进入步骤D;
步骤D.根据全部N个有效样本网址分别所对应样本网页的样本源代码分别对应目标特征组中各初选类型特征的特征值,以及全部N个有效样本网址分别所对应样本网页对应钓鱼网页标签或非钓鱼网页标签,以样本源代码对应目标特征组中各初选类型特征的特征值为输入,样本源代码对应样本网页对应钓鱼网页标签或非钓鱼网页标签为输出,针对预设分类网络进行训练,获得钓鱼网页检测模型;
步骤i.获得待检测网页的源代码对应目标特征组中各初选类型特征的特征值,并应用钓鱼网页检测模型,获得待检测网页对应钓鱼网页标签或非钓鱼网页标签,针对待检测网页实现钓鱼检测。
2.根据权利要求1所述一种基于混合特征选择框架的钓鱼网站检测方法,其特征在于:所述步骤B1中,分别针对样本子数据集中各有效样本网址所对应样本网页的样本源代码,按预设非数据字符库,应用正则表达式匹配方式或字符串匹配方式,剔除样本源代码中的非数据字符,更新该样本子数据集中各有效样本网址分别所对应样本网页的样本源代码。
3.根据权利要求1所述一种基于混合特征选择框架的钓鱼网站检测方法,其特征在于:所述步骤B3中,所述各特征选择方法包括信息增益特征选择方法、对称不确定性特征选择方法、卡方检验特征选择方法。
4.根据权利要求1至3中任意一项所述一种基于混合特征选择框架的钓鱼网站检测方法,其特征在于:所述步骤D中的预设分类网络为决策树模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210059367.5A CN114095278B (zh) | 2022-01-19 | 2022-01-19 | 一种基于混合特征选择框架的钓鱼网站检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210059367.5A CN114095278B (zh) | 2022-01-19 | 2022-01-19 | 一种基于混合特征选择框架的钓鱼网站检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114095278A CN114095278A (zh) | 2022-02-25 |
CN114095278B true CN114095278B (zh) | 2022-05-24 |
Family
ID=80308601
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210059367.5A Active CN114095278B (zh) | 2022-01-19 | 2022-01-19 | 一种基于混合特征选择框架的钓鱼网站检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114095278B (zh) |
Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101826105A (zh) * | 2010-04-02 | 2010-09-08 | 南京邮电大学 | 基于匈牙利匹配算法的钓鱼网页检测方法 |
CN101894134A (zh) * | 2010-06-21 | 2010-11-24 | 南京邮电大学 | 一种基于空间布局的钓鱼网页检测及其实现方法 |
CN102096781A (zh) * | 2011-01-18 | 2011-06-15 | 南京邮电大学 | 一种基于网页关联性的钓鱼检测方法 |
CN102170447A (zh) * | 2011-04-29 | 2011-08-31 | 南京邮电大学 | 一种基于最近邻及相似度测量检测钓鱼网页的方法 |
CN102316099A (zh) * | 2011-07-28 | 2012-01-11 | 中国科学院计算机网络信息中心 | 网络钓鱼检测方法及装置 |
CN102647408A (zh) * | 2012-02-27 | 2012-08-22 | 珠海市君天电子科技有限公司 | 一种基于内容分析的判断钓鱼网站的方法 |
CN102647422A (zh) * | 2012-04-10 | 2012-08-22 | 中国科学院计算机网络信息中心 | 钓鱼网站检测方法及设备 |
CN103324615A (zh) * | 2012-03-19 | 2013-09-25 | 哈尔滨安天科技股份有限公司 | 基于搜索引擎优化的钓鱼网站探测方法及系统 |
CN103544436A (zh) * | 2013-10-12 | 2014-01-29 | 深圳先进技术研究院 | 一种钓鱼网站鉴别系统和方法 |
CN103685307A (zh) * | 2013-12-25 | 2014-03-26 | 北京奇虎科技有限公司 | 基于特征库检测钓鱼欺诈网页的方法及系统、客户端、服务器 |
CN104077396A (zh) * | 2014-07-01 | 2014-10-01 | 清华大学深圳研究生院 | 一种钓鱼网站检测方法及装置 |
CN104156490A (zh) * | 2014-09-01 | 2014-11-19 | 北京奇虎科技有限公司 | 基于文字识别检测可疑钓鱼网页的方法及装置 |
CN104899508A (zh) * | 2015-06-17 | 2015-09-09 | 中国互联网络信息中心 | 一种多阶段钓鱼网站检测方法与系统 |
CN105138921A (zh) * | 2015-08-18 | 2015-12-09 | 中南大学 | 基于页面特征匹配的钓鱼网站目标域名识别方法 |
CN105338001A (zh) * | 2015-12-04 | 2016-02-17 | 北京奇虎科技有限公司 | 识别钓鱼网站的方法及装置 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2432933B (en) * | 2006-03-14 | 2008-07-09 | Streamshield Networks Ltd | A method and apparatus for providing network security |
US7668921B2 (en) * | 2006-05-30 | 2010-02-23 | Xerox Corporation | Method and system for phishing detection |
CN101820366B (zh) * | 2010-01-27 | 2012-09-05 | 南京邮电大学 | 一种基于预取的钓鱼网页检测方法 |
CN103049484B (zh) * | 2012-11-30 | 2016-04-20 | 北京奇虎科技有限公司 | 一种网页危险性的识别方法和装置 |
CN103368958A (zh) * | 2013-07-05 | 2013-10-23 | 腾讯科技(深圳)有限公司 | 一种网页检测方法、装置和系统 |
CN107360200A (zh) * | 2017-09-20 | 2017-11-17 | 广东工业大学 | 一种基于分类信心和网站特征的钓鱼检测方法 |
CN109657470A (zh) * | 2018-12-27 | 2019-04-19 | 北京天融信网络安全技术有限公司 | 恶意网页检测模型训练方法、恶意网页检测方法及系统 |
CN110602113B (zh) * | 2019-09-19 | 2021-05-25 | 中山大学 | 一种基于深度学习的层次化钓鱼网站检测方法 |
CN112468501B (zh) * | 2020-11-27 | 2022-10-25 | 安徽大学 | 一种面向url的钓鱼网站检测方法 |
CN113051500B (zh) * | 2021-03-25 | 2022-08-16 | 武汉大学 | 一种融合多源数据的钓鱼网站识别方法及系统 |
CN113132410B (zh) * | 2021-04-29 | 2023-12-08 | 深圳信息职业技术学院 | 一种用于检测钓鱼网址的方法 |
-
2022
- 2022-01-19 CN CN202210059367.5A patent/CN114095278B/zh active Active
Patent Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101826105A (zh) * | 2010-04-02 | 2010-09-08 | 南京邮电大学 | 基于匈牙利匹配算法的钓鱼网页检测方法 |
CN101894134A (zh) * | 2010-06-21 | 2010-11-24 | 南京邮电大学 | 一种基于空间布局的钓鱼网页检测及其实现方法 |
CN102096781A (zh) * | 2011-01-18 | 2011-06-15 | 南京邮电大学 | 一种基于网页关联性的钓鱼检测方法 |
CN102170447A (zh) * | 2011-04-29 | 2011-08-31 | 南京邮电大学 | 一种基于最近邻及相似度测量检测钓鱼网页的方法 |
CN102316099A (zh) * | 2011-07-28 | 2012-01-11 | 中国科学院计算机网络信息中心 | 网络钓鱼检测方法及装置 |
CN102647408A (zh) * | 2012-02-27 | 2012-08-22 | 珠海市君天电子科技有限公司 | 一种基于内容分析的判断钓鱼网站的方法 |
CN103324615A (zh) * | 2012-03-19 | 2013-09-25 | 哈尔滨安天科技股份有限公司 | 基于搜索引擎优化的钓鱼网站探测方法及系统 |
CN102647422A (zh) * | 2012-04-10 | 2012-08-22 | 中国科学院计算机网络信息中心 | 钓鱼网站检测方法及设备 |
CN103544436A (zh) * | 2013-10-12 | 2014-01-29 | 深圳先进技术研究院 | 一种钓鱼网站鉴别系统和方法 |
CN103685307A (zh) * | 2013-12-25 | 2014-03-26 | 北京奇虎科技有限公司 | 基于特征库检测钓鱼欺诈网页的方法及系统、客户端、服务器 |
CN104077396A (zh) * | 2014-07-01 | 2014-10-01 | 清华大学深圳研究生院 | 一种钓鱼网站检测方法及装置 |
CN104156490A (zh) * | 2014-09-01 | 2014-11-19 | 北京奇虎科技有限公司 | 基于文字识别检测可疑钓鱼网页的方法及装置 |
CN104899508A (zh) * | 2015-06-17 | 2015-09-09 | 中国互联网络信息中心 | 一种多阶段钓鱼网站检测方法与系统 |
CN105138921A (zh) * | 2015-08-18 | 2015-12-09 | 中南大学 | 基于页面特征匹配的钓鱼网站目标域名识别方法 |
CN105338001A (zh) * | 2015-12-04 | 2016-02-17 | 北京奇虎科技有限公司 | 识别钓鱼网站的方法及装置 |
Non-Patent Citations (3)
Title |
---|
基于分类置信度和网站特征的钓鱼检测系统;陈旭等;《信息网络安全》;20170910;全文 * |
基于敏感特征的网络钓鱼网站检测方法;宋明秋;《万方》;20131204;全文 * |
基于页面特征的钓鱼网站层次化检测的研究;朱琪;《万方》;20190827;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN114095278A (zh) | 2022-02-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107786575B (zh) | 一种基于dns流量的自适应恶意域名检测方法 | |
US10560471B2 (en) | Detecting web exploit kits by tree-based structural similarity search | |
CN106302440B (zh) | 一种多渠道获取可疑钓鱼网站的方法 | |
CN103297435B (zh) | 一种基于web日志的异常访问行为检测方法与系统 | |
EP1964364B1 (en) | Method for evaluating and accessing a network address | |
Cui et al. | Malicious URL detection with feature extraction based on machine learning | |
CN103559235B (zh) | 一种在线社交网络恶意网页检测识别方法 | |
EP2090058B1 (en) | System and method of analyzing web addresses | |
US8615800B2 (en) | System and method for analyzing web content | |
US10404731B2 (en) | Method and device for detecting website attack | |
US20120023127A1 (en) | Method and system for processing a uniform resource locator | |
CN103259805B (zh) | 基于用户评价的域名访问控制方法及系统 | |
US8510262B2 (en) | Promoting websites based on location | |
CN111753171B (zh) | 一种恶意网站的识别方法和装置 | |
CN110572359A (zh) | 基于机器学习的钓鱼网页检测方法 | |
CN109768992A (zh) | 网页恶意扫描处理方法及装置、终端设备、可读存储介质 | |
CN110365810B (zh) | 基于网络爬虫的域名缓存方法、装置、设备及存储介质 | |
CN109104421A (zh) | 一种网站内容篡改检测方法、装置、设备及可读存储介质 | |
CN112131507A (zh) | 网站内容处理方法、装置、服务器和计算机可读存储介质 | |
CN103440454B (zh) | 一种基于搜索引擎关键词的主动式蜜罐检测方法 | |
CN114095278B (zh) | 一种基于混合特征选择框架的钓鱼网站检测方法 | |
CN117715049B (zh) | 一种针对手机浏览器的反作弊系统以及反作弊方法 | |
RU2740856C1 (ru) | Способ и система для идентификации кластеров аффилированных веб-сайтов | |
KR100914600B1 (ko) | 무효 클릭 판단 방법 및 시스템 | |
TR2023000253A1 (tr) | Topluluk ağaçlarina dayali olarak zararli reklam url'leri̇ni̇ tespi̇t etmek i̇çi̇n yeni̇li̇kçi̇ bi̇r yöntem |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |