CN108777674B - 一种基于多特征融合的钓鱼网站检测方法 - Google Patents

一种基于多特征融合的钓鱼网站检测方法 Download PDF

Info

Publication number
CN108777674B
CN108777674B CN201810373630.1A CN201810373630A CN108777674B CN 108777674 B CN108777674 B CN 108777674B CN 201810373630 A CN201810373630 A CN 201810373630A CN 108777674 B CN108777674 B CN 108777674B
Authority
CN
China
Prior art keywords
url
html
website
extracting
logistic regression
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810373630.1A
Other languages
English (en)
Other versions
CN108777674A (zh
Inventor
杨鹏
曾朋
李幼平
张长江
郑斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN201810373630.1A priority Critical patent/CN108777674B/zh
Publication of CN108777674A publication Critical patent/CN108777674A/zh
Application granted granted Critical
Publication of CN108777674B publication Critical patent/CN108777674B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic
    • H04L63/1483Countermeasures against malicious traffic service impersonation, e.g. phishing, pharming or web spoofing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/147Network analysis or design for predicting network behaviour

Abstract

本发明公开了一种基于多特征融合的钓鱼网站检测方法,该方法能够实时检测互联网上的钓鱼网站。本发明首先根据网页的URL提取URL特征、HTML特征和基于TF‑IDF的文本向量;然后利用Logistic回归(Logistic regression)对文本向量进行分类,构建Logistic回归特征,并与网页URL特征和HTML特征进行多特征融合;最后训练XGBoost(eXtreme gradient boosting)模型,对待测钓鱼网站进行分类预测。本发明在网站的URL基础上,从多个维度全方位提取多关键特征,采用Logistic回归特征融合方法,有效解决文本向量特征维度过高问题,比现有特征融合方法能大幅提高运行效率,而且XGBoost分类模型比传统分类模型,更能提高钓鱼网站检测准确率,减少钓鱼网站检测漏报率。

Description

一种基于多特征融合的钓鱼网站检测方法
技术领域
本发明涉及一种基于多特征融合的钓鱼网站检测方法,该方法从多个维度全方位提取钓鱼网站的特征,利用机器学习方法分类提高分类准确率,能实时检测互联网上的钓鱼网站,属于网络空间安全技术领域。
背景技术
近年来,随着互联网的飞速发展,互联网体系结构在安全方面所存在不足日渐显露,网络钓鱼、网络犯罪、隐私泄露等各类安全问题越来越突出。没有网络安全就没有国家安全,网络空间安全已经成为世界各国必须共同面对和解决的难题。在各类网络安全问题中,网络钓鱼是一种通过社会工程学或其它复杂技术手段窃取网站用户个人信息的犯罪行为,目前网络钓鱼呈逐年上升趋势。
当前钓鱼网站的检测方法主要包括黑白名单过滤技术、启发式检测、相似性检测和基于机器学习的检测。其中,钓鱼黑名单过滤是应用最广的检测方法,被众多商业检测系统所使用,但是,采用黑名单方式检测钓鱼网站,存在较高的漏报率。基于启发式的方法虽可以实时检测出未被黑名单收录的钓鱼网站,并且具有一定的准确性,但是模型的自进化和自适应能力较差。相似性检测方法的效率较低,只适用于特定领域,同时很多钓鱼网站并未模仿某一类知名网站,导致特征库的提取存在困难。基于机器学习方法的URL检测技术是利用URL提取特征,并结合机器学习分类算法对网页进行分类,但当前基于机器学习的钓鱼检测方法,普遍存在训练效率低、特征维度过高和准确率不足等问题。
针对当前日益增多的钓鱼网站问题和已有钓鱼检测方法训练效率较低、钓鱼鱼网站检出率较低的问题,本发明提出一种基于多特征融合的钓鱼网站检测方法,利用Logistic回归训练基于TF-IDF的网页文本特征,将训练结果作为最终的网页文本特征,与网页的URL特征和HTML特征进行融合,大大降低特征维度,并通过XGBoost算法对钓鱼网页进行分类,提高检测分类的准确率。
发明内容
发明目的:针对现有技术中存在的问题与不足,本发明提供一种基于多特征融合的钓鱼网站检测方法,该方法能实时检测互联网的钓鱼网站,相比传统方法,不仅能够大幅度减少特征维度,减少训练时间和提高运行效率,而且能够有效改善传统钓鱼网站检测方法普遍存在的准确率不足问题。
技术方案:一种基于多特征融合的钓鱼网站检测方法,该方法涵盖钓鱼网站检测的全过程。该方法主要包括特征提取、特征融合和分类预测等过程,能够从多个维度全方位提取钓鱼网站的特征,有效解决文本向量特征维度过高的问题,并且将XGBoost分类模型拓展应用于钓鱼网站检测,提高检测准确率和减少检测漏报率。该方法主要包括三个步骤,具体如下:
步骤1,积累样本数据集。首先从PhishTank官网(PhishTank.com)搜集钓鱼网站,并从开放式网站分类目录DMOZ(dmoztools.net)搜集正常网站的样本 URL,去掉其中不可访问URL和重复URL等无效URL。
步骤2,多特征分类模型训练。对数据集中每一个有效的URL,首先提取 URL特征,然后爬取网页源码,接着抽取HTML特征和文本特征,构建Logistic 回归特征融合向量矩阵,最后训练XGBoost分类器。
步骤3,对待测网站进行分类预测。对于待测网站,首先提取该网站主页的 URL特征、HTML特征和文本特征,接着构建Logistic回归融合特征F,最后利用训练好的XGBoost分类器检测待测网站是否为钓鱼网站。
有益效果:
1.该方法采用基于Logistic回归的多特征融合方法,能够有效改善现有特征融合方法因为维度过高而导致的训练时间长、准确率低等问题。
2.该方法将XGBoost分类模型拓展应用于钓鱼网站检测,与传统分类模型相比,分类检测结果具有更高的准确率、精确率和召回率。
附图说明
图1为本发明算法流程图,图中本发明从训练到预测的全过程。
图2为基于Logistic回归的多特征融合方法流程图,包括特征提取、特征融合和分类预测。
具体实施方式
下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
本方法具体实施步骤如下:
步骤1,积累样本数据集。本发明首先从PhishTank(PhishTank.com)提供的黑名单中收集20000条有效钓鱼URL,并且从开放式网站分类目录DMOZ (dmoztools.net)中下载获取20000条有效正常URL,它们共同构成URL样本数据集D。由于钓鱼网站一般选择银行、游戏和电子商务类网站作为钓鱼目标,因此本发明需要从DMOZ收集20000条有效的正常网站URL,并保证银行、游戏和电子商务类网站的占比较大。
步骤2,多特征分类模型训练。对搜集的数据集D中的每个样本URL urlx,提取urlx的URL特征、HTML特征和文本特征,构建Logistic回归特征融合矩阵,并训练XGBoost分类器。该步骤实施过程分为6个子步骤:
子步骤2-1,提取每一个urlx的URL特征FURL。针对URL以及域名信息,抽取URL相关特征FURL主要包括URL中是否有IP地址、是否有可疑字符、是否有敏感词汇、是否是https链接,以及URL总长度、URL中最长数字串长度等,如表1所示。其中,本发明设置的敏感词汇包括:account、admin、administrator、 auth、bank、client、confirm、email、host、password、pay、private、safe、secure、 security、sign、user、validation、verification。
表1 URL特征
Figure BDA0001639274330000031
子步骤2-2,爬取每一个urlx对应的网页源码。利用当前的URL爬取网页源码,由于很多网站都属于动态网站(如基于Ajax技术实现的网站),网页爬取的HTML源码和网页文本与从浏览器看到的内容差异较大,所以本发明基于selenium和PhantomJS爬取网页源码。
子步骤2-3,提取每一个urlx的HTML特征FHTML。根据爬取到的网页源码提取HTML特征,记为FHTML,主要包括从HTML和JavaScript中提取的特征,如html总长度和div、embed、iframe、applet等标签数量,以及JavaScript中的 get、post、pop等方法数量和html外链占比等。外链表示网页html中指向其它域名的链接,由于很多钓鱼网站直接仿照正常网站,导致钓鱼网站的文本、图片和视频链接直接指向正常网站,因此钓鱼网站外链比例一般较高,因此html中外链占比是一个重要指标。本发明使用如公式(1)所示的外链接与链接总数的比例来定义html中外链占比:
Figure BDA0001639274330000041
其中:CountexternalLinks是外链数量,Count是链接总数。
本发明提取了24个HTML特征,如表2所示。
表2 HTML特征
Figure BDA0001639274330000042
Figure BDA0001639274330000051
子步骤2-4,提取每一个urlx的文本向量FTFIDF。根据网页源码生成对应的网页文本,先通过去掉HTML源码中多余的标签提取出网页的有效文本,再根据TF-IDF方法提取TF-IDF特征,记为FTFIDF。主要思想是,对于一个文本,如果一个单词出现频率越高,而在其它文本中出现频率越低,则该单词对该文本就越重要。TF-IDF的计算公式如下:
Figure BDA0001639274330000052
Figure BDA0001639274330000053
TF-IDF(i,Wj)=TF(i,Wj)*IDF(Wj) (4)
其中,TF(i,Wj)表示文档i中单词Wj的词频,文档i中单词Wj出现的次数由 Count(i,Wj)表示,Count(i)表示文档i的单词总数;IDF(Wj)表示单词Wj的逆向频率,|D|表示文档总数,CountFiles(Wj)表示包含单词Wj的文档总数。
子步骤2-5,基于Logistic回归进行多特征融合。利用FTFIDF训练Logistic 回归模型,如公式(5)所示,用预测概率代表Logistic特征,记为Flogistic,保存 Logistic回归模型参数,然后利用公式(6)将三方面的特征进行融合。
Figure BDA0001639274330000054
F=FURL∪FHTML∪Flogistic (6)
公式(5)中,x∈Rn表示输入特征向量FTFIDF,Y∈{0,1}表示判断类型,w 为Logistic回归权重向量,w∈Rn,w·x为向量w和x的内积,Rn为n维连续向量空间。
子步骤2-6,训练XGBoost分类器。首先对步骤2提取的特征F进行标准化处理,如公式(7)所示;然后将标准化后的特征向量Fs用于训练XGBoost分类器。XGBoost对损失函数进行了二阶泰勒展开,充分利用了一阶和二阶导数,并在损失函数之外对正则项求得最优解,此外XGBoost能自动利用CPU的多线程进行计算,节省大量运行时间,同时提高了算法精度。
Figure BDA0001639274330000061
其中x为原始特征,
Figure BDA0001639274330000062
为原始数据的均值,σ为原始数据的标准差。
步骤3,对待测网站进行分类预测。利用步骤2中训练的Logistic回归和 XGBoost模型参数,对于待测网站URL,提取URL特征、HTML特征和文本特征,构建Logistic回归融合特征F,最后通过XGBoost检测待测网站是否为钓鱼网站。

Claims (4)

1.一种基于多特征融合的钓鱼网站检测方法,其特征在于,包括如下步骤:
步骤1,积累样本数据集;首先从PhishTank官网搜集钓鱼网站,并从开放式网站分类目录DMOZ搜集正常网站的样本URL,去掉无效URL;
步骤2,多特征分类模型训练;对数据集中每一个有效的URL,首先提取URL特征,然后爬取网页源码,接着抽取HTML特征和文本特征,构建Logistic回归特征融合矩阵,最后训练XGBoost分类器;
步骤3,对待测网站进行分类预测;对于待测网站,首先提取该网站主页的URL特征、HTML特征和文本特征,接着构建Logistic回归融合特征F,最后利用训练好的XGBoost分类器检测待测网站是否为钓鱼网站;
步骤2中,对搜集的数据集中的每个样本URL urlx,提取urlx的URL特征、HTML特征和文本特征,构建Logistic回归特征融合矩阵,并训练XGBoost分类器;该步骤实施过程分为6个子步骤:
子步骤2-1,提取每一个urlx的URL特征FURL;针对URL以及域名信息,抽取URL相关特征FURL主要包括URL中是否有IP地址、是否有可疑字符、是否有敏感词汇、是否是https链接,以及URL总长度、URL中最长数字串长度;
子步骤2-2,爬取每一个urlx对应的网页源码;利用当前的URL基于selenium和PhantomJS爬取网页源码;
子步骤2-3,提取每一个urlx的HTML特征FHTML;根据爬取到的网页源码提取HTML特征,记为FHTML,包括从HTML和JavaScript中提取的:html总长度和div、embed、iframe、applet标签数量,以及JavaScript中的get、post、pop方法数量和html外链占比特征;
子步骤2-4,提取每一个urlx的文本向量FTFIDF;根据网页源码生成对应的网页文本,先通过去掉HTML源码中多余的标签提取出网页的有效文本,再根据TF-IDF方法提取TF-IDF特征,记为FTFIDF
子步骤2-5,基于Logistic回归进行多特征融合;利用FTFIDF训练Logistic回归模型;
子步骤2-6,训练XGBoost分类器;利用数据集生成的特征F训练XGBoost模型。
2.如权利要求1所述的基于多特征融合的钓鱼网站检测方法,其特征在于,使用如公式(1)所示的外链接与链接总数的比例来定义html中外链占比:
Figure FDA0002853033870000021
其中:CountexternalLinks是外链数量,Count是链接总数。
3.如权利要求1所述的基于多特征融合的钓鱼网站检测方法,其特征在于,TF-IDF的计算公式如下:
Figure FDA0002853033870000022
Figure FDA0002853033870000023
TF-IDF(i,Wj)=TF(i,Wj)*IDF(Wj) (4)
其中,TF(i,Wj)表示文档i中单词Wj的词频,文档i中单词Wj出现的次数由Count(i,Wj)表示,Count(i)表示文档i的单词总数;IDF(Wj)表示单词Wj的逆向频率,|D|表示文档总数,CountFiles(Wj)表示包含单词Wj的文档总数。
4.如权利要求1所述的基于多特征融合的钓鱼网站检测方法,其特征在于,利用FTFIDF训练Logistic回归模型,如公式(5)所示,用预测概率P(Y=1|x)代表Logistic特征,记为Flogistic,保存Logistic回归模型参数,然后利用公式(6)将三方面的特征进行融合;
Figure FDA0002853033870000024
F=FURL∪FHTML∪Flogistic (6)
公式(5)中,x∈Rn表示输入特征向量FTFIDF,Y∈{0,1}表示判断类型,w为Logistic回归权重向量,w∈Rn,w·x为向量w和x的内积,Rn为n维连续向量空间。
CN201810373630.1A 2018-04-24 2018-04-24 一种基于多特征融合的钓鱼网站检测方法 Active CN108777674B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810373630.1A CN108777674B (zh) 2018-04-24 2018-04-24 一种基于多特征融合的钓鱼网站检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810373630.1A CN108777674B (zh) 2018-04-24 2018-04-24 一种基于多特征融合的钓鱼网站检测方法

Publications (2)

Publication Number Publication Date
CN108777674A CN108777674A (zh) 2018-11-09
CN108777674B true CN108777674B (zh) 2021-02-26

Family

ID=64026660

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810373630.1A Active CN108777674B (zh) 2018-04-24 2018-04-24 一种基于多特征融合的钓鱼网站检测方法

Country Status (1)

Country Link
CN (1) CN108777674B (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109558547A (zh) * 2018-11-20 2019-04-02 北京锐安科技有限公司 一种数据的过滤方法、装置、电子设备及存储介质
CN111669353A (zh) * 2019-03-08 2020-09-15 顺丰科技有限公司 钓鱼网站检测方法及系统
CN110266675B (zh) * 2019-06-12 2022-11-04 成都积微物联集团股份有限公司 一种基于深度学习的xss攻击自动化检测方法
CN110516710A (zh) * 2019-07-25 2019-11-29 湖南星汉数智科技有限公司 网页分类方法、装置、计算机装置及计算机可读存储介质
CN110825998A (zh) * 2019-08-09 2020-02-21 国家计算机网络与信息安全管理中心 一种网站识别方法及可读存储介质
CN110619363A (zh) * 2019-09-17 2019-12-27 陕西优百信息技术有限公司 物料数据长描述对应小类名称分类方法
CN110912910A (zh) * 2019-11-29 2020-03-24 北京工业大学 一种dns网络数据过滤方法及装置
CN111181922A (zh) * 2019-12-06 2020-05-19 北京中睿天下信息技术有限公司 一种钓鱼链接检测方法及系统
CN111245820A (zh) * 2020-01-08 2020-06-05 北京工业大学 基于深度学习的钓鱼网站检测方法
CN111754338B (zh) * 2020-06-30 2024-02-23 上海观安信息技术股份有限公司 一种套路贷网站团伙识别方法及系统
CN112468501B (zh) * 2020-11-27 2022-10-25 安徽大学 一种面向url的钓鱼网站检测方法
CN115601182A (zh) * 2021-07-09 2023-01-13 杨光(Cn) 一种基于改进型XGBoost类方法的数据分析方法、定价方法以及相关设备
CN114978624B (zh) * 2022-05-09 2023-11-03 深圳大学 钓鱼网页检测方法、装置、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102004764A (zh) * 2010-11-04 2011-04-06 中国科学院计算机网络信息中心 互联网不良信息检测方法以及系统
CN103544436A (zh) * 2013-10-12 2014-01-29 深圳先进技术研究院 一种钓鱼网站鉴别系统和方法
CN106296422A (zh) * 2016-07-29 2017-01-04 重庆邮电大学 一种融合多算法的社交网络垃圾用户检测方法
CN107360200A (zh) * 2017-09-20 2017-11-17 广东工业大学 一种基于分类信心和网站特征的钓鱼检测方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102004764A (zh) * 2010-11-04 2011-04-06 中国科学院计算机网络信息中心 互联网不良信息检测方法以及系统
CN103544436A (zh) * 2013-10-12 2014-01-29 深圳先进技术研究院 一种钓鱼网站鉴别系统和方法
CN106296422A (zh) * 2016-07-29 2017-01-04 重庆邮电大学 一种融合多算法的社交网络垃圾用户检测方法
CN107360200A (zh) * 2017-09-20 2017-11-17 广东工业大学 一种基于分类信心和网站特征的钓鱼检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Phishing Website Detection Using Latent Dirichlet Allocation and AdaBoost;Venkatesh Ramanathan等;《2012 IEEE International Conference on Intelligence and Security Informatics》;20120614;第2802页第3节 *
Systematization of Knowledge (SoK): A Systematic Review of Software-Based Web Phishing Detection;zuochao dou等;《IEEE Communications Surveys & Tutorials ( Volume: 19 , Issue: 4 , Fourthquarter 2017 )》;20170913;103页第2节-104页第4节 *

Also Published As

Publication number Publication date
CN108777674A (zh) 2018-11-09

Similar Documents

Publication Publication Date Title
CN108777674B (zh) 一种基于多特征融合的钓鱼网站检测方法
Wang et al. PDRCNN: Precise phishing detection with recurrent convolutional neural networks
CN106599022B (zh) 基于用户访问数据的用户画像形成方法
Ebrahimi et al. Semi-supervised cyber threat identification in dark net markets: A transductive and deep learning approach
CN108737423B (zh) 基于网页关键内容相似性分析的钓鱼网站发现方法及系统
Mao et al. Detecting phishing websites via aggregation analysis of page layouts
Zhang et al. Boosting the phishing detection performance by semantic analysis
CN104899508B (zh) 一种多阶段钓鱼网站检测方法与系统
CN108038173B (zh) 一种网页分类方法、系统及一种网页分类设备
Bannur et al. Judging a site by its content: learning the textual, structural, and visual features of malicious web pages
CN104077396A (zh) 一种钓鱼网站检测方法及装置
CN108134784A (zh) 网页分类方法及装置、存储介质及电子设备
Haruta et al. Visual similarity-based phishing detection scheme using image and CSS with target website finder
Liu et al. An efficient multistage phishing website detection model based on the CASE feature framework: Aiming at the real web environment
Chiew et al. Building standard offline anti-phishing dataset for benchmarking
Hirlekar et al. Natural language processing based online fake news detection challenges–A detailed review
Yang et al. Scalable detection of promotional website defacements in black hat {SEO} campaigns
Liu et al. Multi-scale semantic deep fusion models for phishing website detection
Gopal et al. Machine learning based classification of online news data for disaster management
Zhu et al. CCBLA: a lightweight phishing detection model based on CNN, BiLSTM, and attention mechanism
Kar et al. Are fake images bothering you on social network? Let us detect them using recurrent neural network
Opara et al. Look before You leap: Detecting phishing web pages by exploiting raw URL And HTML characteristics
Vishva et al. Phisher fighter: website phishing detection system based on url and term frequency-inverse document frequency values
Wu et al. Malicious website detection based on urls static features
Lippman et al. Toward finding malicious cyber discussions in social media

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant