CN115065518B - 一种基于异质图特征提取的钓鱼网站检测方法及系统 - Google Patents

一种基于异质图特征提取的钓鱼网站检测方法及系统 Download PDF

Info

Publication number
CN115065518B
CN115065518B CN202210647426.0A CN202210647426A CN115065518B CN 115065518 B CN115065518 B CN 115065518B CN 202210647426 A CN202210647426 A CN 202210647426A CN 115065518 B CN115065518 B CN 115065518B
Authority
CN
China
Prior art keywords
url
node
path
meta
aggregation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210647426.0A
Other languages
English (en)
Other versions
CN115065518A (zh
Inventor
金舒原
黄依婷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
Original Assignee
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University filed Critical Sun Yat Sen University
Priority to CN202210647426.0A priority Critical patent/CN115065518B/zh
Publication of CN115065518A publication Critical patent/CN115065518A/zh
Application granted granted Critical
Publication of CN115065518B publication Critical patent/CN115065518B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/02Network architectures or network communication protocols for network security for separating internal from external traffic, e.g. firewalls
    • H04L63/0227Filtering policies
    • H04L63/0236Filtering by address, protocol, port number or service, e.g. IP-address or URL
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/10Network architectures or network communication protocols for network security for controlling access to devices or network resources
    • H04L63/101Access control lists [ACL]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1416Event detection, e.g. attack signature detection
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明涉及网络安全技术领域,提出一种基于异质图特征提取的钓鱼网站检测方法及系统,包括以下步骤:获取用于钓鱼网站检测的黑白名单数据,并对黑白名单数据进行预处理;对所述黑白名单数据进行特征提取,得到独立特征;以URL、alink和IP作为节点,根据URL与外部链接alink之间的连接关系,以及URL与解析IP之间的连接关系作为相应节点之间的无向边,构建得到异质图;对于任一URL节点,从所述异质图中提取元路径,将元路径下该URL节点及与其相连的节点的独立特征进行信息聚合,得到该URL节点的最终特征;将URL节点的最终特征输入预设的分类器中进行监督学习,分类器输出该URL节点的钓鱼网站检测结果。

Description

一种基于异质图特征提取的钓鱼网站检测方法及系统
技术领域
本发明涉及网络安全技术领域,更具体地,涉及一种基于异质图特征提取的钓鱼网站检测方法及系统。
背景技术
网络钓鱼是一种非常常见和危险的攻击活动,攻击者通过构建钓鱼网站欺骗用户,窃取敏感信息,如银行账号、网站用户名和密码等,这造成了严重的网络安全问题。目前,钓鱼网站的检测方法主要可以分为三类:基于黑白名单列表的检测方法、基于机器学习的检测方法和基于深度学习的检测方法。
其中,基于黑白名单列表的检测方法是最早应用到钓鱼网页检测的方法之一,其基本思路是将已知的钓鱼(正常)网页信息存储于黑(白)名单库,将需检测网页信息与黑(白)名单库进行逐一对比,如若需检测网页信息在黑(白)名单库中,则可正确将其判别为钓鱼(正常)网页。其中,黑(白)名单信息库主要存储的是网页的URL、IP地址以及域名信息等。
基于机器学习的检测方法通常是将钓鱼网页检测作为分类或聚类问题。基本思路是,提取需检测网页的相关特征信息,然后采用相应的机器学习算法构建钓鱼网页检测模型。Zhang等人提出了一种基于TF-IDF算法的Cantina网络钓鱼检测模型。通过从网站内容中提取27个特征,该模型可以检测多种网络钓鱼攻击。然而,低性能(时间成本高和检测精度低)使得该模型无法用于实际问题。Cantina+是Cantina模型的改进版本,增加了10多个特征,并用SVM替换了TF-IDF极大地提高了检测的准确性。而聚类方法不需要训练样本,可直接对数据构建模型。聚类方法首先利用算法将网页数据集划分为若干簇,然后给所有簇进行标记,以此找到钓鱼网页和正常网页之间的区别。分类方法则对有标签数据集样本进行训练学习,并构建出分类器模型,从而可以对待检测网页类别进行预测。
基于深度学习的检测方法是基于神经网络构建的,该神经网络可以通过逐步学习来发现复杂数据中的隐藏信息。虽然深度学习比传统的机器学习方法需要更重要的数据集和更长的训练时间,但它可以在没有先验知识的情况下自动从原始数据中提取特征。
在现有的钓鱼检测方法中,基于黑白名单列表的方法高度依赖黑(白)名单库的及时更新,易造成漏判现象,无法保证实时性。基于机器学习和深度学习的方法往往将注意力放在钓鱼网站的url、页面内容等的特征提取上,它将每个钓鱼网站视作一个独立的对象,忽略钓鱼网站之间存在的直接或间接的关系。随着钓鱼检测技术的发展,钓鱼攻击者也随之调整了钓鱼攻击策略以避开现有的钓鱼检测,如利用各种隐身技术等。
发明内容
本发明为克服上述现有的钓鱼检测方法中,忽略了钓鱼网站之间存在的直接或间接的关系,导致检测准确率低的缺陷,提供一种基于异质图特征提取的钓鱼网站检测方法及系统。
为解决上述技术问题,本发明的技术方案如下:
一种基于异质图特征提取的钓鱼网站检测方法,包括以下步骤:
S1、获取用于钓鱼网站检测的黑白名单数据,并对黑白名单数据进行预处理;所述黑白名单数据中包括钓鱼网站和正常网站的URL网址、页面源码和解析IP,其中页面源码中包括外部链接alink;
S2、以网站作为独立对象,对所述黑白名单数据进行特征提取,得到独立特征;
S3、以URL、alink和IP作为节点,根据URL与其相应的外部链接alink之间的连接关系,以及URL与其相应的解析IP之间的连接关系作为相应节点之间的无向边,构建得到异质图;
S4、对于任一URL节点,从所述异质图中提取其URL-alink-URL元路径和URL-IP-URL元路径,将两条元路径下该URL节点及与其相连的节点的独立特征进行信息聚合,得到该URL节点的最终特征;
S5、将URL节点的最终特征输入预设的分类器中进行监督学习,所述分类器输出该URL节点的钓鱼网站检测结果。
进一步地,本发明还提出一种基于异质图特征提取的钓鱼网站检测系统,应用上述基于异质图特征提取的钓鱼网站检测方法。其中包括:
数据采集模块,用于获取用于钓鱼网站检测的黑白名单数据,并对黑白名单数据进行预处理;
特征提取模块,用于以网站作为独立对象,对所述黑白名单数据进行特征提取,得到独立特征;
异质图构建模块,用于以URL、alink和IP作为节点,根据URL与其相应的外部链接alink之间的连接关系,以及URL与其相应的解析IP之间的连接关系作为相应节点之间的无向边,构建得到异质图;
信息聚合模块,用于对URL节点i,从所述异质图中提取其URL-alink-URL元路径和URL-IP-URL元路径,将两个元路径下该URL节点及与其相连的节点的独立特征进行信息聚合,得到URL节点i的最终特征;
检测模块,其中包括经过监督学习的分类器;所述检测模块用于根据输入的URL节点i的最终特征,输出该URL节点的钓鱼网站检测结果。
与现有技术相比,本发明技术方案的有益效果是:本发明同时考虑了网站的独立特征,以及网站与外部链接、ip关联对象之间的关联特征,采用了异质图特征提取的方法融合网站的独立特征及其相关的结构特征,借助图推理的特性对具备完备关联模式的钓鱼网站进行识别,能够有效提升钓鱼网站检测的准确率。
附图说明
图1为实施例1的基于异质图特征提取的钓鱼网站检测方法的流程图。
图2为实施例2的钓鱼网站检测方法的框架示意图。
图3为实施例2的URL节点独立特征信息聚合的流程图。
图4为实施例3的基于异质图特征提取的钓鱼网站检测系统的架构图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
实施例1
本实施例提出一种基于异质图特征提取的钓鱼网站检测方法,如图1所示,为本实施例的基于异质图特征提取的钓鱼网站检测方法的流程图。
本实施例提出的基于异质图特征提取的钓鱼网站检测方法中,包括以下步骤:
S1、获取用于钓鱼网站检测的黑白名单数据,并对黑白名单数据进行预处理;所述黑白名单数据中包括钓鱼网站和正常网站的URL网址、页面源码和解析IP,其中页面源码中包括外部链接alink。
S2、以网站作为独立对象,对所述黑白名单数据进行特征提取,得到独立特征。
S3、以URL、alink和IP作为节点,根据URL与其相应的外部链接alink之间的连接关系,以及URL与其相应的解析IP之间的连接关系作为相应节点之间的无向边,构建得到异质图。
S4、对于任一URL节点,从所述异质图中提取其URL-alink-URL元路径和URL-IP-URL元路径,将两条元路径下该URL节点及与其相连的节点的独立特征进行信息聚合,得到该URL节点的最终特征。
S5、将URL节点的最终特征输入预设的分类器中进行监督学习,所述分类器输出该URL节点的钓鱼网站检测结果。
本实施例中,首先应明确涉及异质图的相关概念和定义:
异质图:异质图的数学表示为G=(V,E),其中V代表节点集,E代表边集。异质图还与两个映射函数相关联,分别是节点类型映射函数φ:V→A和边类型映射函数ψ:E→R。E和R表示预定义的对象类型和边类型的集合。当对象类型|A|>1或边类型|R|>1时,就称之为异质图。
元路径:在异质图中,两个对象可以通过不同的语义路径连接起来,这称为元路径(Meta-path)。在异质图G的网络模式TG=(A,R)下,元路径表示一条通过连边将对象关联起来的路径,表示为
Figure BDA0003686541240000041
其中AL∈A,表示第L种类型的节点,RK∈R,表示第K种关系。元路径的复合关系定义为/>
Figure BDA0003686541240000042
其中,/>
Figure BDA0003686541240000043
为关系合成运算符。元路径可以通过不同的语义关系连接两个对象,从而表示对象之间隐含的特征关系。
元路径邻居:指的是通过某一种元路径模式与目标节点相连的节点集。
元路径提取:即提取基于元路径的图,基于元路径的图由原始异质图上基于某一种元路径模式的邻居节点对组成。实质上是在原始元路径的基础上将中间节点去掉,只留下首尾节点,同时在新路径上用连边将两端节点关联起来,通过在对象间建立起联系构成基于元路径的图。
在一具体实施过程中,利用phishtank、aleak、kaggle等数据收集网站收集用于检测的网站数据,数据内容包括url网址、页面源码、解析ip。其中,黑名单数据代表钓鱼网站相关数据,白名单数据则代表正常网站相关数据。
进一步地,本实施例中对黑白名单数据进行预处理的步骤包括:
(1)对所述黑白名单数据进行去重处理。
其中,以url去重标准清洗已收集的网站黑白名单数据。
(2)通过正则表达式提取URL网址对应的页面源码中所有<a>标签中的href内容,得到URL网址对应的外部链接alink。
其中,href内容视为该url网址对应的外部链接(简称外链)。
(3)保存所有URL网址与外部链接alink的对应关系;保存所有URL网址与其解析IP的对应关系。
(4)对所有URL网址按照黑白名单分类标注钓鱼URL标签或正常URL标签。
在另一可选实施例中,对所述黑白名单数据进行特征提取得到的独立特征包括基于URL字符的特征、基于网页内容的特征和基于第三方信息的特征。
其中,基于url字符的特征,是指通过url字符串、域名分析网站是否为钓鱼网站。基于网页内容的特征,是指通过正则表达式解析网页源码分析网站是否为钓鱼网站。基于第三方信息的特征,是指通过网站域名和流量排名的情况分析网站是否为钓鱼网站。
在一具体实施过程中,独立特征的具体特征内容及其特征值如下表1所示。
表1独立特征信息
Figure BDA0003686541240000051
/>
Figure BDA0003686541240000061
根据由URL、alink和IP作为节点构建的异质图,将表1所示的28个独立特征作为URL节点初始特征,对于任一URL节点,从所述异质图中提取其URL-alink-URL元路径和URL-IP-URL元路径,将两条元路径下该URL节点及与其相连的节点的独立特征进行信息聚合,得到该URL节点的最终特征,进一步通过分类器进行URL节点的钓鱼网站检测,分类器输出的标签即为该URL节点的钓鱼网站检测结果。
本实施例为解决钓鱼检测过程中容易造成漏判的问题和特征提取时未考虑钓鱼网站之间潜在关联特征的问题,同时考虑了网站的独立特征,以及网站与外部链接、ip关联对象的语义结构特征,采用了异质图特征提取的方法融合网站的独立特征及其相关的语义结构特征,可以借助图推理的特性对具备完备关联模式的钓鱼网站进行识别,和对新出现的钓鱼网站或关联模式不完备的钓鱼网站的检测,提升钓鱼网站检测的准确率。
实施例2
本实施例在实施例1提出的基于异质图特征提取的钓鱼网站检测方法的基础上作出改进。如图2所示,为本实施例的钓鱼网站检测方法的框架示意图。
本实施例提出的基于异质图特征提取的钓鱼网站检测方法中,包括以下步骤:
S1、获取用于钓鱼网站检测的黑白名单数据,并对黑白名单数据进行预处理;所述黑白名单数据中包括钓鱼网站和正常网站的URL网址、页面源码和解析IP,其中页面源码中包括外部链接alink。
本步骤中,对黑白名单数据进行预处理的步骤包括:
(1)对所述黑白名单数据进行去重处理。
(2)通过正则表达式提取URL网址对应的页面源码中所有<a>标签中的href内容,得到URL网址对应的外部链接alink。
(3)保存所有URL网址与外部链接alink的对应关系;保存所有URL网址与其解析IP的对应关系。
(4)对所有URL网址按照黑白名单分类标注钓鱼URL标签或正常URL标签。
进一步地,对经过预处理的黑白名单数据以9:1划分为训练集和测试集。
S2、以网站作为独立对象,对所述黑白名单数据进行特征提取,得到独立特征。
本实施例中,对所述黑白名单数据进行特征提取得到的独立特征包括基于URL字符的特征、基于网页内容的特征和基于第三方信息的特征。
其中,基于URL字符的特征包括:域名部分是否为IP地址、url的长度、url的深度、是否进行http重定向、是否包含@、“//”的位置、是否添加“-”、域名中“.”的数量、域名中是否存在“https”,和是否有Favicon网站图标。
所述基于网页内容的特征包括:<img>标签、<audio>标签、<embed>标签、<i_frame>标签的外链比例,<a>标签的外链比例,<Meta>标签、<Script>标签和<Link>标签外链比例,表单服务器处理状态,网站重定向次数,状态栏隐藏状态,是否禁用右键,是否使用弹窗,是否使用IFrame标记,DOM长度,和DOM深度。
基于第三方信息的特征包括:域名的注册时间、是否有DNS记录、网站排名、PageRank、是否谷歌索引、指向网页的链接数量和统计报表情况。
S3、以URL、alink和IP作为节点,根据URL与其相应的外部链接alink之间的连接关系,以及URL与其相应的解析IP之间的连接关系作为相应节点之间的无向边,构建得到异质图。
其中,在URL节点与相应的外部链接alink节点之间构造无向边,表示该URL网址与外部网站的连接关系;在URL节点与相应解析IP节点之间构造无向边,表示该URL网址与IP的解析关系。
S4、对于任一URL节点,从所述异质图中提取其URL-alink-URL元路径和URL-IP-URL元路径,将两条元路径下该URL节点及与其相连的节点的独立特征进行信息聚合,得到该URL节点的最终特征。
其具体步骤如下:
S4.1、对于任一URL节点i,从所述异质图中提取其URL-alink-URL元路径和URL-IP-URL元路径。
其中,“URL-IP-URL”元路径表达的语义是拥有相同IP的URL对,意味着两个不同的URL网址解析到一个相同的IP上,这两个URL存在一定程度的相似性;“URL-alink-URL”元路径表达的语义是拥有相同外部链接的URL对,意味着两个不同的URL网址都有相同的外链网站,这两个URL也存在一定程度的相似性。不同的元路径提供给URL网址节点不同的交互信息。
其中i=1,2,...,N,N为URL节点的总数量。
S4.2、基于节点级注意力机制分别对两个元路径下与URL节点i相连的节点进行独立特征聚合,得到第一聚合特征。
本步骤负责将元路径下相连节点进行信息聚合,以元路径“URL-IP-URL”为例,在此条元路径下,是关于URL节点的同质图表示,有关联关系的URL节点两两相连,每一个URL节点会和不同的邻居节点相连,需使用不同的权重加权求和对邻居信息进行聚合。
在一可选实施例中,如图3所示,基于节点级注意力机制分别对两个元路径下与URL节点i相连的节点进行独立特征聚合的步骤包括:
S4.2.1、计算URL节点i在URL-alink-URL元路径和URL-IP-URL元路径下相连的URL节点对(i,j)的重要性
Figure BDA0003686541240000091
其中/>
Figure BDA0003686541240000092
Figure BDA0003686541240000093
表示元路径Φr下与URL节点i相连的URL节点j的集合;其表达式如下:
Figure BDA0003686541240000094
式中,Φ12分别表示元路径URL-alink-URL和元路径URL-IP-URL;hi、hj分别表示URL节点i和URL节点j的独立特征;attnode(·)表示基于节点级注意力机制的深度神经网络。
其中,基于节点级注意力机制的深度神经网络的表达式如下:
Figure BDA0003686541240000095
其中,σ(·)表示激活函数;||表示连接操作;
Figure BDA0003686541240000096
表示元路径的节点级注意向量;其中,/>
Figure BDA0003686541240000097
是该神经网络中可学习的参数。
S4.2.2、对于URL节点对(i,j),根据其重要性
Figure BDA0003686541240000098
计算归一化权重,基于softmax函数将权重值映射到(0,1)区间,得到URL节点j的权重系数/>
Figure BDA0003686541240000099
其表达式如下:
Figure BDA00036865412400000910
式中,
Figure BDA00036865412400000911
表示元路径Φr下URL节点j对URL节点i的重要性权重;σ(·)表示激活函数,||表示连接操作;/>
Figure BDA00036865412400000912
表示元路径Φr的节点级注意向量。
S4.2.3、通过聚合所有URL节点j的独立特征和相应的权重系数,得到元路径Φr下URL节点i的特征表示并作为第一聚合特征;其表达式如下:
Figure BDA00036865412400000913
S4.2.4、根据S4.2.1~S4.2.3步骤遍历元路径Φr下所有URL节点,得到元路径URL-alink-URL和元路径URL-IP-URL下所有URL节点的特征表示
Figure BDA00036865412400000914
和/>
Figure BDA00036865412400000915
/>
S4.3、基于语义级注意力机制将两个元路径的第一聚合特征进行融合,得到第二聚合特征并作为URL节点i的最终特征。
本步骤将不同元路径表达的语义信息进行融合,对于不同的元路径,应赋予不同的权重。
进一步地,基于语义级注意力机制将两个元路径的第一聚合特征进行融合的步骤包括:
S4.3.1、将URL-alink-URL元路径和URL-IP-URL元路径下的特征表示集合
Figure BDA0003686541240000101
Figure BDA0003686541240000102
输入基于语义级注意力机制的深度神经网络中,得到元路径权重/>
Figure BDA0003686541240000103
其表达式如下:
Figure BDA0003686541240000104
式中,
Figure BDA0003686541240000105
分别表示URL-alink-URL元路径和URL-IP-URL元路径的权重;attsem(·)表示基于语义级注意力机制的深度神经网络。
S4.3.2、以元路径权重
Figure BDA0003686541240000106
作为权重系数,将URL-alink-URL元路径和URL-IP-URL元路径的各URL节点的第一聚合特征进行融合,得到相应URL节点i的最终特征表示并作为第二聚合特征Zi;其表达式如下:
Figure BDA0003686541240000107
S5、将URL节点的最终特征输入预设的分类器中进行监督学习,所述分类器输出该URL节点的钓鱼网站检测结果。
本步骤中,将训练集对应的最终特征输入预设的分类器中进行监督学习,在模型训练收敛后,利用测试集评估模型的分类能力。
在一可选实施例中,将URL节点的最终特征输入预设的分类器中进行监督学习的步骤包括:将URL节点i的最终特征Zi输入预设的分类器中,利用交叉熵计算损失,并使用Adam优化器进行优化,直至分类器参数收敛或迭代至预设的迭代条件,完成分类器的训练。其表达式如下:
pi=σ(W·Zi+b)
Figure BDA0003686541240000108
式中,W为权重矩阵,b为偏差向量,σ(·)表示sigmoid非线性激活函数;pi表示URL节点i的预测概率;YL表示标注样本集;yi表示URL节点i的真实标签,其中钓鱼URL节点的标签为1,正常URL节点的标签为0;L表示损失函数。
在另一可选实施例中,还可以对检测网站的预测结果设置阈值,用于检测出该网站是否是钓鱼网站,然后将检测出的钓鱼网站可以通过人工方式进行深入挖掘以验证检测的正确性。
实施例3
本实施例提出一种基于异质图特征提取的钓鱼网站检测系统,应用实施例1或实施例2提出的基于异质图特征提取的钓鱼网站检测方法。如图4所示,为本实施例的基于异质图特征提取的钓鱼网站检测系统的架构图。
本实施例提出的基于异质图特征提取的钓鱼网站检测系统中,包括数据采集模块100、特征提取模块200、异质图构建模块300、信息聚合模块400和检测模块500。
其中,数据采集模块100用于获取用于钓鱼网站检测的黑白名单数据,并对黑白名单数据进行预处理。数据采集模块100的输出端与特征提取模块200的输入端连接。
在一具体实施过程中,数据采集模块100对黑白名单数据进行预处理时,执行以下步骤:
(1)对所述黑白名单数据进行去重处理。
其中,以url去重标准清洗已收集的网站黑白名单数据。
(2)通过正则表达式提取URL网址对应的页面源码中所有<a>标签中的href内容,得到URL网址对应的外部链接alink。
其中,href内容视为该url网址对应的外部链接(简称外链)。
(3)保存所有URL网址与外部链接alink的对应关系;保存所有URL网址与其解析IP的对应关系。
(4)对所有URL网址按照黑白名单分类标注钓鱼URL标签或正常URL标签。
特征提取模块200用于以网站作为独立对象,对所述黑白名单数据进行特征提取,得到独立特征。特征提取模块200的输出端分别与异质图构建模块300和信息聚合模块400的输入端连接。
本实施例中,特征提取模块200所提取的独立特征包括基于URL字符的特征、基于网页内容的特征和基于第三方信息的特征。
其中,所述基于URL字符的特征包括:域名部分是否为IP地址、url的长度、url的深度、是否进行http重定向、是否包含@、“//”的位置、是否添加“-”、域名中“.”的数量、域名中是否存在“https”,和是否有Favicon网站图标。
所述基于网页内容的特征包括:<img>标签、<audio>标签、<embed>标签、<i_frame>标签的外链比例,<a>标签的外链比例,<Meta>标签、<Script>标签和<Link>标签外链比例,表单服务器处理状态,网站重定向次数,状态栏隐藏状态,是否禁用右键,是否使用弹窗,是否使用IFrame标记,DOM长度,和DOM深度。
基于第三方信息的特征包括:域名的注册时间、是否有DNS记录、网站排名、PageRank、是否谷歌索引、指向网页的链接数量和统计报表情况。
异质图构建模块300用于以URL、alink和IP作为节点,根据URL与其相应的外部链接alink之间的连接关系,以及URL与其相应的解析IP之间的连接关系作为相应节点之间的无向边,构建得到异质图。异质图构建模块300的输出端与信息聚合模块400的输入端连接。
信息聚合模块400用于对URL节点i,从所述异质图中提取URL-alink-URL元路径和URL-IP-URL元路径,将两条元路径下该URL节点及与其相连的节点的独立特征进行信息聚合,得到URL节点i的最终特征。信息聚合模块400的输出端与检测模块500的输入端连接。
在一可选实施例中,所述信息聚合模块400中包括元路径提取单元410、基于节点级注意力机制的第一聚合单元420和基于语义级注意力机制的第二聚合单元430。
其中,元路径提取单元410用于从所述异质图中提取URL节点i所在的URL-alink-URL元路径和URL-IP-URL元路径。基于节点级注意力机制的第一聚合单元420用于基于节点级注意力机制分别对两个元路径下与URL节点i相连的节点进行独立特征聚合,得到第一聚合特征。基于语义级注意力机制的第二聚合单元430用于基于语义级注意力机制将两个元路径的第一聚合特征进行融合,得到第二聚合特征并作为URL节点i的最终特征输出。
在一具体实施过程中,元路径提取单元410将其提取的URL节点i所在的URL-alink-URL元路径和URL-IP-URL元路径发送至第一聚合单元420中。
第一聚合单元420计算URL节点i在URL-alink-URL元路径和URL-IP-URL元路径下相连的URL节点对(i,j)的重要性,得到URL节点j的权重系数,然后通过聚合所有URL节点j的独立特征和相应的权重系数,得到元路径Φr下URL节点i的特征表示并作为第一聚合特征。第一聚合单元420对URL-alink-URL元路径和URL-IP-URL元路径下所有URL节点进行遍历,得到元路径下所有URL节点的特征表示。最后,第一聚合单元420将其得到的第一聚合特征发送至第二聚合单元中。
第二聚合单元将URL-alink-URL元路径和URL-IP-URL元路径下的特征表示集合输入基于语义级注意力机制的深度神经网络中,得到元路径权重,然后以元路径权重作为权重系数,将URL-alink-URL元路径和URL-IP-URL元路径的各URL节点的第一聚合特征进行融合,得到相应URL节点i的最终特征表示并作为第二聚合特征进行输出。第二聚合单元将其得到的第二聚合特征发送至检测模块500中。
检测模块500,其中包括经过监督学习的分类器510。所述检测模块500用于根据输入的URL节点i的最终特征,输出该URL节点的钓鱼网站检测结果。
在一可选实施例中,检测模块500将信息聚合模块400输出的训练集数据对应的第二聚合特征输入至分类器510中,利用交叉熵计算损失,并使用Adam优化器进行优化,直至分类器510参数收敛或迭代至预设的迭代条件,完成分类器510的训练。
相同或相似的标号对应相同或相似的部件;
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (9)

1.一种基于异质图特征提取的钓鱼网站检测方法,其特征在于,包括以下步骤:
S1、获取用于钓鱼网站检测的黑白名单数据,并对黑白名单数据进行预处理;所述黑白名单数据中包括钓鱼网站和正常网站的URL网址、页面源码和解析IP,其中页面源码中包括外部链接alink;
S2、以网站作为独立对象,对所述黑白名单数据进行特征提取,得到独立特征;
S3、以URL、alink和IP作为节点,根据URL与其相应的外部链接alink之间的连接关系,以及URL与其相应的解析IP之间的连接关系作为相应节点之间的无向边,构建得到异质图;
S4、对于任一URL节点,从所述异质图中提取其URL-alink-URL元路径和URL-IP-URL元路径,将两条元路径下该URL节点及与其相连的节点的独立特征进行信息聚合,得到该URL节点的最终特征;其中,将不同元路径下该URL节点及与其相连的节点的独立特征进行信息聚合的步骤包括:
S4.1、对于任一URL节点i,从所述异质图中提取其URL-alink-URL元路径和URL-IP-URL元路径;其中i=1,2,...,N,N为URL节点的总数量;
S4.2、基于节点级注意力机制分别对两条元路径下与URL节点i相连的节点进行独立特征聚合,得到第一聚合特征;
S4.3、基于语义级注意力机制将两个元路径的第一聚合特征进行融合,得到第二聚合特征并作为URL节点i的最终特征;
S5、将URL节点的最终特征输入预设的分类器中进行监督学习,所述分类器输出该URL节点的钓鱼网站检测结果。
2.根据权利要求1所述的基于异质图特征提取的钓鱼网站检测方法,其特征在于,所述S1步骤中,对黑白名单数据进行预处理的步骤包括:
对所述黑白名单数据进行去重处理;
通过正则表达式提取URL网址对应的页面源码中所有<a>标签中的href内容,得到URL网址对应的外部链接alink;
保存所有URL网址与外部链接alink的对应关系;保存所有URL网址与其解析IP的对应关系;
对所有URL网址按照黑白名单分类标注钓鱼URL标签或正常URL标签。
3.根据权利要求1所述的基于异质图特征提取的钓鱼网站检测方法,其特征在于,对所述黑白名单数据进行特征提取得到的独立特征包括基于URL字符的特征、基于网页内容的特征和基于第三方信息的特征,其中:
所述基于URL字符的特征包括:域名部分是否为IP地址、url的长度、url的深度、是否进行http重定向、是否包含@、“//”的位置、是否添加“-”、域名中“.”的数量、域名中是否存在“https”,和是否有Favicon网站图标;
所述基于网页内容的特征包括:<img>标签、<audio>标签、<embed>标签、<i_frame>标签的外链比例,<a>标签的外链比例,<Meta>标签、<Script>标签和<Link>标签外链比例,表单服务器处理状态,网站重定向次数,状态栏隐藏状态,是否禁用右键,是否使用弹窗,是否使用IFrame标记,DOM长度,和DOM深度;
基于第三方信息的特征包括:域名的注册时间、是否有DNS记录、网站排名、PageRank、是否谷歌索引、指向网页的链接数量和统计报表情况。
4.根据权利要求1所述的基于异质图特征提取的钓鱼网站检测方法,其特征在于,所述S4.2步骤中,基于节点级注意力机制分别对两个元路径下与URL节点i相连的节点进行独立特征聚合的步骤包括:
S4.2.1、计算URL节点i在URL-alink-URL元路径和URL-IP-URL元路径下相连的URL节点对(i,j)的重要性
Figure FDA0004162428870000021
其中/>
Figure FDA0004162428870000022
表示元路径Φr下与URL节点i相连的URL节点j的集合;其表达式如下:
Figure FDA0004162428870000023
式中,Φ12分别表示元路径URL-alink-URL和元路径URL-IP-URL;hi、hj分别表示URL节点i和URL节点j的独立特征;attnode(·)表示基于节点级注意力机制的深度神经网络;
S4.2.2、对于URL节点对(i,j),根据其重要性
Figure FDA0004162428870000024
计算归一化权重,基于softmax函数将权重值映射到(0,1)区间,得到URL节点j的权重系数/>
Figure FDA0004162428870000025
其表达式如下:
Figure FDA0004162428870000026
式中,
Figure FDA0004162428870000031
表示元路径Φr下URL节点j对URL节点i的重要性权重;σ(·)表示激活函数;||表示连接操作;/>
Figure FDA0004162428870000032
表示元路径Φr的节点级注意向量;
S4.2.3、通过聚合所有URL节点j的独立特征和相应的权重系数,得到元路径Φr下URL节点i的特征表示并作为第一聚合特征;其表达式如下:
Figure FDA0004162428870000033
S4.2.4、根据S4.2.1~S4.2.3步骤遍历元路径Φr下所有URL节点,得到元路径Φr下所有URL节点的特征表示
Figure FDA0004162428870000034
和/>
Figure FDA0004162428870000035
5.根据权利要求4所述的基于异质图特征提取的钓鱼网站检测方法,其特征在于,所述S4.3步骤中,基于语义级注意力机制将两个元路径的第一聚合特征进行融合的步骤包括:
S4.3.1、将URL-alink-URL元路径和URL-IP-URL元路径下的特征表示集合
Figure FDA0004162428870000036
和ZΦ2输入基于语义级注意力机制的深度神经网络中,得到元路径权重/>
Figure FDA0004162428870000037
其表达式如下:
Figure FDA0004162428870000038
式中,
Figure FDA0004162428870000039
分别表示URL-alink-URL元路径和URL-IP-URL元路径的权重;attsem(·)表示基于语义级注意力机制的深度神经网络;
S4.3.2、以元路径权重
Figure FDA00041624288700000310
作为权重系数,将URL-alink-URL元路径和URL-IP-URL元路径的各URL节点的第一聚合特征进行融合,得到相应URL节点i的最终特征表示并作为第二聚合特征Zi;其表达式如下:
Figure FDA00041624288700000311
6.根据权利要求5所述的基于异质图特征提取的钓鱼网站检测方法,其特征在于,所述S4.3.1步骤中,其具体步骤如下:
将URL-alink-URL元路径和URL-IP-URL元路径下的特征表示集合
Figure FDA00041624288700000312
和ZΦ2输入基于语义级注意力机制的深度神经网络中;
所述基于语义级注意力机制的深度神经网络对第一聚合特征进行非线性转换;
对任一非线性转换后的第一聚合特征计算其与元路径注意力向量q的相似度,对相似度取平均后得到每个元路径的重要性权重
Figure FDA00041624288700000313
其表达式如下:
Figure FDA0004162428870000041
式中,l∈Nr,Nr表示元路径Φr下URL节点的序号集合,则
Figure FDA0004162428870000042
表示元路径Φr下URL节点l,|Nr|表示元路径Φr下URL节点的总数量;b为偏差向量,W为权重矩阵;其中,q和W是基于语义级注意力机制的深度神经网络中的可学习参数;
将每个元路径的重要性权重
Figure FDA0004162428870000043
通过softmax函数进行归一化,将权重值映射到(0,1)区间,得到元路径权重/>
Figure FDA0004162428870000044
7.根据权利要求5所述的基于异质图特征提取的钓鱼网站检测方法,其特征在于,所述S5步骤中,将URL节点的最终特征输入预设的分类器中进行监督学习的步骤包括:将URL节点i的最终特征Zi输入预设的分类器中,利用交叉熵计算损失,并使用Adam优化器进行优化,直至分类器参数收敛或迭代至预设的迭代条件,完成分类器的训练。
8.一种基于异质图特征提取的钓鱼网站检测系统,应用于权利要求1~7任一项所述的基于异质图特征提取的钓鱼网站检测方法,其特征在于,包括:
数据采集模块,用于获取用于钓鱼网站检测的黑白名单数据,并对黑白名单数据进行预处理;
特征提取模块,用于以网站作为独立对象,对所述黑白名单数据进行特征提取,得到独立特征;
异质图构建模块,用于以URL、alink和IP作为节点,根据URL与其相应的外部链接alink之间的连接关系,以及URL与其相应的解析IP之间的连接关系作为相应节点之间的无向边,构建得到异质图;
信息聚合模块,用于对URL节点i,从所述异质图中提取其URL-alink-URL元路径和URL-IP-URL元路径,将两条元路径下该URL节点及与其相连的节点的独立特征进行信息聚合,得到URL节点i的最终特征;
检测模块,其中包括经过监督学习的分类器;所述检测模块用于根据输入的URL节点i的最终特征,输出该URL节点的钓鱼网站检测结果。
9.根据权利要求8所述的基于异质图特征提取的钓鱼网站检测系统,其特征在于,所述信息聚合模块包括:
元路径提取单元,用于从所述异质图中提取URL节点i所在的URL-alink-URL元路径和URL-IP-URL元路径;
基于节点级注意力机制的第一聚合单元,用于基于节点级注意力机制分别对两个元路径下与URL节点i相连的节点进行独立特征聚合,得到第一聚合特征;
基于语义级注意力机制的第二聚合单元,用于基于语义级注意力机制将两个元路径的第一聚合特征进行融合,得到第二聚合特征并作为URL节点i的最终特征输出。
CN202210647426.0A 2022-06-09 2022-06-09 一种基于异质图特征提取的钓鱼网站检测方法及系统 Active CN115065518B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210647426.0A CN115065518B (zh) 2022-06-09 2022-06-09 一种基于异质图特征提取的钓鱼网站检测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210647426.0A CN115065518B (zh) 2022-06-09 2022-06-09 一种基于异质图特征提取的钓鱼网站检测方法及系统

Publications (2)

Publication Number Publication Date
CN115065518A CN115065518A (zh) 2022-09-16
CN115065518B true CN115065518B (zh) 2023-06-06

Family

ID=83199817

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210647426.0A Active CN115065518B (zh) 2022-06-09 2022-06-09 一种基于异质图特征提取的钓鱼网站检测方法及系统

Country Status (1)

Country Link
CN (1) CN115065518B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103544436A (zh) * 2013-10-12 2014-01-29 深圳先进技术研究院 一种钓鱼网站鉴别系统和方法
CN104217160A (zh) * 2014-09-19 2014-12-17 中国科学院深圳先进技术研究院 一种中文钓鱼网站检测方法及系统
CN104933178A (zh) * 2015-07-01 2015-09-23 北京奇虎科技有限公司 官方网站确定方法及系统
CN106789888A (zh) * 2016-11-18 2017-05-31 重庆邮电大学 一种多特征融合的钓鱼网页检测方法
CN109510815A (zh) * 2018-10-19 2019-03-22 杭州安恒信息技术股份有限公司 一种基于有监督学习的多级钓鱼网站检测方法及检测系统
CN111107048A (zh) * 2018-10-29 2020-05-05 中移(苏州)软件技术有限公司 一种钓鱼网站检测方法、装置和存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103544436A (zh) * 2013-10-12 2014-01-29 深圳先进技术研究院 一种钓鱼网站鉴别系统和方法
CN104217160A (zh) * 2014-09-19 2014-12-17 中国科学院深圳先进技术研究院 一种中文钓鱼网站检测方法及系统
CN104933178A (zh) * 2015-07-01 2015-09-23 北京奇虎科技有限公司 官方网站确定方法及系统
CN106789888A (zh) * 2016-11-18 2017-05-31 重庆邮电大学 一种多特征融合的钓鱼网页检测方法
CN109510815A (zh) * 2018-10-19 2019-03-22 杭州安恒信息技术股份有限公司 一种基于有监督学习的多级钓鱼网站检测方法及检测系统
CN111107048A (zh) * 2018-10-29 2020-05-05 中移(苏州)软件技术有限公司 一种钓鱼网站检测方法、装置和存储介质

Also Published As

Publication number Publication date
CN115065518A (zh) 2022-09-16

Similar Documents

Publication Publication Date Title
CN108965245B (zh) 基于自适应异构多分类模型的钓鱼网站检测方法和系统
CN112910929B (zh) 基于异质图表示学习的恶意域名检测方法及装置
CN103559235B (zh) 一种在线社交网络恶意网页检测识别方法
US11212297B2 (en) Access classification device, access classification method, and recording medium
US20170026390A1 (en) Identifying Malware Communications with DGA Generated Domains by Discriminative Learning
CN110912889B (zh) 一种基于智能化威胁情报的网络攻击检测系统和方法
CN108737423A (zh) 基于网页关键内容相似性分析的钓鱼网站发现方法及系统
CN112491917B (zh) 一种物联网设备未知漏洞识别方法及装置
CN115086004B (zh) 一种基于异质图的安全事件识别方法及系统
CN112989348B (zh) 攻击检测方法、模型训练方法、装置、服务器及存储介质
CN112884204B (zh) 网络安全风险事件预测方法及装置
CN110572359A (zh) 基于机器学习的钓鱼网页检测方法
WO2014029318A1 (en) Method and apparatus for identifying webpage type
CN114915468B (zh) 基于知识图谱的网络犯罪智能分析检测方法
CN109547294B (zh) 一种基于固件分析的联网设备型号探测方法、装置
CN111291078B (zh) 一种域名匹配检测方法及装置
CN115065518B (zh) 一种基于异质图特征提取的钓鱼网站检测方法及系统
CN112231700B (zh) 行为识别方法和装置、存储介质及电子设备
CN114372267A (zh) 一种基于静态域的恶意网页识别检测方法、计算机及存储介质
Wan et al. Generation of malicious webpage samples based on GAN
CN117201194B (zh) 一种基于字符串相似性计算的url分类方法、装置及系统
Do Xuan et al. An adaptive anomaly request detection framework based on dynamic web application profiles.
CN112511525B (zh) 一种网站恶意第三方内容检测方法及系统
US20240121267A1 (en) Inline malicious url detection with hierarchical structure patterns
CN115374334B (zh) 基于机器学习的网页采集页面的正文页采集方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant