CN113098874B - 一种基于url字符串随机率特征提取的钓鱼网站检测方法 - Google Patents
一种基于url字符串随机率特征提取的钓鱼网站检测方法 Download PDFInfo
- Publication number
- CN113098874B CN113098874B CN202110359991.2A CN202110359991A CN113098874B CN 113098874 B CN113098874 B CN 113098874B CN 202110359991 A CN202110359991 A CN 202110359991A CN 113098874 B CN113098874 B CN 113098874B
- Authority
- CN
- China
- Prior art keywords
- url
- random
- character string
- data set
- website
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 23
- 238000000605 extraction Methods 0.000 title claims abstract description 14
- 238000003066 decision tree Methods 0.000 claims abstract description 14
- 238000013145 classification model Methods 0.000 claims abstract description 4
- 239000013598 vector Substances 0.000 claims description 15
- 238000000034 method Methods 0.000 claims description 11
- 238000012549 training Methods 0.000 claims description 8
- 238000012545 processing Methods 0.000 claims description 5
- 230000006399 behavior Effects 0.000 claims description 4
- 230000001174 ascending effect Effects 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 2
- 238000003491 array Methods 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 6
- 238000010801 machine learning Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000009826 distribution Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000005192 partition Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000000746 purification Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1441—Countermeasures against malicious traffic
- H04L63/1483—Countermeasures against malicious traffic service impersonation, e.g. phishing, pharming or web spoofing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
- G06F16/90344—Query processing by using string matching techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
- H04L63/1416—Event detection, e.g. attack signature detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computer Security & Cryptography (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Hardware Design (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开一种基于URL字符串随机率特征提取的钓鱼网站检测方法,本发明通过字符串随机率将正确的英文单词和正确的汉语全拼定义为标准字符串,而标准字符串之外的字符串则赋予值为[0,1]区间的不同程度的随机率;在字符串的随机率的基础上,通过最佳的标准相邻列表将字符串的随机率与标准相邻列表相结合,提出6个新的URL特征。并通过建立决策树分类模型的方式实现对钓鱼网站的检测。本发明仅通过URL进行钓鱼网站的检测,具备时间开销小、检测准确性高的特点。
Description
技术领域
本发明属于计算机信息安全技术领域,具体涉及一种基于URL字符串随机率特征提取的钓鱼网站检测方法。
背景技术
信息技术的发展使得互联网已经渗透于人们的工作及日常生活。净化网络环境、增强网络用户数据的安全性一直是学术与工业界关注与研究的热点。网络钓鱼(Phishing)是一种典型的网络欺诈行为。钓鱼攻击者通过社交网络、即时通讯软件等途径将用户诱骗到一个钓鱼者精心设计的网站,并让用户误以为自己访问的是一个信誉良好的合法网站,进而达到发动网络攻击、获取用户隐私数据等目的。
针对网络钓鱼攻击的检测和拦截,国内外研究学者已经提出了多种有效方法。当前,被广泛使用的钓鱼检测技术包括黑名单检测技术、基于视觉相似性的检测技术、基于机器学习的检测技术等。在这些技术当中,由于准确率与效率较高、易于部署在不同目标平台等特点,基于机器学习的网络钓鱼检测技术正被学术与工业界广泛地研究和使用。
在基于机器学习的网络钓鱼检测方法中,URL的特征选取对于降低底层分类器的训练复杂度与提高网络钓鱼检测的效率具有重要的影响。
事实上,获取诸如域名年龄、域名到期时间等域名相关的传统特征,需要用到第三方工具,进而会影响网络钓鱼的检测时间。而获取诸如URL长度、URL中是否包含IP地址、是否包含特殊符号等地址相关类的特征,不需要用到第三方工具,但是基于这类特征构造的网络钓鱼分类器的检测精度不高。
综合多类特征的钓鱼网站检测方法虽然可以表现出较好的分类性能,却仍然伴随着效率低下的问题。
发明内容
发明目的:本发明的目的在于解决现有技术中存在的不足,提供一种基于URL字符串随机率特征提取的钓鱼网站检测方法,能够解决传统URL特征并不能十分有效地区分钓鱼网站和合法网站的问题。
技术方案:本发明的一种基于URL字符串随机率特征提取的钓鱼网站检测方法,包括以下步骤:
输入训练URL数据集、提取URL特征、将特征向量送入决策树进行训练、保存训练模块、决策树分类器、客户端浏览器;
步骤S1、获取URL地址样本数据集,且该URL地址样本数据集包括两类URL,即钓鱼网站URL数据集和合法网站URL数据集
步骤S2、将URL地址样本数据集中的各个URL进行特征提取,并生成特征向量F,F=<f1,f2,f3,f4,f5,f6>;六个特征向量f1、f2、f3、f4、f5和f6分别为整条URL的随机率、URL主级域名的随机率、URL路径的随机率、URL子域名随机率、URL路径按符号‘/’和‘.’划分后每段字符串的随机率最大值、URL按符号‘/’和‘.’划分后每段字符串的随机率最大值;
步骤S3、将特征向量F描述的由钓鱼网站URL和合法网站URL构成的数据集送入决策树分类器,然后进行分类模型的训练;
样本数据集包括两类URL,即钓鱼网站URL数据集和合法网站URL数据集;
S4、将具有特定特征刻画的目标网站URL送入步骤S3训练好的机器学习分类器进行处理,以判断待访问的网站是否合法,并将得到的判定结果返回给目标平台的WEB浏览器;
S5、WEB浏览器根据接收到的判定结果进行相应的提示,如果是合法网址,则正常访问网络资源;如果是钓鱼网站则显示提示框提醒用户,从而达到拦截钓鱼网站的目的。
本过程中的六个特征基于字符串随机率产生,通过这六个特征更加高效的甄选检测出钓鱼网站。
进一步地,所述步骤S1中当用户在访问网络资源时,获取其URL地址构成URL地址样本数据集,具体的获取方式为:
检测用户鼠标点击邮件、即时通讯软件等网络媒介中的URL地址以及用户在浏览器地址栏输入URL地址并按下回车键的行为,然后由服务器端应用程序处理用户的HTTP请求,将请求的实际地址作为要检测的URL。
进一步地,所述步骤S2中提取URL的六个特征,具体提取方法为:
S2.1、获得URL字符串随机率
将正确的英文单词和正确的汉语全拼定义为标准字符串,除此之外的字符串则拥有值为[0,1]的不同程度的随机率;
将各URL中任意一个字符串按两两相邻元素为一组划分开,并放入数组Split中,例如输入字符串str=‘hello’,则得到Split=[‘he’,‘el’,‘ll’,‘lo’];计算数组Split内元素不存在于标准相邻列表中的数量Sum;然后将Sum除以数组Split内的元素个数记为|Split|,所得结果即为该字符串的随机率记为RR。
RR=Sum/|Split|
RR越接近于0表示该字符串在语言上越接近于标准字符串,反之越接近于1表示该字符串越随机;
S2.2、获得最佳的标准相邻列表
基于现有英文单词和中文汉字得到英文单词集和汉语拼音集,对英文单词集和汉语拼音集,以每两个相邻的字母作为一个组合将英文单词和汉语拼音划分开,并分别存放在单词划分列表W和拼音划分列表P中,W和P即为总标准相邻列表,然后将W和P按相同元素出现次数进行排序;
S2.3、基于URL字符串随机率提取特征向量f1、f2、f3、f4、f5和f6;
S2.4、选取上述6个特征向量f1、f2、f3、f4、f5和f6的最佳阈值。
进一步地,所述步骤S3中决策树的生成方法为::
S3.1、对输入的URL特征样本中连续型属性进行离散化处理,对URL特征样本总数为n的某个连续型属性A,将此处该节点上所有样本按照属性的具体数值升序排列,得到一个序列{A1,A2,…,An};在该序列中生成n-1个分割点,则第i个分割点位置为Vi=(Ai+Ai+1)/2,它将该节点上的数据集划分为两个子集;
S3.2、选择最佳分割点
根据n-1个分割点划分数据集,计算信息增益率,选择信息增益率最大分割点来划分数据集;
S3.3、将信息增益率最高的节点作为树的根节点,然后递归执行S3.2的过程直至整个决策树构建完成。
其中,信息增益率的计算方法如下:
Gain(S,A)与SplitInfo的计算方法分别如公式(2)和公式(3)所示;分裂信息SplitInfo用来分裂数据的广度和均衡性。
有益效果:本发明在访问网络资源时获取其具体的URL地址;在目标平台的客户端将URL地址发送到网络服务器解析之前,本发明通过检测URL地址的规范性来判别目标网站是否为钓鱼网站,进而达到拦截钓鱼网站的目的。本发明仅用到URL的特点来提取特征,故本发明的特征提取方法具有准确性高、复杂度低、易于实现的特点。
附图说明
图1为本发明的整体流程示意图;
图2为URL地址的结构示意图
图3为实施例中不同的标准相邻列表组合下正确字符串与随机字符串随机率的差值示意图;
图4为实施例中合法URL和钓鱼URL在数据集2下的六种随机率分布示意图;
图5为本发明实施例中决策树的生成算法示意图。
具体实施方式
下面对本发明技术方案进行详细说明,但是本发明的保护范围不局限于所述实施例。
如图1所示,本实施例的基于URL字符串随机率特征提取的钓鱼网站检测方法,包括以下步骤:
步骤(1)获取URL地址样本数据集用户在访问网络资源时,获取其具体的URL地址。URL的具体获取方式为:检测用户鼠标点击邮件、即时通讯软件等网络媒介中的URL地址以及用户在浏览器地址栏输入URL地址并按下回车键的行为;然后由服务器端应用程序处理用户的HTTP请求,将请求的实际地址作为要检测的URL。
本实施例从Alex网站获取15000条合法URL,从PhishTank网站获取2021年1月至3月的15000条钓鱼URL。如图2所示,为URL地址的结构示意图。
步骤(2)
将获取到的各个URL进行特征提取并生成特征向量F=<f1,f2,f3,f4,f5,f6>。
步骤(3)
将上述特征向量描述的由钓鱼网站URL和合法网站URL构成的数据集送入决策树分类器中并完成分类模型的训练。
其中,样本数据集包括两类URL,即钓鱼网站URL数据集和合法网站URL数据集。
用于对钓鱼网站进行检测的机器学习分类算法采用决策数算法,具体流程如下:
(3.1)对样本中连续型属性进行离散化处理,对样本总数为n的某个连续型属性A,将该节点上所有样本按照属性的具体数值升序排列,得到一个序列{A1,A2,…,An}。在该序列中生成n-1个分割点,则第i个分割点位置为Vi=(Ai+Ai+1)/2,它可以将该节点上的数据集划分为两个子集。
(3.2)选择最佳分割点,根据n-1个分割点划分数据集,计算信息增益率,选择信息增益率最大分割点来划分数据集。
(3.3)将信息增益率最高的节点作为树的根节点,然后递归执行(4.2)的过程直至整个决策树构建完成。
步骤(4)
使用具有特定特征刻画的目标网站URL送入步骤S3训练好的机器学习分类器进行处理,以判断待访问的网站是否合法,并将得到的判定结果返回给目标平台的WEB浏览器。
步骤(5)
WEB浏览器根据返回的判定结果进行相应的提示,如果是合法网址,则正常访问网络资源;如果是钓鱼网站则显示提示框提醒用户,从而达到拦截钓鱼网站的目的。
上述步骤(2)提取6个特征的具体方法为:
步骤(2.1)获取字符串随机率
本实施例将正确的英文单词和正确的汉语全拼定义为标准字符串,除此之外的字符串则拥有值为[0,1]的不同程度的随机率。将任意一个字符串按两两相邻元素为一组划分开,并放入名为Split的数组中,例如输入字符串str=‘hello’,则得到Split=[‘he’,‘el’,‘ll’,‘lo’]。计算数组Split内元素不存在于标准相邻列表中的数量,即为Sum。如公式(1)所示,将Sum除以数组Split内的元素个数(记为|Split|),得出的结果即为该字符串的随机率(记为RR)。
RR=Sum/|Split| (1)
一个字符串的随机率RR越接近于0表示该字符串在语言上越接近于标准字符串,反之越接近于1表示该字符串越随机。
步骤(2.2)获得最佳的标准相邻列表
本实施例从https://github.com/dwyl/english-words/blob/master/words.txt上下载常用的正确英文单词17881个;从《汉语拼音方案》一书中收集全部现有的汉语拼音408个,并将它们分别放入英文单词集和汉语拼音集当中。
然后以每两个相邻的字母作为一个组合将英文单词和汉语拼音划分开,并分别存放在单词划分列表(W)和拼音划分列表(P)当中。W和P统称为总标准相邻列表。该表的具体形式如表1所示。
表1标准字符串集合及标准相邻列表(部分)
为选择最佳的标准相邻列表,本实施例默认在总标准相邻列表中两两相邻元素出现的次数与最佳标准相邻列表的选取有关。因此实施例中将单词划分列表和拼音划分列表按相同元素出现次数进行排序,排序后的效果如表2所示。
表2.单词划分列表和拼音划分列表中相同元素出现次数排名(前10位)
在本实施例中,备选标准相邻列表是从单词划分列表中选取排名前60到前180和拼音划分列表排名前30到前50的字符组合构成的。实验数据集是从英文词典和汉语词典中获取了共计3000个字符串作为标准字符串集(每个字符串均由26个小写英文字母构成)。在此基础上,通过随机函数从26个小写英文字母中随机组合生成了3000个随机字符串作为随机字符串集(随机字符串集长度分布与标准字符串集一致)。并将以上的标准字符串集和随机字符串集构成的集合记为数据集1。根据公式(1)计算数据集1中两组字符串分别在不同的标准相邻列表下的随机率,记录下两组随机率平均数的差值。具体结果如图3所示,其中横坐标表示单词划分列表的选取,图例表示拼音划分列表的选取。
从图3可以看出,随着标准相邻列表内容选取数量的增多,差值逐渐增大最后趋于平稳,表明这个标准相邻列表的选择更加合适。然而,选取数量过多会影响模型的计算时间并且钓鱼网站注册者可选择的随机域名选择更广。
综合考虑后,最终从单词划分列表中按相同元素出现次数排名取前140个加入列表,从拼音划分列表中按出现次数排名取前40个加入列表,并去重,最后得到了一个包含155个相邻组合的列表,将其作为最终的标准相邻列表(如表2所示)。
表3.标准相邻列表
步骤(2.3)基于字符串随机率提出针对钓鱼网站URL的六个特征,如下:
f1:整条URL的随机率,记为:urlRandomRatio;
f2:URL主级域名的随机率,记为:domainRandomRatio;
f3:URL路径的随机率,记为:pathRandomRatio;
f4:URL子域名随机率,记为:subdomainRandomRatio;
f5:将URL路径按符号‘/’和‘.’划分开,分别计算划分后每段字符串的随机率,取最大值记为:pathMaxRandomRatio;
f6:将URL按符号‘/’和‘.’划分开,分别计算划分后每段字符串的随机率,取最大值记为:urlMaxRandomRatio。
(5)选取最佳阈值
为给以上6个特征选取最佳阈值,从Alex网站获取10000条合法URL;从FishTank网站获取10000条钓鱼URL,并将这20000条URL构成的数据集记为数据集2;然后分别记录合法URL和钓鱼URL在不同特征下的随机率,具体的分布结果图4所示。
在图4中,每个子图的横坐标均表示随机率的范围,从(0,0]至(0,1];纵坐标表示在此范围下合法URL和钓鱼URL出现的频率。
根据图4的结果进行分析,最终为每条特征设置合适的阈值如下:
f1:如图4(a)所示,当在横坐标0.5位置处时,合法URL出现的频率与钓鱼URL的出现频率差值最大,即:当urlRandomRatio>0.5时,判定为钓鱼URL,f1置为1;当urlRandomRatio≤0.5时,判定为合法URL,f1置为-1;
f2:如图4(b)所示,当在横坐标0.3位置处时,合法URL出现的频率与钓鱼URL的出现频率差值最大,即:当domainRandomRatio>0.3时,判定为钓鱼URL,f2置为1;当domainRandomRatio≤0.3时,f2置为-1;
f3:如图4(c)所示,当在横坐标0.4位置处时,合法URL出现的频率与钓鱼URL的出现频率差值最大,即:当pathRandomRatio>0.4时,判定为钓鱼URL,f3置为1;当pathRandomRatio≤0.4,f3置为-1,当待测URL不含有路径时,f3设置为0;
f4:如图4(d)所示,当在横坐标0.2位置处时,合法URL出现的频率与钓鱼URL的出现频率差值最大,即:当subdomainRandomRatio>0.2时,判定为钓鱼URL,f4的值置为1;当subdomainRandomRatio≤0.2或待测URL子域名为‘www’时,判定为合法URL,f4的值置为-1;
f5:如图4(e)所示,当在横坐标0.55位置处时,合法URL出现的频率与钓鱼URL的出现频率差值最大,即:当pathMaxRandomRatio>0.55时,判定为钓鱼URL,f5的值置为1;当pathMaxRandomRatio≤0.55时,判定为合法URL,f5的值置为-1;
f6:如图4(f)所示,当在横坐标0.5位置处时,合法URL出现的频率与钓鱼URL的出现频率差值最大,即:当urlMaxRandomRatio>0.5时,判定为钓鱼URL,f6置为1;当urlMaxRandomRatio≤0.5时,判定为合法URL,f6置为-1。
获得上述6个新特征后,本实施例再加入8个当前已有特征,得到的最终特征组合如表4和表5所示。本实施例中此处使用这14个特征,达到更好的检测效果。
表4.URL特征组合
表5 URL的常用特征
针对以上特征组合进行实验,表6给出该实验所用数据集的详细信息,该数据集合法网站URL从Alex网站获取,钓鱼网站URL从FishTank网站获取,记为数据集3。
为证明新特征的通用性,数据集3与上述数据集2的选取不一致。
表6实验数据集3的描述
数据集3 | 总样本数 | 合法网站比例 | 钓鱼网站比例 |
第一组 | 18248 | 50.00% | 50.00% |
第二组 | 18016 | 66.62% | 33.38% |
第三组 | 19269 | 73.13% | 26.87% |
将数据集3进行相应的特征提取。每一组均按照7:3的比例分成训练集和测试集。采用决策树算法训练分类器并进行分类实验,得出的结果如表7所示。
表7.不同特征组合的性能比较
从表7可以看出,本发明提出的新特征组合在F1-Score、精确率和召回率方面均有明显提升。随着数据不平衡率的增加,这三项结果提升效果逐渐减弱,而准确率提升效果逐渐增加。由于仅用到URL的特点来提取特征,故本发明的特征提取方法具有准确性高、复杂度低、易于实现等特点。
Claims (3)
1.一种基于URL字符串随机率特征提取的钓鱼网站检测方法,其特征在于:包括以下步骤:
步骤S1、获取URL地址样本数据集,且该URL地址样本数据集包括两类URL,即钓鱼网站URL数据集和合法网站URL数据集;
步骤S2、将URL地址样本数据集中的各个URL进行特征提取,并生成特征向量F,F =<f 1,f 2, f 3, f 4, f 5, f 6>;六个特征向量f 1、f 2、f 3、f 4、f 5和f 6分别为整条URL的随机率、URL主级域名的随机率、URL路径的随机率、URL子域名随机率、URL路径按符号‘/’和‘.’划分后每段字符串的随机率最大值、URL按符号‘/’和‘.’划分后每段字符串的随机率最大值;
所述步骤S2包括:
S2.1、获得URL字符串随机率
将正确的英文单词和正确的汉语全拼定义为标准字符串,除此之外的字符串则拥有值为[0, 1]的不同程度的随机率;
将各URL中任意一个字符串按两两相邻元素为一组划分开,并放入数组Split中,计算数组Split内元素不存在于标准相邻列表中的数量Sum;然后将Sum除以数组Split内的元素个数|Split|,所得结果为该字符串的随机率RR;
S2.2、获得最佳的标准相邻列表
基于现有英文单词和中文汉字得到英文单词集和汉语拼音集,对英文单词集和汉语拼音集,以每两个相邻的字母作为一个组合将英文单词和汉语拼音划分开,并分别存放在单词划分列表W和拼音划分列表P中,W和P即为总标准相邻列表,然后将W和P按相同元素出现次数进行排序;
S2.3、基于URL字符串随机率提取特征向量f 1、f 2、f 3、f 4、f 5和f 6;
步骤S3、获取特征向量f 1、f 2、f 3、f 4、f 5和f 6,再加入8个当前已有特征,使用这14个特征向量组成特征向量组合,将该特征向量组合送入决策树分类器,然后进行分类模型的训练;所述8个当前 已有特征依次为URL长度、路径长度、域名长度、是否包含敏感词、是否包含各种符号、是否在Alexa世界排名前100万中、域名年龄和域名到期时间;
步骤S4、将具有特定特征刻画的目标网站URL送入步骤S3训练好的决策树分类器进行处理,以判断待访问的网站是否合法,并将得到的判定结果返回给目标平台的WEB浏览器;
步骤S5、WEB浏览器根据接收到的判定结果进行相应的提示,如果是合法网址,则正常访问网络资源;如果是钓鱼网站则显示提示框提醒用户,从而达到拦截钓鱼网站的目的。
2.根据权利要求1所述的基于URL字符串随机率特征提取的钓鱼网站检测方法,其特征在于:所述步骤S1中当用户在访问网络资源时,获取其URL地址构成URL地址样本数据集,具体的获取方式为:
检测用户鼠标点击网络媒介中的URL地址以及用户在浏览器地址栏输入URL地址并按下回车键的行为,然后由服务器端应用程序处理用户的HTTP请求,将请求的实际地址作为要检测的URL。
3.根据权利要求1所述的基于URL字符串随机率特征提取的钓鱼网站检测方法,其特征在于:所述步骤S3中决策树的生成方法为:
S3.1、对输入的URL特征样本中连续型属性进行离散化处理,对于URL特征样本总数为n的某个连续型属性A,将此处节点上所有样本按照属性的具体数值升序排列,得到一个序列{A 1, A 2, …, A n };在该序列中生成n-1个分割点,则第i个分割点位置为V i =(A i +A i+1 )/2,它将该节点上的数据集划分为两个子集;
S3.2、选择最佳分割点
根据n-1个分割点划分数据集,计算信息增益率,选择信息增益率最大分割点来划分数据集;
S3.3、将信息增益率最高的节点作为树的根节点,然后递归执行S3.2的过程直至整个决策树构建完成。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110359991.2A CN113098874B (zh) | 2021-04-02 | 2021-04-02 | 一种基于url字符串随机率特征提取的钓鱼网站检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110359991.2A CN113098874B (zh) | 2021-04-02 | 2021-04-02 | 一种基于url字符串随机率特征提取的钓鱼网站检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113098874A CN113098874A (zh) | 2021-07-09 |
CN113098874B true CN113098874B (zh) | 2022-04-26 |
Family
ID=76673110
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110359991.2A Expired - Fee Related CN113098874B (zh) | 2021-04-02 | 2021-04-02 | 一种基于url字符串随机率特征提取的钓鱼网站检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113098874B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106992969A (zh) * | 2017-03-03 | 2017-07-28 | 南京理工大学 | 基于域名字符串统计特征的dga生成域名的检测方法 |
CN112468501A (zh) * | 2020-11-27 | 2021-03-09 | 安徽大学 | 一种面向url的钓鱼网站检测方法 |
CN112528649A (zh) * | 2020-12-14 | 2021-03-19 | 圆通速递有限公司 | 针对多语言混合文本的英文拼音识别方法和系统 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103577449B (zh) * | 2012-07-30 | 2017-05-10 | 珠海市君天电子科技有限公司 | 钓鱼网站特性自学习挖掘方法及系统 |
CN106789888B (zh) * | 2016-11-18 | 2020-08-04 | 重庆邮电大学 | 一种多特征融合的钓鱼网页检测方法 |
CN107807987B (zh) * | 2017-10-31 | 2021-07-02 | 广东工业大学 | 一种字符串分类方法、系统及一种字符串分类设备 |
US11799905B2 (en) * | 2019-03-26 | 2023-10-24 | Proofpoint, Inc. | Uniform resource locator classifier and visual comparison platform for malicious site detection |
-
2021
- 2021-04-02 CN CN202110359991.2A patent/CN113098874B/zh not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106992969A (zh) * | 2017-03-03 | 2017-07-28 | 南京理工大学 | 基于域名字符串统计特征的dga生成域名的检测方法 |
CN112468501A (zh) * | 2020-11-27 | 2021-03-09 | 安徽大学 | 一种面向url的钓鱼网站检测方法 |
CN112528649A (zh) * | 2020-12-14 | 2021-03-19 | 圆通速递有限公司 | 针对多语言混合文本的英文拼音识别方法和系统 |
Non-Patent Citations (5)
Title |
---|
"A keyword-based combination approach for detecting phishing webpages.";Ding, Yan, et al.;《computers & security 》;20190730;第84卷;第256-275页 * |
"DTOF-ANN: An artificial neural network phishing detection model based on decision tree and optimal features.";Zhu, Erzhou, et al.;《Applied Soft Computing 95 》;20200630;第1-14页 * |
"Natural language processing and Machine learning based phishing website detection system.";V. M. Yazhmozhi and B. Janet.;《2019 Third International conference on I-SMAC (IoT in Social, Mobile, Analytics and Cloud) (I-SMAC)》;20200312;第336-340页 * |
"一种基于改进的朴素贝叶斯算法的Android钓鱼网站检测方案";马刚,刘锋,朱二周.;《计算机工程与科学》;20180815;第40卷(第08期);第33-45页 * |
"基于URL的钓鱼目标识别的研究";王雨琪;《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》;20191015(第10期);第1420-1428页 * |
Also Published As
Publication number | Publication date |
---|---|
CN113098874A (zh) | 2021-07-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107786575B (zh) | 一种基于dns流量的自适应恶意域名检测方法 | |
US11463476B2 (en) | Character string classification method and system, and character string classification device | |
CN109005145B (zh) | 一种基于自动特征抽取的恶意url检测系统及其方法 | |
US10033757B2 (en) | Identifying malicious identifiers | |
CN109450845B (zh) | 一种基于深度神经网络的算法生成恶意域名检测方法 | |
CN111131260B (zh) | 一种海量网络恶意域名识别和分类方法及系统 | |
US20160063541A1 (en) | Method for detecting brand counterfeit websites based on webpage icon matching | |
WO2016201938A1 (zh) | 一种多阶段钓鱼网站检测方法与系统 | |
CN105138921B (zh) | 基于页面特征匹配的钓鱼网站目标域名识别方法 | |
Marchal et al. | PhishScore: Hacking phishers' minds | |
CN104573033B (zh) | 一种动态url过滤方法及装置 | |
CN112948725A (zh) | 基于机器学习的钓鱼网站url检测方法及系统 | |
CN113132410A (zh) | 一种用于检测钓鱼网址的方法 | |
He et al. | Malicious domain detection via domain relationship and graph models | |
CN113438209B (zh) | 一种基于改进的Stacking策略的钓鱼网站检测方法 | |
Peng et al. | Malicious URL recognition and detection using attention-based CNN-LSTM | |
Valiyaveedu et al. | Survey and analysis on AI based phishing detection techniques | |
CN113098874B (zh) | 一种基于url字符串随机率特征提取的钓鱼网站检测方法 | |
Xue et al. | Phishing sites detection based on Url Correlation | |
WO2018072363A1 (zh) | 一种数据源扩展方法及装置 | |
Yan et al. | Pontus: A linguistics-based DGA detection system | |
CN114841256A (zh) | 一种基于多维特征融合的dga域名分类方法 | |
CN116170168A (zh) | 一种基于深度支持向量数据描述的dga域名检测方法及系统 | |
Almarzooqi et al. | Detecting Malicious Domains Using Statistical Internationalized Domain Name Features in Top Level Domains | |
CN113361597A (zh) | 一种url检测模型的训练方法、装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20220426 |
|
CF01 | Termination of patent right due to non-payment of annual fee |