CN112468501A - 一种面向url的钓鱼网站检测方法 - Google Patents

一种面向url的钓鱼网站检测方法 Download PDF

Info

Publication number
CN112468501A
CN112468501A CN202011361704.3A CN202011361704A CN112468501A CN 112468501 A CN112468501 A CN 112468501A CN 202011361704 A CN202011361704 A CN 202011361704A CN 112468501 A CN112468501 A CN 112468501A
Authority
CN
China
Prior art keywords
url
layer
cnn
website
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011361704.3A
Other languages
English (en)
Other versions
CN112468501B (zh
Inventor
朱二周
袁其详
李薛剑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui University
Original Assignee
Anhui University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui University filed Critical Anhui University
Priority to CN202011361704.3A priority Critical patent/CN112468501B/zh
Publication of CN112468501A publication Critical patent/CN112468501A/zh
Application granted granted Critical
Publication of CN112468501B publication Critical patent/CN112468501B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1416Event detection, e.g. attack signature detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9566URL specific, e.g. using aliases, detecting broken or misspelled links
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic
    • H04L63/1483Countermeasures against malicious traffic service impersonation, e.g. phishing, pharming or web spoofing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开一种面向URL的钓鱼网站检测方法,包括以下步骤:截获用户要访问的URL并发送给服务器端;服务器端将URL分隔成固定长度的五个部分;嵌入层利用CNN和BiLSTM法提取以上五个部分的URL特征并将其转化成一个向量;利用TF‑IDF和注意力机制筛选有用特征以此来降低特征向量的维度,即得到一个精简的URL最优特征向量;利用数据集训练全连接层神经网络分类器;用最优特征向量表示的URL送入全连接层神经网络分类器,并根据计算出来的概率判定其是否为钓鱼网站的URL。本发明充分利用深度学习算法的优点,并且利用Attention机制降低特征维度,大大提高检测钓鱼网站的准确性和速度。

Description

一种面向URL的钓鱼网站检测方法
技术领域
本发明属于信息安全技术,具体涉及一种面向URL的钓鱼网站检测方法。
背景技术
根据APWG(反网络钓鱼工作组)报告,2020年第一季度钓鱼网站的数量已达165772个,是2019年第四季度的一倍以上。更为严重的是,网络钓鱼攻击的手段在不断的更新,网络钓鱼攻击不再仅限于由电子邮件、即时消息和弹出窗口等传统媒体发起。当前,移动平台和社交网站在人们的日常通信中得到了极大的普及和广泛的应用。新的通信方式不仅给用户间的沟通带来了极大的便利,也为网络钓鱼攻击的传播提供了新的渠道。例如QR(QuickResponse)代码、鱼叉式网络、欺骗性移动应用程序都有可能成为传播钓鱼网络攻击的途径。
实际上,钓鱼网站检测是一个二分类问题,检测的结果只有两种可能,即“钓鱼网站”或“合法网站”。目前,除了通过培训方式来提高网络用户识别网络钓鱼攻击的能力之外,许多自动化的方法被用来检测网络钓鱼攻击,如黑名单法、视觉相似性检查、基于深度学习和机器学习的方法等。
但是这几种方法在实际应用时,存在一些问题:黑名单检测法不分析钓鱼网站的内容,很难应对那些没有出现在黑名单中的钓鱼网站的URL;视觉相似性检查法会给目标平台带来较大的计算负担;基于机器学习的检测方法中的特征提取时,这些特征一旦被钓鱼开发者知晓,他们便可以绕过这些特征的检测,并且通过手动的提取或第三方服务获取的特征将导致基于机器学习方法难以处理大规模的网络钓鱼数据集以及检测效率低下等问题;基于深度学习的检测方法在使用中不需要人为干预,这会使得最终生成的特征向量维度过大而导致神经网络学习的速率变缓。
发明内容
发明目的:本发明的目的在于解决现有技术中存在的不足,提供一种面向 URL的钓鱼网站检测方法。
技术方案:本发明的一种面向URL的钓鱼网站检测方法,包括以下步骤:
步骤S1、获取用户目标网站的URL并将其发送至服务器端;
步骤S2、服务器端解析所接收到的目标网站的URL,并提取相关特征;
服务器端收到对应URL后先将其按照传输协议、子域名、主域名、域名后缀和资源在网站中的路径解析拆分为五个固定长度的字符串;然后使用独热编码 (one-hotfragment)和嵌入层分别将这个五个字符串变换为向量;接着将对应向量输入CNN网络和BiLSTM模型进行特征提取;最后采用改进的注意力 Attention机制进行特征选取最终获得该URL的最优特征向量;
步骤S3、将所提取的相关特征通过服务器端的神经网络分类器进行分析判定,以确认目标网站是否为合法网站,并将判定结果返回至目标平台的WEB浏览器;神经网络分类器中样本数据集包括钓鱼网站URL数据和合法网站URL数据;
步骤S4、WEB浏览器收到判定结果后,根据实际情况提示用户。
进一步的,所述步S1中获取目标网站URL的方法包括以下:
(a)、跟踪检测用户所点击使用应用程序(邮件、微信、短信等)的URL 地址;
(b)、跟踪检测用户在浏览器地址栏中输入要访问的URL地址,并通过按下回车键截获该URL地址。
进一步的,所述步S1中由服务器端应用程序来处理用户的HTTP请求,并将请求的实际地址作为需要检测的URL,同时产生获得请求返回的状态码,URL 和对应状态码一起发送至服务器端。
进一步的,所述步骤S2中利用独热编码和嵌入层变换为向量的具体方法为:
(a)、将对应URL解析拆分的5个字符串的每个字符串的字符数量均定为l,如果某一字符串的字符数量超过l,则将该字符串第l个字符之后的字符全部删除,如果某一字符串的字符数量不足l个,则通过在该字符串的头部添加‘pad’字符,直到其长度为l为止;
(b)、根据自定义的字符和内部编码对照关系将步骤(a)中所得字符转换成内部编码;
(c)、将所得内部编码通过嵌入层进行独热向量到稠密向量的转换。
进一步的,所述步骤S2中使用CNN和BiLSTM进行特征提取的过程为:
(a)将转换后的每个部分的向量输入到CNN的第一层卷积层;
(b)将CNN第一层卷积层的输出输入到CNN第一层池化层;
(c)将CNN第一层池化层的输出输入到CNN第二层卷积层;
(d)将CNN第二层卷积层的输出输入到CNN全连接层;
(e)将经过CNN所有层处理的结果,即URL五个部分的向量输入到BiLSTM 中得到URL各个组成部分之间的关联特征。
进一步的,所述步骤S2中使用注意力Attention机制获得最优特征向量的过程为:
(a)、根据维特比法对钓鱼网站的URL进行单词的分割;
(b)、计算分割后的每个单词的TF-IDF值;
(c)、从计算所得TF-IDF值中挑选前一定数量(例如前20个)的作为评断组成重要性的评判标准;
(d)、根据对应URL的每个部分拥有这对应(20个)单词的数量来计算 Attention机制中ei的值。
此处,每个单词的TF-IDF值代表了这个单词在这个句子中的重要性,当选则的数量较少时,准确率会大大的降低,当选用的数量过多时,检测是效率会受到一定的影响,且检测的准确率并没有太大的提高;为了达到准确率和检测时间的平衡,最终选择前20个单词。
进一步的,所述步骤S3的详细内容为:先将两类样本数据集中的所有URL 进行URL特征提取;然后训练新神经网络分类器;最后使用训练好的神经网络分类器分析判定提取的URL特征是否为钓鱼网站URL,并将分析判定结果返回给目标平台的WEB浏览器。
有益效果:与现有技术相比,本发明具有以下优点:
(1)本发明仅用到URL自身的构成来提取特征,且特征的提取采用的深度学习算法是自动完成的,没有人为因素的干预,提高了检测精度。
(2)本发明由于没有人为干预,其提取到的特征没有任何人知道,避免了攻击者特意绕过这些特征,实用性会更大,安全性能更高。
(3)本本发明加入改进的注意力机制进行特征选择,提高钓鱼网站检测的准确性和效率。
附图说明
图1为本发明的整体流程图;
图2为实施例中URL的基本组成结构;
图3为本发明处理URL的流程图;
图4为本发明中注意力机制的处理过程;
图5为本发明中训练分类器的神经网络结构图。
具体实施方式
下面对本发明技术方案进行详细说明,但是本发明的保护范围不局限于所述实施例。
如图1至图5所示,本实施例的一种面向URL的钓鱼网站检测方法,包括以下步骤:
步骤S1、获取用户目标网站的URL地址,并将其发送至服务器端。
此处获取URL地址的方法包括:截获用户鼠标点击邮件、微信、短信等内容中的URL地址,以及截获用户在浏览器地址栏输入要访问的URL地址并按下回车键而发出的URL地址。
为避免有网站为迷惑用户会将钓鱼网站的URL网址与合法网站的网址做的非常相似进而躲避系统的检测。本实施例中,同时获得URL地址请求返回的状态码,即如果是类似302、304等重定向的请求,会再次获取重定向后的URL地址并将其传回服务器端。
本实施例的一个URL地址(记为uk,k∈[0,K-1],K为所有待处理URL 的数目)包括五个部分,依次表示成uk=(S1,S2,S3,S4,S5)。其中,S1表示URL 的传输协议,如http、https、ftp等;S2表示子域名;S3表示主域名,通过域名可以定位网络中的一台主机;S4表示域名后缀,如cn、com.edu等;S5表示资源在网站中的路径,通过这个路径就可以找到所需要访问的资源,并通过浏览器的渲染返回给用户。
步骤S2、服务器端解析所接收到的目标网站的URL,并提取相关特征;
服务器端收到对应URL后先将其按照传输协议、子域名、主域名、域名后缀和资源在网站中的路径解析拆分为五个固定长度的字符串;然后使用独热编码和嵌入层分别将这个五个字符串变换为向量;接着将对应向量输入CNN网络和 BiLSTM模型进行特征提取;最后采用注意力Attention机制进行特征选取最终获得该URL的最优特征向量。
此处本实施例将上述URLuk的每个部分的长度固定设置成l。如果某一部分的字符数量超过l,则第l个字符之后的字符会被删除;相反的,如果其字符数量不足l,则通过在字符串的头部添加‘pad’字符,直到其长度达到l为止。uk的每一部分Si(i=1,2,...,5)均可看作是一个字符序列,表示成Si=(ci1,ci2,…,cij,…, cil)。其中,i=1,2,...,5;cij表示一个字符,j=1,2,...,l。
根据对钓鱼网站的URL数据集的观察,发现URL中出现频率最高的字符数一共有95个,其中包括52个大写字母和小写字母、10个数字字符和33个特殊字符。如果URL中的某个字符没有出现在这95个字符中,则将其设为‘unk(’unknown)。参照表1的映射关系,将包括‘pad’和‘unk’在内的共97个字符转换成内部编码。
表1字符与内部编码映射表
Figure BDA0002804172400000051
通过内部编码将每个字符转换成一个长度为97的独热向量g'。在每个字符的独热向量中,只有该字符对应位置的下标中的数值为1,其他位置中的数字都设置为0。例如,字符‘A’对应的独热变量表示成g'=(0,1,0,...,0)。
通过公式(1)将URL uk(k∈[0,K-1],K为所有待处理URL的数目)转换成向量gk∈R97*5l
gk=(g′1,g′2,…,g′5l)T (1)
为避免由于独热编码产生的向量gk中过多的0会造成稀疏编码和向量的维度特别高的问题;本实施引入嵌入层,即通过嵌入层将gk向量嵌入到一个低维度的向量中去,并使其变成一个稠密向量。具体方法如下:
嵌入层利用公式(2)将独热向量gk转换成p维的连续向量sk∈R97*5l,其中 W∈RP*m
Figure BDA0002804172400000052
接着本实施例通过CNN+BiLSTM继续提取URL的特征。
先将连续向量sk划分为五个部分,并得到五个子向量pi∈Rp*l,i∈ {1,2,3,4,5};其次,将每个子向量pi送入一个具有两个卷积层、两个池化层和一个全连接层的CNN神经网络中进行处理。
此处,CNN神经网络采用一维卷积运算。在第一卷积层中使用的卷积核的大小为m1*p,并且该层有Q1个这样的卷积核;第二卷积层使用的卷积核的大小为m1*Q1,并且该层有Q2个这样的卷积内核。将两个卷积层和两个池化层得到的向量输入到全连接层进而得到每个子部分的特征向量
Figure BDA0002804172400000061
具体计算方法如公式(3)-公式(5):
Figure BDA0002804172400000062
Figure BDA0002804172400000063
Figure BDA0002804172400000064
其中,
Figure BDA0002804172400000065
分别是CNN模型中对应层的权重和噪声,它们的值在模型的训练过程中不断更新;
Figure BDA0002804172400000066
Figure BDA0002804172400000067
分别为 CNN模型中卷积层和池化层所计算出来的中间结果。
为进一步得到上述五个部分之间的关联特征,本实施例此处使用BiLSTM法来处理,具体方法为:
将经过CNN模型处理得到的每个部分的特征向量
Figure BDA0002804172400000068
作为RNN算法的一个时间步。在每个时间步内,利用公式(6)和公式(7)计算出目标URL中每个部分从前往后的特征向量
Figure BDA0002804172400000069
和从后往前的特征向量
Figure BDA00028041724000000610
即:
Figure BDA00028041724000000611
Figure BDA00028041724000000612
其中,
Figure BDA00028041724000000613
是LSTM细胞的权重;
Figure BDA00028041724000000614
Figure BDA00028041724000000615
Figure BDA00028041724000000616
分别为当前时间步、前一时间步和下一时间步的输出。
最后,利用公式(8)将两个方向的向量合并得到LSTM每个时间步的输出:
Figure BDA0002804172400000071
由于在钓鱼网站检测的过程中,并非URL的每个部分对于检测来说都是同等重要的,未得到所需检测的部分,本实施例采用改进的注意力机制Attention对关联特征进一步处理。
首先,计算出前一时刻隐藏层的输出st-1和Encoder层中每一时刻的输出hi之间的相似度eti,如公式(9);其次,使用softmax函数对其进行归一化处理得到权重系数ati(如公式(10));最后,将权重系数和Encoder层中的每一时刻的输出hi之间进行加权求和得到cti(如公式(11))。
eti=score(hi,st-1) (9)
αti=softmax(eti) (10)
Figure BDA0002804172400000072
然后,本实施例通过改进的TF-IDF注意力分数模型求取相似度ei,使用 TF-IDF处理URL字符串。具体步骤如下:
(1)利用维特比算法对钓鱼网站的URL进行单词分割;
(2)根据公式(15)-公式(17)计算每个单词的TF-IDF值;
(3)从这些单词中挑选TF-IDF值为前20的单词作为评断组成重要性的评判标准;
(4)根据URL的每个部分拥有这20个单词的数量计算ei的值,具体计算方法为公式(18)。
Figure BDA0002804172400000073
Figure BDA0002804172400000074
tf-idf=tfw*idfw (13)
Figure BDA0002804172400000081
在以上公式中,nw代表单词出现在语料库中的次数;∑knk代表语料库中所有单词出现的总和;|D|代表语料库中所有URL的数量;|j:w∈di|表示在所有 URL中拥有此单词的个数,为防止其数量为0,通常在这个值后面加上1;tx表示每个部分中分割的单词总数。
在得到每个部分的ei值之后,使用soft Attention进行计算便可以得到每个部分的重要性。利用公式(15)得到每个URL的特征向量表示。该向量将被用于后面的分类模型。
Figure BDA0002804172400000082
本实施例中通过改进的TF-IDF注意力分数模型求取相似度不需要额外的参数向量,极大的提高计算效率。
步骤S3、将所提取的相关特征通过服务器端的神经网络分类器进行分析判定,以确认目标网站是否为合法网站,并将判定结果返回至目标平台的WEB浏览器;神经网络分类器中样本数据集包括钓鱼网站URL数据和合法网站URL数据。
上述过程中均可采用步骤S2中方法对对样本数据集进行特征提取。然后将得到的特征用来训练一个全连接层神经网络分类器。
该全连接层神经网络分类器用于判断每个样本的性质,即是钓鱼网站还是合法网站,不断更新神经网络的参数以提高检测的准确性。在得到全连接层神经网络分类器以后,判断网站URL的合法性的方式为:
首先,将提取到的特征送入全连接层神经网络分类器中;其次,利用公式(16) 计算属于钓鱼网站的概率logit。
logit=sigmod(wlogit*yr+blogit) (16)
如果该值小于0.5,则认为该URL对应的网站是合法的,如果该值大于或等于 0.5,则为钓鱼网站。
步骤S4、WEB浏览器收到判定结果后,根据实际情况提示用户。例如,如果确认是钓鱼网站则显示提示框提醒用户,如果确认不是钓鱼网站则用户进行正常网页浏览。

Claims (8)

1.一种面向URL的钓鱼网站检测方法,其特征在于:包括以下步骤:
步骤S1、获取用户目标网站的URL并将其发送至服务器端;
步骤S2、服务器端解析所接收到的目标网站的URL,并提取相关特征;
服务器端收到对应URL后先将其按照传输协议、子域名、主域名、域名后缀和资源在网站中的路径解析拆分为五个固定长度的字符串;然后使用独热编码和嵌入层分别将这个五个字符串变换为向量;接着将对应向量输入CNN网络和BiLSTM模型进行特征提取;最后采用改进的注意力Attention机制进行特征选取最终获得该URL的最优特征向量;
步骤S3、将所提取的相关特征通过服务器端的神经网络分类器进行分析判定,以确认目标网站是否为合法网站,并将判定结果返回至目标平台的WEB浏览器;神经网络分类器中样本数据集包括钓鱼网站URL数据和合法网站URL数据;
步骤S4、WEB浏览器收到判定结果后,根据实际情况提示用户。
2.根据权利要求1所述的面向URL的钓鱼网站检测方法,其特征在于:所述步S1中获取目标网站URL的方法包括以下:
(a)、跟踪检测用户所点击使用应用程序的URL地址;
(b)、跟踪检测用户在浏览器地址栏中输入要访问的URL地址,并通过按下回车键截获该URL地址。
3.根据权利要求1所述的面向URL的钓鱼网站检测方法,其特征在于:所述步S1中由服务器端应用程序来处理用户的HTTP请求,并将请求的实际地址作为需要检测的URL,同时产生获得请求返回的状态码,URL和对应状态码一起发送至服务器端。
4.根据权利要求1所述的面向URL的钓鱼网站检测方法,其特征在于:所述步骤S2中利用独热编码和嵌入层变换为向量的具体方法为:
(a)、将对应URL解析拆分的5个字符串的每个字符串的字符数量均定为l,如果某一字符串的字符数量超过l,则将该字符串第l个字符之后的字符全部删除,如果某一字符串的字符数量不足l个,则通过在该字符串的头部添加‘pad’字符,直到其长度为l为止;
(b)、根据自定义的字符和内部编码对照关系将步骤(a)中所得字符转换成内部编码;
(c)、将所得内部编码通过嵌入层进行独热向量到稠密向量的转换。
5.根据权利要求1所述的面向URL的钓鱼网站检测方法,其特征在于:所述步骤S2中使用CNN和BiLSTM进行特征提取的过程为:
(a)将转换后的每个部分的向量输入到CNN的第一层卷积层;
(b)将CNN第一层卷积层的输出输入到CNN第一层池化层;
(c)将CNN第一层池化层的输出输入到CNN第二层卷积层;
(d)将CNN第二层卷积层的输出输入到CNN全连接层;
(e)将经过CNN所有层处理的结果,即URL五个部分的向量输入到BiLSTM中得到URL各个组成部分之间的关联特征。
6.根据权利要求1所述的面向URL的钓鱼网站检测方法,其特征在于:所述步骤S2中使用注意力Attention机制获得最优特征向量的过程为:
(a)、根据维特比法对钓鱼网站的URL进行单词的分割;
(b)、计算分割后的每个单词的TF-IDF值;
(c)、从计算所得TF-IDF值中挑选前相应数量的TF-IDF值作为评断组成重要性的评判标准;
(d)、根据对应URL的每个部分拥有这些单词的数量来计算Attention机制中ei的值。
7.根据权利要求1所述的面向URL的钓鱼网站检测方法,其特征在于:所述步骤S3的详细内容为:先将两类样本数据集中的所有URL进行URL特征提取;然后训练新神经网络分类器;最后使用训练好的神经网络分类器分析判定提取的URL特征是否为钓鱼网站URL,并将分析判定结果返回给目标平台的WEB浏览器。
8.根据权利要求6所述的面向URL的钓鱼网站检测方法,其特征在于:选取TF-IDF值中前20的作为评断组成重要性的评判标准,并根据对应URL的每个部分拥有这些单词的数量来计算Attention机制中ei的值。
CN202011361704.3A 2020-11-27 2020-11-27 一种面向url的钓鱼网站检测方法 Active CN112468501B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011361704.3A CN112468501B (zh) 2020-11-27 2020-11-27 一种面向url的钓鱼网站检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011361704.3A CN112468501B (zh) 2020-11-27 2020-11-27 一种面向url的钓鱼网站检测方法

Publications (2)

Publication Number Publication Date
CN112468501A true CN112468501A (zh) 2021-03-09
CN112468501B CN112468501B (zh) 2022-10-25

Family

ID=74809161

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011361704.3A Active CN112468501B (zh) 2020-11-27 2020-11-27 一种面向url的钓鱼网站检测方法

Country Status (1)

Country Link
CN (1) CN112468501B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200396252A1 (en) * 2015-07-27 2020-12-17 Swisscom Ag Systems and methods for identifying phishing websites
CN113098874A (zh) * 2021-04-02 2021-07-09 安徽大学 一种基于url字符串随机率特征提取的钓鱼网站检测方法
CN113132410A (zh) * 2021-04-29 2021-07-16 深圳信息职业技术学院 一种用于检测钓鱼网址的方法
CN113315789A (zh) * 2021-07-29 2021-08-27 中南大学 一种基于多级联合网络的Web攻击检测方法及系统
CN113328994A (zh) * 2021-04-30 2021-08-31 新华三信息安全技术有限公司 一种恶意域名处理方法、装置、设备及机器可读存储介质
CN113726730A (zh) * 2021-07-14 2021-11-30 国网山东省电力公司信息通信公司 基于深度学习算法的dga域名检测方法及系统
CN114095278A (zh) * 2022-01-19 2022-02-25 南京明博互联网安全创新研究院有限公司 一种基于混合特征选择框架的钓鱼网站检测方法
CN115242484A (zh) * 2022-07-19 2022-10-25 深圳大学 一种基于门控卷积和lstm的dga域名检测模型及方法
CN115314271A (zh) * 2022-07-29 2022-11-08 云盾智慧安全科技有限公司 一种访问请求的检测方法、系统及计算机存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107438083A (zh) * 2017-09-06 2017-12-05 安徽大学 一种Android环境下钓鱼网站检测方法及其检测系统
CN108777674A (zh) * 2018-04-24 2018-11-09 东南大学 一种基于多特征融合的钓鱼网站检测方法
CN109101552A (zh) * 2018-07-10 2018-12-28 东南大学 一种基于深度学习的钓鱼网站url检测方法
CN110602113A (zh) * 2019-09-19 2019-12-20 中山大学 一种基于深度学习的层次化钓鱼网站检测方法
US20200036750A1 (en) * 2018-07-25 2020-01-30 Easy Solutions Enterprises Corp. Phishing detection enhanced through machine learning techniques
CN111556065A (zh) * 2020-05-08 2020-08-18 鹏城实验室 钓鱼网站检测方法、装置及计算机可读存储介质
US10834128B1 (en) * 2018-03-30 2020-11-10 Fireeye, Inc. System and method for identifying phishing cyber-attacks through deep machine learning via a convolutional neural network (CNN) engine
US20200366712A1 (en) * 2019-05-14 2020-11-19 International Business Machines Corporation Detection of Phishing Campaigns Based on Deep Learning Network Detection of Phishing Exfiltration Communications

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107438083A (zh) * 2017-09-06 2017-12-05 安徽大学 一种Android环境下钓鱼网站检测方法及其检测系统
US10834128B1 (en) * 2018-03-30 2020-11-10 Fireeye, Inc. System and method for identifying phishing cyber-attacks through deep machine learning via a convolutional neural network (CNN) engine
CN108777674A (zh) * 2018-04-24 2018-11-09 东南大学 一种基于多特征融合的钓鱼网站检测方法
CN109101552A (zh) * 2018-07-10 2018-12-28 东南大学 一种基于深度学习的钓鱼网站url检测方法
US20200036750A1 (en) * 2018-07-25 2020-01-30 Easy Solutions Enterprises Corp. Phishing detection enhanced through machine learning techniques
US20200366712A1 (en) * 2019-05-14 2020-11-19 International Business Machines Corporation Detection of Phishing Campaigns Based on Deep Learning Network Detection of Phishing Exfiltration Communications
CN110602113A (zh) * 2019-09-19 2019-12-20 中山大学 一种基于深度学习的层次化钓鱼网站检测方法
CN111556065A (zh) * 2020-05-08 2020-08-18 鹏城实验室 钓鱼网站检测方法、装置及计算机可读存储介质

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
F. REN, Z. JIANG AND J. LIU.: ""A Bi-Directional LSTM Model with Attention for Malicious URL Detection "", 《019 IEEE 4TH ADVANCED INFORMATION TECHNOLOGY, ELECTRONIC AND AUTOMATION CONTROL CONFERENCE (IAEAC)》 *
HUANG, YONGJIE, ET AL.: ""Phishing URL detection via CNN and attention-based hierarchical RNN."", 《2019 18TH IEEE INTERNATIONAL CONFERENCE ON TRUST, SECURITY AND PRIVACY IN COMPUTING AND COMMUNICATIONS/13TH IEEE INTERNATIONAL CONFERENCE ON BIG DATA SCIENCE AND ENGINEERING (TRUSTCOM/BIGDATASE)》 *
曾朋: ""面向双结构网络的钓鱼网站检测技术研究"", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 *
马刚,刘锋,朱二周.: ""一种基于改进的朴素贝叶斯算法的Android钓鱼网站检测方案"", 《计算机工程与科学》 *

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200396252A1 (en) * 2015-07-27 2020-12-17 Swisscom Ag Systems and methods for identifying phishing websites
CN113098874B (zh) * 2021-04-02 2022-04-26 安徽大学 一种基于url字符串随机率特征提取的钓鱼网站检测方法
CN113098874A (zh) * 2021-04-02 2021-07-09 安徽大学 一种基于url字符串随机率特征提取的钓鱼网站检测方法
CN113132410A (zh) * 2021-04-29 2021-07-16 深圳信息职业技术学院 一种用于检测钓鱼网址的方法
CN113132410B (zh) * 2021-04-29 2023-12-08 深圳信息职业技术学院 一种用于检测钓鱼网址的方法
CN113328994A (zh) * 2021-04-30 2021-08-31 新华三信息安全技术有限公司 一种恶意域名处理方法、装置、设备及机器可读存储介质
CN113328994B (zh) * 2021-04-30 2022-07-12 新华三信息安全技术有限公司 一种恶意域名处理方法、装置、设备及机器可读存储介质
CN113726730A (zh) * 2021-07-14 2021-11-30 国网山东省电力公司信息通信公司 基于深度学习算法的dga域名检测方法及系统
CN113315789B (zh) * 2021-07-29 2021-10-15 中南大学 一种基于多级联合网络的Web攻击检测方法及系统
CN113315789A (zh) * 2021-07-29 2021-08-27 中南大学 一种基于多级联合网络的Web攻击检测方法及系统
CN114095278A (zh) * 2022-01-19 2022-02-25 南京明博互联网安全创新研究院有限公司 一种基于混合特征选择框架的钓鱼网站检测方法
CN115242484A (zh) * 2022-07-19 2022-10-25 深圳大学 一种基于门控卷积和lstm的dga域名检测模型及方法
CN115314271A (zh) * 2022-07-29 2022-11-08 云盾智慧安全科技有限公司 一种访问请求的检测方法、系统及计算机存储介质
CN115314271B (zh) * 2022-07-29 2023-11-24 云盾智慧安全科技有限公司 一种访问请求的检测方法、系统及计算机存储介质

Also Published As

Publication number Publication date
CN112468501B (zh) 2022-10-25

Similar Documents

Publication Publication Date Title
CN112468501B (zh) 一种面向url的钓鱼网站检测方法
CN109101552B (zh) 一种基于深度学习的钓鱼网站url检测方法
CN109005145B (zh) 一种基于自动特征抽取的恶意url检测系统及其方法
CN111198995B (zh) 一种恶意网页识别方法
US10033757B2 (en) Identifying malicious identifiers
CN110351301B (zh) 一种http请求双层递进式异常检测方法
CN110602113B (zh) 一种基于深度学习的层次化钓鱼网站检测方法
CN109873810B (zh) 一种基于樽海鞘群算法支持向量机的网络钓鱼检测方法
CN112989831B (zh) 一种应用在网络安全领域的实体抽取方法
CN112541476B (zh) 一种基于语义特征提取的恶意网页识别方法
CN112217787B (zh) 一种基于ed-gan的仿冒域名训练数据生成方法及系统
CN112073551B (zh) 基于字符级滑动窗口和深度残差网络的dga域名检测系统
CN115380284A (zh) 非结构化文本分类
CN113098887A (zh) 一种基于网站联合特征的钓鱼网站检测方法
CN110808987A (zh) 识别恶意域名的方法及计算设备
CN114465780A (zh) 一种基于特征提取的钓鱼邮件检测方法及系统
CN109284465B (zh) 一种基于url的网页分类器构建方法及其分类方法
Valiyaveedu et al. Survey and analysis on AI based phishing detection techniques
Pham et al. Exploring efficiency of GAN-based generated URLs for phishing URL detection
CN111538893B (zh) 一种从非结构化数据中提取网络安全新词的方法
CN114124448B (zh) 一种基于机器学习的跨站脚本攻击识别方法
CN113037729A (zh) 基于深度学习的钓鱼网页层次化检测方法及系统
Wan et al. Generation of malicious webpage samples based on GAN
CN110766165A (zh) 用于恶意url检测的在线主动机器学习方法
Ge et al. Webpage Matching Based on Visual Similarity.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant