CN113037729B - 基于深度学习的钓鱼网页层次化检测方法及系统 - Google Patents

基于深度学习的钓鱼网页层次化检测方法及系统 Download PDF

Info

Publication number
CN113037729B
CN113037729B CN202110221392.4A CN202110221392A CN113037729B CN 113037729 B CN113037729 B CN 113037729B CN 202110221392 A CN202110221392 A CN 202110221392A CN 113037729 B CN113037729 B CN 113037729B
Authority
CN
China
Prior art keywords
url
detected
phishing
deep learning
output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110221392.4A
Other languages
English (en)
Other versions
CN113037729A (zh
Inventor
陈博
张桥
卜佑军
周锟
王方玉
伊鹏
马海龙
胡宇翔
张稣荣
路祥雨
王继
张进
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Information Engineering University of PLA Strategic Support Force
Network Communication and Security Zijinshan Laboratory
Original Assignee
Information Engineering University of PLA Strategic Support Force
Network Communication and Security Zijinshan Laboratory
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Information Engineering University of PLA Strategic Support Force , Network Communication and Security Zijinshan Laboratory filed Critical Information Engineering University of PLA Strategic Support Force
Priority to CN202110221392.4A priority Critical patent/CN113037729B/zh
Publication of CN113037729A publication Critical patent/CN113037729A/zh
Application granted granted Critical
Publication of CN113037729B publication Critical patent/CN113037729B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic
    • H04L63/1483Countermeasures against malicious traffic service impersonation, e.g. phishing, pharming or web spoofing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1416Event detection, e.g. attack signature detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Biomedical Technology (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于网络安全技术领域,特别涉及一种基于深度学习的钓鱼网页层次化检测方法及系统,包含:利用黑名单对待测URL进行匹配,拦截已知钓鱼网页;基于敏感词对待测URL分词,并通过词嵌入矩阵将分词后的URL转化为特征向量矩阵;利用已训练的卷积神经网络CNN提取特征向量矩阵中的局部特征,并结合双向长短记忆网络Bi‑LSTM提取特征向量中的长距离依赖特征;针对长距离依赖特征,利用网络全连接层来获取待测URL属于钓鱼网页的概率并判定待测URL类型。本发明结合黑名单和深度学习的优点,通过拦截并自动提取特征检测未知的钓鱼网页,检测模型提取更为充分的特征,提升对钓鱼网页的检测能力,检测速度快、准确率高,具有较好的应用前景。

Description

基于深度学习的钓鱼网页层次化检测方法及系统
技术领域
本发明属于网络安全技术领域,特别涉及一种基于深度学习的钓鱼网页层次化检测方法及系统。
背景技术
近年来,互联网快速发展,基于互联网的应用如在线购物,电子商务,网络社交等为人们的工作、生活、娱乐带来了巨大便利。因此,越来越多的人开始接触、使用互联网。据中国互联网络信息中心CNNIC统计,截至2020年3月,中国网民规模达9.04亿,互联网普及率达64.5%。与此同时,网民信息亦面临着安全威胁,如网络攻击者通过网络钓鱼。窃取个人敏感信息进而获取经济利益。因此,如何及时、有效地检测钓鱼网页已经成为亟待解决的问题。
针对钓鱼网页,当前主要有三类检测方法:基于黑名单检测,基于网页内容特征检测,基于URL特征检测。其中,基于黑名单检测是一种传统的钓鱼网站检测方法,只需进行简单的数据库查询操作,因此实现简单且检测速度快,但该方法过度依赖黑名单的规模,无法识别新出现而未在黑名单中的钓鱼网址。基于网页内容特征检测,根据网页内容相似度来判别网页的合法性或者利用机器学习训练生成一个检测模型来识别钓鱼网页。钓鱼网页经常使用大量被模仿网页的信息,如CSS架构、Logo、布局等,与被模仿合法网页具有较高的相似度,通过计算与合法网页的相似度来检测钓鱼网页具有较高的检测准确率,但该类方法往往会先收集大量的合法网页,构造一个参照集,然后将待测网页与参照集中的每个网页进行相似度计算,取其中的最大值与预先定义好的阈值进行比较,所以这种检测方式计算复杂度高且检测速率低,很难应用于实际场景。利用机器学习来检测钓鱼网页也有很大的局限性:需要大量的手动特征工程,其中许多特征需要相关专家来确认;需要获取网页内容,增加了客户端开销和风险且检测算法的时间复杂度高;某些钓鱼网站能够隐藏其网页内容。基于URL特征检测,利用机器学习或深度学习训练生成一个检测模型来检测钓鱼网页。利用机器学习检测钓鱼网页需要人工提取URL的结构特征(如URL中“.”的个数,URL长度等)和主机特征(WHOIS信息,位置信息等)。因此其性能严重依赖于人工提取的特征的好坏,且因特征较为固定容易被钓鱼攻击者绕开其检测模型。利用深度学习技术可以自动提取URL的特征来检测钓鱼网页,当前已有的方法大都使用“.”,“/”等特殊字符或者逐个字符对URL划分,然后使用单一的神经网络模型提取URL特征以对URL进行分类。这种方法存在以下的弊端:利用特殊字符划分URL可能会使单词的数量相当大,造成该数据集的特征也按比例地增大,导致在进行特征向量的转换时内存受到限制;在测试检测模型时无法获取新出现单词的嵌入向量表示;利用特殊字符如“.”、“\”、“?”等对URL分词时没有获取这些特殊字符所具有的有效信息:特殊字符的分布与类型;特殊字符与周围词的前后关系;逐个字符划分URL会导致钓鱼URL中存在一些特有的敏感词,如“login”、“password”、“registed”等丢失有效信息;使用单一的神经网络模型如卷积神经网络对URL的特征提取不充分。
发明内容
为此,本发明提供一种基于深度学习的钓鱼网页层次化检测方法及系统,结合黑名单和深度学习的优点,通过拦截并自动提取特征检测未知的钓鱼网页,检测模型提取更为充分的特征,提升对钓鱼网页的检测能力,检测速度快、准确率高。
按照本发明所提供的设计方案,提供一种基于深度学习的钓鱼网页层次化检测方法,包含:
利用黑名单对待测URL进行匹配,拦截已知钓鱼网页;
基于敏感词对待测URL分词,并通过词嵌入矩阵将分词后的URL转化为特征向量矩阵;
利用已训练的卷积神经网络CNN提取特征向量矩阵中的局部特征,并结合双向长短记忆网络Bi-LSTM提取特征向量中的长距离依赖特征;针对长距离依赖特征,利用网络全连接层来获取待测URL属于钓鱼网页的概率,利用概率来判定待测URL类型。
作为本发明基于深度学习的钓鱼网页层次化检测方法,进一步地,待测URL分词中,将敏感词作为整体与其他非敏感词进行区分,利用特殊字符对待测URL进行单词级别划分,对非敏感词进行字符级别划分。
作为本发明基于深度学习的钓鱼网页层次化检测方法,进一步地,特征向量转化中,根据URL数据集和敏感词汇表构建字符和敏感词映射表,为URL中的字符和敏感词赋予唯一数字编码;利用词嵌入矩阵将URL数字编码转化为二维特征向量矩阵。
作为本发明基于深度学习的钓鱼网页层次化检测方法,进一步地,特征向量转化中,首先确定URL中字符及关键字总长度,若总长度超过设定阈值,则截断URL末尾多余字符,若总长度未达到设定阈值,则在URL末尾利用附加词标记做填充;并对URL中未知字符做统一表示。
作为本发明基于深度学习的钓鱼网页层次化检测方法,进一步地,卷积神经网络CNN中,设定卷积核尺寸、数量及卷积核滑动步长;针对卷积核在滑动窗口处获取的URL字符和敏感词的嵌入矩阵,通过卷积操作产生新特征,利用卷积核遍历特征向量矩阵生成特征图;对特征图经过池化窗口进行最大池化来获取局部特征。
作为本发明基于深度学习的钓鱼网页层次化检测方法,进一步地,卷积操作产生的新特征
Figure GDA0003020664220000031
表示为:
Figure GDA0003020664220000032
其中,Xi'为卷积核f在第i个滑动窗口获取的嵌入矩阵,Wf和bf分别为权重矩阵和偏置项,σ为激活函数ReLu。
作为本发明基于深度学习的钓鱼网页层次化检测方法,进一步地,双向长短记忆网络Bi-LSTM中,将卷积神经网络CNN输出MP作为Bi-LSTM输入,将MP作为时间轴序列信息,通过正向LSTM利用遗忘门、输入门、输出门三个门来记忆某一时刻i之前的信息,并利用之前的信息影响当前时刻的输出;并通过反向LSTM利用遗忘门、输入门、输出门三个门来记忆某一时刻i之后的信息,并利用之后的信息影响当前时刻的输出;将两个不同方向的LSTM最后时刻的输出进行拼接,获取URL不同方向的长距离依赖特征。
作为本发明基于深度学习的钓鱼网页层次化检测方法,进一步地,正向LSTM利用之前信息影响当前时刻输出中,首先通过遗忘门从前一时刻细胞状态中丢弃设定比例信息;然后通过输入门控制当前时刻输入并保存到当前时刻临时细胞状态中,并利用旧细胞状态与遗忘门输出相乘以丢弃旧细胞中设定比例信息,利用临时细胞状态与输入门输出相乘获取当前时刻细胞状态;利用输出门获取输出比例,并确定当前时刻输出。
作为本发明基于深度学习的钓鱼网页层次化检测方法,进一步地,网络全连接层中,通过softmax函数计算待测URL属于钓鱼或合法网页的概率,计算公式表示为
Figure GDA0003020664220000033
其中,zi=wih+bi,h为URL不同方向的长距离依赖特征,wi和bi分别为权重和偏置参数,i为URL类别索引,k为URL类别总数。若判断待测URL为钓鱼网址,则将其加入黑名单中。
进一步地,基于上述的方法,本发明还提供一种基于深度学习的钓鱼网页层次化检测系统,包含:拦截模块、转化模块和分类模块,其中,
拦截模块,用于利用黑名单对待测URL进行匹配,拦截已知钓鱼网页;
转化模块,用于基于敏感词对待测URL分词,并通过词嵌入矩阵将分词后的URL转化为特征向量矩阵;
分类模块,用于利用已训练的卷积神经网络CNN提取特征向量矩阵中的局部特征,并结合双向长短记忆网络Bi-LSTM提取特征向量中的长距离依赖特征;针对长距离依赖特征,利用网络全连接层来获取待测URL属于钓鱼网页的概率,利用概率来判定待测URL类型。
本发明的有益效果:
本发明综合使用黑名单和深度学习技术进行钓鱼网页检测,能够对已在黑名单的URL进行快速的检测和响应,对未知的URL能够自动提取特征进行检测;基于敏感词划分URL,避免了利用特殊字符划分URL和逐字符划分URL存在的问题:单词的数量大,内存受限;无法获取新出现单词的嵌入向量表示;无法获取特殊字符所具有的有效信息;丢失敏感词的有效信息;并使用混合的神经网络模型提取URL特征来检测钓鱼网页,通过卷积神经网络CNN提取URL的局部特征,通过双向长短记忆网络BiLSTM提取URL的长距离依赖特征,这样检测模型能够提取更为充分的特征,提升对钓鱼网页的检测能力,具有较好的应用前景。
附图说明:
图1为实施例中钓鱼网页检测流程示意;
图2为实施例中CNN特征提取示意;
图3为实施例中BiLSTM特征提取与分类示意。
具体实施方式:
为使本发明的目的、技术方案和优点更加清楚、明白,下面结合附图和技术方案对本发明作进一步详细的说明。
针对钓鱼网页的识别,本发明实施例,参见图1所示,提供一种基于深度学习的钓鱼网页层次化检测方法,包含:利用黑名单对待测URL进行匹配,拦截已知钓鱼网页;基于敏感词对待测URL分词,并通过词嵌入矩阵将分词后的URL转化为特征向量矩阵;利用已训练的卷积神经网络CNN提取特征向量矩阵中的局部特征,并结合双向长短记忆网络Bi-LSTM提取特征向量中的长距离依赖特征;针对长距离依赖特征,利用网络全连接层来获取待测URL属于钓鱼网页的概率,利用概率来判定待测URL类型。结合黑名单和深度学习的优点,同时对现有的深度学习检测方法在现有的基础上加以改进,以使检测模型提取更为充分的特征,提升对钓鱼网页的检测能力,检测速度快、准确率高,能够自动提取特征检测未知的钓鱼网页。
作为本发明实施例中基于深度学习的钓鱼网页层次化检测方法,进一步地,待测URL分词中,将敏感词作为整体与其他非敏感词进行区分,利用特殊字符对待测URL进行单词级别划分,对非敏感词进行字符级别划分。
首先,通过黑名单对待测URL进行匹配,若匹配成功则直接拦截,否则进入模型检测。利用黑名单可以快速检测到在黑名单中存在的钓鱼网页,提升对已知钓鱼网页的检测速度。然后,基于敏感词分词方法对URL进行分词。如表1所示,根据特殊字符如“.”,“/”,“?”,“@”等对URL进行单词级别划分,并将特殊字符看作单词处理以获得特殊字符的有效信息,然后对其中的非敏感词进行字符级别划分,而将其中的敏感词作为一个整体与其余字符进行区分,这样能够明显标记网址URL中的重点信息,有利于神经网络分类器提取更具有代表性的特征。
表1基于敏感词划分URL
Figure GDA0003020664220000051
作为本发明实施例中基于深度学习的钓鱼网页层次化检测方法,进一步地,特征向量转化中,根据URL数据集和敏感词汇表构建字符和敏感词映射表,为URL中的字符和敏感词赋予唯一数字编码;利用词嵌入矩阵将URL数字编码转化为二维特征向量矩阵。进一步地,特征向量转化中,首先确定URL中字符及关键字总长度,若总长度超过设定阈值,则截断URL末尾多余字符,若总长度未达到设定阈值,则在URL末尾利用附加词标记做填充;并对URL中未知字符做统一表示。
据URL数据集和敏感词汇表确定每条URL中字符及关键字的总长度L,若URL长度超过300,则在URL末尾将多余的字符截断,若URL的长度小于300,则在其末尾用<PAD>标记作为附加词填充。若URL中出现未知字符,则用未知字符标记<UNK>表示,敏感词汇表如表2所示。据URL数据集和敏感词汇表构建字符和敏感词映射表为URL中的字符和敏感词赋予唯一数字编码,如表3所示。通过词嵌入矩阵将URL的数字编码转化为二维稠密特征向量矩阵。首先将URL根据字符与敏感词映射表转换为300*1的矩阵X,如以下公式所示:X=(x1,x2,...x300),式中,xi是一维的列向量,i=1,2,3,...300。随后将矩阵X经神经网络中的Embedding层转换为300*32的包含语义信息的二维稠密矩阵X'=(x'1,x'2,...x'300),式中xi'是32维的列向量。
表2敏感词汇表
Figure GDA0003020664220000061
表3字符与敏感词映射表
Figure GDA0003020664220000062
作为本发明实施例中基于深度学习的钓鱼网页层次化检测方法,进一步地,卷积神经网络CNN中,设定卷积核尺寸、数量及卷积核滑动步长;针对卷积核在滑动窗口处获取的URL字符和敏感词的嵌入矩阵,通过卷积操作产生新特征,利用卷积核遍历特征向量矩阵生成特征图;对特征图经过池化窗口进行最大池化来获取局部特征。进一步地,卷积操作产生的新特征
Figure GDA0003020664220000071
表示为:
Figure GDA0003020664220000072
其中,Xi'为卷积核f在第i个滑动窗口获取的嵌入矩阵,Wf和bf分别为权重矩阵和偏置项,σ为激活函数ReLu。
如图2所示,通过卷积神经网络的卷积核从特征矩阵自动提取局部特征,卷积核高度h设置为2,宽度与字符向量的维度一致为32,卷积核的数量n设置为200,卷积核滑动步长设置为1。对于某个卷积核f在第i个滑动窗口处获取的URL字符与敏感词的嵌入矩阵设为Xi'=[xi',x'i+1,...,x'i+h-1],通过卷积操作产生的新特征设为
Figure GDA0003020664220000073
其中Wf和bf为权重矩阵和偏置项,σ为激活函数ReLu,ReLu函数表达式为ReLu(x)=max(0,x),使神经网络具有拟合非线性函数的能力。卷积核遍历整个嵌入矩阵后产生一个特征图feature map为
Figure GDA0003020664220000074
对cf经池化窗口pl进行最大池化以获取更具有代表性的特征(池化窗口大小为2,池化步长为1),设在第i个池化窗口处,池化后新的特征图为
Figure GDA0003020664220000075
则池化窗口遍历整个cf后得到新的特征图
Figure GDA0003020664220000076
将X'经所有卷积核卷积池化后得到的新特征图堆叠得到一个序列矩阵MP=[mp1,mp2,...,mps],其中
Figure GDA0003020664220000077
mpi∈Rn*1
作为本发明实施例中基于深度学习的钓鱼网页层次化检测方法,进一步地,双向长短记忆网络Bi-LSTM中,将卷积神经网络CNN输出MP作为Bi-LSTM输入,将MP作为时间轴序列信息,通过正向LSTM利用遗忘门、输入门、输出门三个门来记忆某一时刻i之前的信息,并利用之前的信息影响当前时刻的输出;并通过反向LSTM利用遗忘门、输入门、输出门三个门来记忆某一时刻i之后的信息,并利用之后的信息影响当前时刻的输出;将两个不同方向的LSTM最后时刻的输出进行拼接,获取URL不同方向的长距离依赖特征。
如图3所示,BiLSTM包含一个正向LSTM和一个反向LSTM。将卷积神经网络的输出MP作为BiLSTM的输入,mpi与BiLSTM第i个时刻的输入对应,将MP看作时间轴上的序列信息。正向LSTM通过遗忘门、输入门、输出门三个门来记忆某一时刻i之前的信息,并利用之前的信息影响当前时刻的输出。反向LSTM通过遗忘门、输入门、输出门三个门来记忆某一时刻i之后的信息,并利用之后的信息影响当前时刻的输出。以正向LSTM为例,具体可分为以下四个步骤:
步骤1:通过遗忘门从t-1时刻的细胞状态ct-1中丢弃一定比例的信息。计算遗忘门t时刻的值如公式ft=sigmoid(wf*[ht-1,mpt]+bf)所示,式中wf为遗忘门权重矩阵,bf为遗忘门偏置。
步骤2:通过输入门控制当前时刻t的输入mpt有多少信息保存到细胞状态ct中。首先通过sigmoid层计算更新信息的比例it,it=sigmoid(wi*[ht-1,mpt]+bi),通过tanh层计算临时细胞状态
Figure GDA0003020664220000081
步骤3:更新t-1时刻的细胞状态ct-1,计算t时刻的细胞状态
Figure GDA0003020664220000082
首先利用旧细胞状态与遗忘门输出相乘以丢弃旧细胞的部分信息,然后利用临时细胞状态与输入门输出相乘以得到需要加入细胞的新信息,最后利用二者的和得到新的细胞状态。
步骤4:通过输出门的sigmoid层计算输出比例,如公式ot=sigmoid(wo*[ht-1,mpt]+bo)所示。然后将新的细胞状态输入tanh层进行处理,最后将二者相乘得到确定输出的值,如公式
Figure GDA0003020664220000083
所示。
以此循环,正向LSTM最终时刻的输出包含之前所有时刻的信息,即正向LSTM能够记忆mps之前输入的特征,因此正向LSTM能够获取URL的长距离依赖特征。将正向LSTM最后时刻的输出记为hF,将反向LSTM最后时刻的输出记为hR,将两个不同方向的LSTM最后时刻的输出进行拼接记为
Figure GDA0003020664220000084
(
Figure GDA0003020664220000085
表示拼接运算符),以获取URL不同方向的长距离依赖特征。
作为本发明实施例中基于深度学习的钓鱼网页层次化检测方法,进一步地,网络全连接层中,通过softmax函数计算待测URL属于钓鱼或合法网页的概率,计算公式表示为
Figure GDA0003020664220000086
其中,zi=wih+bi,h为URL不同方向的长距离依赖特征,wi和bi分别为权重和偏置参数,i为URL类别索引,k为URL类别总数。若判断待测URL为钓鱼网址,则将其加入黑名单中。
通过神经网络全连接层计算URL属于钓鱼网页的概率,以此对URL分类,若URL属于钓鱼网页,则将其加入黑名单中。
本案实施例中,针对黑名单中已经存在的钓鱼URL,能够迅速反馈结果;针对黑名单中不存在的URL,通过CNN-BiLSTM充分提取URL的特征进行快速检测,并同时更新黑名单。随着黑名单的不断扩充,CNN-BiLSTM模型也进行自动学习并定时更新以优化其模型参数,使得本发明不仅能够迅速检测已知的钓鱼URL,也能够对未知的钓鱼URL进行快速识别。
进一步地,基于上述的方法,本发明实施例还提供一种基于深度学习的钓鱼网页层次化检测系统,包含:拦截模块、转化模块和分类模块,其中,
拦截模块,用于利用黑名单对待测URL进行匹配,拦截已知钓鱼网页;
转化模块,用于基于敏感词对待测URL分词,并通过词嵌入矩阵将分词后的URL转化为特征向量矩阵;
分类模块,用于利用已训练的卷积神经网络CNN提取特征向量矩阵中的局部特征,并结合双向长短记忆网络Bi-LSTM提取特征向量中的长距离依赖特征;针对长距离依赖特征,利用网络全连接层来获取待测URL属于钓鱼网页的概率,利用概率来判定待测URL类型。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
结合本文中所公开的实施例描述的各实例的单元及方法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已按照功能一般性地描述了各示例的组成及步骤。这些功能是以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。本领域普通技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不认为超出本发明的范围。
本领域普通技术人员可以理解上述方法中的全部或部分步骤可通过程序来指令相关硬件完成,所述程序可以存储于计算机可读存储介质中,如:只读存储器、磁盘或光盘等。可选地,上述实施例的全部或部分步骤也可以使用一个或多个集成电路来实现,相应地,上述实施例中的各模块/单元可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。本发明不限制于任何特定形式的硬件和软件的结合。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (8)

1.一种基于深度学习的钓鱼网页层次化检测方法,其特征在于,包含:
利用黑名单对待测URL进行匹配,拦截已知钓鱼网页;
基于敏感词对待测URL分词,并通过词嵌入矩阵将分词后的URL转化为特征向量矩阵;
利用已训练的卷积神经网络CNN提取特征向量矩阵中的局部特征,并结合双向长短记忆网络Bi-LSTM提取特征向量中的长距离依赖特征;针对长距离依赖特征,利用网络全连接层来获取待测URL属于钓鱼网页的概率,利用概率来判定待测URL类型;
待测URL分词中,将敏感词作为整体与其他非敏感词进行区分,利用特殊字符对待测URL进行单词级别划分,对非敏感词进行字符级别划分;
特征向量转化中,根据URL数据集和敏感词汇表构建字符和敏感词映射表,为URL中的字符和敏感词赋予唯一数字编码;利用词嵌入矩阵将URL数字编码转化为二维特征向量矩阵。
2.根据权利要求1所述的基于深度学习的钓鱼网页层次化检测方法,其特征在于,特征向量转化中,首先确定URL中字符及关键字总长度,若总长度超过设定阈值,则截断URL末尾多余字符,若总长度未达到设定阈值,则在URL末尾利用附加词标记做填充;并对URL中未知字符做统一表示。
3.根据权利要求1所述的基于深度学习的钓鱼网页层次化检测方法,其特征在于,卷积神经网络CNN中,设定卷积核尺寸、数量及卷积核滑动步长;针对卷积核在滑动窗口处获取的URL字符和敏感词的嵌入矩阵,通过卷积操作产生新特征,利用卷积核遍历特征向量矩阵生成特征图;对特征图经过池化窗口进行最大池化来获取局部特征。
4.根据权利要求3所述的基于深度学习的钓鱼网页层次化检测方法,其特征在于,卷积操作产生的新特征
Figure FDA0003804635430000011
表示为:
Figure FDA0003804635430000012
其中,Xi'为卷积核f在第i个滑动窗口获取的嵌入矩阵,Wf和bf分别为权重矩阵和偏置项,σ为激活函数ReLu。
5.根据权利要求1所述的基于深度学习的钓鱼网页层次化检测方法,其特征在于,双向长短记忆网络Bi-LSTM中,将卷积神经网络CNN输出MP作为Bi-LSTM输入,将MP作为时间轴序列信息,通过正向LSTM利用遗忘门、输入门、输出门三个门来记忆某一时刻i之前的信息,并利用之前的信息影响当前时刻的输出;并通过反向LSTM利用遗忘门、输入门、输出门三个门来记忆某一时刻i之后的信息,并利用之后的信息影响当前时刻的输出;将两个不同方向的LSTM最后时刻的输出进行拼接,获取URL不同方向的长距离依赖特征。
6.根据权利要求5所述的基于深度学习的钓鱼网页层次化检测方法,其特征在于,正向LSTM利用之前信息影响当前时刻输出中,首先通过遗忘门从前一时刻细胞状态中丢弃设定比例信息;然后通过输入门控制当前时刻输入并保存到当前时刻临时细胞状态中,并利用旧细胞状态与遗忘门输出相乘以丢弃旧细胞中设定比例信息,利用临时细胞状态与输入门输出相乘获取当前时刻细胞状态;利用输出门获取输出比例,并确定当前时刻输出。
7.根据权利要求1所述的基于深度学习的钓鱼网页层次化检测方法,其特征在于,网络全连接层中,通过softmax函数计算待测URL属于钓鱼或合法网页的概率,计算公式表示为
Figure FDA0003804635430000021
其中,zi=wih+bi,h为URL不同方向的长距离依赖特征,wi和bi分别为权重和偏置参数,i为URL类别索引,k为URL类别总数;若判断待测URL为钓鱼网址,则将其加入黑名单中。
8.一种基于深度学习的钓鱼网页层次化检测系统,其特征在于,基于权利要求1所述的方法实现,包含:拦截模块、转化模块和分类模块,其中,
拦截模块,用于利用黑名单对待测URL进行匹配,拦截已知钓鱼网页;
转化模块,用于基于敏感词对待测URL分词,并通过词嵌入矩阵将分词后的URL转化为特征向量矩阵;
分类模块,用于利用已训练的卷积神经网络CNN提取特征向量矩阵中的局部特征,并结合双向长短记忆网络Bi-LSTM提取特征向量中的长距离依赖特征;针对长距离依赖特征,利用网络全连接层来获取待测URL属于钓鱼网页的概率,利用概率来判定待测URL类型。
CN202110221392.4A 2021-02-27 2021-02-27 基于深度学习的钓鱼网页层次化检测方法及系统 Active CN113037729B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110221392.4A CN113037729B (zh) 2021-02-27 2021-02-27 基于深度学习的钓鱼网页层次化检测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110221392.4A CN113037729B (zh) 2021-02-27 2021-02-27 基于深度学习的钓鱼网页层次化检测方法及系统

Publications (2)

Publication Number Publication Date
CN113037729A CN113037729A (zh) 2021-06-25
CN113037729B true CN113037729B (zh) 2022-11-18

Family

ID=76464658

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110221392.4A Active CN113037729B (zh) 2021-02-27 2021-02-27 基于深度学习的钓鱼网页层次化检测方法及系统

Country Status (1)

Country Link
CN (1) CN113037729B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115622739A (zh) * 2022-09-20 2023-01-17 浪潮云信息技术股份公司 一种面向url和标签结合的泛化钓鱼网站检测方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107798080A (zh) * 2017-10-13 2018-03-13 中国科学院信息工程研究所 一种面向钓鱼url检测的相似样本集构造方法
CN109005145A (zh) * 2018-06-04 2018-12-14 上海交通大学 一种基于自动特征抽取的恶意url检测系统及其方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10834128B1 (en) * 2018-03-30 2020-11-10 Fireeye, Inc. System and method for identifying phishing cyber-attacks through deep machine learning via a convolutional neural network (CNN) engine
CN109101552B (zh) * 2018-07-10 2022-01-28 东南大学 一种基于深度学习的钓鱼网站url检测方法
CN111198995B (zh) * 2020-01-07 2023-03-24 电子科技大学 一种恶意网页识别方法
CN112383518A (zh) * 2020-10-30 2021-02-19 广东工业大学 一种僵尸网络检测方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107798080A (zh) * 2017-10-13 2018-03-13 中国科学院信息工程研究所 一种面向钓鱼url检测的相似样本集构造方法
CN109005145A (zh) * 2018-06-04 2018-12-14 上海交通大学 一种基于自动特征抽取的恶意url检测系统及其方法

Also Published As

Publication number Publication date
CN113037729A (zh) 2021-06-25

Similar Documents

Publication Publication Date Title
CN109101552B (zh) 一种基于深度学习的钓鱼网站url检测方法
CN110602113B (zh) 一种基于深度学习的层次化钓鱼网站检测方法
Ito et al. Web application firewall using character-level convolutional neural network
CN107085730A (zh) 一种字符验证码识别的深度学习方法及装置
CN112084331A (zh) 文本处理、模型训练方法、装置、计算机设备和存储介质
CN113596007B (zh) 一种基于深度学习的漏洞攻击检测方法和设备
CN110297879B (zh) 一种基于大数据的数据去重的方法、装置及存储介质
CN113691542B (zh) 基于HTTP请求文本的Web攻击检测方法及相关设备
CN115051817B (zh) 一种基于多模态融合特征的网络钓鱼检测方法和系统
CN111488732B (zh) 一种变形关键词检测方法、系统及相关设备
CN112052451A (zh) 一种webshell检测方法和装置
CN112651025A (zh) 一种基于字符级嵌入编码的webshell检测方法
Zhang et al. Research on phishing webpage detection technology based on CNN-BiLSTM algorithm
CN113037729B (zh) 基于深度学习的钓鱼网页层次化检测方法及系统
CN115620304A (zh) 文本识别模型的训练方法、文本识别方法及相关装置
CN112926647B (zh) 模型训练方法、域名检测方法及装置
CN112134858B (zh) 敏感信息检测方法、装置、设备及存储介质
CN110704611B (zh) 基于特征解交织的非法文本识别方法及装置
CN116722992A (zh) 一种基于多模态融合的诈骗网站识别方法及装置
CN116975864A (zh) 恶意代码检测方法、装置、电子设备及存储介质
CN114090781A (zh) 基于文本数据的容斥事件检测方法和装置
CN114064905A (zh) 网络攻击检测方法、装置、终端设备、芯片及存储介质
CN115883111A (zh) 一种钓鱼网站识别方法、装置、电子设备及存储介质
Vázquez‐Cervantes et al. Toward implementation of associative model in real time for character recognition: A hardware architecture proposal for embedded systems
CN112613293B (zh) 摘要生成方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant