CN114638984B - 一种基于胶囊网络的恶意网站url检测方法 - Google Patents

一种基于胶囊网络的恶意网站url检测方法 Download PDF

Info

Publication number
CN114638984B
CN114638984B CN202210151497.1A CN202210151497A CN114638984B CN 114638984 B CN114638984 B CN 114638984B CN 202210151497 A CN202210151497 A CN 202210151497A CN 114638984 B CN114638984 B CN 114638984B
Authority
CN
China
Prior art keywords
url
capsule
vector
level
convolution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210151497.1A
Other languages
English (en)
Other versions
CN114638984A (zh
Inventor
付雄
徐锴涛
邓松
王俊昌
程春玲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN202210151497.1A priority Critical patent/CN114638984B/zh
Publication of CN114638984A publication Critical patent/CN114638984A/zh
Application granted granted Critical
Publication of CN114638984B publication Critical patent/CN114638984B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9566URL specific, e.g. using aliases, detecting broken or misspelled links
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/90Determination of colour characteristics
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Computer Security & Cryptography (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于胶囊网络的恶意网站URL检测方法,包括:根据进制转换规则将拦截到的待检测URL转换为三通道RGB彩色图像;基于胶囊网络构建目标检测模型;利用样本数据对目标检测模型进行训练,生成包含图结构和网络参数的目标检测模型;将待检测目标输入训练后的目标检测模型中,对拦截到的待检测URL是否属于恶意网站以及属于哪个恶意家族进行识别分类。本发明引入了恶意网站URL可视化方法,提高了检测效率;使用胶囊网络进行图像的特征提取和分类训练,提高了检测准确率,同时也较好解决了深度神经网络中小样本训练效果不佳的问题。

Description

一种基于胶囊网络的恶意网站URL检测方法
技术领域
本发明涉及恶意网站URL检测技术领域,具体而言涉及一种基于胶囊网络的恶意网站URL检测方法。
背景技术
新的通信技术会给经济发展带来新的机会,但不可避免的也会给不法分子带来机会。互联网的出现和发展也同样符合这个规律。伴随着互联网给全球化带来的新助力,人们的生活、工作变得越来越方便快捷,同时人们对互联网的依赖也越来越深。网上聊天、网上购物、网上游戏、网上学习、网上办公、网上获取信息等行为已经深深的渗透到人们的日常生活当中。
伴随着互联网+产业的飞速发展,网络安全形势越来越严峻,网站挂马、网络诈骗、隐私窃取等日益威胁着广大网民的合法权益。恶意网站主要对知名网站、金融行业、电信行业网上营业厅进行仿冒,并通过社会工程学等手段恶意收集用户敏感信息、诈骗用户钱财等。网站挂马行为更直接威胁到广大网民使用的个人终端,通过在个人终端上运行挂马程序以达到控制个人终端的目的,进而持续威胁网民的合法权益。恶意网站的肆虐对广大网民的正常上网行为构成了巨大威胁,因此针对“如何高效、准确的检测出恶意网站URL”的研究将有着广泛的应用前景和重大的实用价值。
目前在恶意网站URL检测领域已经有很多技术方法被提出。基于静态分析的检测技术最早被提出,但随着混淆技术的发展,基于特征的静态分析技术可以被多种混淆技术绕过,而基于恶意网站URL签名库的检测方法无法检测新的未知恶意网站URL。另一种是基于行为的动态检查技术,虽然动态检测技术能够避免混淆技术的干扰,但需要在蜜罐环境中对恶意网站URL进行动态监视,对硬件资源有一定要求,同时无法对大规模的恶意网站URL样本进行检测。随着各种机器学习新技术的提出,机器学习新平台的流行,越来越多的开发人员开始通过机器学习拥抱人工智能,现在已经开始应用于恶意网站URL的检测方向。机器学习检测分类方法在恶意网站URL的检测中能提供比人工更高效更准确的识别,很大程度上节省了人工成本。
专利号为CN110602113A的发明中提及一种基于深度学习的层次化钓鱼网站检测方法,首先对输入的URL进行检测,输出该URL属于钓鱼网站的概率,若所输出的概率大于预设阈值,则判断待检测网站为钓鱼网站,否则下载待检测URL对应的网页,统计所述网页的HTML标签数量,利用HTML标签列表对统计结果进行向量化,根据向量化后的HTML标签序列提取精确的网页内容特征表示,通过全连接层进行分类,得到该URL属于钓鱼网站的概率。该发明结合了URL和网页内容进行钓鱼网站检测,能够自适应地选择使用不同层次的钓鱼检测模块进行快速、准确的钓鱼网站检测。
但基于机器学习和深度神经网络的恶意网站URL检测方法仍存在部分关键问题未能解决,比如:需要大量的标记样本进行训练,前期的特征提取工作过于复杂,以及针对基于生成对抗网络制作的对抗样本的检测准确率不高等。
发明内容
本发明针对现有技术中的不足,提供一种基于胶囊网络的恶意网站URL检测方法,引入了恶意网站URL可视化方法,提高了检测效率;使用胶囊网络进行图像的特征提取和分类训练,提高了检测准确率,同时也较好解决了深度神经网络中小样本训练效果不佳的问题。
为实现上述目的,本发明采用以下技术方案:
本发明实施例提出了一种基于胶囊网络的恶意网站URL检测方法,所述恶意网站URL检测方法包括以下步骤:
S1,根据进制转换规则将拦截到的待检测URL转换为三通道RGB彩色图像,对转换得到的彩色图像进行预处理,统一成标准格式的待检测目标图像;
S1,根据进制转换规则将拦截到的待检测URL转换为三通道RGB彩色图像,对转换得到的彩色图像进行预处理,统一成标准格式的待检测目标图像;
S2,基于胶囊网络构建目标检测模型,该目标检测模型包含普通卷积层、低级胶囊层和高级胶囊层;普通卷积层用于对图像像素做一次局部特征检测提取低级特征,普通卷积层包含256个卷积步幅为1,大小为9*9的卷积核,采用ReLU函数作为非线性激活函数;低级胶囊层通过胶囊卷积运算输出存储有低级特征向量的低级胶囊,低级胶囊层包含32个卷积步幅为1,大小为3*3的卷积核;高级胶囊层采用向量与向量全连接模式,通过迭代动态路由计算向量输出,高级胶囊层的输出向量为二分类,用于检测被拦截的网站是否为恶意网站;
所述目标检测模型利用迭代动态路由算法进行胶囊层特征向量的传递,传递过程为:将来自底层特征输入通过权重矩阵转化为预测向量,通过加权求和得到求和矩阵,利用非线性激活函数进行向量转换得到作为下一个高层特征输入向量的输出向量;
S3,利用样本数据对目标检测模型进行训练,生成包含图结构和网络参数的目标检测模型;
S4,将待检测目标输入训练后的目标检测模型中,对拦截到的待检测URL是否属于恶意网站进行识别分类。
进一步地,步骤S1中,根据进制转换规则将拦截到的待检测URL转换为三通道RGB彩色图像,对转换得到的彩色图像进行预处理,统一成标准格式的待检测目标图像的过程包括以下步骤:
S11,利用Python中的pyGame模块将拦截到的网站URL字符串URL_str渲染为点阵字体URL_word,将URL_word保存在StringIO对象URL_iostream中,再利用Python中的PIL模块读取URL_iostream中的URL_word,将其转化成整张图片URL_pic;
S12,调用Python中的numpy库中的Image.ANTIALIAS函数对图片URL_pic进行图像采集,生成图片URL_high_quality_pic,调用numpy库中的resize函数将图片URL_high_quality_pic统一为标准格式的图片URL_std_pic;
S13,利用Matlab中的imread函数将图片URL_std_pic转化为对应的32*32个单元的图片矩阵pic_matrix。
进一步地,步骤S4中,将待检测目标输入训练后的目标检测模型中,对拦截到的待检测URL是否属于恶意网站的过程包括以下步骤:
S41,设置普通卷积层的卷积核cln_knel_first大小为9*9,cln_knel_first个数为256个,卷积步幅cln_std_first为1,通道数channel_first为256,无填充;调用公式(1)求出普通卷积层的输出α:
α=∑mnf(m,n)pic_matrix(32-m,32-n) (1);
其中f为随机生成的9行9列的标准卷积核矩阵,m为f的第m行,n为f的第n列;
S42,设置低级胶囊层的卷积核cln_knel_second大小为3*3,cln_knel_first个数为32个,卷积步幅cln_std_second为1,通道数channel_second为32,无填充;调用公式(2)求出低级胶囊张量β:
β=∑m′∑n′(m′,n′)α(20-m′,20-n′) (2);
其中h为随机生成的3行3列的低级卷积核矩阵,m′为低级卷积核矩阵的第m′行,n′为低级卷积核矩阵的第n′列;
S43,设置权重矩阵为W,调用公式(3)求出预测向量Uj|i
Uj|i=W×Ui (3);
其中Ui为β中第i个位置的向量;j的取值为0或者1,i为大于等于1的正整数;
S44,调用公式(4)计算耦合系数值cij
其中bij为低级胶囊i对于高级胶囊j的对数先验概率,bij初始化为0;cij用于决定众多低级胶囊映射到哪一个高级胶囊;exp()函数为以自然常数e为底的指数函数;
S45,调用公式(5)加权求和得到第j个高级胶囊的求和向量Sj
Sj=ΣicijUj|i (5);
其中耦合系数值cij作为权值;
调用公式(6)得到第j个高级胶囊的结果向量Vj
S46,调用公式(7)更新bij的值:
bij=bij+Uj|i·Vj (7);
S47,调用Python中的numpy库中的np.linalg.norm函数计算第j个高级胶囊的结果向量Vj的长度Vj_len;
S48,更新完bij之后返回步骤S44,循环执行步骤S44到步骤S47,直至计算V0_len与V1_len的差值大于等于阈值Vj_max或者到达预设循环次数阈值;V0_len是待检测URL对应的网站为恶意网站的向量长度,V1_len是待检测URL对应的网站为正常网站的向量长度;
S49,根据V0_len与V1_len的长度对拦截到的网站URL进行判定,若V0_len的长度大于等于V1_len的长度则判定该URL为恶意网站URL,若V0_len的长度小于V1_len的长度则判定该URL为正常网站URL。
本发明提出了一种基于胶囊网络的恶意网站URL检测方法,该方法的整体思路是:首先将拦截到的URL转换成PNG格式的彩色图并进行图片标准处理;接着经过两层标准卷积层细化了特征的提取过程,使得提取出来的特征更有利于恶意网站的分类;通过动态路由算法计算出众多底层特征映射到哪一个高层特征,最终得出拦截到的URL是否为恶意网站。
本发明的有益效果是:
本发明提出的基于胶囊网络的恶意网站URL检测方法,相比较当前主流的恶意网站URL检测方法而言,减少了设计模型的复杂度,在动态迭代中采取了合适的剪枝技术,在海量数据样本的情况下可以极大提高检测效率。
附图说明
图1是本发明实施例的基于胶囊网络的恶意网站URL检测方法流程图。
图2为本发明实施例的胶囊网络结构图。
具体实施方式
现在结合附图对本发明作进一步详细的说明。
需要注意的是,发明中所引用的如“上”、“下”、“左”、“右”、“前”、“后”等的用语,亦仅为便于叙述的明了,而非用以限定本发明可实施的范围,其相对关系的改变或调整,在无实质变更技术内容下,当亦视为本发明可实施的范畴。
图1是本发明实施例的基于胶囊网络的恶意网站URL检测方法流程图。参见图1,该检测方法包括以下步骤:
S1,根据进制转换规则将拦截到的待检测URL转换为三通道RGB彩色图像,对转换得到的彩色图像进行预处理,统一成标准格式的待检测目标图像。
S2,基于胶囊网络构建目标检测模型,该目标检测模型包含普通卷积层、低级胶囊层和高级胶囊层;普通卷积层用于对图像像素做一次局部特征检测提取低级特征,普通卷积层包含256个卷积步幅为1,大小为9*9的卷积核,采用ReLU函数作为非线性激活函数;低级胶囊层通过胶囊卷积运算输出存储有低级特征向量的低级胶囊,低级胶囊层包含32个卷积步幅为1,大小为3*3的卷积核;高级胶囊层采用向量与向量全连接模式,通过迭代动态路由计算向量输出,高级胶囊层的输出向量为二分类,用于检测被拦截的网站是否为恶意网站。该目标检测模型利用迭代动态路由算法进行胶囊层特征向量的传递,传递过程为:将来自底层特征输入通过权重矩阵转化为预测向量,通过加权求和得到求和矩阵,利用非线性激活函数进行向量转换得到作为下一个高层特征输入向量的输出向量。
S3,利用样本数据对目标检测模型进行训练,生成包含图结构和网络参数的目标检测模型。
S4,将待检测目标输入训练后的目标检测模型中,对拦截到的待检测URL是否属于恶意网站。
一、网站URL的图片转化以及图片处理
示例性地,步骤S1中,根据进制转换规则将拦截到的待检测URL转换为三通道RGB彩色图像的过程包括以下步骤:
S11,利用Python中的pyGame模块将拦截到的网站URL字符串URL_str渲染为点阵字体URL_word,将URL_word保存在StringIO对象URL_iostream中,再利用Python中的PIL模块读取URL_iostream中的URL_word,将其转化成整张图片URL_pic。
S12,调用Python中的numpy库中的Image.ANTIALIAS函数对图片URL_pic进行图像采集,生成图片URL_high_quality_pic,调用numpy库中的resize函数将图片URL_high_quality_pic统一为标准格式的图片URL_std_pic。
S13,利用Matlab中的imread函数将图片URL_std_pic转化为对应的32*32个单元的图片矩阵pic_matrix。
此外,还可以在转换过程中对URL图像进行图像增强和统一尺寸,图像增强处理中调用Python语言中Image和ImageEnhance库中的函数,Brightness函数用来增强图片的亮度,参数大小设置为1.5,Color函数用来增强图片的色度,参数大小设置为1.5,Contrast函数用来增强图片的对比度,参数大小设置为1.5,Sharpness函数可以完成增强图像的锐度,参数大小设置为1.5。对图片进行尺寸统一上使用了Python语言中numpy库的“resize”函数,函数内部设置中选择“Image.ANTIALIAS”参数,对图片实施高清晰度质量的像素数值吸取,统一后的图片分辨率大小为“32*32”,存储格式为PNG图片。
二、胶囊网络中的特征提取模块
胶囊网络(结合恶意网站URL图像可视化技术,构建了胶囊网络检测分类模型。经过训练好的模型可以检测恶意网站URL样本,并对恶意网站URL进行同源性分类。相比于卷积神经网络,使用了动态路由协议算法的胶囊网络在图像检测方面有明显的优势。
本实施例基于胶囊网络构建目标检测模型,该目标检测模型包含普通卷积层、低级胶囊层和高级胶囊层;普通卷积层用于对图像像素做一次局部特征检测提取低级特征,普通卷积层包含256个卷积步幅为1,大小为9*9的卷积核,采用ReLU函数作为非线性激活函数;低级胶囊层通过胶囊卷积运算输出存储有低级特征向量的低级胶囊,低级胶囊层包含32个卷积步幅为1,大小为3*3的卷积核;高级胶囊层采用向量与向量全连接模式,通过迭代动态路由计算向量输出,高级胶囊层的输出向量为二分类,用于检测被拦截的网站是否为恶意网站。目标检测模型利用迭代动态路由算法进行胶囊层特征向量的传递,传递过程为:将来自底层特征输入通过权重矩阵转化为预测向量,通过加权求和得到求和矩阵,利用非线性激活函数进行向量转换得到作为下一个高层特征输入向量的输出向量。
如图2所示,本实施例在传统的胶囊网络中新加入了一层标准卷积层,用来提取不同位置上的特征,使得特征提取更加地精细。其中,w1、w2、w3为u1、u2、u3的权重系数,b为偏置项系数,这里的u1、u2、u3为底层特征ui的具体举例。
在第二层卷积层进行卷积操作时,可设置较少的滤波器的个数,一个滤波器提取一个特征,滤波器的个数减少后,特征的个数也随之减少,训练的维度就降低了,节约了时间成本。再次使用卷积操作更加细化了特征的提取过程,使得提取出来的特征更有利于恶意网站的分类。
第1次卷积可以提取出低层次的特征,第2次卷积可以提取出高层次的特征。特征是不断进行提取和压缩的,最终能得到比较高层次特征。本方法进行了两次卷积操作,并没有进行更加多次的卷积操作,是因为考虑到过多地卷积操作会造成训练的过拟合现象,不仅增加了训练时间还降低了分类精度。
三、胶囊网络中的训练分类模块
低级胶囊层的胶囊维度应与分类数量相关,每一层都代表了每一个类型的概率,而主胶囊层的胶囊维度可任意设置。胶囊网络每一层有若干节点,每个节点表示一个胶囊.低级胶囊连接到更高级别胶囊的过程中,连接权值会在学习中发生变化,由此引起节点连接程度的变化。
低级胶囊层的被压扁成一个胶囊列表,并送入到高级胶囊层。高级胶囊层可以学习到局部和全局的特征,因为其输入部分为卷积层和动态路由的输出,卷积层提取的是局部特征,动态路由得到的是全局特征。最终得出拦截到的网站URL是否为恶意网站。
具体的,步骤S4中,将待检测目标输入训练后的目标检测模型中,对拦截到的待检测URL是否属于恶意网站的过程包括以下步骤:
S41,设置普通卷积层的卷积核cln_knel_first大小为9*9,cln_knel_first个数为256个,卷积步幅cln_std_first为1,通道数channel_first为256,无填充;调用公式(1)求出普通卷积层的输出α:
α=∑mnf(m,n)pic_matrix(32-m,32-n) (1);
其中f为随机生成的9行9列的标准卷积核矩阵,m为f的第m行,n为f的第n列。
S42,设置低级胶囊层的卷积核cln_knel_second大小为3*3,cln_knel_first个数为32个,卷积步幅cln_std_second为1,通道数channel_second为32,无填充;调用公式(2)求出低级胶囊张量β:
β=∑m′∑n′(m′,n′)α(20-m′,20-n′) (2);
其中h为随机生成的3行3列的低级卷积核矩阵,m′为低级卷积核矩阵的第m′行,n′为低级卷积核矩阵的第n′列。
S43,设置权重矩阵为W,调用公式(3)求出预测向量Uj|i
Uj|i=W×Ui (3);
其中W为单位矩阵,Ui为β中第i个位置的向量。
S44,调用公式(4)计算耦合系数值cij
其中bij为低级胶囊i对于高级胶囊j的对数先验概率,bij初始化为0;cij用于决定众多低级胶囊映射到哪一个高级胶囊;exp()函数为以自然常数e为底的指数函数。
S45,调用公式(5)加权求和得到第j个高级胶囊的求和向量Sj
Sj=∑icijUj|i (5);
其中耦合系数值cij作为权值;
调用公式(6)得到第j个高级胶囊的结果向量Vj
S46,调用公式(7)更新bij的值:
bij=bij+Uj|i·Vj (7)。
S47,调用Python中的numpy库中的np.linalg.norm函数计算第j个高级胶囊的结果向量Vj的长度Vj_len。
S48,更新完bij之后返回步骤S44,循环执行步骤S44到步骤S47,直至计算V0_len与V1_len的差值大于等于阈值Vj_max或者到达预设循环次数阈值。V0_len是该网站为恶意网站的向量长度,V1_len是该网站为正常网站的向量长度,若V0_len较长则为恶意网站,由于是判断是否为恶意网站,所以高级胶囊层只有两个元素j的取值只可能是0和1,而i和特征提取性能相关,i为正整数,在本实施例中,i=1,2,…,1152。
S49,根据V0_len与V1_len的长度对拦截到的网站URL进行判定,若V0_len的长度大于等于V1_len的长度则判定该URL为恶意网站URL,若V0_len的长度小于V1_len的长度则判定该URL为正常网站URL。
以上仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,应视为本发明的保护范围。

Claims (3)

1.一种基于胶囊网络的恶意网站URL检测方法,其特征在于,所述恶意网站URL检测方法包括以下步骤:
S1,根据进制转换规则将拦截到的待检测URL转换为三通道RGB彩色图像,对转换得到的彩色图像进行预处理,统一成标准格式的待检测目标图像;
S2,基于胶囊网络构建目标检测模型,该目标检测模型包含普通卷积层、低级胶囊层和高级胶囊层;普通卷积层用于对图像像素做一次局部特征检测提取低级特征,普通卷积层包含256个卷积步幅为1,大小为9*9的卷积核,采用ReLU函数作为非线性激活函数;低级胶囊层通过胶囊卷积运算输出存储有低级特征向量的低级胶囊,低级胶囊层包含32个卷积步幅为1,大小为3*3的卷积核;高级胶囊层采用向量与向量全连接模式,通过迭代动态路由计算向量输出,高级胶囊层的输出向量为二分类,用于检测被拦截的网站是否为恶意网站;
所述目标检测模型利用迭代动态路由算法进行胶囊层特征向量的传递,传递过程为:将来自底层特征输入通过权重矩阵转化为预测向量,通过加权求和得到求和矩阵,利用非线性激活函数进行向量转换得到作为下一个高层特征输入向量的输出向量;
S3,利用样本数据对目标检测模型进行训练,生成包含图结构和网络参数的目标检测模型;
S4,将待检测目标输入训练后的目标检测模型中,对拦截到的待检测URL是否属于恶意网站进行识别分类。
2.根据权利要求1所述的基于胶囊网络的恶意网站URL检测方法,其特征在于,步骤S1中,根据进制转换规则将拦截到的待检测URL转换为三通道RGB彩色图像,对转换得到的彩色图像进行预处理,统一成标准格式的待检测目标图像的过程包括以下步骤:
S11,利用Python中的pyGame模块将拦截到的网站URL字符串URL_str渲染为点阵字体URL_word,将URL_word保存在StringIO对象URL_iostream中,再利用Python中的PIL模块读取URL_iostream中的URL_word,将其转化成整张图片URL_pic;
S12,调用Python中的numpy库中的Image.ANTIALIAS函数对图片URL_pic进行图像采集,生成图片URL_high_quality_pic,调用numpy库中的resize函数将图片URL_high_quality_pic统一为标准格式的图片URL_std_pic;
S13,利用Matlab中的imread函数将图片URL_std_pic转化为对应的32*32个单元的图片矩阵pic_matrix。
3.根据权利要求2所述的基于胶囊网络的恶意网站URL检测方法,其特征在于,步骤S4中,将待检测目标输入训练后的目标检测模型中,对拦截到的待检测URL是否属于恶意网站过程包括以下步骤:
S41,设置普通卷积层的卷积核cln_knel_first大小为9*9,cln_knel_first个数为256个,卷积步幅cln_std_first为1,通道数channel_first为256,无填充;调用公式(1)求出普通卷积层的输出α:
α=∑mnf(m,n)pic_matrix(32-m,32-n) (1);
其中f为随机生成的9行9列的标准卷积核矩阵,m为f的第m行,n为f的第n列;
S42,设置低级胶囊层的卷积核cln_knel_second大小为3*3,cln_knel_first个数为32个,卷积步幅cln_std_second为1,通道数channel_second为32,无填充;调用公式(2)求出低级胶囊张量β:
β=∑m′n′(m′,n′)α(20-m′,20-n′) (2);
其中h为随机生成的3行3列的低级卷积核矩阵,m′为低级卷积核矩阵的第m′行,n′为低级卷积核矩阵的第n′列;
S43,设置权重矩阵为W,调用公式(3)求出预测向量Uj|i
Uj|i=W×Ui (3);
其中Ui为β中第i个位置的向量;j的取值为0或者1,i为大于等于1的正整数;
S44,调用公式(4)计算耦合系数值cij
其中bij为低级胶囊i对于高级胶囊j的对数先验概率,bij初始化为0;cij用于决定众多低级胶囊映射到哪一个高级胶囊;exp()函数为以自然常数e为底的指数函数;
S45,调用公式(5)加权求和得到第j个高级胶囊的求和向量Sj
Sj=ΣicijUj|i (5);
其中耦合系数值cij作为权值;
调用公式(6)得到第j个高级胶囊的结果向量Vj
S46,调用公式(7)更新bij的值:
bij=bij+Uj|i·Vj (7);
S47,调用Python中的numpy库中的np.linalg.norm函数计算第j个高级胶囊的结果向量Vj的长度Vj_len;
S48,循环执行步骤S44到步骤S47,直至计算V0_len与V1_len的差值大于等于阈值Vj_max或者到达预设循环次数阈值;V0_len是待检测URL对应的网站为恶意网站的向量长度,V1_len是待检测URL对应的网站为正常网站的向量长度;
S49,根据V0_len与V1_len的长度对拦截到的网站URL进行判定,若V0_len的长度大于等于V1_len的长度则判定该URL为恶意网站URL,若V0_len的长度小于V1_len的长度则判定该URL为正常网站URL。
CN202210151497.1A 2022-02-17 2022-02-17 一种基于胶囊网络的恶意网站url检测方法 Active CN114638984B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210151497.1A CN114638984B (zh) 2022-02-17 2022-02-17 一种基于胶囊网络的恶意网站url检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210151497.1A CN114638984B (zh) 2022-02-17 2022-02-17 一种基于胶囊网络的恶意网站url检测方法

Publications (2)

Publication Number Publication Date
CN114638984A CN114638984A (zh) 2022-06-17
CN114638984B true CN114638984B (zh) 2024-03-15

Family

ID=81946246

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210151497.1A Active CN114638984B (zh) 2022-02-17 2022-02-17 一种基于胶囊网络的恶意网站url检测方法

Country Status (1)

Country Link
CN (1) CN114638984B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115967525A (zh) * 2022-10-25 2023-04-14 淮阴工学院 一种基于胶囊网络的虚拟货币异常地址检测方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110427756A (zh) * 2019-06-20 2019-11-08 中国人民解放军战略支援部队信息工程大学 基于胶囊网络的安卓恶意软件检测方法及装置
CN110602113A (zh) * 2019-09-19 2019-12-20 中山大学 一种基于深度学习的层次化钓鱼网站检测方法
WO2020006881A1 (zh) * 2018-07-06 2020-01-09 平安科技(深圳)有限公司 蝴蝶识别网络构建方法、装置、计算机设备及存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020006881A1 (zh) * 2018-07-06 2020-01-09 平安科技(深圳)有限公司 蝴蝶识别网络构建方法、装置、计算机设备及存储介质
CN110427756A (zh) * 2019-06-20 2019-11-08 中国人民解放军战略支援部队信息工程大学 基于胶囊网络的安卓恶意软件检测方法及装置
CN110602113A (zh) * 2019-09-19 2019-12-20 中山大学 一种基于深度学习的层次化钓鱼网站检测方法

Also Published As

Publication number Publication date
CN114638984A (zh) 2022-06-17

Similar Documents

Publication Publication Date Title
CN113596007B (zh) 一种基于深度学习的漏洞攻击检测方法和设备
CN110602113B (zh) 一种基于深度学习的层次化钓鱼网站检测方法
US10872270B2 (en) Exploit kit detection system based on the neural network using image
CN112395466B (zh) 一种基于图嵌入表示和循环神经网络的欺诈节点识别方法
CN110378224A (zh) 一种地物变化的检测方法、检测系统及终端
KR102093275B1 (ko) 악성코드 감염 유도정보 판별 시스템, 프로그램이 기록된 저장매체 및 방법
CN109005145A (zh) 一种基于自动特征抽取的恶意url检测系统及其方法
CN109857871A (zh) 一种基于社交网络海量情景数据的用户关系发现方法
CN110830489B (zh) 基于内容抽象表示的对抗式欺诈网站检测方法及系统
CN111538929A (zh) 网络链接识别方法、装置、存储介质及电子设备
CN109284613B (zh) 标识检测及仿冒站点检测方法、装置、设备及存储介质
CN110879963A (zh) 一种敏感表情包检测方法、装置与电子设备
CN113034331A (zh) 一种基于多模态融合的安卓赌博应用识别方法和系统
CN113194094B (zh) 一种基于神经网络的异常流量检测方法
Sun et al. Image steganalysis based on convolutional neural network and feature selection
Dengpan et al. Faster and transferable deep learning steganalysis on GPU
CN114638984B (zh) 一种基于胶囊网络的恶意网站url检测方法
CN113688346A (zh) 一种违法网站识别方法、装置、设备及存储介质
CN117614644A (zh) 恶意网址识别方法、电子设备及存储介质
US20230306106A1 (en) Computer Security Systems and Methods Using Self-Supervised Consensus-Building Machine Learning
CN114169432B (zh) 一种基于深度学习的跨站脚本攻击识别方法
Kaur et al. Deep transfer learning based multiway feature pyramid network for object detection in images
Liu et al. DH-GAN: Image manipulation localization via a dual homology-aware generative adversarial network
CN113312622A (zh) 一种检测url的方法及装置
Sivanantham et al. Web Hazard Identification and Detection Using Deep Learning-A Comparative Study

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant