CN111159588A - 一种基于url成像技术的恶意url检测方法 - Google Patents
一种基于url成像技术的恶意url检测方法 Download PDFInfo
- Publication number
- CN111159588A CN111159588A CN201911314312.9A CN201911314312A CN111159588A CN 111159588 A CN111159588 A CN 111159588A CN 201911314312 A CN201911314312 A CN 201911314312A CN 111159588 A CN111159588 A CN 111159588A
- Authority
- CN
- China
- Prior art keywords
- url
- layer
- character string
- cnn network
- malicious
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
- G06F16/9566—URL specific, e.g. using aliases, detecting broken or misspelled links
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
- G06F16/9554—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL] by using bar codes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Abstract
本发明公开了一种基于URL成像技术的恶意URL检测方法,包括以下步骤:采集URL字符串,并对其进行哈希处理;利用ASCII码对哈希处理后的URL字符串进行编码,对编码后的URL字符串进行归一化处理;根据归一化处理过后的URL字符串,采用格拉曼角场将URL字符串转换为二维图像;根据卷积神经网络构成inception CNN网络,并对其进行训练;将二维图像输入训练完成的inception CNN网络,得到恶意URL的判断结果。本发明通过将URL转换为二维图像,能够准确的识别恶意URL。
Description
技术领域
本发明属于URL识别领域,具体涉及一种基于URL成像技术的恶意URL检测方法。
背景技术
信息技术的普及极大促进了在线银行、电子商务和社交网络的发展,人们越来越多地通过互联网完成社交、购物、资讯获取等行为,政府也在通过互联网推行电子政务,增强政府的透明性,改进公共决策质量。但同时,互联网也成为不法分子的活跃平台,涌现出大量的网络犯罪行为。网络攻击者通过钓鱼网站、垃圾广告和恶意软件推广等方式非法牟利。在这些攻击行为中,有相当大的一部分是以恶意URL为主要手段实现的。URL即统一资源定位符,是对互联网上资源的位置和访问方法的一种简洁的表示,是互联网上标准资源的地址。而恶意URL是指欺骗用户访问,达到“执行恶意行为”或“非法窃取用户数据”目的URL。攻击者通过恶意URL构建攻击操作,诱导不知情的用户访问攻击者提供的URL,达到其窃取用户的个人隐私信息目的,例如用户的银行帐号及密码信息,或者下载和执行恶意程序或脚本。因此,及时精确地检测恶意URL,从而有效应对大量多类型的网络安全攻击,是构建网络安全解决方案中的重要一环。但现有恶意URL检测的深度学习模型中存在三个基本问题:(1)无法有效地捕获语义或顺序模式:现有的方法依赖于使用单词包特性,但它们不能有效地捕捉单词或字符出现在URL字符串中的顺序;(2)无法处理不可见的特征:在预测过程中,测试URL很可能包含训练数据中不存在的新单词。在这种情况下,经过训练的模型无法从这些单词中提取关于URL的任何有用信息。(3)URL中唯一的单词数量可能非常大,这在训练模型时造成了严重的内存限制。
发明内容
针对现有技术中的上述不足,本发明提供的一种基于URL成像技术的恶意URL检测方法解决了现有恶意URL检测存在的问题。
为了达到上述发明目的,本发明采用的技术方案为:一种基于URL成像技术的恶意URL检测方法,包括以下步骤:
S1、采集URL字符串,并对其进行哈希处理;
S2、利用ASCII码对哈希处理后的URL字符串进行编码,对编码后的URL字符串进行归一化处理;
S3、根据归一化处理过后的URL字符串,采用格拉曼角场将URL字符串转换为二维GAF图像;
S4、根据卷积神经网络构成inception CNN网络,并对inception CNN网络进行训练;
S5、将二维GAF图像输入训练完成的inception CNN网络,得到恶意URL的判断结果。
进一步地,所述步骤S2中利用ASCII码对URL字符串进行编码的具体方法为:通过ASCII码对URL字符串进行编码,得到ASCII字符串;所述ASCII字符串为A(di)表示URL的字符di的ASCII码;
所述步骤S2中对编码后的URL字符串进行归一化处理的公式如下:
所述编码后的URL字符串进行归一化处理后,得到归一化字符串为
其中,A*(di)表示归一化处理过后的A(di),minA(di)表示A(di)中最小的值,maxA(di)表示A(di)中最大的值。
进一步地,所述步骤S3包括以下分步骤:
S3.1、根据归一化处理过后的URL字符串,将其笛卡尔坐标系转变为极坐标系;
S3.2、将极坐标系的数据分别放入格拉曼角差场和格拉曼角和场中,得到新的一维数据;
S3.3、将新的一维数据按照URL字符顺序对应排布,得到二维GAF图像。
进一步地,所述步骤S3.1包括以下分步骤:
S3.1.1、根据归一化后的字符串A*(di),获取距离r和反余弦φ,具体计算公式如下:
S3.1.2、根据距离r和反余弦φ,将归一化后的字符串A*(di)用极坐标表示;
其中,r表示URL字符用极坐标表示时的点到原点的距离,ti表示时间步长,N表示正则化极坐标系统扩张成空间的常数因子。
进一步地,所述步骤S3.2中格拉曼角差场GADF为:
所述步骤S3.2中格拉曼角和场GASF为:
进一步地,所述步骤S4中的inception CNN网络包括输入层,所述输入层分别与第一卷积层的输入端、第二卷积层的输入端、第三池化层的输入端和第四卷积层的输入端连接;
所述第一卷积层的输出端通过第一池化层和第一展平层与拼接层的输入端连接,所述第二卷积层的输出端通过第二池化层和第二展平层与拼接层的输入端连接,所述第三池化层的输出端通过第三卷积层和第三展平层与拼接层的输入端连接,所述第四卷积层的输出端与拼接层的输入端连接;
所述拼接层的输出端通过依次连接的第一连接层、失活层、第二全连接层、第三全连接层和sigmoid激活层与输出层连接。
进一步地,所述步骤S4中对inception CNN网络进行训练的具体方法为:
A1、根据步骤S1至步骤S3,生成正负样本比例为1.5:1的若干训练数据;
A2、将训练数据中正样本和负样本各随机抽取百分之十作为验证数据集,随机初始化inception CNN网络;
A3、将训练数据批大小分别设置为32、64和128,并将其输入inception CNN网络;
A4、将二元交叉熵函数作为损失函数,以损失值最小为目标,使用Sigmoid算法对神经网络的参数进行优化,并使用梯度下降法对神经网络进行参数更新;
A5、利用验证数据集对损失值进行验证,当损失值不再减小,此时的网络参数保存为最终参数,得到训练完成的inception CNN网络。
本发明的有益效果为:
(1)本发明通过构建字符向量,并将字符向量经过一系列操作转化为二维图像,有效地捕捉了URL中字符的顺序,使恶意URL的识别结果更加准确。
(2)本发明通过构建inception CNN网络,获得了更好的图像表征,inception CNN网络避免了网络过拟合的问题,加快整个网络传输梯度更新,避免了简单地叠加一个较大的卷积层导致消耗大量计算资源的问题。
(3)本发明通过将URL转换为二维图像,能够准确的识别恶意URL。
附图说明
图1为本发明提出的一种基于URL成像技术的恶意URL检测方法流程图。
图2为本发明提出的inception CNN网络的结构示意图。
具体实施方式
下面对本发明的具体实施方式进行描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
下面结合附图详细说明本发明的实施例。
如图1所示,一种基于URL成像技术的恶意URL检测方法,包括以下步骤:
S1、采集URL字符串,并对其进行哈希处理;
S2、利用ASCII码对哈希处理后的URL字符串进行编码,对编码后的URL字符串进行归一化处理;
S3、根据归一化处理过后的URL字符串,采用格拉曼角场将URL字符串转换为二维GAF图像;
S4、根据卷积神经网络构成inception CNN网络,并对inception CNN网络进行训练;
S5、将二维GAF图像输入训练完成的inception CNN网络,得到恶意URL的判断结果。
所述步骤S2中对编码后的URL字符串进行归一化处理的公式如下:
其中,A*(di)表示归一化处理过后的A(di),minA(di)表示A(di)中最小的值,maxA(di)表示A(di)中最大的值。
步骤S3包括以下分步骤:
S3.1、根据归一化处理过后的URL字符串,将其笛卡尔坐标系转变为极坐标系;
S3.2、将极坐标系的数据分别放入格拉曼角差场和格拉曼角和场中,得到新的一维数据;
S3.3、将新的一维数据按照URL字符顺序对应排布,得到二维GAF图像。
步骤S3.1包括以下分步骤:
S3.1.1、根据归一化后的字符串A*(di),获取距离r和反余弦φ,具体计算公式如下:
S3.1.2、根据距离r和反余弦φ,将归一化后的字符串A*(di)用极坐标表示;
其中,r表示URL字符用极坐标表示时的点到原点的距离,ti表示时间步长,N表示正则化极坐标系统扩张成空间的常数因子。
步骤S3.2中格拉曼角差场GADF为:
步骤S3.2中格拉曼角和场GASF为:
步骤S4中的inception CNN网络包括输入层,所述输入层分别与第一卷积层的输入端、第二卷积层的输入端、第三池化层的输入端和第四卷积层的输入端连接。
第一卷积层的输出端通过第一池化层和第一展平层与拼接层的输入端连接,所述第二卷积层的输出端通过第二池化层和第二展平层与拼接层的输入端连接,所述第三池化层的输出端通过第三卷积层和第三展平层与拼接层的输入端连接,所述第四卷积层的输出端与拼接层的输入端连接。
拼接层的输出端通过依次连接的第一连接层、失活层、第二全连接层、第三全连接层和sigmoid激活层与输出层连接。
步骤S4中对inception CNN网络进行训练的具体方法为:
A1、根据步骤S1至步骤S3,生成正负样本比例为1.5:1的若干训练数据;
A2、将训练数据中正样本和负样本各随机抽取百分之十作为验证数据集,随机初始化inception CNN网络;
A3、将训练数据批大小分别设置为32、64和128,并将其输入inception CNN网络;
A4、将二元交叉熵函数作为损失函数,以损失值最小为目标,使用Sigmoid算法对神经网络的参数进行优化,并使用梯度下降法对神经网络进行参数更新;
A5、利用验证数据集对损失值进行验证,当损失值不再减小,此时的网络参数保存为最终参数,得到训练完成的inception CNN网络。
在本实施例中,使用Sigmoid算法对inception CNN网络参数进行优化时,将学习率设定为0.001,训练至损失值为0.4时,损失值不再下降,此时的网络参数为inceptionCNN神经网络的最终参数。
在本实施例中,将本发明与其它方法进行实验对比,它们对恶意URL的识别准确率如表1。
表1
方法 | LSTM | TCN | FCN | inception CNN | RF | DT | SVM |
准确率 | 0.957 | 0.902 | 0.944 | 0.9732 | 0.9303 | 0.8115 | 0.8455 |
其中,机器学习方法有RF、DT和SVM,RF表示使用随机森林得到的实验结果,DT表示使用决策树得到的实验结果,SVM表示使用支持向量机得到的实验结果,深度学习方法有LSTM、TCN和FCN,LSTM表示使用长短时记忆方法得到的实验结果,TCN表示使用时态卷积网络得到的实验结果,FCN表示使用全连接网络得到的实验结果,inception CNN表示使用本发明得到的实验结果。从表1从可以明显看出本发明对恶意URL的识别率最高,证明本发明能够高准确率的识别恶意URL。
本发明通过构建字符向量,并将字符向量经过一系列操作转化为二维图像,有效地捕捉了URL中字符的顺序,使恶意URL的识别结果更加准确。本发明通过构建inceptionCNN网络,获得了更好的图像表征,inception CNN网络避免了网络过拟合的问题,加快整个网络传输梯度更新,避免了简单地叠加一个较大的卷积层导致消耗大量计算资源的问题。本发明通过将URL转换为二维图像,能够准确的识别恶意URL。
Claims (8)
1.一种基于URL成像技术的恶意URL检测方法,其特征在于,包括以下步骤:
S1、采集URL字符串,并对其进行哈希处理;
S2、利用ASCII码对哈希处理后的URL字符串进行编码,对编码后的URL字符串进行归一化处理;
S3、根据归一化处理过后的URL字符串,采用格拉曼角场将URL字符串转换为二维GAF图像;
S4、根据卷积神经网络构成inception CNN网络,并对inception CNN网络进行训练;
S5、将二维GAF图像输入训练完成的inception CNN网络,得到恶意URL的判断结果。
4.根据权利要求3所述的一种基于URL成像技术的恶意URL检测方法,其特征在于,所述步骤S3包括以下分步骤:
S3.1、根据归一化处理过后的URL字符串,将其笛卡尔坐标系转变为极坐标系;
S3.2、将极坐标系的数据分别放入格拉曼角差场和格拉曼角和场中,得到新的一维数据;
S3.3、将新的一维数据按照URL字符顺序对应排布,得到二维GAF图像。
7.根据权利要求1所述的一种基于URL成像技术的恶意URL检测方法,其特征在于,所述步骤S4中的inception CNN网络包括输入层,所述输入层分别与第一卷积层的输入端、第二卷积层的输入端、第三池化层的输入端和第四卷积层的输入端连接;
所述第一卷积层的输出端通过第一池化层和第一展平层与拼接层的输入端连接,所述第二卷积层的输出端通过第二池化层和第二展平层与拼接层的输入端连接,所述第三池化层的输出端通过第三卷积层和第三展平层与拼接层的输入端连接,所述第四卷积层的输出端与拼接层的输入端连接;
所述拼接层的输出端通过依次连接的第一连接层、失活层、第二全连接层、第三全连接层和sigmoid激活层与输出层连接。
8.根据权利要求1所述的一种基于URL成像技术的恶意URL检测方法,其特征在于,所述步骤S4中对inception CNN网络进行训练的具体方法为:
A1、根据步骤S1至步骤S3,生成正负样本比例为1.5:1的若干训练数据;
A2、将训练数据中正样本和负样本各随机抽取百分之十作为验证数据集,随机初始化inception CNN网络;
A3、将训练数据批大小分别设置为32、64和128,并将其输入inception CNN网络;
A4、将二元交叉熵函数作为损失函数,以损失值最小为目标,使用Sigmoid算法对神经网络的参数进行优化,并使用梯度下降法对神经网络进行参数更新;
A5、利用验证数据集对损失值进行验证,当损失值不再减小,此时的网络参数保存为最终参数,得到训练完成的inception CNN网络。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911314312.9A CN111159588B (zh) | 2019-12-19 | 2019-12-19 | 一种基于url成像技术的恶意url检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911314312.9A CN111159588B (zh) | 2019-12-19 | 2019-12-19 | 一种基于url成像技术的恶意url检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111159588A true CN111159588A (zh) | 2020-05-15 |
CN111159588B CN111159588B (zh) | 2022-12-13 |
Family
ID=70557307
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911314312.9A Active CN111159588B (zh) | 2019-12-19 | 2019-12-19 | 一种基于url成像技术的恶意url检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111159588B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112179654A (zh) * | 2020-09-28 | 2021-01-05 | 西南交通大学 | 基于GAF-CNN-BiGRU网络的滚动轴承故障识别方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101211341A (zh) * | 2006-12-29 | 2008-07-02 | 上海芯盛电子科技有限公司 | 图像智能模式识别搜索方法 |
CN103685308A (zh) * | 2013-12-25 | 2014-03-26 | 北京奇虎科技有限公司 | 一种钓鱼网页的检测方法及系统、客户端、服务器 |
CN103685307A (zh) * | 2013-12-25 | 2014-03-26 | 北京奇虎科技有限公司 | 基于特征库检测钓鱼欺诈网页的方法及系统、客户端、服务器 |
US20150172311A1 (en) * | 2013-12-13 | 2015-06-18 | Comilion Mobile Ltd. | Collaborative system for cyber security analysis |
EP3416068A2 (en) * | 2017-06-15 | 2018-12-19 | Crowdstrike, Inc. | Information retrieval using automata |
CN109101552A (zh) * | 2018-07-10 | 2018-12-28 | 东南大学 | 一种基于深度学习的钓鱼网站url检测方法 |
CN109450845A (zh) * | 2018-09-18 | 2019-03-08 | 浙江大学 | 一种基于深度神经网络的算法生成恶意域名检测方法 |
-
2019
- 2019-12-19 CN CN201911314312.9A patent/CN111159588B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101211341A (zh) * | 2006-12-29 | 2008-07-02 | 上海芯盛电子科技有限公司 | 图像智能模式识别搜索方法 |
US20150172311A1 (en) * | 2013-12-13 | 2015-06-18 | Comilion Mobile Ltd. | Collaborative system for cyber security analysis |
CN103685308A (zh) * | 2013-12-25 | 2014-03-26 | 北京奇虎科技有限公司 | 一种钓鱼网页的检测方法及系统、客户端、服务器 |
CN103685307A (zh) * | 2013-12-25 | 2014-03-26 | 北京奇虎科技有限公司 | 基于特征库检测钓鱼欺诈网页的方法及系统、客户端、服务器 |
EP3416068A2 (en) * | 2017-06-15 | 2018-12-19 | Crowdstrike, Inc. | Information retrieval using automata |
CN109101552A (zh) * | 2018-07-10 | 2018-12-28 | 东南大学 | 一种基于深度学习的钓鱼网站url检测方法 |
CN109450845A (zh) * | 2018-09-18 | 2019-03-08 | 浙江大学 | 一种基于深度神经网络的算法生成恶意域名检测方法 |
Non-Patent Citations (2)
Title |
---|
LE HUNG等: "urlnet:learning a url representation with deep learning for malicious url detection", 《ARXIV PREPRINT ARXIV》 * |
张慧等: "基于CNN和多分类器的恶意URLs检测", 《计算机工程与设计》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112179654A (zh) * | 2020-09-28 | 2021-01-05 | 西南交通大学 | 基于GAF-CNN-BiGRU网络的滚动轴承故障识别方法 |
CN112179654B (zh) * | 2020-09-28 | 2022-02-01 | 西南交通大学 | 基于GAF-CNN-BiGRU网络的滚动轴承故障识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111159588B (zh) | 2022-12-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10834128B1 (en) | System and method for identifying phishing cyber-attacks through deep machine learning via a convolutional neural network (CNN) engine | |
Goel et al. | Dual branch convolutional neural network for copy move forgery detection | |
CN109005145B (zh) | 一种基于自动特征抽取的恶意url检测系统及其方法 | |
CN107835496B (zh) | 一种垃圾短信的识别方法、装置和服务器 | |
WO2019096099A1 (zh) | Dga域名实时检测方法和装置 | |
CN103530367B (zh) | 一种钓鱼网站鉴别系统和方法 | |
CN110765458A (zh) | 一种基于深度学习的恶意软件检测方法及其装置 | |
US11595435B2 (en) | Methods and systems for detecting phishing emails using feature extraction and machine learning | |
WO2021189364A1 (zh) | 一种对抗图像生成方法、装置、设备以及可读存储介质 | |
CN108650260B (zh) | 一种恶意网站的识别方法和装置 | |
WO2016201938A1 (zh) | 一种多阶段钓鱼网站检测方法与系统 | |
CN110826060A (zh) | 物联网恶意软件的可视化分类方法、装置与电子设备 | |
Liu et al. | An efficient multistage phishing website detection model based on the CASE feature framework: Aiming at the real web environment | |
CN113132410B (zh) | 一种用于检测钓鱼网址的方法 | |
CN112671703B (zh) | 基于改进fastText的跨站脚本攻击检测方法 | |
CN112217787A (zh) | 一种基于ed-gan的仿冒域名训练数据生成方法及系统 | |
CN110781952A (zh) | 图像识别风险提示方法、装置、设备及存储介质 | |
CN110958244A (zh) | 一种基于深度学习的仿冒域名检测方法及装置 | |
CN114915468A (zh) | 基于知识图谱的网络犯罪智能分析检测方法 | |
CN111159588B (zh) | 一种基于url成像技术的恶意url检测方法 | |
CN113965377A (zh) | 一种攻击行为检测方法及装置 | |
CN111818067B (zh) | 流量特征提取方法及装置 | |
US20230164180A1 (en) | Phishing detection methods and systems | |
CN112163493A (zh) | 一种视频虚假人脸检测方法及电子装置 | |
CN114638984B (zh) | 一种基于胶囊网络的恶意网站url检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |