CN109873810B - 一种基于樽海鞘群算法支持向量机的网络钓鱼检测方法 - Google Patents
一种基于樽海鞘群算法支持向量机的网络钓鱼检测方法 Download PDFInfo
- Publication number
- CN109873810B CN109873810B CN201910031356.4A CN201910031356A CN109873810B CN 109873810 B CN109873810 B CN 109873810B CN 201910031356 A CN201910031356 A CN 201910031356A CN 109873810 B CN109873810 B CN 109873810B
- Authority
- CN
- China
- Prior art keywords
- support vector
- vector machine
- goblet
- sea squirt
- parameters
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于樽海鞘群算法支持向量机的网络钓鱼检测方法,首先初始化樽海鞘群算法的基本参数:种群数目、迭代次数、个体维度、搜索空间;随机初始化个体的位置和范围;然后按照适应度值的大小划分为领导者樽海鞘和跟随者樽海鞘,利用这两种樽海鞘的协调合作挖掘出支持向量机的最优参数。在每次迭代中,用于评价个体的适应度值的函数是个体所携带的参数对于支持向量机在钓鱼网站数据集上的检测准确率。本发明与一般的优化算法如遗传算法、引力搜索算法、蝙蝠算法、粒子群算法等,在优化支持向量机上,能够尽可能的挖掘出支持向量机的最优参数参数,提升支持向量机在钓鱼检测的准确率。
Description
技术领域
本发明属于智能优化、机器学习和信息安全技术领域,涉及一种网络钓鱼检测方法,具体是一种基于樽海鞘群算法支持向量机的网络钓鱼检测方法。
背景技术
钓鱼网站是一种通过模仿真实的网页以欺骗用户的个人信息为目的的恶意网站。随着网络的发展,越来越多的人在网上进行交易或注册,于此同时在网上存储自己的账户密码或者是输入自己的个人信息等。然后不法分子制造和真实网页极其相似的恶意网页来骗取用户的信息。据统计,截至2015年,钓鱼网站的数量高达26万余,而且数量还是不断大幅增加,这对用户的信息安全造成了极大的隐患。
随着机器学习的兴起,机器学习在钓鱼网站识别已经得到广泛应用。其中支持向量机(SVM)作为一种经典的机器学习算法,更是在这个领域大放异彩。许多研究者将基于高斯核函数的支持向量机引入到钓鱼网站识别,极大的提高了识别的准确率。为了能够发挥出支持向量机的最优效果,支持向量机的参数C和g的选择一直是个难题。传统的网格搜索、粒子群算法、遗传算法等都尝试优化支持向量机的参数,但是容易陷入局部最优,很难使支持向量机发挥最大的优势。
通过模拟樽海鞘群的觅食行为,Mirjalili于2017年提出樽海鞘群算法,并将其应用在实际的工程领域内。该算法相较于遗传算法、粒子群算法、蝙蝠算法,引力搜索算法等,在避免局部最优和收敛速度上都有一定的优势。该算法的显著特点是便于理解,易于实现,全局搜索能力强。
发明内容
为了提升支持向量机的性能,提高钓鱼网站的检测准确率,本发明提出了一种基于樽海鞘群算法支持向量机的网络钓鱼检测方法。
本发明所采用的技术方案是:一种基于樽海鞘群算法支持向量机的网络钓鱼检测方法,其特征在于,包括以下步骤:
步骤1:对网站数据进行处理;
解析网站的URL特征、域名信息以及Web页面特征,并进行数值化和归一化处理,划分训练集,验证集和测试集;
步骤2:随机初始化樽海鞘群算法的参数,包括樽海鞘群数量N、迭代次数L、以及维度dim、樽海鞘个体的位置X以及参数的上下界;其中维度dim表示需要优化的参数的维度,樽海鞘的个体位置X表示为支持向量机的参数C和g的值,参数的上下界表示为参数的寻优范围;
步骤3:计算樽海鞘群的适应度值,将每个樽海鞘个体位置X传入支持向量机中,作为当前支持向量机的参数,然后使用支持向量机对数据集进行分类,返回的分类精确度表示为当前的个体的适应度值;
步骤4:按照适应度大小,将适应度值最大的樽海鞘设置为领导者,其余的樽海鞘设置为跟随者;
步骤5:更新樽海鞘群中个体的位置;
步骤6:判断终止条件,是否达到迭代次数或者适应度值不在提高;
若否,则回转执行步骤3:
若是,则输出作为领导者的樽海鞘的位置,即为最佳的支持向量机参数C和g;
步骤7:使用支持向量机来对钓鱼网站进行检测和判别。
本发明的有益效果是:本发明相较于遗传算法、蝙蝠算法、引力搜索算法、粒子群算法等,在寻找全局最优和避免局部最优以及收敛速度上都有一定的优势。首先是对于钓鱼网页的数据预处理,提取必要的特征,并对其转化为数值向量并进行归一化处理,然后使用支持向量机中进行分类。其中,支持向量机的参数是利用樽海鞘群算法逼近的全局最优解,以使支持向量就在判别钓鱼网站时发挥出最好的效果,相较于一般的优化算法更能提高判别准确率。
附图说明
图1:本发明具体实施例的流程图。
具体实施方式
为了便于本领域普通技术人员理解和实施本发明,下面结合附图及实施例对本发明作进一步的详细描述,应当理解,此处所描述的实施示例仅用于说明和解释本发明,并不用于限定本发明。
请见图1,本发明提供的一种基于樽海鞘群算法支持向量机的网络钓鱼检测方法,包括以下步骤:
步骤1:对网站数据进行处理;
解析网站的URL特征、域名信息以及Web页面特征,并进行数值化和归一化处理,划分训练集、验证集和测试集;URL特征包括有无IP地址、有无异常的字符、URL的长度、端口号以及子域名的状态;域名信息包括域名的注册时间、DNS记录以及网页级别;Web页面特征包括链接对象、表单对象以及JavaScript脚本语言;特征类型分别为连续型和离散型,将其转化为数值对象并进行归一化。
本实施例中,训练集的比例为50%,验证集的比例为20%;
本实施例以分类UCI的wine数据集为例子,利用樽海鞘群算法去优化支持向量机然后对数据集进行分类,由于此数据集已经进行了数值化处理,所以本实施例中只需要进行归一化处理。
步骤2:随机初始化樽海鞘群算法的参数,包括樽海鞘群数量N(本实施例中N=30)、迭代次数L(本实施例中L=50)、以及维度dim、樽海鞘个体的位置X以及参数的上下界;其中维度dim表示需要优化的参数的维度(本实施例中,本次优化SVM的参数有两个,dim=2),樽海鞘的个体位置X表示为支持向量机的参数C和g的值,参数的上下界表示为参数的寻优范围;
步骤3:计算樽海鞘群的适应度值,将每个樽海鞘个体位置X传入支持向量机中,作为当前支持向量机的参数,然后使用支持向量机对数据集进行分类,返回的分类精确度表示为当前的个体的适应度值;
本实施例中,樽海鞘群的适应度值是表示为支持向量机对于钓鱼网站的检测准确率,具体计算公式为:
式中,TP表示支持向量机检测训练集时将正类的样本分类为正类的数量,FP表示为支持向量机检测测试集时将正类的样本分类为反类的数量。fitness表示为支持向量机对于钓鱼网站数据集的分类准确率,越大越好。
步骤4:按照适应度大小,将适应度值最大的樽海鞘设置为领导者,其余的樽海鞘设置为跟随者;
步骤5:更新樽海鞘群中个体的位置,不同的角色的位置更新公式不同;
具体实现包括以下子步骤:
步骤5.1:按照公式(1)更新作为领导者的樽海鞘的位置;
其中,表示为第一个作为领导者的樽海鞘在第j个维度上的位置,Fj表示为在第j个维度上的食物源,即表示为第j个维度上的当前最优解,ubj表示第j个维度上的作为领导者的樽海鞘个体的位置上限,lbj表示为第j个维度上作为领导者的樽海鞘个体的下限,通过上限和下限控制每个维度上的搜索范围;c1,c2,c3随机数,其中c2取0到1的随机数,c3≥0时取0到1的随机数;l表示为一个当前的迭代次数,L表示为总的迭代次数;
步骤5.2:按照公式(3)更新作为跟随者的樽海鞘的位置;
在更新作为领导者的樽海鞘的位置时,其中最重要的一个参数是c1,它平衡了樽海鞘算法的全局搜索和局部搜索能力。
步骤6:判断终止条件,是否达到迭代次数或者适应度值不在提高;
若否,则回转执行步骤3:
若是,则输出作为领导者的樽海鞘的位置,即为最佳的支持向量机参数C和g;
步骤7:使用支持向量机来对钓鱼网站进行检测和判别。
本发明提出的一种基于樽海鞘群算法支持向量机的网络钓鱼检测方法,发挥樽海鞘群算法较强的寻优能力和较快的收敛速度等特性,并将其应用到钓鱼网站鉴别中,可显著提高支持向量机在钓鱼网站的检测准确率,并且学习过程中具有较好的收敛性和较强的鲁棒性。
本发明可用于智能优化、机器学习和信息安全领域。
应当理解的是,本说明书未详细阐述的部分均属于现有技术。
应当理解的是,上述针对较佳实施例的描述较为详细,并不能因此而认为是对本发明专利保护范围的限制,本领域的普通技术人员在本发明的启示下,在不脱离本发明权利要求所保护的范围情况下,还可以做出替换或变形,均落入本发明的保护范围之内,本发明的请求保护范围应以所附权利要求为准。
Claims (3)
1.一种基于樽海鞘群算法支持向量机的网络钓鱼检测方法,其特征在于,包括以下步骤:
步骤1:对网站数据进行处理;
解析网站的URL特征、域名信息以及Web页面特征,并进行数值化和归一化处理,划分训练集,验证集和测试集;
步骤2:随机初始化樽海鞘群算法的参数,包括樽海鞘群数量N、迭代次数L、以及维度dim、樽海鞘个体的位置X以及参数的上下界;其中维度dim表示需要优化的参数的维度,樽海鞘的个体位置X表示为支持向量机的参数C和g的值,参数的上下界表示为参数的寻优范围;
步骤3:计算樽海鞘群的适应度值,将每个樽海鞘个体位置X传入支持向量机中,作为当前支持向量机的参数,然后使用支持向量机对数据集进行分类,返回的分类精确度表示为当前的个体的适应度值;
步骤4:按照适应度大小,将适应度值最大的樽海鞘设置为领导者,其余的樽海鞘设置为跟随者;
步骤5:更新樽海鞘群中个体的位置;
步骤5的具体实现包括以下子步骤:
步骤5.1:按照公式(1)更新作为领导者的樽海鞘的位置;
其中,表示为第一个作为领导者的樽海鞘在第j个维度上的位置,Fj表示为在第j个维度上的食物源,即表示为第j个维度上的当前最优解,ubj表示第j个维度上的作为领导者的樽海鞘个体的位置上限,lbj表示为第j个维度上作为领导者的樽海鞘个体的下限,通过上限和下限控制每个维度上的搜索范围;c1,c2,c3随机数,其中c2取0到1的随机数,c3≥0时取0到1的随机数;l表示为一个当前的迭代次数,L表示为总的迭代次数;
步骤5.2:按照公式(3)更新作为跟随者的樽海鞘的位置;
步骤6:判断终止条件,是否达到迭代次数或者适应度值不在提高;
若否,则回转执行步骤3:
若是,则输出作为领导者的樽海鞘的位置,即为最佳的支持向量机参数C和g;
步骤7:使用支持向量机来对钓鱼网站进行检测和判别。
2.根据权利要求1所述的基于樽海鞘群算法支持向量机的网络钓鱼检测方法,其特征在于:步骤1中,所述URL特征包括有无IP地址、有无异常的字符、URL的长度、端口号以及子域名的状态;所述域名信息包括域名的注册时间、DNS记录以及网页级别;所述Web页面特征包括链接对象、表单对象以及JavaScript脚本语言;特征类型分别为连续型和离散型,将其转化为数值对象并进行归一化。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910031356.4A CN109873810B (zh) | 2019-01-14 | 2019-01-14 | 一种基于樽海鞘群算法支持向量机的网络钓鱼检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910031356.4A CN109873810B (zh) | 2019-01-14 | 2019-01-14 | 一种基于樽海鞘群算法支持向量机的网络钓鱼检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109873810A CN109873810A (zh) | 2019-06-11 |
CN109873810B true CN109873810B (zh) | 2022-07-19 |
Family
ID=66917624
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910031356.4A Active CN109873810B (zh) | 2019-01-14 | 2019-01-14 | 一种基于樽海鞘群算法支持向量机的网络钓鱼检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109873810B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111383288B (zh) * | 2020-03-02 | 2022-11-11 | 东北林业大学 | 樽海鞘-自适应差分进化混合相机内参优化算法 |
CN111597994B (zh) * | 2020-05-15 | 2023-03-07 | 华侨大学 | 一种光纤周界安防入侵事件识别模型构建方法和安防系统 |
CN111859771B (zh) * | 2020-06-19 | 2024-02-23 | 湖南科技大学 | 一种基于改进樽海鞘群算法的多通道水冷散热器优化方法 |
CN112215459A (zh) * | 2020-09-02 | 2021-01-12 | 南方电网能源发展研究院有限责任公司 | 一种基于电网投资规模预测的电量分配方法及装置 |
CN112287564B (zh) * | 2020-11-20 | 2023-04-07 | 国网湖南省电力有限公司 | 基于樽海鞘群算法的电极阵列优化方法 |
CN113627382B (zh) * | 2021-08-24 | 2022-02-22 | 北京电信易通信息技术股份有限公司 | 面向视频会议系统的用户行为识别方法、系统及存储介质 |
CN114354194B (zh) * | 2021-12-09 | 2023-05-26 | 重庆邮电大学 | 基于全卷积自编码器和优化支持向量机的滚动轴承故障诊断方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104580152A (zh) * | 2014-12-03 | 2015-04-29 | 中国科学院信息工程研究所 | 一种防护wifi钓鱼的保护方法及系统 |
CN104749219A (zh) * | 2013-07-30 | 2015-07-01 | 中国标准化研究院 | 一种基于粒子群算法的支持向量机分类器参数选择的蜂蜜检测方法 |
WO2018072351A1 (zh) * | 2016-10-20 | 2018-04-26 | 北京工业大学 | 一种基于粒子群优化算法对支持向量机的优化方法 |
CN108765951A (zh) * | 2018-06-11 | 2018-11-06 | 广东工业大学 | 基于蝙蝠算法支持向量机的高速公路交通状态识别方法 |
CN108919641A (zh) * | 2018-06-21 | 2018-11-30 | 山东科技大学 | 一种基于改进樽海鞘算法的无人机航迹规划方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103179125B (zh) * | 2013-03-25 | 2016-08-31 | 北京奇虎科技有限公司 | 网站认证信息的显示方法及浏览器 |
-
2019
- 2019-01-14 CN CN201910031356.4A patent/CN109873810B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104749219A (zh) * | 2013-07-30 | 2015-07-01 | 中国标准化研究院 | 一种基于粒子群算法的支持向量机分类器参数选择的蜂蜜检测方法 |
CN104580152A (zh) * | 2014-12-03 | 2015-04-29 | 中国科学院信息工程研究所 | 一种防护wifi钓鱼的保护方法及系统 |
WO2018072351A1 (zh) * | 2016-10-20 | 2018-04-26 | 北京工业大学 | 一种基于粒子群优化算法对支持向量机的优化方法 |
CN108765951A (zh) * | 2018-06-11 | 2018-11-06 | 广东工业大学 | 基于蝙蝠算法支持向量机的高速公路交通状态识别方法 |
CN108919641A (zh) * | 2018-06-21 | 2018-11-30 | 山东科技大学 | 一种基于改进樽海鞘算法的无人机航迹规划方法 |
Non-Patent Citations (1)
Title |
---|
Salp swarm algorithm:a bio-inspired optimizer for engineering design problems;Mirjalili S;《Advances in Engineering Software》;20171231;第163-191页 * |
Also Published As
Publication number | Publication date |
---|---|
CN109873810A (zh) | 2019-06-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109873810B (zh) | 一种基于樽海鞘群算法支持向量机的网络钓鱼检测方法 | |
Yang et al. | Detecting malicious URLs via a keyword-based convolutional gated-recurrent-unit neural network | |
CN109510815B (zh) | 一种基于有监督学习的多级钓鱼网站检测方法及检测系统 | |
CN109005145B (zh) | 一种基于自动特征抽取的恶意url检测系统及其方法 | |
WO2019085275A1 (zh) | 一种字符串分类方法、系统及一种字符串分类设备 | |
CN105956472A (zh) | 识别网页中是否包含恶意内容的方法和系统 | |
CN111131260B (zh) | 一种海量网络恶意域名识别和分类方法及系统 | |
CN108111478A (zh) | 一种基于语义理解的网络钓鱼识别方法和装置 | |
Liu et al. | An efficient multistage phishing website detection model based on the CASE feature framework: Aiming at the real web environment | |
CN103530367A (zh) | 一种钓鱼网站鉴别系统和方法 | |
WO2016201938A1 (zh) | 一种多阶段钓鱼网站检测方法与系统 | |
US10311120B2 (en) | Method and apparatus for identifying webpage type | |
CN107438083B (zh) | 一种Android环境下钓鱼网站检测方法及其检测系统 | |
CN104156490A (zh) | 基于文字识别检测可疑钓鱼网页的方法及装置 | |
CN111538929A (zh) | 网络链接识别方法、装置、存储介质及电子设备 | |
CN104915399A (zh) | 基于新闻标题的推荐数据处理方法及系统 | |
CN111245784A (zh) | 多维度检测恶意域名的方法 | |
CN108319672A (zh) | 基于云计算的移动终端不良信息过滤方法及系统 | |
CN114050912A (zh) | 一种基于深度强化学习的恶意域名检测方法和装置 | |
CN115757991A (zh) | 一种网页识别方法、装置、电子设备和存储介质 | |
CN107070702B (zh) | 基于合作博弈支持向量机的用户账号关联方法及其装置 | |
CN111447169B (zh) | 一种在网关上的实时恶意网页识别方法及系统 | |
CN112487422A (zh) | 一种恶意文档检测方法、装置、电子设备及存储介质 | |
CN108734011A (zh) | 软件链接检测方法及装置 | |
CN113312479B (zh) | 跨领域虚假新闻检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |