CN114282130A

CN114282130A - 一种基于选择变异飞蛾火焰优化算法的欺诈网址识别方法

Info

Publication number: CN114282130A
Application number: CN202111465468.4A
Authority: CN
Inventors: 许国良; 魏安; 雒江涛
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2021-12-03
Filing date: 2021-12-03
Publication date: 2022-04-05

Abstract

本发明涉及一种基于选择变异飞蛾火焰优化算法的欺诈网址识别方法，属于大数据领域。该方法包括获取原始数据，对原始数据进行预处理，并利用处理后的原始数据进行特征提取；通过初始化飞蛾种群，计算飞蛾个体的适应度值，并利用螺旋形状运动的方式更新飞蛾个体的值，根据计算得到控制因子和自适应因子的值选择不同的变异策略，不断重复进行上述操作，直到达到设置的终止条件输出最优特征子集；将最优特征子集作为输入数据训练分类算法，完成欺诈网址识别模型的构建；本发明解决了传统欺诈网址识别模型特征选择困难、易陷入局部最优点和识别准确率不高等问题。

Description

一种基于选择变异飞蛾火焰优化算法的欺诈网址识别方法

技术领域

本发明属于大数据领域，涉及一种基于选择变异飞蛾火焰优化算法的欺诈网址识别方法。

背景技术

网络环境安全主要面临以下的挑战，通过在网址中植入木马或者僵尸控制程序控制用户的主机；通过篡改、仿冒有信誉的网址或者在网址中植入后门诱惑网络用户进行欺诈；通过利用网址中存在的高危漏洞来实施远程攻击；以上方式主要是诱惑网络用户点击欺诈者设计好的网址盗取用户的个人信息和财产信息。因此，如果能够通过技术手段识别出具有欺诈风险的网址，可以从根源处解决大部分网络诈骗的问题，净化网络空间的环境。

传统识别欺诈网址技术主要分为两类，分别是黑名单技术以及通过提取网址数据特征并训练机器学习模型完成欺诈网址的识别，这两类技术被广泛使用并展现了一定的效果。但是随着网络环境中网址数量的飞速增长，欺诈网址通常会缩短生命周期逃避黑名单技术的检测，降低了黑名单技术识别欺诈网址的准确率。提取网址数据特征技术，通过分析网址URL关键词特征、网址主机信息特征、网页页面内容特征等识别欺诈网址，能够解决黑名单技术的不足，然而该方法没有考虑到数据集中存在冗余以及提取的特征会给模型带来负面影响的情况，在一定程度上干扰了模型的训练。因此，针对传统识别欺诈网址技术存在特征选择困难、识别准确率不高的问题，本发明引入飞蛾火焰优化算法完成特征优选。然而，飞蛾火焰优化算法存在易陷入局部最优点以及全局搜索能力不高的问题影响该算法缩减维度能力。因此，本发明提出一种选择变异飞蛾火焰优化算法解决网址数据特征优选问题，并结合随机森林算法完成欺诈网址的识别，该方法能够有效平衡算法全局寻优和局部寻优的能力，解决传统欺诈网址识别技术特征选择困难的问题，在最大化识别能力的同时最小化特征的数量。

发明内容

有鉴于此，本发明的目的在于提供一种基于选择变异飞蛾火焰优化算法的欺诈网址识别方法。

为达到上述目的，本发明提供如下技术方案：

一种基于选择变异飞蛾火焰优化算法的欺诈网址识别方法，该方法包括以下步骤：

S1：获取网址原始数据集，对原始数据集进行预处理，然后利用处理过后的原始数据集提取网址的URL关键词特征、网址主机信息特征、网址页面内容特征和网址JavaScript特征；

S2：根据网址数据集的大小以及提取特征的数量设置飞蛾种群的大小以及飞蛾个体维度的数量，并初始化飞蛾种群M；

S3：对飞蛾个体进行离散化处理，并计算每个飞蛾个体的适应度值存储到适应度矩阵OM中，对适应度矩阵OM进行排序，根据火焰数量自适应调整公式计算得到火焰数量flamenum，存储对应的数据到火焰矩阵F中，计算飞蛾个体到对应火焰的距离D_ij，然后更新飞蛾个体的值；

S4：通过更新后的飞蛾个体计算控制因子

自适应因子CA和自适应因子的下限CA_L，根据计算的结果选择不同的变异策略，包括三种变异策略分别是最优点变异策略、随机变异策略和高斯变异策略；最优点变异策略用于增强最优解领域搜索的能力；随机变异策略用于增强算法的全局搜索能力；高斯变异策略用于逐渐将算法从全局搜索变为局部搜索；

S5：当选择最优点变异策略和随机变异策略时，通过引入缩放因子平衡算法种群多样性和局部收敛的能力；根据选择的变异策略计算变异后个体适应度值的大小，如果优于原先个体的适应度值，则用变异个体取代原先飞蛾个体；

S6：判断是否达到设置的终止条件；

S7：如否，则返回执行S3，继续寻找最优飞蛾个体；如是，输出当前最优飞蛾个体所选择的特征，并训练分类算法完成欺诈网址识别方法的构建。

可选的，所述S1中，对网址原始数据进行预处理以及提取网址特征数据过程包括：

S11：对收集的网址原始数据进行清洗，删除无效数据和异常数据，得到处理过后的网址数据集U；

S12：通过对处理后网址数据集U的URL关键词和主机信息进行分析，提取网址的URL关键词特征和网址的主机信息特征；

S13：通过对网址数据集U的页面内容和JavaScript代码进行分析，提取网址的页面特征和JavaScript特征；

S14：结合S12和S13提取的特征，形成网址特征向量U(i)＝(u_i1,u_i2,...,u_ij,...,u_id)，其中u_ij代表提取的某一特征。

可选的，所述S2中，改进飞蛾火焰优化算法个体更新过程包括：

S21：根据网址数据集的大小以及提取特征的数量设置飞蛾种群的大小以及飞蛾个体维度的数量，初始化飞蛾种群矩阵M＝[M_ij]_n×d，并对其进行离散化处理，通过适应度函数计算每个飞蛾个体的适应度值，存储到适应度矩阵OM＝[OM_i]_n，并对其进行排序；

S22：如果是初次迭代，将排序过后的飞蛾适应度矩阵OM存储到火焰适应度矩阵OF＝[OF_i]_n，并将对应的飞蛾个体存储到火焰矩阵F＝[F_ij]_n×d；

S23：如果不是初次迭代，通过火焰数量自适应调整公式计算当前迭代过程火焰数量flamenum，并利用飞蛾适应度矩阵OM更新火焰适应度矩阵OF，同时利用对应的飞蛾个体更新火焰矩阵F；

S24：根据火焰矩阵F，使飞蛾个体采用螺旋形状运动的方式更新其值。

可选的，所述S21中，飞蛾种群离散化公式表示为：

其中，M_i,k代表第k轮迭代的第i只飞蛾个体，S(M_i,k)代表经过转换后的值，Th代表设置的阈值；

适应度函数公式表示为：

公式中γ_acc是识别结果的精确度，|x|是飞蛾个体所选择的特征数目，d是总的特征数目；

火焰数量自适应调整公式表示为：

公式中的k是当前迭代的次数，n是飞蛾种群的数量，K是最大的迭代次数。

可选的，所述S24中，采用的更新公式表示为：

M_i＝D_ij×e^bt×cos(2πt)+F_j

公式中的M_i代表第i只飞蛾，F_j代表第j束火焰，D_ij＝|F_j-M_i|代表第i只飞蛾与第j束火焰的距离，b代表的是定义对数螺旋线形状的常数，t是一个[-1,1]内的随机数。

可选的，所述变异策略中，变异公式表示为：

公式中的X_i,k+1代表第k轮迭代的飞蛾个体变异后的变异个体，M_best,k代表的是该轮的最优秀个体，M_i,k、M_r1,k、M_r2,k、M_r3,k、M_r4,k代表的是该轮不相同的飞蛾个体；

w代表的是缩放因子，对于w的公式表示为：

公式中的w_max代表w的最大值，w_min代表w的最小值，K代表最大的迭代次数；

代表的是第k轮迭代i个体对应的控制因子，公式表示为：

公式中f表示适应度值；

CA代表的是自适应因子，CA_L为自适应因子下限，公式表示为：

公式中freq为正弦函数的波动频率，取值为0.05；

G(μ,σ²)表示的是高斯变异，其中μ为均值，σ²为方差，μ＝M_best,k，σ²＝|M_best,k-M_i,k|；

通过获得的最优特征子集训练随机森林算法，并将需要判断的网址输入到训练好的欺诈网址识别模型中，输出判断的结果。

本发明的有益效果在于：

(1)本发明从网址原始数据集中提取URL关键词特征、主机信息特征、页面内容特征、JavaScript四类特征，考虑到多方面因素对识别欺诈网址的影响，并引入特征优选算法，提升了欺诈网址识别模型的准确性以及稳定性。

(2)本发明引入选择变异飞蛾火焰优选算法，将每个特征子集都表示为二进制的形式，并利用算法的更新公式和变异策略进行特征优选，获取高质量的特征数据集，解决了传统欺诈网址识别模型特征选择困难、识别准确率不高的问题。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

附图说明

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作优选的详细描述，其中：

图1为本发明方法的总体框架图；

图2为本发明方法的流程示意图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

其中，附图仅用于示例性说明，表示的仅是示意图，而非实物图，不能理解为对本发明的限制；为了更好地说明本发明的实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

本发明实施例的附图中相同或相似的标号对应相同或相似的部件；在本发明的描述中，需要理解的是，若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此附图中描述位置关系的用语仅用于示例性说明，不能理解为对本发明的限制，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。

本发明提出一种基于选择变异飞蛾火焰优化算法的欺诈网址识别方法，其特征在于，如图1总体框架图所示，包括以下步骤：

S1：获取网址原始数据集，对原始数据集进行预处理，然后利用处理过后的原始数据集提取网址的URL关键词特征、网址主机信息特征、网址页面内容特征、网址JavaScript特征；

S3：对飞蛾个体进行离散化处理，计算每个飞蛾个体的适应度值存储到适应度矩阵OM中，对适应度矩阵OM进行排序，根据火焰数量自适应调整公式计算得到火焰数量flamenum，存储对应的数据到火焰矩阵F中，计算飞蛾个体到对应火焰的距离D_ij，然后更新飞蛾个体的值；

S4：通过更新后的飞蛾个体计算控制因子

根据其数值选择相应的变异策略完成变异，并计算变异后个体适应度值的大小，如果优于原先个体的适应度值，则用变异个体取代原先飞蛾个体；

S5：判断是否达到设置的终止条件；

S6：如否，则返回执行S3，继续寻找最优飞蛾个体；如是，输出当前最优飞蛾个体所选择的特征，并训练分类算法完成欺诈网址识别方法的构建；

S7：通过将需要判断的网址输入到训练好的欺诈网址识别方法中，并输出判断的结果。

如图2流程示意图所示，所述欺诈网址识别方法主要包括网址数据特征提取、选择变异飞蛾火焰优化算法进行特征优选和训练随机森林算法完成欺诈网址方法三个部分组成，构建以及训练欺诈网址识别模型的过程包括：

S1：获取网址原始数据集，包含合法网址和欺诈网址各5000条，合法网址数据是以Alexa网站发布的网址为基础利用爬虫方式进行获取，欺诈网址数据是移动运营商所提供的数据集，并对原始数据集进行预处理，利用处理过后的原始数据集进行特征提取；主要提取的特征包括网址的URL关键词特征、网址主机信息特征、网址页面内容特征和网址JavaScript特征，具体如表1所示：

表1本发明方法提取网址特征信息

S2：根据S1提取的30个网址特征设置飞蛾种群大小为20以及飞蛾个体维度大小为30，并初始化飞蛾种群M；

S3：对飞蛾个体进行离散化处理，计算每个飞蛾个体的适应度值存储到适应度矩阵OM中，对适应度矩阵OM进行排序，根据火焰数量自适应调整公式计算得到火焰数量flamenum，存储对应的数据到火焰矩阵F中；然后，判断飞蛾种群数量是否大于flamenum，如果大于，飞蛾会朝着对应的火焰进行全局寻优；否则，飞蛾会以螺旋运动的方式获取局部最优解。

S4：通过更新后的飞蛾个体计算控制因子

以及自适应因子值，根据其数值选择相应的变异策略完成变异，并计算变异后个体适应度值的大小，如果优于原先个体的适应度值，则用变异个体取代原先飞蛾个体；然后，计算下一轮迭代的flamenum。

S5：判断是否达到设置的终止条件。

S6：如否，则返回执行S3，继续寻找最优飞蛾个体；如是，输出当前最优飞蛾个体所选择的特征，并训练随机森林算法完成欺诈网址识别模型的构建。

S7：通过将需要判断的网址输入到训练好的欺诈网址识别模型中，并输出判断的结果。

在本实施例中，对网址数据集进行预处理过程包括：

对网址数据进行清洗，删除无效数据和异常数据，并对网址数据进行归一化，得到需要的网址数据集U；

通过对网址数据集U提取表1所示的特征，然后，选取70％的数据作为训练集、选取20％的数据作为测试集、选取10％的数据作为验证集，以上是数据的预处理过程；

在本实施例中，选择变异飞蛾火焰优化算法选取最优特征子集过程包括：

初始化飞蛾种群矩阵M＝[M_ij]_n×d，并对其进行离散化处理，通过适应度函数计算每个飞蛾个体的适应度值，存储到适应度矩阵OM＝[OM_i]_n，并对其进行排序，根据火焰数量自适应调整公式计算得到火焰数量flamenum，判断飞蛾种群数量是否大于flamenum，根据得到的结果采用图2所示的流程进行相应的处理；

在本实施例中，飞蛾种群离散化公式表示为：

公式中的M_i,k代表第k轮迭代的第i只飞蛾个体，S(M_i,k)代表经过转换后的值，Th代表设置的阈值；

在本实施例中，适应度函数公式表示为：

在本实施例中，随着迭代的进行，火焰的数量会自适应的减少，直到只存在一束火焰，飞蛾种群都会在该火焰附近更新，火焰数量自适应调整公式表示为：

公式中的k是当前迭代的次数，n是飞蛾种群的数量，K是最大的迭代次数。通过自适应减少火焰数量有效缓解了算法陷入局部最优的问题；

根据火焰矩阵F，使飞蛾个体采用螺旋形状运动的方式更新其值，具体采用的更新公式表示为：

M_i＝D_ij×e^bt×cos(2πt)+F_j

公式中的M_i代表第i只飞蛾，F_j代表第j束火焰，D_ij＝|F_j-M_i|代表第i只飞蛾与第j束火焰的距离，b代表的是定义对数螺旋线形状的常数，t是一个[-1,1]内的随机数；

通过更新后的飞蛾个体计算控制因子

以及自适应因子值，根据其数值选择相应的变异策略完成变异，并计算变异后个体适应度值的大小，如果优于原先个体的适应度值，则用变异个体取代原先飞蛾个体；然后，计算下一轮迭代的flamenum；

判断是否达到设置的终止条件，如否，根据图2所示流程继续寻找最优飞蛾个体；如是，输出当前最优飞蛾个体所选择的特征。

最后，通过获得的最优特征子集训练随机森林算法，并将需要判断的网址输入到训练好的欺诈网址识别方法中，输出判断的结果。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于选择变异飞蛾火焰优化算法的欺诈网址识别方法，其特征在于：该方法包括以下步骤：

S4：通过更新后的飞蛾个体计算控制因子λ_i ^k、自适应因子CA和自适应因子的下限CA_L，根据计算的结果选择不同的变异策略，包括三种变异策略分别是最优点变异策略、随机变异策略和高斯变异策略；最优点变异策略用于增强最优解领域搜索的能力；随机变异策略用于增强算法的全局搜索能力；高斯变异策略用于逐渐将算法从全局搜索变为局部搜索；

S6：判断是否达到设置的终止条件；

S7：如否，则返回执行S3，继续寻找最优飞蛾个体；如是，则输出当前最优飞蛾个体所选择的特征，并训练分类算法完成欺诈网址识别方法的构建。

2.根据权利要求1所述的一种基于选择变异飞蛾火焰优化算法的欺诈网址识别方法，其特征在于：所述S1中，对网址原始数据进行预处理以及提取网址特征数据过程包括：