CN117236699A

CN117236699A - 一种基于大数据分析的网络风险识别方法及系统

Info

Publication number: CN117236699A
Application number: CN202311387235.6A
Authority: CN
Inventors: 潘杰
Original assignee: Xuesen Lingjing Beijing Technology Co ltd
Current assignee: Xuesen Lingjing Beijing Technology Co ltd
Priority date: 2023-10-24
Filing date: 2023-10-24
Publication date: 2023-12-15

Abstract

本发明属于风险识别技术领域。公开了一种基于大数据分析的网络风险识别方法及系统。所述的方法包括如下步骤：采集历史网络访问大数据，并进行数据预处理；进行数据聚类；进行数据降维；使用深度学习算法构建网络风险识别模型；采集实时网络访问数据，并进行聚类中心匹配；对实时网络访问数据进行数据降维；使用网络访问行为的网络风险识别模型进行网络风险识别。所述的系统包括依次连接的大数据采集模块、数据预处理模块、数据聚类模块、训练数据降维模块、模型构建模块、数据匹配模块、实时数据降维模块以及网络风险识别模块。本发明解决了现有技术存在的实时性差，安全性差以及识别准确性低的问题。

Description

一种基于大数据分析的网络风险识别方法及系统

技术领域

本发明属于风险识别技术领域，具体涉及一种基于大数据分析的网络风险识别方法及系统。

背景技术

互联网技术的普及和应用对于各个企业的快速发展提供了更加便利的条件，各个企业越来越多的依赖信息和网络来助力自身业务的发展。但随之而来还有网络安全风险，例如各种病毒木马攻击、恶意扫描行为、数据访问异常以及数据传输过程中的泄露异常等安全问题，当用户通过客户端或者终端获取到这些有害信息时，就会产生网络风险，导致用户的信息或财产受到损失。为了避免网络风险，需要去识别用户获取的网络地址是否存在网络风险，现有技术主要是通过应用程序内显示网页页面的控件来获取网页页面的网络地址，并对获取到的网络地址进行风险识别。这种基于网络网址的风险识别方式，实时性差，无法及时的对网络风险进行检测和识别，导致网络安全性差，并且现有的网络攻击技术已经发展至可以伪装为合法的网络网址进行攻击，网络风险识别准确性低。

发明内容

为了解决现有技术存在的实时性差，安全性差以及识别准确性低的问题，本发明目的在于提供一种基于大数据分析的网络风险识别方法及系统。

本发明所采用的技术方案为：

一种基于大数据分析的网络风险识别方法，包括如下步骤：

采集历史网络访问大数据，并对历史网络访问大数据进行数据预处理，得到预处理后历史网络访问大数据；

对预处理后历史网络访问大数据进行数据聚类，得到若干网络访问行为的聚类中心及历史网络访问行为数据集；

对所有历史网络访问行为数据集进行数据降维，得到若干网络访问行为的关键数据特征及降维后历史网络访问行为数据集；

根据降维后历史网络访问行为数据集，使用深度学习算法进行优化训练，构建若干网络访问行为的网络风险识别模型；

采集实时网络访问数据，并根据实时网络访问数据，搜索若干网络访问行为的聚类中心，得到匹配的聚类中心；

根据匹配的聚类中心对应的网络访问行为的关键数据特征，对实时网络访问数据进行数据降维，得到降维后实时网络访问数据；

将降维后实时网络访问数据输入对应的网络访问行为的网络风险识别模型，进行网络风险识别，得到网络风险识别结果。

进一步地，采集历史网络访问大数据，并对历史网络访问大数据进行数据预处理，得到预处理后历史网络访问大数据，包括如下步骤：

采集历史网络访问大数据，并对历史网络访问大数据进行数据脱敏，得到脱敏后历史网络访问大数据；

对脱敏后历史网络访问大数据进行数据去重，得到去重后历史网络访问大数据；

对去重后历史网络访问大数据进行数据补全，得到补全后历史网络访问大数据；

对补全后历史网络访问大数据进行数据归一化，得到预处理后历史网络访问大数据。

进一步地，对预处理后历史网络访问大数据进行数据聚类，具体的，使用FCM聚类算法，对预处理后历史网络访问大数据进行数据聚类，包括如下步骤：

对FCM聚类算法进行隶属度初始化，得到隶属度；

根据FCM聚类算法的隶属度，生成若干初始的聚类中心；

根据FCM聚类算法的隶属度，获取拉格朗日乘数法的合并函数值和变化值；

若合并函数值大于函数阈值，或变化值大于变化值，则更新聚类中心，否则，得到若干最终的聚类中心，并将每一最终的聚类中心设置对应的网络访问行为；

根据若干最终的聚类中心，对预处理后历史网络访问大数据进行数据划分，得到若干网络访问行为的历史网络访问行为数据集。

进一步地，对所有历史网络访问行为数据集进行数据降维，具体的，使用RF算法，对所有历史网络访问行为数据集进行数据降维，包括如下步骤：

使用RF算法中的基尼系数，获取当前网络访问行为的历史网络访问行为数据集中历史网络访问行为数据的备选关键数据特征的特征贡献度；

对备选关键数据特征的特征贡献度进行归一化处理，得到归一化后特征贡献度；

根据归一化后特征贡献度，获取备选关键数据特征的特征选择标准值；

根据特征选择标准值，对备选关键数据特征进行降幂排序，并选择前N个备选关键数据特征作为历史网络访问行为数据的关键数据特征；

根据N个关键数据特征，对历史网络访问行为数据集中所有历史网络访问行为数据进行特征筛选，得到当前网络访问行为的降维后历史网络访问行为数据集；

遍历所有历史网络访问行为数据，得到所有网络访问行为的降维后历史网络访问行为数据集。

进一步地，使用深度学习算法进行优化训练，具体的，使用深度学习算法中的FWA-Elman算法进行优化训练，构建若干网络访问行为的网络风险识别模型，包括如下步骤：

将当前网络访问行为的降维后历史网络访问行为数据集划分为训练样本集和测试样本集；

将Elman神经网络的初始网络参数作为FWA寻优算法的寻优目标，并根据寻优目标，使用FWA寻优算法进行寻优，得到Elman神经网络的最优的初始网络参数；

根据最优的初始网络参数，设置Elman神经网络，并输入训练样本集进行优化训练，构建当前的网络访问行为的初始的网络风险识别模型；

将测试样本集输入初始的网络风险识别模型进行模型测试，若测试准确率大于准确率阈值，则输出最优的网络风险识别模型，否则，重新进行网络风险识别模型的优化训练；

遍历所有网络访问行为的降维后历史网络访问行为数据集，得到所有网络访问行为的网络风险识别模型。

进一步地，将Elman神经网络的初始网络参数作为FWA寻优算法的寻优目标，并根据寻优目标，使用FWA寻优算法进行寻优，得到Elman神经网络的最优的初始网络参数，包括如下步骤：

将Elman神经网络的初始网络参数作为FWA寻优算法的寻优目标；

设定FWA寻优算法的FWA种群参数、最大迭代次数以及适应度函数，并将寻优目标作为FWA种群中FWA个体的位置；

根据FWA种群参数，使用Circle混沌映射序列进行FWA种群初始化，得到初始化的FWA种群；

根据适应度函数，计算初始化的FWA种群中FWA个体的适应度值；

获取初始烟花集合中每个初始烟花个体的爆炸半径和火花数目；

根据初始化的FWA种群中每个初始的FWA个体的爆炸半径和火花数目，进行烟花爆炸，得到更新的FWA种群；

使用高斯变异算法，对初始化的FWA种群进行高斯变异，生成高斯变异的FWA种群；

计算更新的FWA种群和高斯变异的FWA种群的FWA个体的适应度值，将最小适应度值的FWA个体作为最优个体；

若迭代次数到达阈值或最优个体的适应度值满足要求，则将当前的最优个体对应的最优解进行输出，得到Elman神经网络的最优的初始网络参数。

进一步地，采集实时网络访问数据，并根据实时网络访问数据，搜索若干网络访问行为的聚类中心，得到匹配的聚类中心，包括如下步骤：

采集实时网络访问数据；

获取实时网络访问数据与若干网络访问行为的聚类中心的相似度；

将与实时网络访问数据相似度最高对应的网络访问行为的聚类中心，作为匹配的聚类中心。

进一步地，网络访问行为包括网络连接请求行为、网站登录行为、链接点击行为、网页访问行为以及网页编辑行为。

一种基于大数据分析的风险识别系统，用于实现网络风险识别方法，系统包括依次连接的大数据采集模块、数据预处理模块、数据聚类模块、训练数据降维模块、模型构建模块、数据匹配模块、实时数据降维模块以及网络风险识别模块；

大数据采集模块，用于采集历史网络访问大数据；

数据预处理模块，用于对历史网络访问大数据进行数据预处理，得到预处理后历史网络访问大数据；

数据聚类模块，用于对预处理后历史网络访问大数据进行数据聚类，得到若干网络访问行为的聚类中心及历史网络访问行为数据集；

训练数据降维模块，用于对所有历史网络访问行为数据集进行数据降维，得到若干网络访问行为的关键数据特征及降维后历史网络访问行为数据集；

模型构建模块，用于根据降维后历史网络访问行为数据集，使用深度学习算法进行优化训练，构建若干网络访问行为的网络风险识别模型；

数据匹配模块，用于采集实时网络访问数据，并根据实时网络访问数据，搜索若干网络访问行为的聚类中心，得到匹配的聚类中心；

实时数据降维模块，用于根据匹配的聚类中心对应的网络访问行为的关键数据特征，对实时网络访问数据进行数据降维，得到降维后实时网络访问数据；

网络风险识别模块，用于将降维后实时网络访问数据输入对应的网络访问行为的网络风险识别模型，进行网络风险识别，得到网络风险识别结果。

本发明的有益效果为：

本发明提供的一种基于大数据分析的网络风险识别方法及系统，通过对历史网络访问大数据进行分析，并使用深度学习算法充分学习各网络访问行为的数据特征，构建的网络风险识别模型，能够对实时采集的实时网络访问数据进行自动化的网络风险识别，模型实时性好，网络风险识别准确性高，能够及时的对网络风险进行自动化的检测和识别，提高了网络安全性，并且将网络访问数据作为网络风险识别的支撑数据，提高了网络风险识别的有效性和实用性，能够适用各种场景下的网络风险识别。

本发明的其他有益效果将在具体实施方式中进一步进行说明。

附图说明

图1是本发明中基于大数据分析的网络风险识别方法的流程框图。

图2是本发明中基于大数据分析的风险识别系统的结构框图。

具体实施方式

下面结合附图及具体实施例对本发明做进一步阐释。

实施例1：

如图1所示，本实施例提供一种基于大数据分析的网络风险识别方法，包括如下步骤：

采集历史网络访问大数据，并对历史网络访问大数据进行数据预处理，得到预处理后历史网络访问大数据，包括如下步骤：

采集历史网络访问大数据，并对历史网络访问大数据进行数据脱敏，得到脱敏后历史网络访问大数据，数据脱敏的具体方法为：对历史网络访问大数据中涉及的隐私数据，例如用户姓名、IP地址等进行模糊处理，保证了数据隐私性；

对脱敏后历史网络访问大数据进行数据去重，得到去重后历史网络访问大数据，数据去重的具体方法为：将数据相似度高于80％的脱敏后历史网络访问数据进行删除，减小了数据体量；

对去重后历史网络访问大数据进行数据补全，得到补全后历史网络访问大数据，数据补全的具体方法为：对去重后历史网络访问数据的数据参数缺失项，根据该数据参数的均值进行补全，保证数据的标准格式；

对补全后历史网络访问大数据进行数据归一化，得到预处理后历史网络访问大数据，归一化处理消除了不同数据参数的量级差异，提高了数据对于风险的表征准确性；

使用主成分分析(Principal Component Analysis，PCA)聚类算法，对预处理后历史网络访问大数据进行数据聚类，得到若干网络访问行为的聚类中心及历史网络访问行为数据集，包括如下步骤：

对FCM聚类算法进行隶属度初始化，得到0至1的隶属度；

根据FCM聚类算法的隶属度，生成若干初始的聚类中心，公式为：

d_ij＝||x_i-z_j||²

式中，x_i为聚类空间的第i条预处理后历史网络访问数据；i、j以及k均为指示量；c为聚类中心总数；d_ij、d_ik为第i条预处理后历史网络访问数据到第j、k个初始的聚类中心的距离；u_i,j为聚类空间的第i条预处理后历史网络访问数据对第j个聚类中心的隶属度；

根据FCM聚类算法的隶属度，获取拉格朗日乘数法的合并函数值和变化值，公式为：

ΔJ_t＝J_t-J_t-1

式中，J_t、J_t-1为第t、t-1时刻的拉格朗日乘数法的合并函数值；ΔJ_t为对应的变化值；λ_i为第i个隶属度的特征参数；t为指示量；m为预处理后历史网络访问数据总数；

聚类中心的更新公式为：

式中，z_j为第j个更新的聚类中心；α为超参数；

根据若干最终的聚类中心，对预处理后历史网络访问大数据进行数据划分，得到若干网络访问行为的历史网络访问行为数据集；

网络访问行为包括网络连接请求行为、网站登录行为、链接点击行为、网页访问行为以及网页编辑行为；

将历史网络访问行为数据根据网络访问行为进行划分，提高了模型的针对性，因为不同的网络访问行为的关键数据特征不同，导致不同历史网络访问行为数据集与网络风险的数据特征关注度不一样，进行数据聚类后，有助于后续模型提高识别准确率；

使用随机森林(Random Forest，RF)算法，对所有历史网络访问行为数据集进行数据降维，得到若干网络访问行为的关键数据特征及降维后历史网络访问行为数据集，包括如下步骤：

使用RF算法中的基尼系数，获取当前网络访问行为的历史网络访问行为数据集中历史网络访问行为数据的备选关键数据特征的特征贡献度，公式为：

式中，为第j'备选关键数据特征的特征贡献度；/>为第j'备选关键数据特征在随机森林第i'棵树的特征贡献度；i'、j'为指示量；n为随机森林分类回归树(Classification And Regression Tree，CART)总数；

式中，GI_m、GI_l、GI_r为随机森林的CART树节点m、节点l以及节点r的基尼指数；p_mk为随机森林的CART树节点m中类别k'所占的比例；K为类别总数；m、l、r、k'为指示量；M为随机森林的CART树节点总数；

对备选关键数据特征的特征贡献度进行归一化处理，得到归一化后特征贡献度，公式为：

式中，VIM_j'为归一化处理后特征贡献度；J为备选关键数据特征总数；

根据归一化后特征贡献度，获取备选关键数据特征的特征选择标准值，公式为：

式中，CFC_j为第j'备选关键数据特征的特征选择标准值；VIM_j"为第j"备选关键数据特征的归一化处理后特征贡献度；j"为指示量；

数据降维减轻了历史网络访问行为数据集的数据体量，并且加强了数据特征对于网络风险的表征能力，提高了模型预测效率和准确率；

遍历所有历史网络访问行为数据，得到所有网络访问行为的降维后历史网络访问行为数据集；

根据降维后历史网络访问行为数据集，使用深度学习算法中的烟花寻优(Fireworks Algorithm，FWA)-Elman算法进行优化训练，构建若干网络访问行为的网络风险识别模型，包括如下步骤：

将Elman神经网络的初始网络参数作为FWA寻优算法的寻优目标，并根据寻优目标，使用FWA寻优算法进行寻优，得到Elman神经网络的最优的初始网络参数，包括如下步骤：

根据FWA种群参数，使用Circle混沌映射序列进行FWA种群初始化，得到初始化的FWA种群，公式为：

式中，q_l'为Circle混沌映射的初始的FWA个体；q^* _l'为随机生成的初始的FWA个体；l'为指示量；

根据适应度函数，计算初始化的FWA种群中FWA个体的适应度值，公式为：

式中，f(q_l')为初始的FWA个体q_l'的适应度值；MSE为预测均方误差函数；Y'_l'、Y_l'为预测值和真实值；

获取初始烟花集合中每个初始烟花个体的爆炸半径和火花数目，公式为：

式中，S_l'为初始的FWA个体q_l'的火花数目；M'为常数；f_max为初始化的FWA种群中最大的适应度值；f(q_l')为初始的FWA个体q_l'的适应度值；τ为无限小常数；

式中，R_l'为初始的FWA个体q_l'的爆炸半径；为爆炸半径调整常数；f_min为初始化的FWA种群中最小的适应度值；

根据初始化的FWA种群中每个初始的FWA个体的爆炸半径和火花数目，进行烟花爆炸，得到更新的FWA种群，公式为：

q'_l'＝q_l'+S_l'×rand(-1,1)

式中，q'_l'为更新的FWA个体；rand(-1,1)为-1至1的随机数；

使用高斯变异算法，对初始化的FWA种群进行高斯变异，生成高斯变异的FWA种群，公式为：

q"_l'＝q_l'+S_l'×G(1,1)

式中，q"_l'为高斯变异的FWA个体；G(1,1)为均值和方差均为1的高斯分布的随机数；

若迭代次数到达阈值或最优个体的适应度值满足要求，则将当前的最优个体对应的最优解进行输出，得到Elman神经网络的最优的初始网络参数；

FWA寻优算法有助于Elman神经网络跳出局部最优值，避免Elman神经网络出现模型早熟现象，提高了Elman神经网络的训练效率和预测准确率；

遍历所有网络访问行为的降维后历史网络访问行为数据集，得到所有网络访问行为的网络风险识别模型；

采集实时网络访问数据，并根据实时网络访问数据，搜索若干网络访问行为的聚类中心，得到匹配的聚类中心，包括如下步骤：

采集实时网络访问数据；

获取实时网络访问数据与若干网络访问行为的聚类中心的相似度，公式为：

公式为：

式中，D_j为实时网络访问数据与聚类中心z_j的相似度；/>为实时网络访问数据的第d维数据；/>为聚类中心z_j的第d维数据；h为实时网络访问数据的维度总数；j为指示量；

将与实时网络访问数据相似度最高对应的网络访问行为的聚类中心，作为匹配的聚类中心；

实施例2：

如图2所示，本实施例提供一种基于大数据分析的风险识别系统，用于实现网络风险识别方法，系统包括依次连接的大数据采集模块、数据预处理模块、数据聚类模块、训练数据降维模块、模型构建模块、数据匹配模块、实时数据降维模块以及网络风险识别模块；

大数据采集模块，用于采集历史网络访问大数据；

本发明不局限于上述可选的实施方式，任何人在本发明的启示下都可得出其他各种形式的产品。上述具体实施方式不应理解成对本发明的保护范围的限制，本发明的保护范围应当以权利要求书中界定的为准，并且说明书可以用于解释权利要求书。

Claims

1.一种基于大数据分析的网络风险识别方法，其特征在于：包括如下步骤：

2.根据权利要求1所述的一种基于大数据分析的网络风险识别方法，其特征在于：采集历史网络访问大数据，并对历史网络访问大数据进行数据预处理，得到预处理后历史网络访问大数据，包括如下步骤：

3.根据权利要求1所述的一种基于大数据分析的网络风险识别方法，其特征在于：对预处理后历史网络访问大数据进行数据聚类，具体的，使用FCM聚类算法，对预处理后历史网络访问大数据进行数据聚类，包括如下步骤：

对FCM聚类算法进行隶属度初始化，得到隶属度；

根据FCM聚类算法的隶属度，生成若干初始的聚类中心；

4.根据权利要求1所述的一种基于大数据分析的网络风险识别方法，其特征在于：对所有历史网络访问行为数据集进行数据降维，具体的，使用RF算法，对所有历史网络访问行为数据集进行数据降维，包括如下步骤：

5.根据权利要求1所述的一种基于大数据分析的网络风险识别方法，其特征在于：使用深度学习算法进行优化训练，具体的，使用深度学习算法中的FWA-Elman算法进行优化训练，构建若干网络访问行为的网络风险识别模型，包括如下步骤：

6.根据权利要求5所述的一种基于大数据分析的网络风险识别方法，其特征在于：将Elman神经网络的初始网络参数作为FWA寻优算法的寻优目标，并根据寻优目标，使用FWA寻优算法进行寻优，得到Elman神经网络的最优的初始网络参数，包括如下步骤：

7.根据权利要求1所述的一种基于大数据分析的网络风险识别方法，其特征在于：采集实时网络访问数据，并根据实时网络访问数据，搜索若干网络访问行为的聚类中心，得到匹配的聚类中心，包括如下步骤：

采集实时网络访问数据；

8.根据权利要求1所述的一种基于大数据分析的网络风险识别方法，其特征在于：所述的网络访问行为包括网络连接请求行为、网站登录行为、链接点击行为、网页访问行为以及网页编辑行为。

9.一种基于大数据分析的风险识别系统，用于实现如权利要求1-8任一所述的网络风险识别方法，其特征在于：所述的系统包括依次连接的大数据采集模块、数据预处理模块、数据聚类模块、训练数据降维模块、模型构建模块、数据匹配模块、实时数据降维模块以及网络风险识别模块；

大数据采集模块，用于采集历史网络访问大数据；