CN117556339B

CN117556339B - 一种网络违法行为风险危险等级评估方法

Info

Publication number: CN117556339B
Application number: CN202311534786.0A
Authority: CN
Inventors: 刘霞; 房祥静; 王坤然; 陈倩雯; 许丽丹; 段琦; 许潇文; 赵燕; 康键; 孟翠竹; 张宁; 苏雪妍
Original assignee: China National Institute of Standardization
Current assignee: China National Institute of Standardization
Priority date: 2023-11-17
Filing date: 2023-11-17
Publication date: 2024-04-26
Anticipated expiration: 2043-11-17
Also published as: CN117556339A

Abstract

本发明公开了一种网络违法行为风险危险等级评估方法，包括获取网络行为数据，对所述网络行为数据进行预处理，对所述网络行为数据进行第一聚类获得第一分类数据，对所述网络行为数据进行第二聚类获得第二分类数据，将所述第一分类数据输入风险等级评估模型获得风险程度，将所述第二分类数据输入离散评估模型获得偏离程度，对所述风险程度和所述偏离程度进行聚类分析，获得风险危险等级并输出。该方法不仅可以提高网络违法行为风险危险等级评估方法的精度，同时具有较好的可解释性，可以直接应用于网络违法行为风险危险等级评估系统中。

Description

一种网络违法行为风险危险等级评估方法

技术领域

本发明涉及网络违法行为领域，尤其涉及一种网络违法行为风险危险等级评估方法。

背景技术

风险危险等级评估技术在网络违法行为领域的应用越来越广泛，可以帮助风险危险等级评估系统的管理者及时、高效地获取网络违法行为的风险危险等级评估结果，实现网络违法行为的风险等级评估。目前，网络违法行为具有用户信息量庞大、数据种类多样、信息密度大等特点，风险危险等级评估方法存在较多的不确定因素，导致网络违法行为的风险危险等级评估方法存在较大的不确定性。虽然已经发明了一些一种网络违法行为风险危险等级评估方法，但是仍不能有效解决网络违法行为的风险危险等级评估方法的不确定问题。

发明内容

本发明的目的是要提供一种网络违法行为风险危险等级评估方法。

为达到上述目的，本发明是按照以下技术方案实施的：

本发明包括以下步骤：

获取网络行为数据，对所述网络行为数据进行预处理；

对所述网络行为数据进行第一聚类获得第一分类数据，对所述网络行为数据进行第二聚类获得第二分类数据；

将所述第一分类数据输入风险等级评估模型获得风险程度，将所述第二分类数据输入离散评估模型获得偏离程度；

对所述风险程度和所述偏离程度进行聚类分析，获得风险危险等级并输出。

进一步的，在步骤A中所述预处理的方法，包括去除重复数据、向量化、数据转换、数据集成和数据规约。

进一步的，对所述网络行为数据进行第一聚类获得第一分类数据的方法，包括：

将网络行为数据输入为数据集，假设有r个近邻个数，计算数据集重数据点间的欧式距离：

其中第i个数据为c_i，第j个数据为c_i，第i个数据的x轴值为x_i，第j个数据的x轴值为x_j，第i个数据的y轴值为y_i，第j个数据的y轴值为y_j，数据c_i和数据c_j的欧式距离为k(c_i，c_j)，构建距离矩阵Q；

根据距离矩阵和k近邻定义获取数据点的k近邻居，计算数据的k近邻数量；

其中数据c_i的k近邻居为w(c_i)，数据c_j的k近邻居为w(c_j)，数据c_i的k近邻数量为n_gr(c_i)，数据c_i与数据c_j的k近邻判断函数为gr(c_i，c_j)，计算数据的局部核密度：

其中数据c的高斯核函数为g(c)，数据维度为d，数据c的范数为||c||，数据c_i与第k近邻的数据c_j间的距离k_a(c_i，c_j)，数据c_i的局部核密度为kg(c_i)，自然对数为e，计算数据的局部密度和相对距离：

β(c_i)＝n_gr(c_i)+kg(c_i)

其中数据c_i的局部密度为β(c_i)，第i个数据的相对距离为δ_i，第j个数据的高斯函数为ρ_i，第i个数据的高斯函数为ρ_i，根据局部密度β(c_i)和相对距离δ_i构建决策图选取聚类中心，赋予类标签；

将不属于任何类中心的数据分配到局部密度更高且距离更近的数据所属的类别中，直到遍历完数据集内所有的数据，得到第一分类数据。

进一步的，对所述网络行为数据进行第二聚类获得第二分类数据的方法，包括：

输入行为数据构成数据集，利用轮廓系数法确定聚类的个数，随机选取m个对象作为第二聚类中心；

计算数据到第二聚类中心的欧式距离：

其中第v个聚类中心为p_v，第r个数据为b_r，数据b_r与聚类中心p_v的欧拉距离为s(rv)，将数据到所有聚类中心的欧拉距离升序排序，将数据b_r分配给第一个聚类中心，形成m个簇；

确定数据所在高维有界闭箱，在有界闭箱内生成z个初始生长点，计算生长点的形态素浓度：

其中第d个维度数据v的适应度函数为第d个维数数据e的适应度函数为/>数据r的数量为p，聚类中心的数量为n；

构造[0，1]封闭区间内的概率生长空间，确定随机数h的生长点，如果X_e-1＜h＜X_e，选取作为本次迭代的生长点，将新生长点与原生长点进行比较，选择性能更优的生长点代替原来的候选生长点完成生长过程；

重复迭代，直到达到预先设定的迭代次数，迭代终止，输出全局最优生长点O_d，更新聚类中心将全局最优生长点作为簇的聚类中心，将聚类结果输出为第二分类数据。

进一步的，将所述第一分类数据输入风险等级评估模型获得风险程度的方法，包括：

将第一分类数据输入风险等级评估模型，将第一分类数据转换成叶子节点，从二叉压缩树中找到节点a对应的叶子节点，从叶子节点中检索与风险等级评估相关联的哈希值；

通过哈希值找到与评估风险等级的第一分类数据获得评估数据，将评估数据按照评估者对象分为不同的评估序列；

计算评估数据的直接风险程度：

E_ba＝u_ba

其中节点b对节点a的风险率为u_ba，节点b对节点a的直接风险程度为E_ba，

计算评估数据的间接风险程度：

其中节点b对节点a的间接风险程度为V_ba，节点为k，节点的数量为t，节点k对被评价节点b的评价总数为|M_ba|，被评估节点a得到的评价总数为计算间接风险程度的权重：

其中间接风险程度的权重为Y，计算综合风险程度：

X_ba＝max{(1-γ)E_ba+γV_ba，α}

其中节点的初始综合风险程度为α，输出综合风险程度为风险程度。

进一步的，将所述第二分类数据输入离散评估模型获得偏离程度的方法，包括：

将第二分类数据输入离散评估模型，给定最大似然估计：

其中最大似然估计为H，第k个第二分类数据矩阵为u_k，第二分类数据的数量为r，第二分类数据矩阵的平均矩阵为矩阵的转置为(·)^T；

根据最大似然估计调整离散评估模型的模型，对第二分类数据进行拟合，计算偏离程度：

其中第二分类数据x的偏离程度为σ_x，第二分类数据x的数量为s，第二分类数据的数值为g(x)，第二分类数据x的聚类中心值为c_x，输出偏离程度。

进一步的，对所述风险程度和所述偏离程度进行聚类分析的方法，包括：

给定聚类的目标函数：

其中n×p的0、1矩阵为E，聚类中心数据集为R，第k个类的中心点为z_k，第s个数据为c_s，中心点z_k与数据c_s的分类变量间的距离为d(c_s，z_k)，数据的数量为n，中心点的数量为p，计算属性值的属性权重：

其中第s个数据的本地属性为b_s，第s个数据的第g个角度度量为c_gs，本地属性b_s的角度度量c_gs的单属性权重为数据对象c_p在本地属性b_s的等价类为/>第a个相关属性为b_a，相关属性b_a的角度度量c_gs的多属性权重为/>属性值c_gs的权重为ω(c_gs)，属性值c_gs和属性值c_ga的共现次数为/>相关属性的数量为d，随机初始找出簇中心，平均权重集并对应属性值的权重，计算数据对象与簇之间的距离：

其中第s个数据的第t个属性值为c_st，第a个数据的第t个属性值为c_at，属性值c_st和属性值c_at簇之间的距离为d(c_st，c_at)，属性值c_st的权重为ω(c_st)，属性值c_at的权重为ω(c_at)，根据聚类分析将风险程度和偏离程度分成不同的群组，计算不同群组的风险等级：

L(s)＝ω(s_dr)h_dr(s)+ω(s_va)h_va(s)

其中行为数据s的风险等级为L(s)，数据s的风险程度权重为ω(s_dr)，数据s的偏离程度权重为ω(s_va)，数据s的风险程度为h_dr(s)，数据s的偏离程度为h_va(s)，输出风险等级。

本发明的有益效果是：

本发明是一种网络违法行为风险危险等级评估方法，与现有技术相比，本发明具有以下技术效果：

本发明通过第一数据分类、第二数据分类、风险程度、偏离程度和聚类分析步骤，可以提高风险等级评估方法的准确性，从而网络违法行为的风险等级评估的精度，将风险等级评估优化，可以大大节省资源和人力成本，提高工作效率，可以实现网络违法行为的风险等级评估，实时对网络违法行为进行风险等级评估，对网络违法行为风险危险等级评估具有重要意义，可以适应不同车路协同的网络违法行为风险危险等级评估系统、不同用户的网络违法行为的风险等级评估需求，具有一定的普适性。

附图说明

图1为本发明一种网络违法行为风险危险等级评估方法的步骤流程图。

具体实施方式

下面通过具体实施例对本发明作进一步描述，在此发明的示意性实施例以及说明用来解释本发明，但并不作为对本发明的限定。

本发明一种网络违法行为风险危险等级评估方法包括以下步骤：

如图1所示，在本实施例中，包括以下步骤：

获取网络行为数据，对所述网络行为数据进行预处理；

在实际评估中，给出了某网站的6组网络行为数据，将这6组数据作为研究对象，数据如下：

1组用户1在社交网络上发布了一条关于某气象局的内部资料，获得20个点赞和9条评论；

2组用户2用户E在论坛上发表了一篇关于旅游经验的帖子，吸引了100多个回复；

3组用户3多次在论坛上发表虚假信息，并且多次转发扩大影响；

4组用户4在一款新闻应用上阅读了3篇关于国际政治的文章，并分享了其中一篇到社交媒体；

5组用户5在搜索引擎中多次输入了敏感关键词；

6组用户用户H在博客平台上发布了一篇关于科技发展的文章，获得了500多次浏览和20次分享；

在实际评估中，第一分类数据为：

1类包含1组、2组、4组、5组和6组；

2类包含3组；

第二分类数据为：

1类包含2组、3组、4组和5组；

2类包含1组、6组；

在实际评估中，第一分类数据的风险程度：

1类1组、2组、4组、5组和6组分别为0.68、0.21、0.34、0.79、0.4；

2类3组为0.81；

第二分类数据的偏离程度：

1类2组、3组、4组和5组分别为0.27、0.51、0.19、0.54；

2类1组、6组分别为0.67、0.51；

对所述风险程度和所述偏离程度进行聚类分析，获得风险危险等级并输出；

在实际评估中，风险程度的权重为0.57，偏离程度的权重为0.43，1组、2组、3组、4组、5组、6组的风险等级为0.6757、0.2358、0.681、0.2755、0.6825、0.4473。

在本实施例中，在步骤A中所述预处理的方法，包括去除重复数据、向量化、数据转换、数据集成和数据规约。

在本实施例中，对所述网络行为数据进行第一聚类获得第一分类数据的方法，包括：

其中第i个数据为c_i，第j个数据为c_j，第i个数据的x轴值为x_i，第j个数据的x轴值为x_j，第i个数据的y轴值为y_i，第j个数据的y轴值为y_j，数据c_i和数据c_j的欧式距离为k(c_i，c_j)，构建距离矩阵Q；

β(c_i)＝n_gr(c_i)+kg(c_i)

在本实施例中，对所述网络行为数据进行第二聚类获得第二分类数据的方法，包括：

计算数据到第二聚类中心的欧式距离：

在本实施例中，将所述第一分类数据输入风险等级评估模型获得风险程度的方法，包括：

计算评估数据的直接风险程度：

E_ba＝u_ba

计算评估数据的间接风险程度：

其中间接风险程度的权重为Y，计算综合风险程度：

X_ba＝max{(1-γ)E_ba+γV_ba，α}

在本实施例中，将所述第二分类数据输入离散评估模型获得偏离程度的方法，包括：

将第二分类数据输入离散评估模型，给定最大似然估计：

在本实施例中，对所述风险程度和所述偏离程度进行聚类分析的方法，包括：

给定聚类的目标函数：

L(s)＝ω(s_dr)h_dr(s)+ω(s_va)h_va(s)

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种网络违法行为风险危险等级评估方法，其特征在于，包括以下步骤：

获取网络行为数据，对所述网络行为数据进行预处理；

“对所述网络行为数据进行第一聚类获得第一分类数据”包括：

其中数据c_i的k近邻居为w(c_i)，数据c_j的k近邻居为w(c_j)，数据c_i的k近邻数量为n_gr(c_i)，数据c_i与数据c_j的k近邻判断函数为g_r(c_i，c_j)，计算数据的局部核密度：

β(c_i)=n_gr(c_i)+kg(c_i)

其中数据c_i的局部密度为β(c_i)，第i个数据的相对距离为δ_i，第j个数据的高斯函数为ρ_j，第i个数据的高斯函数为ρ_i，根据局部密度β(c_i)和相对距离δ_i构建决策图选取聚类中心，赋予类标签；

将不属于任何类中心的数据分配到局部密度更高且距离更近的数据所属的类别中，直到遍历完数据集内所有的数据，得到第一分类数据；

“对所述网络行为数据进行第二聚类获得第二分类数据”包括：

计算数据到第二聚类中心的欧式距离：

其中第v个聚类中心为p_v，第r个数据为b_r，数据b_r与聚类中心p_v的欧拉距离为s(r，v)，将数据到所有聚类中心的欧拉距离升序排序，将数据b_r分配给第一个聚类中心，形成m个簇；

构造[0,1]封闭区间内的概率生长空间，确定随机数h的生长点，如果X_e-1＜h＜X_e，选取作为本次迭代的生长点，将新生长点与原生长点进行比较，选择性能更优的生长点代替原来的候选生长点完成生长过程；

重复迭代，直到达到预先设定的迭代次数，迭代终止，输出全局最优生长点O_d，更新聚类中心将全局最优生长点作为簇的聚类中心，将聚类结果输出为第二分类数据；

“将所述第一分类数据输入风险等级评估模型获得风险程度”包括：

计算评估数据的直接风险程度：

E_ba＝u_pa

计算评估数据的间接风险程度：

其中间接风险程度的权重为γ，计算综合风险程度：

X_ba＝max{(1-γ)E_ba+γV_ba，α}

其中节点的初始综合风险程度为α，输出综合风险程度为风险程度；

“将所述第二分类数据输入离散评估模型获得偏离程度”包括：

将第二分类数据输入离散评估模型，给定最大似然估计：

其中第二分类数据x的偏离程度为σ_x，第二分类数据x的数量为s，第二分类数据的数值为g(x)，第二分类数据x的聚类中心值为c_x，输出偏离程度；

“对所述风险程度和所述偏离程度进行聚类分析”包括：

给定聚类的目标函数：

L(s)＝ω(s_dr)h_dr(s)+ω(s_va)h_va(s)

2.根据权利要求1所述的一种网络违法行为风险危险等级评估方法，其特征在于，所述预处理的方法，包括去除重复数据、向量化、数据转换、数据集成和数据规约。