CN117556339B - 一种网络违法行为风险危险等级评估方法 - Google Patents

一种网络违法行为风险危险等级评估方法 Download PDF

Info

Publication number
CN117556339B
CN117556339B CN202311534786.0A CN202311534786A CN117556339B CN 117556339 B CN117556339 B CN 117556339B CN 202311534786 A CN202311534786 A CN 202311534786A CN 117556339 B CN117556339 B CN 117556339B
Authority
CN
China
Prior art keywords
data
risk
classification
degree
risk level
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311534786.0A
Other languages
English (en)
Other versions
CN117556339A (zh
Inventor
刘霞
房祥静
王坤然
陈倩雯
许丽丹
段琦
许潇文
赵燕
康键
孟翠竹
张宁
苏雪妍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China National Institute of Standardization
Original Assignee
China National Institute of Standardization
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China National Institute of Standardization filed Critical China National Institute of Standardization
Priority to CN202311534786.0A priority Critical patent/CN117556339B/zh
Publication of CN117556339A publication Critical patent/CN117556339A/zh
Application granted granted Critical
Publication of CN117556339B publication Critical patent/CN117556339B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24147Distances to closest patterns, e.g. nearest neighbour classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/18Legal services; Handling legal documents

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Tourism & Hospitality (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Technology Law (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种网络违法行为风险危险等级评估方法,包括获取网络行为数据,对所述网络行为数据进行预处理,对所述网络行为数据进行第一聚类获得第一分类数据,对所述网络行为数据进行第二聚类获得第二分类数据,将所述第一分类数据输入风险等级评估模型获得风险程度,将所述第二分类数据输入离散评估模型获得偏离程度,对所述风险程度和所述偏离程度进行聚类分析,获得风险危险等级并输出。该方法不仅可以提高网络违法行为风险危险等级评估方法的精度,同时具有较好的可解释性,可以直接应用于网络违法行为风险危险等级评估系统中。

Description

一种网络违法行为风险危险等级评估方法
技术领域
本发明涉及网络违法行为领域,尤其涉及一种网络违法行为风险危险等级评估方法。
背景技术
风险危险等级评估技术在网络违法行为领域的应用越来越广泛,可以帮助风险危险等级评估系统的管理者及时、高效地获取网络违法行为的风险危险等级评估结果,实现网络违法行为的风险等级评估。目前,网络违法行为具有用户信息量庞大、数据种类多样、信息密度大等特点,风险危险等级评估方法存在较多的不确定因素,导致网络违法行为的风险危险等级评估方法存在较大的不确定性。虽然已经发明了一些一种网络违法行为风险危险等级评估方法,但是仍不能有效解决网络违法行为的风险危险等级评估方法的不确定问题。
发明内容
本发明的目的是要提供一种网络违法行为风险危险等级评估方法。
为达到上述目的,本发明是按照以下技术方案实施的:
本发明包括以下步骤:
获取网络行为数据,对所述网络行为数据进行预处理;
对所述网络行为数据进行第一聚类获得第一分类数据,对所述网络行为数据进行第二聚类获得第二分类数据;
将所述第一分类数据输入风险等级评估模型获得风险程度,将所述第二分类数据输入离散评估模型获得偏离程度;
对所述风险程度和所述偏离程度进行聚类分析,获得风险危险等级并输出。
进一步的,在步骤A中所述预处理的方法,包括去除重复数据、向量化、数据转换、数据集成和数据规约。
进一步的,对所述网络行为数据进行第一聚类获得第一分类数据的方法,包括:
将网络行为数据输入为数据集,假设有r个近邻个数,计算数据集重数据点间的欧式距离:
其中第i个数据为ci,第j个数据为ci,第i个数据的x轴值为xi,第j个数据的x轴值为xj,第i个数据的y轴值为yi,第j个数据的y轴值为yj,数据ci和数据cj的欧式距离为k(ci,cj),构建距离矩阵Q;
根据距离矩阵和k近邻定义获取数据点的k近邻居,计算数据的k近邻数量;
其中数据ci的k近邻居为w(ci),数据cj的k近邻居为w(cj),数据ci的k近邻数量为ngr(ci),数据ci与数据cj的k近邻判断函数为gr(ci,cj),计算数据的局部核密度:
其中数据c的高斯核函数为g(c),数据维度为d,数据c的范数为||c||,数据ci与第k近邻的数据cj间的距离ka(ci,cj),数据ci的局部核密度为kg(ci),自然对数为e,计算数据的局部密度和相对距离:
β(ci)=ngr(ci)+kg(ci)
其中数据ci的局部密度为β(ci),第i个数据的相对距离为δi,第j个数据的高斯函数为ρi,第i个数据的高斯函数为ρi,根据局部密度β(ci)和相对距离δi构建决策图选取聚类中心,赋予类标签;
将不属于任何类中心的数据分配到局部密度更高且距离更近的数据所属的类别中,直到遍历完数据集内所有的数据,得到第一分类数据。
进一步的,对所述网络行为数据进行第二聚类获得第二分类数据的方法,包括:
输入行为数据构成数据集,利用轮廓系数法确定聚类的个数,随机选取m个对象作为第二聚类中心;
计算数据到第二聚类中心的欧式距离:
其中第v个聚类中心为pv,第r个数据为br,数据br与聚类中心pv的欧拉距离为s(rv),将数据到所有聚类中心的欧拉距离升序排序,将数据br分配给第一个聚类中心,形成m个簇;
确定数据所在高维有界闭箱,在有界闭箱内生成z个初始生长点,计算生长点的形态素浓度:
其中第d个维度数据v的适应度函数为第d个维数数据e的适应度函数为/>数据r的数量为p,聚类中心的数量为n;
构造[0,1]封闭区间内的概率生长空间,确定随机数h的生长点,如果Xe-1<h<Xe,选取作为本次迭代的生长点,将新生长点与原生长点进行比较,选择性能更优的生长点代替原来的候选生长点完成生长过程;
重复迭代,直到达到预先设定的迭代次数,迭代终止,输出全局最优生长点Od,更新聚类中心将全局最优生长点作为簇的聚类中心,将聚类结果输出为第二分类数据。
进一步的,将所述第一分类数据输入风险等级评估模型获得风险程度的方法,包括:
将第一分类数据输入风险等级评估模型,将第一分类数据转换成叶子节点,从二叉压缩树中找到节点a对应的叶子节点,从叶子节点中检索与风险等级评估相关联的哈希值;
通过哈希值找到与评估风险等级的第一分类数据获得评估数据,将评估数据按照评估者对象分为不同的评估序列;
计算评估数据的直接风险程度:
Eba=uba
其中节点b对节点a的风险率为uba,节点b对节点a的直接风险程度为Eba
计算评估数据的间接风险程度:
其中节点b对节点a的间接风险程度为Vba,节点为k,节点的数量为t,节点k对被评价节点b的评价总数为|Mba|,被评估节点a得到的评价总数为计算间接风险程度的权重:
其中间接风险程度的权重为Y,计算综合风险程度:
Xba=max{(1-γ)Eba+γVba,α}
其中节点的初始综合风险程度为α,输出综合风险程度为风险程度。
进一步的,将所述第二分类数据输入离散评估模型获得偏离程度的方法,包括:
将第二分类数据输入离散评估模型,给定最大似然估计:
其中最大似然估计为H,第k个第二分类数据矩阵为uk,第二分类数据的数量为r,第二分类数据矩阵的平均矩阵为矩阵的转置为(·)T
根据最大似然估计调整离散评估模型的模型,对第二分类数据进行拟合,计算偏离程度:
其中第二分类数据x的偏离程度为σx,第二分类数据x的数量为s,第二分类数据的数值为g(x),第二分类数据x的聚类中心值为cx,输出偏离程度。
进一步的,对所述风险程度和所述偏离程度进行聚类分析的方法,包括:
给定聚类的目标函数:
其中n×p的0、1矩阵为E,聚类中心数据集为R,第k个类的中心点为zk,第s个数据为cs,中心点zk与数据cs的分类变量间的距离为d(cs,zk),数据的数量为n,中心点的数量为p,计算属性值的属性权重:
其中第s个数据的本地属性为bs,第s个数据的第g个角度度量为cgs,本地属性bs的角度度量cgs的单属性权重为数据对象cp在本地属性bs的等价类为/>第a个相关属性为ba,相关属性ba的角度度量cgs的多属性权重为/>属性值cgs的权重为ω(cgs),属性值cgs和属性值cga的共现次数为/>相关属性的数量为d,随机初始找出簇中心,平均权重集并对应属性值的权重,计算数据对象与簇之间的距离:
其中第s个数据的第t个属性值为cst,第a个数据的第t个属性值为cat,属性值cst和属性值cat簇之间的距离为d(cst,cat),属性值cst的权重为ω(cst),属性值cat的权重为ω(cat),根据聚类分析将风险程度和偏离程度分成不同的群组,计算不同群组的风险等级:
L(s)=ω(sdr)hdr(s)+ω(sva)hva(s)
其中行为数据s的风险等级为L(s),数据s的风险程度权重为ω(sdr),数据s的偏离程度权重为ω(sva),数据s的风险程度为hdr(s),数据s的偏离程度为hva(s),输出风险等级。
本发明的有益效果是:
本发明是一种网络违法行为风险危险等级评估方法,与现有技术相比,本发明具有以下技术效果:
本发明通过第一数据分类、第二数据分类、风险程度、偏离程度和聚类分析步骤,可以提高风险等级评估方法的准确性,从而网络违法行为的风险等级评估的精度,将风险等级评估优化,可以大大节省资源和人力成本,提高工作效率,可以实现网络违法行为的风险等级评估,实时对网络违法行为进行风险等级评估,对网络违法行为风险危险等级评估具有重要意义,可以适应不同车路协同的网络违法行为风险危险等级评估系统、不同用户的网络违法行为的风险等级评估需求,具有一定的普适性。
附图说明
图1为本发明一种网络违法行为风险危险等级评估方法的步骤流程图。
具体实施方式
下面通过具体实施例对本发明作进一步描述,在此发明的示意性实施例以及说明用来解释本发明,但并不作为对本发明的限定。
本发明一种网络违法行为风险危险等级评估方法包括以下步骤:
如图1所示,在本实施例中,包括以下步骤:
获取网络行为数据,对所述网络行为数据进行预处理;
在实际评估中,给出了某网站的6组网络行为数据,将这6组数据作为研究对象,数据如下:
1组用户1在社交网络上发布了一条关于某气象局的内部资料,获得20个点赞和9条评论;
2组用户2用户E在论坛上发表了一篇关于旅游经验的帖子,吸引了100多个回复;
3组用户3多次在论坛上发表虚假信息,并且多次转发扩大影响;
4组用户4在一款新闻应用上阅读了3篇关于国际政治的文章,并分享了其中一篇到社交媒体;
5组用户5在搜索引擎中多次输入了敏感关键词;
6组用户用户H在博客平台上发布了一篇关于科技发展的文章,获得了500多次浏览和20次分享;
对所述网络行为数据进行第一聚类获得第一分类数据,对所述网络行为数据进行第二聚类获得第二分类数据;
在实际评估中,第一分类数据为:
1类包含1组、2组、4组、5组和6组;
2类包含3组;
第二分类数据为:
1类包含2组、3组、4组和5组;
2类包含1组、6组;
将所述第一分类数据输入风险等级评估模型获得风险程度,将所述第二分类数据输入离散评估模型获得偏离程度;
在实际评估中,第一分类数据的风险程度:
1类1组、2组、4组、5组和6组分别为0.68、0.21、0.34、0.79、0.4;
2类3组为0.81;
第二分类数据的偏离程度:
1类2组、3组、4组和5组分别为0.27、0.51、0.19、0.54;
2类1组、6组分别为0.67、0.51;
对所述风险程度和所述偏离程度进行聚类分析,获得风险危险等级并输出;
在实际评估中,风险程度的权重为0.57,偏离程度的权重为0.43,1组、2组、3组、4组、5组、6组的风险等级为0.6757、0.2358、0.681、0.2755、0.6825、0.4473。
在本实施例中,在步骤A中所述预处理的方法,包括去除重复数据、向量化、数据转换、数据集成和数据规约。
在本实施例中,对所述网络行为数据进行第一聚类获得第一分类数据的方法,包括:
将网络行为数据输入为数据集,假设有r个近邻个数,计算数据集重数据点间的欧式距离:
其中第i个数据为ci,第j个数据为cj,第i个数据的x轴值为xi,第j个数据的x轴值为xj,第i个数据的y轴值为yi,第j个数据的y轴值为yj,数据ci和数据cj的欧式距离为k(ci,cj),构建距离矩阵Q;
根据距离矩阵和k近邻定义获取数据点的k近邻居,计算数据的k近邻数量;
其中数据ci的k近邻居为w(ci),数据cj的k近邻居为w(cj),数据ci的k近邻数量为ngr(ci),数据ci与数据cj的k近邻判断函数为gr(ci,cj),计算数据的局部核密度:
其中数据c的高斯核函数为g(c),数据维度为d,数据c的范数为||c||,数据ci与第k近邻的数据cj间的距离ka(ci,cj),数据ci的局部核密度为kg(ci),自然对数为e,计算数据的局部密度和相对距离:
β(ci)=ngr(ci)+kg(ci)
其中数据ci的局部密度为β(ci),第i个数据的相对距离为δi,第j个数据的高斯函数为ρi,第i个数据的高斯函数为ρi,根据局部密度β(ci)和相对距离δi构建决策图选取聚类中心,赋予类标签;
将不属于任何类中心的数据分配到局部密度更高且距离更近的数据所属的类别中,直到遍历完数据集内所有的数据,得到第一分类数据。
在本实施例中,对所述网络行为数据进行第二聚类获得第二分类数据的方法,包括:
输入行为数据构成数据集,利用轮廓系数法确定聚类的个数,随机选取m个对象作为第二聚类中心;
计算数据到第二聚类中心的欧式距离:
其中第v个聚类中心为pv,第r个数据为br,数据br与聚类中心pv的欧拉距离为s(rv),将数据到所有聚类中心的欧拉距离升序排序,将数据br分配给第一个聚类中心,形成m个簇;
确定数据所在高维有界闭箱,在有界闭箱内生成z个初始生长点,计算生长点的形态素浓度:
其中第d个维度数据v的适应度函数为第d个维数数据e的适应度函数为/>数据r的数量为p,聚类中心的数量为n;
构造[0,1]封闭区间内的概率生长空间,确定随机数h的生长点,如果Xe-1<h<Xe,选取作为本次迭代的生长点,将新生长点与原生长点进行比较,选择性能更优的生长点代替原来的候选生长点完成生长过程;
重复迭代,直到达到预先设定的迭代次数,迭代终止,输出全局最优生长点Od,更新聚类中心将全局最优生长点作为簇的聚类中心,将聚类结果输出为第二分类数据。
在本实施例中,将所述第一分类数据输入风险等级评估模型获得风险程度的方法,包括:
将第一分类数据输入风险等级评估模型,将第一分类数据转换成叶子节点,从二叉压缩树中找到节点a对应的叶子节点,从叶子节点中检索与风险等级评估相关联的哈希值;
通过哈希值找到与评估风险等级的第一分类数据获得评估数据,将评估数据按照评估者对象分为不同的评估序列;
计算评估数据的直接风险程度:
Eba=uba
其中节点b对节点a的风险率为uba,节点b对节点a的直接风险程度为Eba
计算评估数据的间接风险程度:
其中节点b对节点a的间接风险程度为Vba,节点为k,节点的数量为t,节点k对被评价节点b的评价总数为|Mba|,被评估节点a得到的评价总数为计算间接风险程度的权重:
其中间接风险程度的权重为Y,计算综合风险程度:
Xba=max{(1-γ)Eba+γVba,α}
其中节点的初始综合风险程度为α,输出综合风险程度为风险程度。
在本实施例中,将所述第二分类数据输入离散评估模型获得偏离程度的方法,包括:
将第二分类数据输入离散评估模型,给定最大似然估计:
其中最大似然估计为H,第k个第二分类数据矩阵为uk,第二分类数据的数量为r,第二分类数据矩阵的平均矩阵为矩阵的转置为(·)T
根据最大似然估计调整离散评估模型的模型,对第二分类数据进行拟合,计算偏离程度:
其中第二分类数据x的偏离程度为σx,第二分类数据x的数量为s,第二分类数据的数值为g(x),第二分类数据x的聚类中心值为cx,输出偏离程度。
在本实施例中,对所述风险程度和所述偏离程度进行聚类分析的方法,包括:
给定聚类的目标函数:
其中n×p的0、1矩阵为E,聚类中心数据集为R,第k个类的中心点为zk,第s个数据为cs,中心点zk与数据cs的分类变量间的距离为d(cs,zk),数据的数量为n,中心点的数量为p,计算属性值的属性权重:
其中第s个数据的本地属性为bs,第s个数据的第g个角度度量为cgs,本地属性bs的角度度量cgs的单属性权重为数据对象cp在本地属性bs的等价类为/>第a个相关属性为ba,相关属性ba的角度度量cgs的多属性权重为/>属性值cgs的权重为ω(cgs),属性值cgs和属性值cga的共现次数为/>相关属性的数量为d,随机初始找出簇中心,平均权重集并对应属性值的权重,计算数据对象与簇之间的距离:
其中第s个数据的第t个属性值为cst,第a个数据的第t个属性值为cat,属性值cst和属性值cat簇之间的距离为d(cst,cat),属性值cst的权重为ω(cst),属性值cat的权重为ω(cat),根据聚类分析将风险程度和偏离程度分成不同的群组,计算不同群组的风险等级:
L(s)=ω(sdr)hdr(s)+ω(sva)hva(s)
其中行为数据s的风险等级为L(s),数据s的风险程度权重为ω(sdr),数据s的偏离程度权重为ω(sva),数据s的风险程度为hdr(s),数据s的偏离程度为hva(s),输出风险等级。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (2)

1.一种网络违法行为风险危险等级评估方法,其特征在于,包括以下步骤:
获取网络行为数据,对所述网络行为数据进行预处理;
对所述网络行为数据进行第一聚类获得第一分类数据,对所述网络行为数据进行第二聚类获得第二分类数据;
将所述第一分类数据输入风险等级评估模型获得风险程度,将所述第二分类数据输入离散评估模型获得偏离程度;
对所述风险程度和所述偏离程度进行聚类分析,获得风险危险等级并输出;
“对所述网络行为数据进行第一聚类获得第一分类数据”包括:
将网络行为数据输入为数据集,假设有r个近邻个数,计算数据集重数据点间的欧式距离:
其中第i个数据为ci,第j个数据为cj,第i个数据的x轴值为xi,第j个数据的x轴值为xj,第i个数据的y轴值为yi,第j个数据的y轴值为yj,数据ci和数据cj的欧式距离为k(ci,cj),构建距离矩阵Q;
根据距离矩阵和k近邻定义获取数据点的k近邻居,计算数据的k近邻数量;
其中数据ci的k近邻居为w(ci),数据cj的k近邻居为w(cj),数据ci的k近邻数量为ngr(ci),数据ci与数据cj的k近邻判断函数为gr(ci,cj),计算数据的局部核密度:
其中数据c的高斯核函数为g(c),数据维度为d,数据c的范数为||c||,数据ci与第k近邻的数据cj间的距离ka(ci,cj),数据ci的局部核密度为kg(ci),自然对数为e,计算数据的局部密度和相对距离:
β(ci)=ngr(ci)+kg(ci)
其中数据ci的局部密度为β(ci),第i个数据的相对距离为δi,第j个数据的高斯函数为ρj,第i个数据的高斯函数为ρi,根据局部密度β(ci)和相对距离δi构建决策图选取聚类中心,赋予类标签;
将不属于任何类中心的数据分配到局部密度更高且距离更近的数据所属的类别中,直到遍历完数据集内所有的数据,得到第一分类数据;
“对所述网络行为数据进行第二聚类获得第二分类数据”包括:
输入行为数据构成数据集,利用轮廓系数法确定聚类的个数,随机选取m个对象作为第二聚类中心;
计算数据到第二聚类中心的欧式距离:
其中第v个聚类中心为pv,第r个数据为br,数据br与聚类中心pv的欧拉距离为s(r,v),将数据到所有聚类中心的欧拉距离升序排序,将数据br分配给第一个聚类中心,形成m个簇;
确定数据所在高维有界闭箱,在有界闭箱内生成z个初始生长点,计算生长点的形态素浓度:
其中第d个维度数据v的适应度函数为第d个维数数据e的适应度函数为/>数据r的数量为p,聚类中心的数量为n;
构造[0,1]封闭区间内的概率生长空间,确定随机数h的生长点,如果Xe-1<h<Xe,选取作为本次迭代的生长点,将新生长点与原生长点进行比较,选择性能更优的生长点代替原来的候选生长点完成生长过程;
重复迭代,直到达到预先设定的迭代次数,迭代终止,输出全局最优生长点Od,更新聚类中心将全局最优生长点作为簇的聚类中心,将聚类结果输出为第二分类数据;
“将所述第一分类数据输入风险等级评估模型获得风险程度”包括:
将第一分类数据输入风险等级评估模型,将第一分类数据转换成叶子节点,从二叉压缩树中找到节点a对应的叶子节点,从叶子节点中检索与风险等级评估相关联的哈希值;
通过哈希值找到与评估风险等级的第一分类数据获得评估数据,将评估数据按照评估者对象分为不同的评估序列;
计算评估数据的直接风险程度:
Eba=upa
其中节点b对节点a的风险率为uba,节点b对节点a的直接风险程度为Eba
计算评估数据的间接风险程度:
其中节点b对节点a的间接风险程度为Vba,节点为k,节点的数量为t,节点k对被评价节点b的评价总数为|Mba|,被评估节点a得到的评价总数为计算间接风险程度的权重:
其中间接风险程度的权重为γ,计算综合风险程度:
Xba=max{(1-γ)Eba+γVba,α}
其中节点的初始综合风险程度为α,输出综合风险程度为风险程度;
“将所述第二分类数据输入离散评估模型获得偏离程度”包括:
将第二分类数据输入离散评估模型,给定最大似然估计:
其中最大似然估计为H,第k个第二分类数据矩阵为uk,第二分类数据的数量为r,第二分类数据矩阵的平均矩阵为矩阵的转置为(·)T
根据最大似然估计调整离散评估模型的模型,对第二分类数据进行拟合,计算偏离程度:
其中第二分类数据x的偏离程度为σx,第二分类数据x的数量为s,第二分类数据的数值为g(x),第二分类数据x的聚类中心值为cx,输出偏离程度;
“对所述风险程度和所述偏离程度进行聚类分析”包括:
给定聚类的目标函数:
其中n×p的0、1矩阵为E,聚类中心数据集为R,第k个类的中心点为zk,第s个数据为cs,中心点zk与数据cs的分类变量间的距离为d(cs,zk),数据的数量为n,中心点的数量为p,计算属性值的属性权重:
其中第s个数据的本地属性为bs,第s个数据的第g个角度度量为cgs,本地属性bs的角度度量cgs的单属性权重为数据对象cp在本地属性bs的等价类为/>第a个相关属性为ba,相关属性ba的角度度量cgs的多属性权重为/>属性值cgs的权重为ω(cgs),属性值cgs和属性值cga的共现次数为/>相关属性的数量为d,随机初始找出簇中心,平均权重集并对应属性值的权重,计算数据对象与簇之间的距离:
其中第s个数据的第t个属性值为cst,第a个数据的第t个属性值为cat,属性值cst和属性值cat簇之间的距离为d(cst,cat),属性值cst的权重为ω(cst),属性值cat的权重为ω(cat),根据聚类分析将风险程度和偏离程度分成不同的群组,计算不同群组的风险等级:
L(s)=ω(sdr)hdr(s)+ω(sva)hva(s)
其中行为数据s的风险等级为L(s),数据s的风险程度权重为ω(sdr),数据s的偏离程度权重为ω(sva),数据s的风险程度为hdr(s),数据s的偏离程度为hva(s),输出风险等级。
2.根据权利要求1所述的一种网络违法行为风险危险等级评估方法,其特征在于,所述预处理的方法,包括去除重复数据、向量化、数据转换、数据集成和数据规约。
CN202311534786.0A 2023-11-17 2023-11-17 一种网络违法行为风险危险等级评估方法 Active CN117556339B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311534786.0A CN117556339B (zh) 2023-11-17 2023-11-17 一种网络违法行为风险危险等级评估方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311534786.0A CN117556339B (zh) 2023-11-17 2023-11-17 一种网络违法行为风险危险等级评估方法

Publications (2)

Publication Number Publication Date
CN117556339A CN117556339A (zh) 2024-02-13
CN117556339B true CN117556339B (zh) 2024-04-26

Family

ID=89812296

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311534786.0A Active CN117556339B (zh) 2023-11-17 2023-11-17 一种网络违法行为风险危险等级评估方法

Country Status (1)

Country Link
CN (1) CN117556339B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109150868A (zh) * 2018-08-10 2019-01-04 海南大学 网络安全态势评估方法及装置
CN110570655A (zh) * 2019-09-19 2019-12-13 安徽百诚慧通科技有限公司 基于层次聚类和决策树的车辆特征评估方法
CN114581694A (zh) * 2022-05-05 2022-06-03 南京邮电大学 一种基于改进的支持向量机的网络安全态势评估方法
CN116384551A (zh) * 2023-03-10 2023-07-04 青岛理工大学 一种基于知识图谱的上市企业违法风险预测方法
CN116502887A (zh) * 2023-04-03 2023-07-28 北京工商大学 基于无监督聚类和极限学习机的大米加工链风险评价方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11972398B2 (en) * 2021-07-23 2024-04-30 Fiix Inc. Machine learning powered anomaly detection for maintenance work orders

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109150868A (zh) * 2018-08-10 2019-01-04 海南大学 网络安全态势评估方法及装置
CN110570655A (zh) * 2019-09-19 2019-12-13 安徽百诚慧通科技有限公司 基于层次聚类和决策树的车辆特征评估方法
CN114581694A (zh) * 2022-05-05 2022-06-03 南京邮电大学 一种基于改进的支持向量机的网络安全态势评估方法
CN116384551A (zh) * 2023-03-10 2023-07-04 青岛理工大学 一种基于知识图谱的上市企业违法风险预测方法
CN116502887A (zh) * 2023-04-03 2023-07-28 北京工商大学 基于无监督聚类和极限学习机的大米加工链风险评价方法

Also Published As

Publication number Publication date
CN117556339A (zh) 2024-02-13

Similar Documents

Publication Publication Date Title
CN110866030A (zh) 一种基于无监督学习的数据库异常访问检测方法
CN112685504B (zh) 一种面向生产过程的分布式迁移图学习方法
CN114048318A (zh) 基于密度半径的聚类方法、系统、设备及存储介质
CN115688024A (zh) 基于用户内容特征和行为特征的网络异常用户预测方法
CN113435101B (zh) 一种基于粒子群优化的支持向量机停电预测方法
CN109740722A (zh) 一种基于Memetic算法的网络表示学习方法
Kumar Improved Prediction of Wind Speed using Machine Learning.
Olech et al. Hierarchical gaussian mixture model with objects attached to terminal and non-terminal dendrogram nodes
CN117556339B (zh) 一种网络违法行为风险危险等级评估方法
CN113010597A (zh) 一种面向海洋大数据的并行关联规则挖掘方法
Wang et al. Mining high-dimensional data
CN112508363A (zh) 基于深度学习的电力信息系统状态分析方法及装置
CN116541166A (zh) 一种超算算力调度服务器及资源管理方法
Jian-Xiang et al. Application of genetic algorithm in document clustering
Yang et al. Constructing the linear regression models for the symbolic interval-values data using PSO algorithm
CN115687788A (zh) 一种智能化商机推荐方法和系统
CN117216490B (zh) 一种智能大数据采集系统
Yahia et al. K-nearest neighbor and C4. 5 algorithms as data mining methods: advantages and difficulties
Nijaguna et al. Multiple kernel fuzzy clustering for uncertain data classification
Kuo et al. Intelligent Customer Segmentation System Using Hybrid of Artificial Immune Network and Particle Swarm Optimization Algorithm
CN113792202B (zh) 一种用户分类的筛选方法
CN112836926B (zh) 基于电力大数据的企业经营状况评估方法
CN117762758B (zh) 一种web系统的性能效率一致性测试方法及系统
CN114997278B (zh) 基于计算机算法模型的工程数字化信息分析方法
CN115600764B (zh) 基于权重邻域粗糙集快速约简的滚动时域能耗预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant