CN113723514B - 一种基于混合采样的安全接入日志数据平衡处理方法 - Google Patents
一种基于混合采样的安全接入日志数据平衡处理方法 Download PDFInfo
- Publication number
- CN113723514B CN113723514B CN202111012705.1A CN202111012705A CN113723514B CN 113723514 B CN113723514 B CN 113723514B CN 202111012705 A CN202111012705 A CN 202111012705A CN 113723514 B CN113723514 B CN 113723514B
- Authority
- CN
- China
- Prior art keywords
- minority
- class
- samples
- sample
- outliers
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000005070 sampling Methods 0.000 title claims abstract description 21
- 238000003672 processing method Methods 0.000 title claims abstract description 9
- 239000013598 vector Substances 0.000 claims abstract description 24
- 238000012545 processing Methods 0.000 claims abstract description 16
- 238000007781 pre-processing Methods 0.000 claims abstract description 10
- 238000000034 method Methods 0.000 claims description 20
- 230000002159 abnormal effect Effects 0.000 claims description 8
- 230000008569 process Effects 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000000605 extraction Methods 0.000 claims description 5
- 230000011218 segmentation Effects 0.000 claims description 4
- 238000012935 Averaging Methods 0.000 claims description 2
- 238000010606 normalization Methods 0.000 claims description 2
- 238000013145 classification model Methods 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 230000009849 deactivation Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000010348 incorporation Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000035515 penetration Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 238000013468 resource allocation Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及数据处理领域,涉及一种基于混合采样的安全接入日志数据平衡处理方法;所述方法包括对安全日志记录预处理提取出结构化的句向量;将句向量划分为多数类样本与少数类样本;利用k近邻密度峰值聚类算法分别对多数类样本和少数类样本聚类处理,确定出簇中心和离群点,并将所有样本分配到对应的类簇中;利用k近邻密度峰值聚类算法对多数类样本进行欠采样处理;将轮盘赌算法与k近邻密度峰值聚类算法结合对少数类数据进行过采样,同时还单独为少数类的离散点进行过采样;将欠采样和过采样得到的结果共同组成新的平衡数据集。本发明在学习到数据分布的基础上做到多数类与少数类的平衡,能够为分类模型提供良好的数据学习基础,提高分类精度。
Description
技术领域
本发明涉及数据处理领域,进一步涉及日志检测领域、不平衡数据领域,尤其涉及一种基于混合采样的安全接入日志数据平衡处理方法。
背景技术
随着云计算技术以及云平台的不断发展和深入,云平台能够以较低的成本使用户获得满足其自身需求的资源配置,而客户在接入云平台时将产生大量的访问日志,其中很可能就存在威胁云平台安全的异常访问。但正常访问数据与异常访问数据之间极其不平衡,因此如果仅依靠基于平衡数据集设计的传统分类器,那么在处理不平衡数据时就会出现偏向于多数类的情况,从而导致少数类的不正确的分类,使得分类模型准确率下降。
为了解决不平衡数据的问题,从数据级层面研究不平衡数据分类问题,主要包括三种策略:过采样、欠采样以及过采样与欠采样相结合的混合采样;过采样通过增加少数类样本来平衡数据集,欠采样则通过移除多数类样本平衡数据集,而混合采样则是增加少数类样本的同时移除多数类样本以平衡数据集;这些方式中比如基于合成少数类过采样和最近邻欠采样的混合采样方法(Synthetic Minority Oversampling Technique-EditedNearestNeighbours,简称SMOTE-ENN算法)、基于合成少数类过采样和相反类配对欠采样的混合采样方法(Synthetic Minority Oversampling Technique-TomekLinks,简称SMOTE-Tomek算法)等,但是这些算法不能很好地学习数据真实的分布情况,而盲目性地生成少数类样本或删除多数类样本反而使得准确率下降。
发明内容
为解决上述技术问题,针对实际的安全接入日志,少数类样本量过小、多数类和少数类可能会发生重叠和少数类可能出现小分裂群等较为突出的问题。本发明提供一种基于混合采样的安全接入日志数据平衡处理方法,本发明对安全接入日志数据集进行预处理后,通过结合k近邻的密度峰值聚类算法分别对多数类和少数类的真实分布情况进行学习,考量安全接入日志数据的真实分布情况,依据真实分布情况进行不同针对性的平衡处理,然后在此基础上分别对多数类和少数类进行采样处理,实现对安全接入日志数据的平衡处理,从而提高对异常访问日志数据的识别准确率。
本发明的一种基于混合采样的安全接入日志数据平衡处理方法,所述方法包括:
对收集到的安全日志记录进行预处理,提取出结构化的句向量;
将所述句向量按照正常日志与异常日志的类别,划分为多数类样本与少数类样本;利用k近邻密度峰值聚类算法分别对多数类样本和少数类样本进行聚类处理,确定出对应的簇中心和离群点,并将所有样本分配到对应的类簇中;
获取k近邻中少数类个数大于2/k的多数类样本集合与多数类的离群点集合的交集,从所有多数类样本中删除交集中的多数类样本,并对剩下的多数类样本进行欠采样处理;
利用轮盘赌算法选择出除少数类的离群点以外的其他非离群点少数类样本,将少数类的非离群点以及少数类的离群点分别与其相对于所有少数类样本的k近邻点进行过采样处理;
将欠采样得到的多数类样本集与过采样得到的少数类样本集共同组成新的平衡数据集。
本发明的优点及有益效果如下:
本发明提供的一种基于混合采样的安全接入日志数据平衡处理方法,通过结合k近邻密度峰值聚类的混合采样方法能够充分利用k近邻的密度峰值聚类算法来自适应地发现类簇,并且还能够合理分配样本分布,从而分别对多数类和少数类进行聚类,能够得到它们各自的小类簇,为后面的混合采样提供数据的分布信息。本发明所采用的欠采样能够针对类别重叠区的多数类进行删减,有利于降低重叠区的分类难度,所采用的过采样则基于密度峰值聚类算法的原理设计采样权重选取过采样种子在小类簇中合成新的少数类样本,并为少数类中数量极少的离群点生成定量的新样本,这有利于筛选含有更多有用信息的少数类进行数据平衡,由此提高分类精度。
附图说明
下面将结合附图及实施例对本发明作进一步说明,附图中:
图1为本发明实施例中作为安全接入日志数据集来源的云平台架构图;
图2为本发明实施例中数据平衡处理架构图;
图3为本发明实施例一种基于混合采样的安全接入日志数据平衡处理方法流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1是本发明实施例中一种云平台架构图,如图1所示,所述云平台中,包括多个用户和多个业务系统,用户请求资源时通过反向代理服务器Ngnix集群向后台发送请求,由于后台有多个业务系统,代理服务器将根据后台的请求类型分发到对应的业务系统上进行处理;本发明将从代理服务器Ngnix集群中收集安全接入日志。
本申请涉及的云平台可以由服务器支撑,其中服务器可以是边缘计算服务器,或者是独立的物理服务器,或者是多个物理服务器构成的服务器集群,或者是多个物理服务器构成的分布式系统,或者是云服务器,又或者是级联的边缘计算服务器与云服务器,此处不做限定。该服务器可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processing units,CPU)(例如,一个或一个以上处理器)和存储器,一个或一个以上存储应用程序或数据的存储介质(例如一个或一个以上海量存储设备)。其中,存储器和存储介质可以是短暂存储或持久存储。存储在存储介质的程序可以包括一个或一个以上模块,每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器可以设置为与存储介质通信,在服务器上执行存储介质中的一系列指令操作。服务器还可以包括一个或一个以上电源,一个或一个以上有线或无线网络接口,一个或一个以上输入输出接口,和/或,一个或一个以上操作系统,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
本发明实施例的执行主体可以为各种类型的终端,终端例如可以是计算机、服务器、平板电脑、个人数字助理(英文:Personal Digital Assistant,缩写:PDA)、移动互联网设备(英文:Mobile Internet Device,缩写:MID)等可进行数据处理的设备,本发明对此不作任何限制。
图2为本发明实施例中数据平衡处理架构图,如图2所示,从云平台中获得了原始的安全接入日志数据集后,对安全接入日志数据进行预处理,由于在正常运行环境下,安全日志数据大部分时刻都是正常访问数据,只有极少数时刻才是异常访问数据,所以安全日志数据中多数类为正常访问数据,少数类为异常访问数据;基于上述规则,将安全日志数据划分为多数类和少数类;对于多数类数据,结合k近邻的密度峰值聚类算法针对多数类的重叠区进行欠采样;针对少数类数据,结合k近邻的密度峰值聚类算法设计出权重对边界少数样本以及针对离群的少数类样本进行过采样;将欠采样和过采样后的数据进行组合得到平衡数据集。
图3是本发明实施例一种基于混合采样的安全接入日志数据平衡处理方法流程图,如图3所示,所述方法包括:
101、对收集到的安全日志记录进行预处理,提取出结构化的句向量;
在本步骤中,对收集到的安全日志记录进行预处理,提取URL特征,并进行格式化处理,通过基于TF-IDF加权的word2vec模型对URL数据进行词向量转换,生成结构化的句向量。
其中,首先需要对所述安全日志记录进行预处理,其中预处理过程可以包括分词、词性标注、去停用词、词性过滤等预处理;得到分好词的该安全日志记录的分词集合D’={D1,D2...D n},以分词处理进行说明,假设某一安全日志记录表示为:115.28.44.151--[28/Mar/2021:00:26:10+0800]"GET/manager/html HTTP/1.1"404 162"-""Mozilla/3.0(compatible;Indy Library)";该安全日志字段的含义为远程IP-用户名,时间,请求主体,响应码,请求字节,请求来源,客户端信息;想要对日志进行识别分析,首先要对各字段进行提取,本发明可以采用正则表达式提取出安全日志记录的各个分词,并将其中的同类型特殊字符替换为统一字符,例如将“--”统一成“-”等等;同时本发明还需要保留URL的固定部分,如访问路径、访问参数名等,根据网络攻击正则表达式对URL的变量部分进行部分保留,如访问参数等;尽可能地保留识别网络攻击的关键信息,由此完成格式化处理;将保留后的URL输入到训练好的词向量模型(例如基于Word2vec词向量表示模型,综合考虑词性特征,优化特征提取方式,得到更多具有代表性特征的有效词语),获得URL中的每个分词的词向量,并计算每个分词的TF-IDF值,根据句子的结构将每个分词的词向量与其对应TF-IDF值(term frequency–inverse document frequency,词频-逆向文件频率)相乘,通过基于TF-IDF加权的词向量模型对URL数据进行词向量转换,取平均后得到结构化的句向量。
102、将所述句向量按照正常日志与异常日志的类别,划分为多数类样本与少数类样本;利用k近邻密度峰值聚类算法分别对多数类样本和少数类样本进行聚类处理,确定出对应的簇中心和离群点,并将所有样本分配到对应的类簇中;
在本实施例中,利用结合k近邻的密度峰值聚类算法对多数类和少数类进行聚类处理,为了更好地反应数据分布,进行k近邻计算时需要采用整个原始数据集,由此对所有样本分别计算出样本局部密度ρ和与具有更高密度的样本最小距离σ;对样本局部密度ρ和与具有更高密度的样本最小距离σ的乘积排序,选择出排序靠前的若干样本进行簇中心的自动选定;从这若干样本中选择出变化值最大点,并将其对应的样本作为簇中心;将每个样本的k近邻密度与所有样本的k近邻密度均值进行比较,如果一个样本的k近邻密度远小于所有样本k近邻密度均值则判定该点为离群点;按照簇中心和离群点,将所有样本分配到对应的类簇中。
可以理解的是,本实施例中,在进行簇中心选择和离散点判断时,是分别对多数类样本和少数类样本进行k近邻的密度峰值聚类计算,也就是说,对于多数类样本,通过k近邻的密度峰值聚类得到多数类样本的簇中心和多数类样本的离群点;对于少数类样本,通过k近邻的密度峰值聚类得到少数类样本的簇中心和少数类样本的离群点,同时,在本发明中,多数类样本点即为多数类样本;少数类样本点即为少数类样本;多数类样本的簇中心即为多数类样本的簇中心样本;少数类样本的簇中心即为少数类样本的簇中心样本;多数类样本的离群点即为多数类样本的离群点样本;少数类样本的离群点即为少数类样本的离群点样本。
对于簇中心的选择,本发明采用如下过程:
首先计算样本局部密度ρ和与具有更高密度的样本最小距离σ,样本局部密度的计算公式为:其中,ρi是当前样本i的局部密度;KNN(i)为与当前样本i同属一类的k个近邻样本,dij是样本i,j之间的欧氏距离。与具有更高密度的样本i最小距离的计算公式为/>对于局部密度最大的样本,它的σi=maxjdij。
令γi=ρi×σi,i=1,2,3,...,n。用表示/>降序排列后的下标,即选取排列靠前的样本,例如选取排名前20%的样本;然后按照如下公式定义一个变化值最大点:/>imax表示变化值最大点;/>表示排序为si的样本局部密度ρi和与具有更高密度的样本最小距离σi的乘积;tendi表示相邻两点乘积之差的比值;最后将i>imax的si对应的所有样本都确定为簇中心。
对于离群点的判断,本发明采用如下过程:
计算每个样本的近邻密度,然后通过与所有样本的近邻密度均值进行比较,如果一个样本的局部密度远小于所有样本局部密度均值则判定该点为离群点,具体的离群点判断公式如下:
outlier={o|kρ(i)<threshold} (3)
其中,式(1)中,kρ(i)表示样本i的k近邻密度;ρ(i)代表样本i的局部密度,K为近邻个数;式(2)中,threshold表示离群点的阈值;λ代表设置所有样本局部密度的均值的倍数,由它来调整判断离群点的阈值;式(3)中,样本o表示离群点,当且仅当kρ(i)小于离群点的阈值时,得到离群点集合outlier。
选定簇中心以及判断完离群点后,本实施例可以开始执行样本分配策略:
首先从簇中心集合中选出一个未访问的样本点ci,作为一个新类簇的中心点,并标记ci为已访问;将ci点k近邻集合KNN(ci)中的样本并入ci所在的类簇,初始化队列Vq,并将ci的k近邻集合中的样本依次加入队列中;取队列Vq的队头样本q(即从队列Vq删除队头样本q),对于集合KNN(q)中每个样本r,若满足条件:a)没有被分配,b)非离群点,c)则将r归入q所属类簇,并将样本r加入队列V q尾部;重复上述操作直至队列Vq为空;其中,dqr表示队头样本q与样本r之间的距离;drj表示样本r与其k近邻样本之间的距离,mean表示取均值。
其次对于还没被分配的非离群点进行分配,首先对每一个未被分配样本i,统计其k近邻KNN(i)中属于类簇c(c=1,...,|CI|)的样本数,得到一个1×|CI|的向量N(i),对所有未分配样本(设规模为nr)构成一个nr×|CI|识别矩阵S,然后,从识别矩阵S通过在向量中找到非0的最大值来中选择出一(或多)个最有可能被正确分配的样本p,归入相应类簇,并每次归入都对其k近邻中同样未被分配的样本进行识别矩阵更新。
最后,如果还剩下极少数的样本没被分配,那么这些样本按照离其最近的密度比其高的已分配样本的所属类簇进行分配。
103、获取k近邻中少数类个数大于2/k的多数类样本集合与多数类的离群点集合的交集,从所有多数类样本中删除交集中的多数类样本,并对剩下的多数类样本进行欠采样处理;
在欠采样阶段,本实施例对远离多数类且周围一半以上为少数类的某些多数类样本进行欠采样处理;具体的,首先获取k近邻中少数类个数大于k/2的多数类样本集合D1和多数类的离群点集合D2,由此得到D1与D2的交集D3,判断D3中的多数类样本处于多数类与少数类重叠严重的区域;从原始的多数类样本中删除D3包含的多数类样本,从而得到欠采样后的多数类数据集。
104、利用轮盘赌算法选择出除少数类的离群点以外的其他非离群点少数类样本,将少数类的非离群点以及少数类的离群点分别与其相对于所有少数类样本的k近邻点进行过采样处理;
在过采样阶段,本实施例主要对少数类的离群点以及一般的少数类样本点分别进行处理,对于一般的少数类样本点,其为除少数类离群点以外的剩下的所有少数类样本点(其他的少数类非离群的样本点)。
对于其他的少数类非离群点,该类样本点还可以划分为少数类核心点和少数类边界点,根据密度峰值算法中密度较小,距离较小则一般为类的边界点的原理,本发明为所有所述其他的少数类样本点都分配一个边界权重w1;同时,本发明还考虑到边界点不一定全是处于多数类与少数类之间的边界区域,所以认为少数类核心点和少数类边界点被选中的概率应该不同,因此本发明为了增强边界区域的少数类样本权重,所以还为该其他的少数类样本分配了一个密度权重w2;对w1和w2进行归一化后进行权重相加,得到该少数类样本的总权重,该总权重能够衡量该少数类样本被选中的概率。根据每个少数类的总权重w进行轮盘赌算法,具体来说,就是根据总权重计算每个少数类非离群点样本的选择概率n为非离群点的少数类个数,再根据选择概率计算样本的累积概率/>每次选取样本时在[0,1]区间内产生一个均匀分布的随机数r,如果r≤q1,则第1个少数类样本被选中作为过采样种子,如果qk-1≤r≤qk(2≤k≤n),则第k个少数类样本被选中作为过采样种子,过采样种子将与其相对于整个少数类的k近邻点中同属一个小类的样本进行线性插值合成剩余份额的新少数类样本集。
其中,计算少数类样本边界权重的具体公式为:w1=e-(ρ_min+σ_min),其中ρ_min是少数类样本的k近邻中少数类的密度,σ_min是与具有更高少数类密度的点的最小距离。
其中,计算少数类样本密度权重的具体公式为:其中ρ_maj是少数类样本的k近邻中多数类的密度。
其中,计算少数类样本总权重的具体公式:w=μ*w1_norm+(1-μ)*w2_norm,其中w1_norm和w2_norm分别为边界权重w1和密度权重w2归一化的结果,使得两权重的取值范围都落在[0,1],而μ作为两权重的平衡因子,μ越大则边界权重越大,密度权重越小,反之亦然。
可以理解的是,由于边界权重w1和密度权重w2是由不同单位的数据计算出来的,所以它们的量纲可能会不一致;为了消除数据之间的量纲影响,因此本发明对其归一化处理能够保证边界权重和密度权重能统一到同一个区间,而且统一到一个区间后,就可以通过统一的权重来分配两个权重的占比。
对于少数类的离群点,根据少数类离群点在所有少数类中占的比例,为少数类离群点合成新样本分配定量的份额,少数类的离群点与其相对于整个少数类的k近邻点通过线性插值法合成对应份额的新少数类样本集。
在一些优选实施例中,对少数类的离群点进行过采样处理的过程包括:
计算出少数类离群点在所有少数类中占的比例得到少数类离群点要生成的所有新少数类的数量为m×p个;将每个少数类离群点与其k近邻中同属一个类簇的少数类样本进行随机线性插值生成/>个新少数类样本点;
其中,n1表示少数类中离群点个数,n2表示少数类中非离群点个数,m表示少数类要生成的新少数类样本总数。
在一些优选实施例中,对少数类的非离群点进行过采样处理的过程包括:
计算出少数类离群点在所有少数类中占的比例得到少数类非离群点要生成的新少数类样本的数量为m×(1-p)个;
采用轮盘赌算法基于所述总权重抽取少数类非离散点,并确定出抽取出少数类非离散点的次数为次;将每一次抽中的少数类非离散点与其k近邻中同属一个类簇的少数类样本进行随机线性插值生成a个新少数类样本点;
其中,n1表示少数类中离群点个数,n2表示少数类中非离群点个数,m表示少数类要生成的新少数类样本总数;a表示每个选中的少数类非离散点所需生成的新样本个数,1≤a≤k。
可以理解的是,为了保持少数类样本数据本身的平衡,本发明中需要分别对少数类样本中的离群点和其他的少数类样本点按照比例进行抽取,举个例子,假设原始的少数类样本一共有10000个,其中的离群点一共有400个,剩下的9600个样本都是一般的少数类样本点即非离群点少数类样本,而需要得到的新的少数类样本点总数为50000个;为了保持离群点的比例份额,按照p=4%的比例对离群点样本进行扩增,按照1-p=96%的比例对一般的少数类样本点进行扩增;计算得到少数类离群点要生成的所有新少数类的数量为2000个;少数类非离群点要生成的所有新少数类的数量为48000个。
对于少数类离群点,将每个少数类离群点与其k近邻中同属一个类簇的少数类样本进行随机线性插值生成5个新少数类样本点,总共得到2000个新的少数类样本点。
对于一般的少数类样本即少数类非离群点,按照轮盘法基于所述总权重选择出对应的少数类样本,将每一次抽中的少数类非离散点与其k近邻中同属一个类簇的少数类样本进行随机线性插值生成a个新少数类样本点;采用轮盘法抽取非离散点的次数为执行多次后得到48000个新少数类样本点;根据上述分析可以发现,本发明可以调节a的大小来控制抽取次数,1≤a≤k;若需要快速得到大量的非离散点样本,则可以让a接近k近邻的个数,若需要保证抽取的非离散点样本数据更为均匀,则可以让a尽可能小。
105、将欠采样得到的多数类样本集与过采样得到的少数类样本集共同组成新的平衡数据集。
将过采样得到新的少数类样本集,与欠采样得到的新的多数类样本集,共同组成新的平衡数据集,该数据集在学习到数据分布的基础上做到多数类与少数类的平衡,能够为分类模型提供良好的数据学习基础,提高分类精度。
在本发明的描述中,需要理解的是,术语“同轴”、“底部”、“一端”、“顶部”、“中部”、“另一端”、“上”、“一侧”、“顶部”、“内”、“外”、“前部”、“中央”、“两端”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
在本发明中,除非另有明确的规定和限定,术语“安装”、“设置”、“连接”、“固定”、“旋转”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系,除非另有明确的限定,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
Claims (3)
1.一种基于混合采样的安全接入日志数据平衡处理方法,其特征在于,所述方法包括:
对收集到的安全日志记录进行预处理,提取出结构化的句向量;所述对收集到的安全日志记录进行预处理,提取出结构化的句向量包括对所述安全日志记录进行分词处理,将同类型特殊字符替换为统一的字符,保留URL的固定部分,根据网络攻击正则表达式对URL的变量部分进行部分保留;将保留后的URL输入到训练好的Word2cec词向量表示模型中,获得URL中的每个分词的词向量,并计算每个分词的TF-IDF值,根据句子的结构将每个分词的词向量与其对应TF-IDF值相乘,取平均后得到结构化的句向量;
将所述句向量按照正常日志与异常日志的类别,划分为多数类样本与少数类样本;利用k近邻密度峰值聚类算法分别对多数类样本和少数类样本进行聚类处理,确定出对应的簇中心和离群点,并将所有样本分配到对应的类簇中;k为邻近个数;所述利用k近邻密度峰值聚类算法分别对多数类样本和少数类样本进行聚类处理,将所有样本分配到对应的类簇中包括对所有样本分别计算出样本局部密度ρ和与具有更高密度的样本最小距离σ;对样本局部密度ρ和与具有更高密度的样本最小距离σ的乘积排序,选择出排序靠前的若干样本;从这若干样本中选择出变化值最大点,并将其对应的样本作为簇中心;将每个样本的k近邻密度与所有样本的k近邻密度均值进行比较,如果一个样本的k近邻密度远小于所有样本k近邻密度均值则判定该点为离群点;按照簇中心和离群点,将所有样本分配到对应的类簇中;
所述变化值最大点的选择公式表示为:
其中,imax表示变化值最大点;表示排序为si的样本局部密度ρi和与具有更高密度的样本最小距离σi的乘积;tendi表示相邻两点乘积之差的比值;
获取k近邻中少数类个数大于2/k的多数类样本集合与多数类的离群点集合的交集,从所有多数类样本中删除交集中的多数类样本,并对剩下的多数类样本进行欠采样处理;
利用轮盘赌算法选择出除少数类的离群点以外的其他非离群点少数类样本,将少数类的非离群点以及少数类的离群点分别与其相对于所有少数类样本的k近邻点进行过采样处理;所述利用轮盘赌算法选择出除少数类的离群点以外的其他非离群点少数类样本包括为所述除少数类的离群点以外的每一个少数类样本分别设置出边界权重和密度权重,分别对边界权重和密度权重归一化,将归一化后的边界权重和密度权重加权求和,得到除少数类的离群点以外的每一个少数类样本的总权重;根据该总权重进行轮盘赌算法,从除少数类的离群点以外的所有少数类样本中选择出对应的少数类样本作为过采样种子;
所述边界权重的计算公式表示为:w1=e-(ρ_min+σ_min);
其中,ρ_min是少数类样本的k近邻中少数类的密度,σ_min是与具有更高少数类密度的点的最小距离;
所述密度权重的计算公式表示为:
其中,ρ_maj是少数类样本的k近邻中多数类的密度;
所述总权重的计算公式表示为:w=μ*w1_norm+(1-μ)*w2_norm;
其中,w1_norm是边界权重w1的归一化结果;μ表示权重的平衡因子;w2_norm是密度权重w2归一化的结果;
将欠采样得到的多数类样本集与过采样得到的少数类样本集共同组成新的平衡数据集。
2.根据权利要求1所述的一种基于混合采样的安全接入日志数据平衡处理方法,其特征在于,对少数类的离群点进行过采样处理的过程包括:
计算出少数类离群点在所有少数类中占的比例得到少数类离群点要生成的所有新少数类的数量为m×p个;将每个少数类离群点与其k近邻中同属一个类簇的少数类样本进行随机线性插值生成/>个新少数类样本点;
其中,n1表示少数类中离群点个数,n2表示少数类中非离群点个数,m表示少数类要生成的新少数类样本总数。
3.根据权利要求1所述的一种基于混合采样的安全接入日志数据平衡处理方法,其特征在于,对少数类的非离群点进行过采样处理的过程包括:
计算出少数类离群点在所有少数类中占的比例得到少数类非离群点要生成的新少数类样本的数量为m×(1-p)个;
采用轮盘赌算法基于所述总权重抽取少数类非离散点,并确定出抽取出少数类非离散点的次数为次;将每一次抽中的少数类非离散点与其k近邻中同属一个类簇的少数类样本进行随机线性插值生成a个新少数类样本点;
其中,n1表示少数类中离群点个数,n2表示少数类中非离群点个数,m表示少数类要生成的新少数类样本总数;a表示每个选中的少数类非离散点所需生成的新样本个数,1≤a≤k。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111012705.1A CN113723514B (zh) | 2021-08-31 | 2021-08-31 | 一种基于混合采样的安全接入日志数据平衡处理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111012705.1A CN113723514B (zh) | 2021-08-31 | 2021-08-31 | 一种基于混合采样的安全接入日志数据平衡处理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113723514A CN113723514A (zh) | 2021-11-30 |
CN113723514B true CN113723514B (zh) | 2023-10-20 |
Family
ID=78679730
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111012705.1A Active CN113723514B (zh) | 2021-08-31 | 2021-08-31 | 一种基于混合采样的安全接入日志数据平衡处理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113723514B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114254997B (zh) * | 2021-12-07 | 2023-03-10 | 苏州大学 | 基于密度自适应过采样的垃圾邮件分类系统及方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019041629A1 (zh) * | 2017-08-30 | 2019-03-07 | 哈尔滨工业大学深圳研究生院 | 基于svm的高维不平衡数据分类方法 |
CN110490393A (zh) * | 2019-09-24 | 2019-11-22 | 湖南科技大学 | 结合经验与方向的出租车寻客路线规划方法、系统及介质 |
CN111782904A (zh) * | 2019-12-10 | 2020-10-16 | 国网天津市电力公司电力科学研究院 | 一种基于改进smote算法的非平衡数据集处理方法及系统 |
CN113269200A (zh) * | 2021-07-21 | 2021-08-17 | 南京信息工程大学 | 一种基于少数类样本空间分布的不平衡数据过采样方法 |
CN113378987A (zh) * | 2021-07-06 | 2021-09-10 | 哈尔滨理工大学 | 基于密度的不平衡数据混合采样算法 |
-
2021
- 2021-08-31 CN CN202111012705.1A patent/CN113723514B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019041629A1 (zh) * | 2017-08-30 | 2019-03-07 | 哈尔滨工业大学深圳研究生院 | 基于svm的高维不平衡数据分类方法 |
CN110490393A (zh) * | 2019-09-24 | 2019-11-22 | 湖南科技大学 | 结合经验与方向的出租车寻客路线规划方法、系统及介质 |
CN111782904A (zh) * | 2019-12-10 | 2020-10-16 | 国网天津市电力公司电力科学研究院 | 一种基于改进smote算法的非平衡数据集处理方法及系统 |
CN113378987A (zh) * | 2021-07-06 | 2021-09-10 | 哈尔滨理工大学 | 基于密度的不平衡数据混合采样算法 |
CN113269200A (zh) * | 2021-07-21 | 2021-08-17 | 南京信息工程大学 | 一种基于少数类样本空间分布的不平衡数据过采样方法 |
Non-Patent Citations (4)
Title |
---|
Evaluation of k-nearest neighbour classifier performance for heterogeneous data sets;Najat Ali;《Springer》;全文 * |
不平衡数据集分类方法综述;王乐;《计算机工程与应用》;全文 * |
基于KNN-DPC聚类算法的RESTful API异常检测研究;陈虹宇;《硕士电子期刊》;全文 * |
基于层次聚类的不平衡数据加权过采样方法;夏英;李刘杰;张旭;裴海英;;计算机科学(第04期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113723514A (zh) | 2021-11-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10832174B1 (en) | Distributed hyperparameter tuning system for active machine learning | |
US20200272909A1 (en) | Systems and methods for operating a data center based on a generated machine learning pipeline | |
WO2010051404A1 (en) | System and method for discovering latent relationships in data | |
JP2002543538A (ja) | 実験データの分布状階層的発展型モデリングと可視化の方法 | |
US10956825B1 (en) | Distributable event prediction and machine learning recognition system | |
CN109918498B (zh) | 一种问题入库方法和装置 | |
CN112437053B (zh) | 入侵检测方法及装置 | |
CN113011889B (zh) | 账号异常识别方法、系统、装置、设备及介质 | |
CN112053223A (zh) | 一种基于ga-svm算法的互联网金融欺诈行为检测方法 | |
CN112348080A (zh) | 基于工控异常检测的rbf改进方法、装置和设备 | |
CN115310554A (zh) | 基于深度聚类的品项分配策略、系统、存储介质和设备 | |
Aissa et al. | A genetic clustering technique for Anomaly-based Intrusion Detection Systems | |
CN112101452A (zh) | 一种访问权限的控制方法及装置 | |
CN113723514B (zh) | 一种基于混合采样的安全接入日志数据平衡处理方法 | |
CN113839926A (zh) | 一种基于灰狼算法特征选择的入侵检测系统建模方法、系统及装置 | |
CN115801374A (zh) | 网络入侵数据分类方法、装置、电子设备及存储介质 | |
Chen et al. | [Retracted] Research on Complex Classification Algorithm of Breast Cancer Chip Based on SVM‐RFE Gene Feature Screening | |
Al Duhayyim et al. | Optimized stacked autoencoder for IoT enabled financial crisis prediction model | |
CN113688906A (zh) | 基于量子K-means算法的客户细分方法和系统 | |
CN117155701A (zh) | 一种网络流量入侵检测方法 | |
Diao et al. | Clustering by Detecting Density Peaks and Assigning Points by Similarity‐First Search Based on Weighted K‐Nearest Neighbors Graph | |
Li et al. | Development of a global batch clustering with gradient descent and initial parameters in colour image classification | |
de Araujo et al. | Impact of feature selection methods on the classification of DDoS attacks using XGBoost | |
CN116668151A (zh) | 基于改进csa优化svm的网络入侵检测方法及装置 | |
CN115422000A (zh) | 异常日志处理方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |