CN113810333A - 基于半监督谱聚类和集成svm的流量检测方法及系统 - Google Patents

基于半监督谱聚类和集成svm的流量检测方法及系统 Download PDF

Info

Publication number
CN113810333A
CN113810333A CN202010531581.7A CN202010531581A CN113810333A CN 113810333 A CN113810333 A CN 113810333A CN 202010531581 A CN202010531581 A CN 202010531581A CN 113810333 A CN113810333 A CN 113810333A
Authority
CN
China
Prior art keywords
training
data set
semi
samples
network traffic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010531581.7A
Other languages
English (en)
Other versions
CN113810333B (zh
Inventor
龙春
魏金侠
万巍
赵静
杜冠瑶
杨帆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Computer Network Information Center of CAS
Original Assignee
Computer Network Information Center of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Computer Network Information Center of CAS filed Critical Computer Network Information Center of CAS
Priority to CN202010531581.7A priority Critical patent/CN113810333B/zh
Publication of CN113810333A publication Critical patent/CN113810333A/zh
Application granted granted Critical
Publication of CN113810333B publication Critical patent/CN113810333B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1416Event detection, e.g. attack signature detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computer Security & Cryptography (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明提供一种基于半监督谱聚类和集成SVM的流量检测方法及系统,所述检测方法首先将未知网络流量和已知网络流量区分开来。因此,首先解决的是未知网络流量的筛选问题,通过半监督谱聚类方法实现对未知网络流量的筛选,提高了未知网络流量筛选的效率;其次建立基于SVM的集成分类器,避开了从归纳到演绎的传统过程,大大简化了分类与回归问题,同时具有很好的鲁棒性,在检测未知网络流量攻击类型方面具有较高的准确率和较低的误报率,实现对未知网络流量进行攻击类型的精准检测。

Description

基于半监督谱聚类和集成SVM的流量检测方法及系统
技术领域
本发明属于未知流量攻击类型检测技术领域,特别涉及一种基于半监督谱聚类和集成SVM的流量检测方法及系统。
背景技术
网络流量数据来源广、层次多、差异大、纬度高、内在关系错综复杂,未知恶意流量隐藏的比较深;同时应用传统的统计方法不能高效率检测、分析和处理。在如此复杂的网络环境下,如何将未知流量筛选出来,并实现对未知流量攻击类型的高准确性检测,降低检测误报率是目前急需解决的技术问题。
发明内容
为了解决现有技术中存在的问题,本发明提供一种基于半监督谱聚类和集成SVM的流量检测方法和系统。
本发明其中一个技术方案提供一种基于半监督谱聚类和集成SVM的流量检测方法,所述检测方法包括如下步骤:
构建综合数据集;
利用半监督谱聚类方法从综合数据集内筛选出未知网络流量;
利用集成学习方法对未知网络流量的攻击类型进行检测。
优选地,所述构建综合数据集包括如下步骤:
获取已知网络流量的数据集,去掉数据集中的标签信息,形成无标签数据集;
将无标签数据集与未知网络流量混合形成无标签的综合数据集。
优选地,所述利用半监督谱聚类方法从综合数据集内筛选出未知网络流量包括如下步骤:
计算综合数据集中两点之间的欧氏距离;
修改距离矩阵D;
构造矩阵S;
构造矩阵
Figure BDA0002535642060000021
其中,T为对角矩阵,
Figure BDA0002535642060000022
i为矩阵S的行角标,j为矩阵S的列角标,i、j=1至n;
经过谱聚类过程获得2个类;
对已知网络流量的数据集进行聚类,分别计算2个类的聚类中心与已知网络流量的数据集中每个类聚类中心的平均距离,距离已知网络流量的数据集的平均距离小的类为已知网络流量,另一类为未知网络流量。
优选地,所述利用集成学习方法对未知网络流量的攻击类型进行检测包括如下步骤:
获取训练样本集合M,进行多轮训练,获得多个弱分类器;
多个弱分类器的加权求和获取强分类器,将未知网络流量输入到强分类器内,输出攻击类型。
优选地,所述进行多轮训练,获得多个弱分类器具体为从训练样本集合M开始训练第一弱分类器,每完成一轮训练后,都从本轮训练的样本集合中挑选出下一轮训练过程的训练数据集进行训练获得多个弱分类器。
优选地,所述挑选出下一轮训练过程的训练数据集包括如下步骤:
从训练样本集合M中随机选择N-Qα个样本形成样本集合P,其中N是本轮训练中选择的训练样本,N<M,Q表示本轮训练过程中分类错误的样本集合;Qα表示将样本集合Q中的样本复制α次之后的样本的集合;
将样本集合P和集合Qα组合成为下一轮训练过程中的训练数据集。
优选地,所述挑选出下一轮训练过程的训练数据集包括:
将|Q|与H和L进行比较;
当|Q|<L,从训练数据集M中随机选择N个样本,组成下一轮训练过程中的训练数据集;
当|Q|>H,从样本集合Q中随机选择H个样本形成新的集合Q1,然后从训练样本集合M中随机选择N-α|H|个样本形成样本集合P1,将样本集合P1和集合Q1 α组合作为下一轮训练过程中的训练数据集;
当L≤|Q|≤H,从训练数据集M中随机选取N-α|Q|个样本形成集合P2,样本集合P2和集合Qα组合作为下一轮训练过程中的训练数据集。
本发明另一个技术方案提供一种基于半监督谱聚类和集成SVM的流量检测系统,所述检测系统包括:
综合数据集构建模块,所述综合数据集构建模块被配置为用于构建综合数据集;
筛选模块,所述筛选模块被配置为利用半监督谱聚类方法从综合数据集内筛选出未知网络流量;
攻击类型检测模块,所述攻击类型检测模块被配置为利用集成学习方法对未知网络流量的攻击类型进行检测。
本发明另一个技术方案还一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行一种基于半监督谱聚类和集成SVM的流量检测方法时实现的步骤。
本发明提供一种基于半监督谱聚类和集成SVM的流量检测方法及系统,所述检测方法首先利用半监督谱聚类方解决未知流量的筛选问题,提高了未知流量筛选的准确性;其次建立基于SVM的集成分类器实现对未知流量攻击类型的检测,大大简化了分类与回归问题,同时使得检测方法具有很好的鲁棒性,在检测异常流量攻击方面体现出较高的准确率且显著较低了误报率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1是本发明提供的一种基于半监督谱聚类和集成SVM的流量检测方法的流程示意图;
图2构建综合数据集的方法流程图;
图3是利用半监督谱聚类方法从综合数据集内筛选出未知网络流量的流程图;
图4是利用集成学习方法对未知网络流量的攻击类型进行检测的流程图;
图5是本发明提供的一种基于半监督谱聚类和集成SVM的流量检测系统的结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
如图1所示,本发明其中一个实施例提供一种基于半监督谱聚类和集成SVM的流量检测方法,所述检测方法包括如下步骤:
S1:构建综合数据集;
如图2所示,在一些优选的实施例中,构建综合数据集的具体方法为:
S11:获取已知网络流量的数据集,去掉数据集中的标签信息,形成无标签数据集;
其中,已知网络流量的数据集为已知网络流量攻击类型的数据集,数据集内每一网络流量都带有攻击类型的标签信息。
S12:将无标签数据集与未知网络流量混合形成无标签的综合数据集;
其中,未知网络流量是指攻击类型未知的网络流量,所述未知网络流量可以为模拟生成的网络流量、数据库中存储的网络流量或者实时获取的网络流量,本申请不对未知网络流量的来源进行具体的限定。
S2:利用半监督谱聚类方法从综合数据集内筛选出未知网络流量;
其中,本申请将上述综合数据集标记为两类集合作为监督信息,分别表示距离远的同类集M’和距离近的不同类集D;具体解释为:距离远且属于同一类数据集合表示M’,距离近且属于不同类的数据集合表示D。通过对上述数据集的分类方法可以避免边界上的点被分错。
如图3所示,在一些优选的实施例中,利用半监督谱聚类方法从综合数据集内筛选出未知网络流量的方法包括如下步骤:
S21:计算综合数据集中两点之间的欧氏距离;
S22:修改距离矩阵D,若这两点属于集合1,则矩阵元素为0;若这两点属于集合2,则矩阵元素为无穷;
S23:构造矩阵S,各个元素为距离矩阵的倒数;
S24:构造矩阵
Figure BDA0002535642060000061
其中,T为对角矩阵,
Figure BDA0002535642060000062
i为矩阵S的行角标,j为矩阵S的列角标,i、j=1至n;
S25:经过谱聚类过程获得2个类;
S26:对已知网络流量的数据集进行聚类,分别计算步骤S25获得的2个类的聚类中心与已知网络流量的数据集中每个类聚类中心的平均距离,距离已知网络流量的数据集的平均距离小的类为已知网络流量,另一类为未知网络流量。
本发明通过半监督谱聚类算法将未知网络流量和已知网络流量区分开,通过将距离远属于同类以及距离近属于不同类作为监督信息去修改距离矩阵,距离远的同类数据对应的距离矩阵元素调整为0(几乎在一起),距离近的不同类数据距离矩阵元素调整为无穷(特别特别远),显著降低了边界点分错的概率,提高了未知网络流量筛选的准确率。
S3:利用集成学习方法对未知网络流量的攻击类型进行检测。
其中,利用集成SVM分类器对未知网络流量的攻击类型进行检测。集成SVM分类器指的是多分类器,涉及到的SVM基分类器是适用于多分类的场景。
如图4所示,利用集成学习方法对未知网络流量的攻击类型进行检测的方法包括如下步骤:
S31:获取训练样本集合M,进行多轮训练,获得多个弱分类器;
其中获取的训练样本集合M为攻击类型已知的网络流量集合。
S32:多个弱分类器的加权求和获取强分类器,将未知网络流量输入到强分类器内,输出攻击类型。
在一些优选的实施例中,进行多轮训练,获得多个弱分类器具体包括如下步骤:
从训练样本集合M开始训练第一弱分类器,每完成一轮训练后,都从本轮训练的样本集合中挑选出下一轮训练过程的训练数据集进行训练获得多个弱分类器。
其中,挑选出下一轮训练过程的训练数据集包括如下步骤:
从训练样本集合M中随机选择N-Qα个样本形成样本集合P,其中N是本轮训练中选择的训练样本,N<M,Q表示本轮训练过程中分类错误的样本集合;Qα表示将样本集合Q中的样本复制α次之后的样本的集合;
将样本集合P和集合Qα组合成为下一轮训练过程中的训练数据集。
为了避免离群点对训练样本的重采样造成影响,设定错位分类阈值的上限H和下限L,挑选出下一轮训练过程的训练数据集包括如下步骤:
将|Q|与H和L进行比较;
当|Q|<L,从训练数据集M中随机选择N个样本,组成下一轮训练过程中的训练数据集;
当|Q|>H,从样本集合Q中随机选择H个样本形成新的集合Q1,然后从训练样本集合M中随机选择N-α|H|个样本形成样本集合P1,将样本集合P1和集合Q1 α组合作为下一轮训练过程中的训练数据集;其中,Q1 α表示集合Q1中的样本复制α次之后的样本集合;
当L≤|Q|≤H,从训练数据集M中随机选取N-α|Q|个样本形成集合P2,样本集合P2和集合Qα组合作为下一轮训练过程中的训练数据集。
其中,N,α,L和H是超参数,通过十折交叉验证的方式获得最优值。
通过以上方法对每轮训练的样本进行过采样,提高了检测模型的精度和召回率。
本申请提供的一种基于半监督谱聚类和集成SVM的流量检测方法能更准确的对未知网络流量的攻击类型进行识别,首先将未知网络流量和已知网络流量区分开来。因此,首先解决的是未知网络流量的筛选问题,通过半监督谱聚类方法实现对未知网络流量的筛选,提高了未知网络流量筛选的准确率。其次建立基于SVM的集成分类器,避开了从归纳到演绎的传统过程,大大简化了分类与回归问题,同时具有很好的鲁棒性,在检测未知网络流量攻击类型方面具有较高的准确率和较低的误报率,实现对未知网络流量进行攻击类型的精准检测。
在一些优选的实施例中,为了提高检测的准确率,本发明进一步对样本集合Q中各样本的复制次数进行了具体的限定,具体包括如下步骤:
将样本集合Q内的样本进行聚类,形成w个聚类簇;
其中聚类的方法可以利用已知K-Means聚类方法或其他方法进行聚类,本申请不做具体限定。
找出样本集合Q的中心点,及w个聚类簇的聚类中心;
根据聚类中心距离样本集合Q中心点之间的距离,将w个聚类簇分成三类样本集合;将聚类中心距离样本集合Q中心点距离小于x的所有聚类簇内的样本形成第一样本集合,将聚类中心距离样本集合Q中心点距离大于y的所有聚类簇内的样本形成第三样本集合,其余各聚类簇的样本形成第二样本集合,其中y>x;
在第一样本集合中距离最远的两个样本之间插入一新的样本;新形成的所有样本再在距离最远的两个样本之间插入一新的样本,循环α次后,所以样本形成新的集合F1
其中,新样本的插入方式为在距离最远的两个样本之间插入一距离两个样本距离相同的新样本;
将第二样本集合内的每一样本复制α次,形成新的集合F2
在第三样本集合中距离最近的两个样本之间插入一新的样本;新形成的所有样本再在距离最近的两个样本之间插入一新的样本,循环α次后,所以样本形成新的集合F3
其中,新样本的插入方式为在距离最接近的两个样本之间插入一距离两个样本距离相同的新样本。
集合F1、F2和F3组成样本集合Qα
根据每个聚类簇内聚类中心距离样本集合Q中心点的不同距离,将聚类簇再进行分类,然后对不同的样本集合采用不同的复制方式,考虑了边界分错点分错的情况,显著提高了进一步检测的准确率。
如图5所示,本发明另一个实施例提供一种基于半监督谱聚类和集成SVM的流量检测系统,所述检测系统包括:
综合数据集构建模块10,所述综合数据集构建模块被配置为用于构建综合数据集;
其中,构建综合数据集包括如下步骤:
获取已知网络流量的数据集,去掉数据集中的标签信息,形成无标签数据集;
其中,已知网络流量的数据集为已知网络流量攻击类型的数据集,数据集内每一网络流量都带有攻击类型的标签信息。
将无标签数据集与未知网络流量混合形成无标签的综合数据集;
其中,未知网络流量是指攻击类型未知的网络流量,所述未知网络流量可以为模拟生成的网络流量、数据库中存储的网络流量或者实时获取的网络流量,本申请不对未知网络流量的来源进行具体的限定。
筛选模块20,所述筛选模块被配置为利用半监督谱聚类方法从综合数据集内筛选出未知网络流量;
其中,本申请将上述综合数据集标记为两类集合作为监督信息,分别表示距离远的同类集M’和距离近的不同类集D;具体解释为:距离远且属于同一类数据集合表示M’,距离近且属于不同类的数据集合表示D。通过对上述数据集的分类方法可以避免边界上的点被分错。
利用半监督谱聚类方法从综合数据集内筛选出未知网络流量的方法包括如下步骤:
计算综合数据集中两点之间的欧氏距离;
修改距离矩阵D,若这两点属于集合1,则矩阵元素为0;若这两点属于集合2,则矩阵元素为无穷;
构造矩阵S,各个元素为距离矩阵的倒数;
构造矩阵
Figure BDA0002535642060000101
其中,T为对角矩阵,
Figure BDA0002535642060000102
i为矩阵S的行角标,j为矩阵S的列角标,i、j=1至n;
经过谱聚类过程获得2个类;
对已知网络流量的数据集进行聚类,分别计算步骤S25获得的2个类的聚类中心与已知网络流量的数据集中每个类聚类中心的平均距离,距离已知网络流量的数据集的平均距离小的类为已知网络流量,另一类为未知网络流量。
本发明通过半监督谱聚类算法将未知网络流量和已知网络流量区分开,通过将距离远属于同类以及距离近属于不同类作为监督信息去修改距离矩阵,距离远的同类数据对应的距离矩阵元素调整为0(几乎在一起),距离近的不同类数据距离矩阵元素调整为无穷(特别特别远),显著降低了边界点分错的概率,提高了未知网络流量筛选的准确率。
攻击类型检测模块30,所述攻击类型检测模块被配置为利用集成学习方法对未知网络流量的攻击类型进行检测。
其中,利用集成SVM分类器对未知网络流量的攻击类型进行检测。集成SVM分类器指的是多分类器,涉及到的SVM基分类器是适用于多分类的场景。
利用集成学习方法对未知网络流量的攻击类型进行检测的方法包括如下步骤:
获取训练样本集合M,进行多轮训练,获得多个弱分类器;
其中获取的训练样本集合M为攻击类型已知的网络流量集合。
多个弱分类器的加权求和获取强分类器,将未知网络流量输入到强分类器内,输出攻击类型。
在一些优选的实施例中,进行多轮训练,获得多个弱分类器具体包括如下步骤:
从训练样本集合M开始训练第一弱分类器,每完成一轮训练后,都从本轮训练的样本集合中挑选出下一轮训练过程的训练数据集进行训练获得多个弱分类器。
其中,挑选出下一轮训练过程的训练数据集包括如下步骤:
从训练样本集合M中随机选择N-Qα个样本形成样本集合P,其中N是本轮训练中选择的训练样本,N<M,Q表示本轮训练过程中分类错误的样本集合;Qα表示将样本集合Q中的样本复制α次之后的样本的集合;
将样本集合P和集合Qα组合成为下一轮训练过程中的训练数据集。
为了避免离群点对训练样本的重采样造成影响,设定错位分类阈值的上限H和下限L,挑选出下一轮训练过程的训练数据集包括如下步骤:
将|Q|与H和L进行比较;
当|Q|<L,从训练数据集M中随机选择N个样本,组成下一轮训练过程中的训练数据集;
当|Q|>H,从样本集合Q中随机选择H个样本形成新的集合Q1,然后从训练样本集合M中随机选择N-α|H|个样本形成样本集合P1,将样本集合P1和集合Q1 α组合作为下一轮训练过程中的训练数据集;
当L≤|Q|≤H,从训练数据集M中随机选取N-α|Q|个样本形成集合P2,样本集合P2和集合Qα组合作为下一轮训练过程中的训练数据集。
其中,N,α,L和H是超参数,通过十折交叉验证的方式获得最优值。
通过以上方法对每轮训练的样本进行过采样,提高了检测模型的精度和召回率。
本申请提供的一种基于半监督谱聚类和集成SVM的流量检测系统能更准确的对未知网络流量的攻击类型进行识别,首先将未知网络流量和已知网络流量区分开来。因此,首先解决的是未知网络流量的筛选问题,通过半监督谱聚类方法实现对未知网络流量的筛选,提高了未知网络流量筛选的效率。其次建立基于SVM的集成分类器,避开了从归纳到演绎的传统过程,大大简化了分类与回归问题,同时具有很好的鲁棒性,在检测未知网络流量攻击类型方面具有较高的准确率和较低的误报率,实现对未知网络流量进行攻击类型的精准检测。
本发明另一个实施例提供另一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中的存储器中所包含的计算机可读存储介质;也可以是单独存在,未装配入终端中的计算机可读存储介质。所述计算机可读存储介质存储有一个或者一个以上程序,所述一个或者一个以上程序被一个或者一个以上的处理器用来执行以上实施例中所提供的方法。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

Claims (9)

1.一种基于半监督谱聚类和集成SVM的流量检测方法,其特征在于,所述检测方法包括如下步骤:
构建综合数据集;
利用半监督谱聚类方法从综合数据集内筛选出未知网络流量;
利用集成学习方法对未知网络流量的攻击类型进行检测。
2.根据权利要求1所述的基于半监督谱聚类和集成SVM的流量检测方法,其特征在于,所述构建综合数据集包括如下步骤:
获取已知网络流量的数据集,去掉数据集中的标签信息,形成无标签数据集;
将无标签数据集与未知网络流量混合形成无标签的综合数据集。
3.根据权利要求2所述的基于半监督谱聚类和集成SVM的流量检测方法,其特征在于,所述利用半监督谱聚类方法从综合数据集内筛选出未知网络流量包括如下步骤:
计算综合数据集中两点之间的欧氏距离;
修改距离矩阵D;
构造矩阵S;
构造矩阵
Figure FDA0002535642050000011
其中,T为对角矩阵,
Figure FDA0002535642050000012
i为矩阵S的行角标,j为矩阵S的列角标,i、j=1至n;
经过谱聚类过程获得2个类;
对已知网络流量的数据集进行聚类,分别计算2个类的聚类中心与已知网络流量的数据集中每个类聚类中心的平均距离,距离已知网络流量的数据集的平均距离小的类为已知网络流量,另一类为未知网络流量。
4.根据权利要求1所述的基于半监督谱聚类和集成SVM的流量检测方法,其特征在于,所述利用集成学习方法对未知网络流量的攻击类型进行检测包括如下步骤:
获取训练样本集合M,进行多轮训练,获得多个弱分类器;
多个弱分类器的加权求和获取强分类器,将未知网络流量输入到强分类器内,输出攻击类型。
5.根据权利要求4所述的基于半监督谱聚类和集成SVM的流量检测方法,其特征在于,所述进行多轮训练,获得多个弱分类器具体为从训练样本集合M开始训练第一弱分类器,每完成一轮训练后,都从本轮训练的样本集合中挑选出下一轮训练过程的训练数据集进行训练获得多个弱分类器。
6.根据权利要求5所述的基于半监督谱聚类和集成SVM的流量检测方法,其特征在于,所述挑选出下一轮训练过程的训练数据集包括如下步骤:
从训练样本集合M中随机选择N-Qα个样本形成样本集合P,其中N是本轮训练中选择的训练样本,N<M,Q表示本轮训练过程中分类错误的样本集合;Qα表示将样本集合Q中的样本复制α次之后的样本的集合;
将样本集合P和集合Qα组合成为下一轮训练过程中的训练数据集。
7.根据权利要求5所述的基于半监督谱聚类和集成SVM的流量检测方法,其特征在于,所述挑选出下一轮训练过程的训练数据集包括:
将|Q|与H和L进行比较;
当|Q|<L,从训练数据集M中随机选择N个样本,组成下一轮训练过程中的训练数据集;
当|Q|>H,从样本集合Q中随机选择H个样本形成新的集合Q1,然后从训练样本集合M中随机选择N-α|H|个样本形成样本集合P1,将样本集合P1和集合Q1 α组合作为下一轮训练过程中的训练数据集;
当L≤|Q|≤H,从训练数据集M中随机选取N-α|Q|个样本形成集合P2,样本集合P2和集合Qα组合作为下一轮训练过程中的训练数据集。
8.一种基于半监督谱聚类和集成SVM的流量检测系统,其特征在于,所述系统包括:
综合数据集构建模块,所述综合数据集构建模块被配置为用于构建综合数据集;
筛选模块,所述筛选模块被配置为利用半监督谱聚类方法从综合数据集内筛选出未知网络流量;
攻击类型检测模块,所述攻击类型检测模块被配置为利用集成学习方法对未知网络流量的攻击类型进行检测。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现权利要求1-7任一项权利要求所述方法的步骤。
CN202010531581.7A 2020-06-11 2020-06-11 基于半监督谱聚类和集成svm的流量检测方法及系统 Active CN113810333B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010531581.7A CN113810333B (zh) 2020-06-11 2020-06-11 基于半监督谱聚类和集成svm的流量检测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010531581.7A CN113810333B (zh) 2020-06-11 2020-06-11 基于半监督谱聚类和集成svm的流量检测方法及系统

Publications (2)

Publication Number Publication Date
CN113810333A true CN113810333A (zh) 2021-12-17
CN113810333B CN113810333B (zh) 2023-06-27

Family

ID=78943739

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010531581.7A Active CN113810333B (zh) 2020-06-11 2020-06-11 基于半监督谱聚类和集成svm的流量检测方法及系统

Country Status (1)

Country Link
CN (1) CN113810333B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114978703A (zh) * 2022-05-24 2022-08-30 湖北天融信网络安全技术有限公司 训练网络攻击分类模型的方法及识别网络攻击类型方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101980480A (zh) * 2010-11-04 2011-02-23 西安电子科技大学 半监督异常入侵检测方法
CN102546625A (zh) * 2011-12-31 2012-07-04 深圳市永达电子股份有限公司 半监督聚类集成的协议识别系统
CN103886330A (zh) * 2014-03-27 2014-06-25 西安电子科技大学 基于半监督svm集成学习的分类方法
CN105959270A (zh) * 2016-04-25 2016-09-21 盐城工学院 一种基于谱聚类算法的网络攻击检测方法
CN107846326A (zh) * 2017-11-10 2018-03-27 北京邮电大学 一种自适应的半监督网络流量分类方法、系统及设备
CN109768985A (zh) * 2019-01-30 2019-05-17 电子科技大学 一种基于流量可视化与机器学习算法的入侵检测方法
CN109871886A (zh) * 2019-01-28 2019-06-11 平安科技(深圳)有限公司 基于谱聚类的异常点比例优化方法、装置及计算机设备
CN110691100A (zh) * 2019-10-28 2020-01-14 中国科学技术大学 基于深度学习的分层网络攻击识别与未知攻击检测方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101980480A (zh) * 2010-11-04 2011-02-23 西安电子科技大学 半监督异常入侵检测方法
CN102546625A (zh) * 2011-12-31 2012-07-04 深圳市永达电子股份有限公司 半监督聚类集成的协议识别系统
CN103886330A (zh) * 2014-03-27 2014-06-25 西安电子科技大学 基于半监督svm集成学习的分类方法
CN105959270A (zh) * 2016-04-25 2016-09-21 盐城工学院 一种基于谱聚类算法的网络攻击检测方法
CN107846326A (zh) * 2017-11-10 2018-03-27 北京邮电大学 一种自适应的半监督网络流量分类方法、系统及设备
CN109871886A (zh) * 2019-01-28 2019-06-11 平安科技(深圳)有限公司 基于谱聚类的异常点比例优化方法、装置及计算机设备
CN109768985A (zh) * 2019-01-30 2019-05-17 电子科技大学 一种基于流量可视化与机器学习算法的入侵检测方法
CN110691100A (zh) * 2019-10-28 2020-01-14 中国科学技术大学 基于深度学习的分层网络攻击识别与未知攻击检测方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
GULSHAN KUMAR,KUTUB THAKUT,ET: ""MLEsIDSs: machine learning‑based ensembles for intrusion"", 《THE JOURNAL OF SUPERCOMPUTING》 *
GULSHAN KUMAR,KUTUB THAKUT,ET: ""MLEsIDSs: machine learning‑based ensembles for intrusion"", 《THE JOURNAL OF SUPERCOMPUTING》, 12 February 2020 (2020-02-12), pages 1 - 6 *
司文武,钱沄涛: ""一种基于谱聚类的半监督聚类方法"", 《计算机应用》 *
司文武,钱沄涛: ""一种基于谱聚类的半监督聚类方法"", 《计算机应用》, 30 June 2005 (2005-06-30), pages 1 - 4 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114978703A (zh) * 2022-05-24 2022-08-30 湖北天融信网络安全技术有限公司 训练网络攻击分类模型的方法及识别网络攻击类型方法

Also Published As

Publication number Publication date
CN113810333B (zh) 2023-06-27

Similar Documents

Publication Publication Date Title
CN110880019B (zh) 通过无监督域适应训练目标域分类模型的方法
TW201909112A (zh) 圖像特徵獲取
CN110853756B (zh) 基于som神经网络和svm的食管癌风险预测方法
CN109117863A (zh) 基于深度卷积生成对抗网络的绝缘子样本扩充方法及装置
CN113537321A (zh) 一种基于孤立森林和x均值的网络流量异常检测方法
CN115294378A (zh) 一种图像聚类方法及系统
CN116522263A (zh) 一种异常电芯的检测方法和装置
CN115577357A (zh) 一种基于堆叠集成技术的Android恶意软件检测方法
CN110348516B (zh) 数据处理方法、装置、存储介质及电子设备
CN110019845B (zh) 一种基于知识图谱的社区演化分析方法及装置
CN115309906A (zh) 一种基于知识图谱技术的数据智能分类技术
CN113810333A (zh) 基于半监督谱聚类和集成svm的流量检测方法及系统
CN114781688A (zh) 业扩项目的异常数据的识别方法、装置、设备及存储介质
CN114897085A (zh) 一种基于封闭子图链路预测的聚类方法及计算机设备
CN112115996B (zh) 图像数据的处理方法、装置、设备及存储介质
CN113360392A (zh) 一种跨项目软件缺陷预测方法及装置
CN113343123A (zh) 一种生成对抗多关系图网络的训练方法和检测方法
CN112149121A (zh) 一种恶意文件识别方法、装置、设备及存储介质
CN114548569A (zh) 异质社交网络中缺失链路预测方法、系统和存储介质
CN113011503A (zh) 一种电子设备的数据取证方法、存储介质及终端
CN113591657A (zh) Ocr版面识别的方法、装置、电子设备及介质
CN114091559A (zh) 数据填充方法及装置、设备、存储介质
CN107239796B (zh) 基于使用行为区分电视归属属性的系统与方法
Dong et al. A region selection model to identify unknown unknowns in image datasets
JP2017142712A (ja) コールグラフ差分抽出方法、コールグラフ差分抽出プログラム、および情報処理装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant