CN113489685B - 一种基于核主成分分析的二次特征提取及恶意攻击识别方法 - Google Patents

一种基于核主成分分析的二次特征提取及恶意攻击识别方法 Download PDF

Info

Publication number
CN113489685B
CN113489685B CN202110659646.0A CN202110659646A CN113489685B CN 113489685 B CN113489685 B CN 113489685B CN 202110659646 A CN202110659646 A CN 202110659646A CN 113489685 B CN113489685 B CN 113489685B
Authority
CN
China
Prior art keywords
data
sample
kernel
matrix
principal component
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110659646.0A
Other languages
English (en)
Other versions
CN113489685A (zh
Inventor
蔡赛华
陈锦富
赵玲玲
陈海波
殷上
张翅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu University
Original Assignee
Jiangsu University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu University filed Critical Jiangsu University
Priority to CN202110659646.0A priority Critical patent/CN113489685B/zh
Publication of CN113489685A publication Critical patent/CN113489685A/zh
Application granted granted Critical
Publication of CN113489685B publication Critical patent/CN113489685B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1416Event detection, e.g. attack signature detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2135Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1433Vulnerability analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computer Security & Cryptography (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明提供了一种基于核主成分分析的二次特征提取及恶意攻击识别方法。包括:步骤1,对采集的恶意流量进行分层抽样,以获取更加均衡的训练样本集和测试样本集;步骤2,对原始网络流量数据集进行预处理,以得到更加规范的数据集;步骤3,应用基于核主成分分析的二次特征提取方法对预处理后的网络流量进行特征提取,有效剔除原始网络流量数据中存在的冗余信息;步骤4,将提取到的特征用于分类模型的训练,对不同的恶意攻击行为进行分类和识别;步骤5,根据步骤4所得到的识别结果,得到网络流量恶意攻击检测报告。本发明做到了同时考虑数据在均值和方差两个方面的特性,进而对数据特征进行更加全面的分析。

Description

一种基于核主成分分析的二次特征提取及恶意攻击识别方法
技术领域
本发明属于网络安全恶意入侵检测领域,涉及一种基于核主成分分析的二次特征提取及恶意攻击检测方法。
背景技术
随着当前互联网技术的飞速发展,网络规模逐渐扩大,人们对互联网的依赖程度与日俱增,但也随之带来了更多的安全问题。针对用户系统中存在的安全漏洞,攻击者通过输入一些有特殊目的的特殊数据来实现对漏洞的利用,进而达到攻击的目的。随着高危漏洞问题的频繁曝光,恶意漏洞利用事件也频繁发生,这给当前的网络环境带来了极大的危害。因此,网络流量中恶意攻击的识别在网络安全保护方面发挥着不可忽视的作用。
当前恶意攻击识别方法主要通过分类算法来实现,由于数据流特征空间存在相关性和冗余性,特征量大的数据不仅造成了不必要的计算时间和资源开销,还会导致分类精度的下降。因此,对网络流量特征进行特征提取是通过机器学习方法进行恶意攻击分类过程的必要步骤。想要从网络流量的数据包中准确地提取出能够描述恶意攻击行为的特征属性,需要设计一种高效的特征提取方法,将原始数据中存在的冗余信息进行有效剔除并生成一个仅包含“精华”信息的特征表示,从而让得到的特征可供后续的机器学习算法进行分类模型的训练。由于网络流量数据中包含了较多的非线性特征,采用常用的主成分分析(PCA)方法不能很好地对数据进行表征。因此,提出了一种基于核的主成分分析方法—核主成分分析(KPCA)方法,该方法利用核函数将低维线性不可分的原始数据样本映射到线性可分的高维特征空间,并采用主成分分析方法删除冗余特征和不相关特征,这样就保证了对线性不可分数据的处理效果。
然而,由于PCA方法只考虑了数据在方差方面的特性,无法顾及特征在均值方面的特性,这就导致对数据的分析不够全面;同时,由于PCA方法缺乏类别信息,因此会导致降维后的数据虽然信息损失降到最低但可能会使分类过程变得更加困难。基于此,本发明提出了一种基于核主成分分析的二次特征提取及恶意攻击检测方法,在基于KPCA提取的特征集上叠加线性判别分析方法进行二次特征提取,在保证对网络流量中非线性数据的处理效果的同时,弥补了主成分分析方法只侧重从方差角度对特征进行分析而忽略了特征在均值方面的特性的问题,做到了同时考虑数据在均值和方差两个方面的特性,进而更有效地检测恶意攻击行为。大量的对比实验证明本研究提出的特征提取方法能够达到更好的特征提取效果,所提取的特征能够使分类器达到更高的分类性能,恶意攻击检测成功率更高。
发明内容
基于现有技术中的KPCA方法是基于样本点投影具有最大方差的原则进行投影,而没有考虑到样本会依据均值进行分类的情况,且KPCA作为一种无监督学习方法忽略了对类别先验知识的利用,从而导致对恶意攻击进行分类识别时性能无法达到最优。基于此,本发明提出了一种基于核主成分分析的二次特征提取及恶意攻击检测方法用以解决上述存在的问题。
本发明提供了一种基于核主成分分析的二次特征提取及恶意攻击检测方法,包括如下步骤:
步骤1,对采集的恶意流量进行分层抽样,以获取更加均衡的训练样本集和测试样本集;
步骤2,对原始网络流量数据集进行预处理,以得到更加规范的数据集;
步骤3,应用基于核主成分分析的二次特征提取方法对预处理后的网络流量进行特征提取,有效剔除原始网络流量数据中存在的冗余信息;
步骤4,将提取到的特征用于分类模型的训练,对不同的恶意攻击行为进行分类和识别;
步骤5,根据步骤4所得到的识别结果,得出网络流量恶意攻击检测报告。
进一步,所述步骤2的具体实现包括如下步骤:
步骤2.1,采用one-hot方式将采集到的原始网络流量中的如协议类型、网络服务类型、网络连接状态等字符型特征转换为数值型特征;
步骤2.2,利用z-score标准化方法对经过数值化处理后的网络流量进行标准化处理,首先计算样本集各属性的平均值
Figure BDA0003114669530000021
Figure BDA0003114669530000022
表示第i条数据的平均值;和平均绝对误差Sk,Sk表示第k个属性的平均绝对误差;然后对每条数据进行标准化度量,从而让标准化后的每条数据记录中的各个属性都对应标准化取值;
步骤2.3,采用离差标准化方法对经过标准化操作的数据进行归一化,将标准化后的数据转换到[0,1]内,从而让不同属性的数据有可比性和可操作性。
进一步,所述步骤3的具体实现包括如下步骤:
步骤3.1,将经预处理后的数据样本集表示为大小为n×m的流矩阵Xn×m=[x1,x2,...,xn],其中n为样本集中样本的个数,m为样本特征的维度,xi为样本集的一个列向量;
步骤3.2,采用高斯径向基核函数将上述流矩阵中的数据样本映射到高维特征空间以生成核矩阵,从而将原始非线性样本数据映射到线性可分的高维特征空间以降低在高维特征空间中的计算量;
步骤3.3,求解步骤3.2得到的核矩阵的特征值Y及对应的特征向量,按照降序的方式对特征值进行排序并将各自对应的特征向量进行排序;若计算所得的前l个主成分的累计贡献率不低于预先设定的提取效率θ,则提取前l个特征值对应的特征向量构成投影矩阵WKPCA=[ν12,...,νn];对于上述所得的投影空间,通过计算Y=WKPCA TX得到原始网络流量样本集X在特征空间WKPCA中的投影;
步骤3.4,采用线性判别分析方法来计算步骤3.3所得特征值Y的类内离散度矩阵Sω与类间离散度矩阵Sb,求解矩阵Sω -1Sb的特征值与特征向量并对特征值按照降序排序,取对应的前p个特征向量构成投影矩阵WLDA=[η12,...,ηp],计算Z=WLDA TY求得特征集Y在WLDA特征空间中的映射,将映射的结果视为对原始数据样本进行特征提取的结果。
进一步,所述步骤4的具体实现包括如下步骤:
步骤4.1,采用步骤2和步骤3对抽样所得训练集进行特征提取,得到网络流量的样本属性子集;
步骤4.2,采用支持向量机算法对前述步骤所得的特征向量组进行分类器的训练,利用上述所得特征属性子集作为SVM算法的输入,并选择径向基函数作为SVM算法的核函数,后续对参数不断进行调整,使得训练出的分类器保持较优的分类效果;
步骤4.3,利用构造好的多分类器实现对测试集中不同的恶意攻击行为的分类和识别。
进一步,标准化计算流程主要包括:
计算样本集各属性的平均值
Figure BDA0003114669530000031
和平均绝对误差Sk
Figure BDA0003114669530000032
表示第k条数据的平均值,Sk表示第k个属性的平均绝对误差,计算方式分别为:
Figure BDA0003114669530000033
Figure BDA0003114669530000041
其中,n表示样本数量,xik表示第i条数据的第k个属性;
利用
Figure BDA0003114669530000042
对每条数据记录进行标准化度量,获得标准化后每条数据记录中各个属性对应的标准化取值。
进一步,归一化计算流程如下:
计算样本数据的最大值与最小值,利用转换函数
Figure BDA0003114669530000043
将数据样本转换到[0,1]内,f'即为归一化后的规范化数据;
经过归一化操作后获得特征提取方法的输入数据集。
进一步,类内离散度矩阵Sω与类间离散度矩阵Sb的计算方式如下:
Figure BDA0003114669530000044
Figure BDA0003114669530000045
其中,i代表样本数据的类别编号,N代表样本包含的总类别数量,yi代表经过核主成分分析KPCA变换后的每条网络流量数据,μi指的是第i类样本的均值向量,mi指的是第i类样本的数量,μ代表总的均值向量。
与现有技术相比,本发明有益的效果:
1、提出的一种基于核主成分分析的二次特征提取方法在基于KPCA提取的特征集上叠加线性判别分析方法进行二次特征提取,在保证对网络流量中非线性数据处理效果的同时,弥补了主成分分析方法只侧重从方差角度对特征进行分析而忽略了特征在均值方面的特性的问题,做到了同时考虑数据在均值和方差两个方面的特性,进而对数据特征进行更加全面的分析。
2、针对核主成分分方法属于无监督学习方法而缺乏对类别信息的利用,导致出现降维后的数据虽然能让信息损失降到最低但却可能会使分类过程变得更加困难的问题,本发明所提出的一种基于核主成分分析的二次特征提取及恶意攻击检测方法通过将核主成分分析和线性判别分析方法进行有机结合,通过引入对类别信息的利用使得在后续的恶意攻击识别过程中分类模型能够发挥更佳的性能,从而使得分类模型的识别效果得到一定程度的提升。
附图说明
图1是一种基于核主成分分析的二次特征提取及恶意攻击检测方法的总体流程图。
图2是一种基于核主成分分析的二次特征提取及恶意攻击检测方法的详细流程图。
图3是本发明实验环节所用数据样本集信息。
图4是不同核函数对检测识别模型分类精度的影响结果图。
图5是L-KPCA与传统KPCA保留不同特征个数时检测识别精度的变化曲线图。
图6是不经任何特征提取操作的检测模型对样本集进行实验信息和结果。
图7是利用PCA方法进行特征提取的检测模型对样本集进行实验信息和结果。
图8是利用KPCA进行特征提取的检测模型对样本集进行实验信息和结果。
图9是利用L-KPCA进行特征提取的检测模型对样本集进行实验信息和结果。
图10是在不同特征提取方法下检测模型对七种攻击的识别精度。
图11是在不同特征提取方法下检测模型对七种攻击的识别召回率。
图12是在不同特征提取方法下检测模型对七种攻击的识别F1-score。
具体实施方式
下面结合附图和实施案例对本发明作进一步说明,应指出的是,所描述的实施案例仅旨在便于对本发明的理解,而对其不起任何限定作用。
本发明旨在针对网络流量中的恶意攻击行为,提出一种基于核主成分分析的二次特征提取及恶意攻击检测方法,以有效对攻击行为进行特征提取,提供了完善的特征提取模型和恶意攻击检测框架,并且进行了充分的实验,证明了方法的可行性和有效性。
如图1所示,本发明的一种基于核主成分分析的二次特征提取及恶意攻击检测方法,包括:
步骤201采用分层抽样的方法对采集到的网络流量进行抽样处理,以获取更加均衡的训练样本集和测试样本集;
步骤202对原始网络流量数据集进行预处理,以得到更加规范的数据集;
本发明实施案例中预处理的目的在于,一条网络流量数据会由多个特征来表示,但不同的特征之间、特征的量纲与特征值的量级都是不一样的,因此在训练分类模型之前需要对原始网络流量数据样本进行预处理,使不同的特征具有相同的尺度。简而言之,当原始数据在不同维度上的特征的尺度(或单位)不一致时,就需要标准化的步骤对数据进行预处理。
步骤2021采用one-hot方式将采集到的网络流量中的如协议类型、网络服务类型、网络连接状态等字符型特征转换为数值型特征;
步骤2022利用z-score标准化方法对经过数值化处理后的网络流量进行标准化处理;
标准化计算流程包括:(1)计算样本集各属性的平均值
Figure BDA0003114669530000061
(
Figure BDA0003114669530000062
表示第k条数据的平均值)和平均绝对误差Sk(Sk表示第k个属性的平均绝对误差),计算方式分别为:
Figure BDA0003114669530000063
(2)利用
Figure BDA0003114669530000064
对每条数据记录进行标准化度量,获得标准化后每条数据记录中各个属性对应的标准化取值。
步骤2023采用离差标准化方法对经过标准化操作的数据进行归一化,将标准化后的数据转换到[0,1]内,从而让不同属性的数据有可比性和可操作性;
归一化计算流程包括:计算样本数据的最大值与最小值,利用转换函数
Figure BDA0003114669530000065
将数据样本转换到[0,1]内,f'即为归一化后的规范化数据。
通过上述操作,便可得到特征提取模型的规范输入。
步骤203应用基于核主成分分析的二次特征提取方法对预处理后的网络流量进行特征提取,有效剔除原始网络流量数据中存在的冗余信息;
上述的步骤203中,特征提取的步骤如下:
步骤2031将经预处理后的数据样本集表示为大小为n×m的流矩阵Xn×m=[x1,x2,...,xn],其中n为样本集中样本的个数,m为样本特征的维度,xi为样本集的一个列向量;
步骤2032采用高斯径向基核函数将上述流矩阵中的数据样本映射到高维特征空间以生成核矩阵,从而将原始非线性样本数据映射到线性可分的高维特征空间以降低在高维特征空间中的计算量;
上述高斯径向基核函数的计算方式为
Figure BDA0003114669530000066
选择该函数作为核函数的原因在于,该函数在局部范围有较好的性能,其不被样本数量和特征维数约束的优点使得其应用更加广泛,同时径向基核函数有着较少的参数,这样就保证了核函数有较低的复杂度。图4展示了采用不同核函数对识别模型精度的影响。
步骤2033求解步骤2032得到的核矩阵的特征值Y及对应的特征向量,按照降序的方式对特征值进行排序并将各自对应的特征向量进行排序;若计算所得的前l个主成分的累计贡献率不低于预先设定的提取效率,则提取前l个特征值对应的特征向量构成投影矩阵;对于上述所得的投影空间,通过计算得到原始网络流量样本集X在特征空间中的投影;
步骤2034采用线性判别分析方法来计算步骤2033所得特征值Y的类内离散度矩阵Sω与类间离散度矩阵Sb,求解矩阵Sω -1Sb的特征值与特征向量并对特征值按照降序排序,取对应的前p个特征向量构成投影矩阵WLDA=[η12,...,ηp],计算Z=WLDA TY求得特征集Y在WLDA特征空间中的映射,将映射的结果视为对原始数据样本进行特征提取的结果。
上述类内离散度矩阵Sω与类间离散度矩阵Sb计算方法如下所示:
Figure BDA0003114669530000071
Figure BDA0003114669530000072
其中,i代表样本数据的类别编号,N代表样本包含的总类别数量,yi代表经过核主成分分析(KPCA)变换后的每条网络流量数据,μi指的是第i类样本的均值向量,mi指的是第i类样本的数量,μ代表总的均值向量。
步骤204将提取到的特征用于分类模型的训练,对不同的恶意攻击行为进行分类和识别,其构建流程图如图2所示;
上述的步骤204中,分类模型训练的步骤如下:
步骤2041对于训练集样本,通过预处理环节后,利用特征提取模型得到降维后的网络流量特征数据,在特征提取模型后接SVM分类器,对网络流量数据样本进行分类识别得到分类结果;
步骤2042采用支持向量机SVM算法来训练分类模型,由于要对多种类别的攻击进行识别,因此要训练k类分类器;
步骤2043k类分类器的构造采用了基于二叉树的构造方法,由于实验采用的数据集中包含了7类攻击数据,因此需要用到6个SVM分类器。
步骤205根据步骤204所得到的识别结果,得出网络流量恶意攻击检测报告;
本发明主要针对Dos攻击和缓冲区溢出buffer_overflow攻击两种类型的漏洞利用攻击流量进行特征提取,其中Dos攻击我们收集了back、land、neptune、pod、smurf、teardrop六类攻击的异常流量数据。图3展示了实验部分数据集中训练集与测试集的信息。
为使基于核主成分分析的二次特征提取方法在特征提取领域性能得到大幅度提升,本发明提出了许多解决方法。由于核函数的选取对最终的特征提取效果存在一定的影响,因此本发明在实验数据集上通过采用不同的核函数进行实验,以选取出最佳的核函数使我们的L-KPCA_SVM模型分类效果达到最佳。根据先验知识,实验中我们选择保留18个特征向量来构造投影矩阵,对采用不同核函数的L-KPCA方法进行50次实验,图4展示了该条件下对于七种漏洞利用攻击流量样本,采用本节提出的L-KPCA方法,分别尝试四种不同的核函数提取出来的特征对分类效果的影响。
通过观察图4可以很直观地看出,对于七种攻击样本,采用Sigmoid核与径向基RBF核相比线性核与多项式核,能够使模型的分类效果表现更佳。但由于Sigmoid核函数对参数的要求比较高,因此该核函数的应用相较于RBF核函数使用较少。对比之下,采用了RBF核函数的L-KPCA方法能够使识别模型发挥更高的分类效果,且分类精度也更加稳定,同时由于其具有较低的复杂度,因此更加适用于非线性的高维特征空间中的特征提取工作。基于上述分析,本研究最终选取了高斯径向基RBF核作为L-KPCA方法中的核函数来完成将线性不可分样本数据投影到高维特征空间的工作,以使得模型识别效果达到最佳。
在确定核函数之后,本发明又针对最终保留特征个数对分类效果的影响展开了研究。对于L-KPCA方法,保留不同个数的特征构造特征矩阵,观察所提特征对最终分类结果的影响。本文对每组特征进行了50次实验,图5展示了保留不同特征个数时分类模型识别精度的变化曲线。同时作为对比,本文也对传统KPCA方法进行了同样的实验。
由于在特征个数n<4时,传统KPCA与L-KPCA方法取前3个特征组合的分类精确率过低,因此,图中仅对n≥4时的结果进行了展示。从图中可以看出,本发明所提L-KPCA方法在保留特征个数大于6时,分类精度均高于传统KPCA方法,由此可证明L-KPCA方法的有效性。同时该方法在保留前13个特征向量时便已获得较高的精确度,在特征个数为15时,分类精度达到最高。同传统KPCA方法相比,无论在分类精度还是在特征组合中保留特征的个数,L-KPCA方法均有明显的优势。基于上述实验对比,后续实验环节L-KPCA方法均保留前15个特征向量,KPCA方法连续取前18个特征,PCA方法连续取前24个特征。
经过上述参数设置,对于实验采用的七种漏洞利用攻击流量样本,应用本发明所提特征提取模型对七种攻击样本进行特征提取;然后,根据所提特征进行分类模型的训练,最后使用训练出的多分类器完成对网络流量中恶意攻击的识别;同时,为便于验证本发明所提方法的有效性,针对识别结果计算出识别精度、识别召回率及F1-score值,并以此作为特征提取方法的评估标准。此外,为验证本发明所提方法的有效性,设置了多组对比实验,对采集到的网络流量数据样本分别使用原始数据集和经过不同特征提取算法处理后的数据集作为SVM识别模型中分类算法的输入,从精确度、召回率以及F1-score值三方面进行综合对比,实验结果如图6~图12所示。
通过观察图6~图12可知,本发明所提的L-KPCA算法能够使SVM分类器得出更加精确的分类结果,这是由于L-KPCA算法结合了核主成分分析方法和线性判别分析的优势。一方面,所提方法考虑到样本数据的类别信息,使得降维后的数据不仅信息损失降到最低,也保证了分类过程的有效性。另一方面,该方法弥补了KPCA方法选择样本点投影具有最大方差的方向的片面性,结合LDA方法样本分类信息依赖均值的特性,对特征属性进行全面的考虑。这也意味着所提方法能够更加精准的提取与攻击行为更为相关的特征,大大提升了检测系统的检测性能。由此可见,本研究所提方法能够有效的对KPCA方法进行改进,改进后的方法能够使SVM识别模型性能有一定幅度的提升。

Claims (6)

1.一种基于核主成分分析的二次特征提取及恶意攻击检测方法,其特征在于,包括如下步骤:
步骤1,对采集的恶意流量进行分层抽样,以获取更加均衡的训练样本集和测试样本集;
步骤2,使用one-hot方式、z-score标准化方法及离差标准化方法对原始网络流量数据集进行预处理,以得到更加规范的数据集;
步骤3,应用基于核主成分分析的二次特征提取方法对预处理后的网络流量进行特征提取,有效剔除原始网络流量数据中存在的冗余信息;
所述步骤3的具体实现包括如下步骤:
步骤3.1,将经预处理后的数据样本集表示为大小为n×m的流矩阵Xn×m=[x1,x2,...,xn],其中n为样本集中样本的个数,m为样本特征的维度,xi为样本集的一个列向量;
步骤3.2,采用高斯径向基核函数将上述流矩阵中的数据样本映射到高维特征空间以生成核矩阵,从而将原始非线性样本数据映射到线性可分的高维特征空间以降低在高维特征空间中的计算量;
步骤3.3,求解步骤3.2得到的核矩阵的特征值Y及对应的特征向量,按照降序的方式对特征值进行排序并将各自对应的特征向量进行排序;若计算所得的前l个主成分的累计贡献率不低于预先设定的提取效率θ,则提取前l个特征值对应的特征向量构成投影矩阵WKPCA=[ν12,...,νn];对于上述所得的投影空间,通过计算Y=WKPCA TX得到原始网络流量样本集X在特征空间WKPCA中的投影;
步骤3.4,采用线性判别分析方法来计算步骤3.3所得特征值Y的类内离散度矩阵Sω与类间离散度矩阵Sb,求解矩阵Sω -1Sb的特征值与特征向量并对特征值按照降序排序,取对应的前p个特征向量构成投影矩阵WLDA=[η12,...,ηp],计算Z=WLDA TY求得特征集Y在WLDA特征空间中的映射,将映射的结果视为对原始数据样本进行特征提取的结果;
步骤4,将提取到的特征用于分类模型的训练,对不同的恶意攻击行为进行分类和识别;
步骤5,根据步骤4所得到的识别结果,得出网络流量恶意攻击检测报告。
2.如权利要求1所述方法,其特征在于,所述步骤2的具体实现包括如下步骤:
步骤2.1,采用one-hot方式将采集到的原始网络流量中的如协议类型、网络服务类型、网络连接状态等字符型特征转换为数值型特征;
步骤2.2,利用z-score标准化方法对经过数值化处理后的网络流量进行标准化处理,首先计算样本集各属性的平均值
Figure FDA0003991046310000011
Figure FDA0003991046310000012
表示第i条数据的平均值;和平均绝对误差Sk,Sk表示第k个属性的平均绝对误差;然后对每条数据进行标准化度量,从而让标准化后的每条数据记录中的各个属性都对应标准化取值;
步骤2.3,采用离差标准化方法对经过标准化操作的数据进行归一化,将标准化后的数据转换到[0,1]内,从而让不同属性的数据有可比性和可操作性。
3.如权利要求1所述方法,其特征在于,所述步骤4的具体实现包括如下步骤:
步骤4.1,采用步骤2和步骤3对抽样所得训练集进行特征提取,得到网络流量的样本属性子集;
步骤4.2,采用支持向量机算法对前述步骤所得的特征向量组进行分类器的训练,利用上述所得特征属性子集作为SVM算法的输入,并选择径向基函数作为SVM算法的核函数,后续对参数不断进行调整,使得训练出的分类器保持较优的分类效果;
步骤4.3,利用构造好的多分类器实现对测试集中不同的恶意攻击行为的分类和识别。
4.如权利要求2所述方法,其特征在于,标准化计算流程主要包括:
计算样本集各属性的平均值
Figure FDA0003991046310000021
和平均绝对误差Sk
Figure FDA0003991046310000022
表示第k条数据的平均值,Sk表示第k个属性的平均绝对误差,计算方式分别为:
Figure FDA0003991046310000023
其中,n表示样本数量,xik表示第i条数据的第k个属性;
利用
Figure FDA0003991046310000024
对每条数据记录进行标准化度量,获得标准化后每条数据记录中各个属性对应的标准化取值。
5.如权利要求2所述方法,其特征在于,归一化计算流程如下:
计算样本数据的最大值与最小值,利用转换函数
Figure FDA0003991046310000025
将数据样本转换到[0,1]内,f'即为归一化后的规范化数据;
经过归一化操作后获得特征提取方法的输入数据集。
6.如权利要求1所述方法,其特征在于,类内离散度矩阵Sω与类间离散度矩阵Sb的计算方式如下:
Figure FDA0003991046310000026
Figure FDA0003991046310000027
其中,i代表样本数据的类别编号,N代表样本包含的总类别数量,yi代表经过核主成分分析KPCA变换后的每条网络流量数据,μi指的是第i类样本的均值向量,mi指的是第i类样本的数量,μ代表总的均值向量。
CN202110659646.0A 2021-06-15 2021-06-15 一种基于核主成分分析的二次特征提取及恶意攻击识别方法 Active CN113489685B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110659646.0A CN113489685B (zh) 2021-06-15 2021-06-15 一种基于核主成分分析的二次特征提取及恶意攻击识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110659646.0A CN113489685B (zh) 2021-06-15 2021-06-15 一种基于核主成分分析的二次特征提取及恶意攻击识别方法

Publications (2)

Publication Number Publication Date
CN113489685A CN113489685A (zh) 2021-10-08
CN113489685B true CN113489685B (zh) 2023-03-21

Family

ID=77934938

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110659646.0A Active CN113489685B (zh) 2021-06-15 2021-06-15 一种基于核主成分分析的二次特征提取及恶意攻击识别方法

Country Status (1)

Country Link
CN (1) CN113489685B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114205855A (zh) * 2021-10-25 2022-03-18 国网天津市电力公司电力科学研究院 一种面向5g切片的馈线自动化业务网络异常检测方法
CN115242436B (zh) * 2022-06-14 2023-12-01 徐州恒佳电子科技有限公司 一种基于命令行特征的恶意流量检测方法及系统
CN115996135B (zh) * 2022-09-09 2024-03-12 重庆邮电大学 一种基于特征组合优化的工业互联网恶意行为实时检测方法
CN115632875B (zh) * 2022-11-29 2023-04-07 湖北省楚天云有限公司 一种多特征融合实时分析的恶意流量检测方法及系统
CN116242368B (zh) * 2023-05-11 2023-07-25 北京航空航天大学 一种基于偏振光场信息预测的偏振/惯性容错导航方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107977642A (zh) * 2017-12-15 2018-05-01 南京航空航天大学 一种核自适应均值判别分析的高分辨距离像目标识别方法
CN111464459A (zh) * 2020-03-20 2020-07-28 西安交通大学 基于主成分分析和线性判别分析的网络流量特征提取方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110070141B (zh) * 2019-04-28 2021-09-14 上海海事大学 一种网络入侵检测方法
CN110661802A (zh) * 2019-09-27 2020-01-07 湖南大学 一种基于pca-svm算法的慢速拒绝服务攻击检测方法
CN111835707B (zh) * 2020-05-27 2022-12-16 江苏大学 一种基于改进后的支持向量机的恶意程序识别方法
CN112788007A (zh) * 2020-12-30 2021-05-11 海南大学 基于卷积神经网络的DDoS攻击检测方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107977642A (zh) * 2017-12-15 2018-05-01 南京航空航天大学 一种核自适应均值判别分析的高分辨距离像目标识别方法
CN111464459A (zh) * 2020-03-20 2020-07-28 西安交通大学 基于主成分分析和线性判别分析的网络流量特征提取方法

Also Published As

Publication number Publication date
CN113489685A (zh) 2021-10-08

Similar Documents

Publication Publication Date Title
CN113489685B (zh) 一种基于核主成分分析的二次特征提取及恶意攻击识别方法
CN110391958B (zh) 一种对网络加密流量自动进行特征提取和识别的方法
Veenman Statistical disk cluster classification for file carving
Wang et al. Processing of massive audit data streams for real-time anomaly intrusion detection
Aburomman et al. Ensemble of binary SVM classifiers based on PCA and LDA feature extraction for intrusion detection
CN110717554B (zh) 图像识别方法、电子设备及存储介质
KR101731626B1 (ko) 트리 기반 앙상블 분류기를 이용한 정보 예측 방법 및 시스템
Zois et al. A comprehensive study of sparse representation techniques for offline signature verification
WO2020164278A1 (zh) 一种图像处理方法、装置、电子设备和可读存储介质
Zhong et al. A comparative study of image classification algorithms for Foraminifera identification
CN114492768A (zh) 一种基于小样本学习的孪生胶囊网络入侵检测方法
Wang et al. Multi-task Joint Sparse Representation Classification Based on Fisher Discrimination Dictionary Learning.
CN115811440B (zh) 一种基于网络态势感知的实时流量检测方法
Deng et al. Citrus disease recognition based on weighted scalable vocabulary tree
CN115577357A (zh) 一种基于堆叠集成技术的Android恶意软件检测方法
CN106203508A (zh) 一种基于Hadoop平台的图像分类方法
CN111464529A (zh) 一种基于聚类集成的网络入侵检测方法及系统
Zhou et al. Atomic action features: A new feature for action recognition
Son et al. Data reduction for instance-based learning using entropy-based partitioning
Sameer et al. Source camera identification model: Classifier learning, role of learning curves and their interpretation
CN113920573B (zh) 基于对抗学习的人脸变化解耦的亲属关系验证方法
Alam et al. Deepmalware: a deep learning based malware images classification
CN113159181B (zh) 基于改进的深度森林的工业控制系统异常检测方法和系统
CN114021637A (zh) 一种基于度量空间下去中心化应用加密流量分类方法及装置
CN114139617A (zh) 一种基于深度聚类的新类目标识别方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant