CN114818850A - 基于聚类压缩的网络流空间映射表征方法、装置和存储介质 - Google Patents

基于聚类压缩的网络流空间映射表征方法、装置和存储介质 Download PDF

Info

Publication number
CN114818850A
CN114818850A CN202210225791.2A CN202210225791A CN114818850A CN 114818850 A CN114818850 A CN 114818850A CN 202210225791 A CN202210225791 A CN 202210225791A CN 114818850 A CN114818850 A CN 114818850A
Authority
CN
China
Prior art keywords
data
sample
network
layer
space
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210225791.2A
Other languages
English (en)
Inventor
郭世泽
王小娟
何明枢
任传伦
俞赛赛
张宇
阳柳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Cetc Cyberspace Security Research Institute Co ltd
Beijing University of Posts and Telecommunications
CETC 30 Research Institute
Original Assignee
Cetc Cyberspace Security Research Institute Co ltd
Beijing University of Posts and Telecommunications
CETC 30 Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Cetc Cyberspace Security Research Institute Co ltd, Beijing University of Posts and Telecommunications, CETC 30 Research Institute filed Critical Cetc Cyberspace Security Research Institute Co ltd
Priority to CN202210225791.2A priority Critical patent/CN114818850A/zh
Publication of CN114818850A publication Critical patent/CN114818850A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2135Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1425Traffic logging, e.g. anomaly detection

Abstract

本发明提供了一种基于聚类压缩的网络流空间映射表征方法、装置和存储介质,所述方法包括:训练样本获取步骤,用于获取不同网络空间行为类别训练样本形成样本集;对训练样本集中各行为类别的训练样本进行聚类;将样本空间中的子类别样本数据输入至基于类间间距最大化以及类内间距最小化原则创建的多层映射网络模型,从模型的第一层开始逐层计算并更新包括扩张因子和压缩因子在内的模型参数,并基于更新的模型参数生成用于在测试阶段计算压缩因子权重并对结果进行加权的筛选器;测试样本获取步骤;测试步骤,将得到的样本集合输入至经训练阶段训练后的多层映射网络模型,输出空间映射矩阵。

Description

基于聚类压缩的网络流空间映射表征方法、装置和存储介质
技术领域
本发明涉及网络安全技术领域,尤其涉及一种基于聚类压缩的网络流空间映射表征方法、装置和存储介质。
背景技术
网络表征是利用结构化数据对不同的网络空间行为进行表征,从而可以基于表征结果进行更深入分析或检测等。基于异常的检测技术是网络防御中常用的检测技术,通过提取原始网络流中的不同数据特征以刻画网络行为,来进行后续的入侵检测等任务,常见的网络流数据特征分析工具例如有Wireshark和CICFlowMeter等。随着网络环境的复杂化,网络攻击趋于隐蔽,原始网络流的数据特征(原始特征)在网络表征任务上能力有限,从网络网络流中提取原始特征已不能很好的表征这些网络行为。为了提高原始特征对网络行为的表达性,现有的一些研究方法是借助机器学习或深度学习自动挖掘的数据内部特征,其中机器学习中可以根据不同算法的特点挖掘数据特征信息,例如利用GBDT+LR进行CTR点击率预估;在深度学习中,通过卷积、池化等操作可以不断提取数据的深度特征,这些深度特征的可分离度相对较高能很好的实现数据表征。
但是,现有大多数机器学习算法都是直接将挖掘的信息应用于分类或回归等任务,无法将数据特征以同构的方式呈现出来,而深度学习作为一种端到端的“黑盒”模型无法解释深度特征与原始数据间的关系,不具备可解释性。这些问题限制了机器学习与深度学习在实际业务场景中关于数据表征任务的应用。
发明内容
为了解决现有技术中存在的问题,本发明提供了一种基于聚类压缩的网络流空间映射表征方法和装置,通过数据的压缩和分类原则构建了一种多层映射模型,将复杂退分布化的原始特征按照不同网络空间行为类别映射到不同的独立子空间中,来提高网络网络流数据对网络空间行为的表达性。
本发明的一方面,提供一种基于聚类压缩的网络流空间映射表征方法,该方法包括以下步骤:
该方法包括训练阶段和测试阶段;
训练阶段包括以下步骤:
训练样本获取步骤,用于获取不同网络空间行为类别训练样本形成样本集,所述不同网络空间行为类别训练样本为由捕获的不同网络空间行为类别的网络流数据中提取的预定维度数的特征生成不同行为类别的数值矩阵;
聚类步骤:利用聚类算法对训练样本集中各行为类别的训练样本进行聚类,将每一行为类别的样本聚类为预定的簇数,基于不同行为类别的各个簇生成样本空间中的子类别样本数据;
多层映射网络模型构建步骤:将样本空间中的子类别样本数据输入至基于类间间距最大化以及类内间距最小化原则创建的多层映射网络模型,从模型的第一层开始逐层计算并更新包括扩张因子和压缩因子在内的模型参数,并基于更新的模型参数生成用于在测试阶段计算压缩因子权重并对结果进行加权的筛选器,其中,所述扩张因子用于增大整体样本空间的类间间距,所述压缩因子用于减小各类别样本空间的类内间距;
测试阶段包括以下步骤:
测试样本获取步骤,用于获得样本空间中数值矩阵形式的预定数量的测试样本;
测试步骤,将得到的样本集合输入至经训练阶段训练后的多层映射网络模型,输出空间映射矩阵。
在本发明一些实施方式中,所述聚类算法为K-means聚类算法;
所述K-means聚类算法的输入为单个行为类别的数值矩阵以及当前类别的聚类簇数,所述利用聚类算法对获得的各行为类别的数值矩阵进行聚类包括:
从各行为类别的数值矩阵形成的聚类样本集中随机选择数量为预定的簇数的样本分别作为当前类别中各个簇的均值向量;
根据当前行为类别的各样本到每个均值向量的距离将样本划分到最近的均值向量所在的簇内;
基于当前划分的簇重新计算相应的簇的均值向量;
基于重新计算的均值向量不断迭代聚类,直至达到最大迭代轮数或均值向量不再变化。
在本发明一些实施方式中,所述方法还包括:将输出的流谱空间矩阵中的各个子空间矩阵数据输出给下游网络流表征任务。
在本发明一些实施方式中,所述扩张因子表示为:
Figure BDA0003535610830000031
所述压缩因子表示为:
Figure BDA0003535610830000032
其中,矩阵
Figure BDA00035356108300000312
为第l层的输入数据
Figure BDA00035356108300000311
的扩张因子,
Figure BDA0003535610830000033
为第l层的输入数据
Figure BDA00035356108300000313
中第j类样本的压缩因子,
Figure BDA0003535610830000034
∈为误差率,
Figure BDA00035356108300000314
表示多层映射网络模型中第l层的输入矩阵,
Figure BDA0003535610830000035
表示矩阵
Figure BDA00035356108300000315
的伴随矩阵,I为单位矩阵,n为样本数据的特征数量,m表示样本空间
Figure BDA00035356108300000316
中的样本总数,
Figure BDA0003535610830000036
trj)为矩阵Πj的迹,Πj为用于筛选第j类的样本数据的一组对角线矩阵。
在本发明一些实施方式中,所述筛选器被构建为:
Figure BDA0003535610830000037
其中,
Figure BDA0003535610830000038
为筛选器,表示第l层的输出数据被筛选为第j各类别的概率,λ为常数。
在本发明一些实施方式中,训练好的多层映射网络模型中每一层的输出数据满足以下公式:
Figure BDA0003535610830000039
其中,η为学习率,γj为在训练阶段基于以下公式计算得到的:
Figure BDA00035356108300000310
其中,trj)为矩阵Πj的迹,代表类别为j的样本数量。
在本发明的另一方面,在生成对应行为类别的数值矩阵之前,所述方法还包括:
在所述捕获的不同网络空间行为类别的网络流数据为从网络环境中捕获的原始流量包数据的情况下,通过主成分分析法或PCA降维方式减小特征维度;
在所述捕获的不同网络空间行为类别的网络流数据为特征工程得到的特征集的情况下,根据分类任务中的特征重要度删除部分特征来减小特征维度。
在本发明一些实施例中,在测试阶段,所述多层映射网络模型的输入数据为n×m矩阵,扩张因子和压缩因子为m×m矩阵,输出数据为n×n矩阵,其中n为样本数据的特征数量,m为样本空间Z中的样本总数。
本发明的另一方面提供了一种基于聚类压缩的网络流空间映射表征装置,该装置包括处理器和存储器,所述存储器中存储有计算机指令,所述处理器用于执行所述存储器中存储的计算机指令,当所述计算机指令被处理器执行时该装置实现如前所述方法的步骤。
本发明的另一方面提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如前所述方法的步骤。
本发明提供的基于聚类压缩的网络流空间映射表征方法和装置,能够在提升网络流表征能力的任务中,从数据压缩和分类两个原则出发,通过空间映射的方式实现了将原本复杂、退分布化的流量数据按照网络行为类别不同映射到表征能力更强的同构空间中。本发明采用的模型通过设计优化目标正向构建,这使得流谱构建过程具有高度的可解释性。
本领域技术人员将会理解的是,能够用本发明实现的目的和优点不限于以上具体所述,并且根据以下详细说明将更清楚地理解本发明能够实现的上述和其他目的。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,并不构成对本发明的限定。在附图中:
图1为本发明一实施例中基于聚类压缩的网络流空间映射表征方法的流程示意图。
图2为本发明一实施例中基于聚类压缩的网络流空间映射模型的总体架构图。
图3为本发明一实施例中多层映射模型的结构示意图。
图4为本发明另一实施例中原始流量特征(a)与流谱特征(b)热力图对比示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施方式和附图,对本发明做进一步详细说明。在此,本发明的示意性实施方式及其说明用于解释本发明,但并不作为对本发明的限定。
在此,还需要说明的是,为了避免因不必要的细节而模糊了本发明,在附图中仅仅示出了与根据本发明的方案密切相关的结构和/或处理步骤,而省略了与本发明关系不大的其他细节。
应该强调,术语“包括/包含/具有”在本文使用时指特征、要素、步骤或组件的存在,但并不排除一个或更多个其它特征、要素、步骤或组件的存在或附加。
为了解决现有技术中进行网络表征时机器学习算法难以以同构的方式呈现数据特征以及深度学习获得的深度特征与原始数据间的关系不具备可解释性等问题。本发明通过数据的压缩和分类原则构建了一种可呈现同构空间映射的多层映射模型,本发明将复杂退分布化的原始特征按照不同网络空间行为类别映射到不同的独立子空间中,提高了网络网络流数据对网络空间行为的表达性。在本发明中将这个由原始特征空间映射得到的同构空间称为“流谱空间”,这种流谱空间具有高度可解释性。同时,本发明在空间映射的前置引入聚类方法,以无监督的方式提取原始数据内部的分布特征,并结合数据分布特点构建后续空间映射模型,相比于直接按照行为标签进行空间映射有更好的效果。
在本发明实施例中,采用空间映射的方式提升网络流数据对于不同网络空间行为的表征能力。空间映射是指两个空间之间元素相互“对应”的关系。在原始数据空间中进行数据分析往往会因为数据结构的复杂多样而非常困难,若能找到某种对应关系将数据映射到其他空间中便可能大大降低数据分析任务的难度。通过对网络流数据进行同构映射,可以将原本分布复杂的特征按照不同网络行为类别映射到相对独立的子空间中。但如何实现同构映射,是一个难题,也是本发明旨在要解决的问题。在本发明中,网络空间行为指的是用户根据不同需求在网络环境中形成的操作集合。在本发明实施例中,采用不同攻击类型作为不同的网络空间行为类别,但本发明并不限于此。
在本发明实施例中,按照多层映射网络模型的处理流程可分为训练和测试两个阶段,按照多层映射网络模型的结构可分为四个部分:数据处理部分、聚类部分、多层映射网络模型构建(模型训练)以及测试部分,其中数据处理部分是训练阶段和测试阶段都可能涉及的部分,聚类部分是为了对模型进行训练而执行的部分,在测试阶段无需执行聚类步骤,因此本发明实施例中聚类部分和模型训练部分属于训练阶段,测试部分属于测试阶段。此外,测试阶段的输出数据可进一步被发送给下游任务部分。下面将分别对训练阶段和测试阶段进行描述。
图1为本发明一实施例中提出的基于聚类压缩的网络流空间映射表征方法的流程示意图,如图1所示,该方法包括训练阶段和测试阶段,训练阶段包括步骤S110-S130,测试阶段包括步骤S140-S150。
步骤S110,训练样本获取步骤,用于获取不同网络空间行为类别训练样本形成样本集,所述不同网络空间行为类别训练样本为由捕获的不同网络空间行为类别的网络流数据中提取的预定维度数的特征生成不同行为类别的数值矩阵。
多层映射网络模型的输入数据为特征组成的数值矩阵,可通过网络流捕获工具捕获以太网数据包并通过特征提取工具(如CICFlowMeter)将捕获的数据流按五元组(协议、源IP地址、目的IP地址、源端口和目的端口)拆分成一条条样本数据并提取数据特征,并根据捕获的网络行为可区分数据的不同类别。在本发明一实施例中,采用六种不同类别的网络空间行为:Reconnaissance(侦查攻击)、Fuzzers(模糊测试)、Exploits(漏洞攻击)、Generic(通用攻击)、DoS和Normal(正常),其中前五种为异常网络行为,样本数据采用来自于基准数据集UNSW-NB15的样本数据。
从捕获的数据流中提取特征后,要得到数值矩阵,优选对提取的特征进行额外的数据处理操作。作为示例,数据处理操作可包括:去除唯一属性(例如去除属性唯一的特征)、处理缺失值(去掉值缺失的特征)、对属性进行编码、数据标准化及正则化等。其中,编码部分采取顺序编码的方式,即通过统计非数值型特征种类按照自然数顺序进行编码,这种编码不会增加数据维度,适合模型的训练;关于缺省值的处理可通过均值插补完成,即统计所有样本数据在该类特征下的平均值或中位数来插补缺失的值。由于这些数据处理操作为对提取的特征进行的常见操作,在此不再赘述。该数据处理步骤为可选步骤,在提取的特征符合要求的情况下,也可以省略。
步骤S120,聚类步骤:利用聚类算法对训练样本集中各行为类别的训练样本进行聚类,将每一行为类别的样本聚类为预定的簇数,基于不同行为类别的各个簇生成样本空间中的子类别样本数据。
在本发明一实施例中,利用基于原型的K-means聚类算法来挖掘数据的内在分布结构,即对数据处理后得到的数值矩阵进行聚类处理。对不同类别各自采用一次聚类算法,聚类簇数设为k,假设网络流量在捕获时具有N个行为类别,则最后得到的样本子类别共kN个,因为子类别间数据分布存在一定差异,故将这些数据视为kN个不同行为类别的网络流数据作为样本进行后续模型训练进而达到数据增强的效果。
K-means算法针对输入样本集D={x1,x2,…,xN},旨在找到一组“原型”来刻画数据的聚类结构,算法输入为无标签的样本集D和设定需要划分的聚类簇数k,输出为按照最小化平方误差的准则划分的簇
Figure BDA0003535610830000073
聚类中平方误差的计算公式如下:
Figure BDA0003535610830000071
其中,μi代表第i个簇Ci的均值向量,x为簇内的样本数据。最小化上式需要找到数据集内所有可能的簇划分,这往往是一个NP难问题,因此,在本发明实施例中,实际应用的K-means算法采用贪心策略去实现,通过迭代优化实现近似求解。首先,从样本集D中随机选择k个样本分别作为簇Ci的均值向量μi={μ12,…,μk},然后根据样本数据到每个均值向量的距离,如欧几里德距离
Figure BDA0003535610830000072
将样本划分到最近的均值向量所在的簇内,由划分的簇重新计算相应的簇均值向量,不断迭代更新直至达到最大迭代轮数或均值向量不再变化。
在对样本数据进行聚类后,可以基于聚类后得到的各个簇生成子类别样本数据,将这些子类别样本数据作为样本空间中的样本来训练多层映射网络模型。
步骤S130,多层映射网络模型构建步骤。
本步骤中,将样本空间中的子类别样本数据输入至基于类间间距最大化以及类内间距最小化原则创建的多层映射网络模型,从模型的第一层开始逐层计算并更新包括扩张因子和压缩因子在内的模型参数,并基于更新的模型参数生成用于在测试阶段计算压缩因子权重并对结果进行加权的筛选器,其中,扩张因子用于增大整体样本空间的类间间距,压缩因子用于减小各类别样本空间的类内间距。
通常来说,能否将不同类别进行有效分类取决于特征分量间的可分离度,对于网络流数据来说,由于其特征的表达性的不足,往往导致其特征分布的可分离性不好,本发明实施例中,通过将复杂结构的数据往往映射到一个低秩可分的同构空间中,减小各类别样本空间的类内间距来提高特征的表达性。这种将一个复杂退分布化的数据映射到一个低秩高表达的同构空间中的过程即为数据的压缩过程。
在本发明实施例中,多层映射网络模型搭建的过程分为三个部分:首先,将聚类后得到的kN个不同行为类别的网络流数据集视为kN个不同类别组成的样本集合,按照“类间间距最大化,类内间距最小化”的原则构建多层映射网络,初始化模型各网络层的参数
Figure BDA0003535610830000086
Figure BDA0003535610830000081
(
Figure BDA0003535610830000087
为网络层数,j为类别标签)。其次,根据模型输入数据从第一层
Figure BDA0003535610830000088
开始逐层计算并更新模型各网络层的参数,完成每层网络的构建后,将训练数据通过当前网络得到下一层网络的输入。最后,在完成了所有层的网络构建后,存储模型参数以供后续测试及下游任务,该部分属于测试阶段,将在后面描述,在此首先描述模型参数的初始化和参数更新。
本发明借用率失真的方法度量样本特征空间大小。在率失真的表达式中,用n代表样本数据的特征数量,m代表样本空间Z中的样本总数,则在设定误差率下,用于编码样本集合Z中的每个样本数据所需的平均比特数表示如下:
Figure BDA0003535610830000082
其中,R(Z,∈)表示在误差率∈下,用于编码样本集合Z中的每个样本数据所需的平均比特数,det()表示求方阵
Figure BDA0003535610830000083
的行列式(Determinant);I为单位矩阵;Z*表示矩阵Z的伴随矩阵。
借助率失真的度量方法,可以按照“类间间距最大化,类内间距最小化”的原则构建映射模型的优化目标如下式:
Figure BDA0003535610830000084
其中,ΔR表示模型的优化目标,根据模型构建原则,优化目标越大则代表更好的行为表征能力;Πj为用于筛选某一类(类别标签为j)的样本数据的一组对角线矩阵,只有当类别为j的样本数据所在位置为1,其余位置为0;trj)为矩阵Πj的迹,代表类别为j的样本数量。映射目标由两部分组成,公式前半部分R用于衡量类间间距(由率失真表达式所得),而后者Rc用于衡量类内间距,是根据率失真公式分别计算不同类别的率失真大小,再根据不同样本类别在样本集合中所占的比例加权所得。
对输入数据求偏导数,则如下式所示:
Figure BDA0003535610830000085
其中,
Figure BDA0003535610830000091
结合优化目标的设计原则,本发明将
Figure BDA00035356108300000911
看作输入数据
Figure BDA00035356108300000912
的“扩张因子”,其为一个n×n维的矩阵,也即通过左乘一个n×n维的矩阵
Figure BDA00035356108300000913
来增大整体样本空间的类间间距,
Figure BDA00035356108300000914
表示网络层数;同时将
Figure BDA0003535610830000092
看作输入数据
Figure BDA00035356108300000915
中第j类样本的“压缩因子”,其为一个n×n维的矩阵,也即通过左乘一个维度为的n×n矩阵
Figure BDA0003535610830000093
并右乘用于筛选类别的Πj来减小不同类别样本间的类内间距。通过
Figure BDA00035356108300000916
Figure BDA0003535610830000094
便可以构建多层映射模型的各个层。
在本发明实施例中,初始构建的多层映射网络模型的参数
Figure BDA00035356108300000917
Figure BDA0003535610830000095
为初始化的参数,通过利用训练样本对多层映射网络模型进行训练,可以更新参数
Figure BDA00035356108300000918
并可结合Πj计算出每个类别的
Figure BDA0003535610830000096
通过不断堆叠映射结构可达到构建多层映射模型的目的。
图2为为本发明一实施例中基于聚类压缩的网络流空间映射模型的总体架构图。图3为多层映射模型的结构示意图。如图2和图3所示,流量数据经数据处理得到特征组成的数值矩阵后,在训练阶段,对获得的N个类别的数据矩阵样本进行聚类获得kN个子类别数据样本。将kN个子类别数据样本作为kN个不同类别组成的样本集合,输入至初始构建的网络流空间映射模型中,基于聚类标签从模型的第1层开始逐层计算并更新模型参数
Figure BDA00035356108300000919
Figure BDA0003535610830000097
每一层的输出作为下一层的输入。最后一层的输出便为体现了“类间间距最大化,类内间距最小化”的原则的n×n维同构空间(流谱空间)矩阵,其中n为样本数据的特征维度。更具体地,各层(如第l层)的输出数据可表示为:
Figure BDA0003535610830000098
其中,η为学习率,其取值例如可以取100-200之间,但本发明并不限于此;γj在训练阶段基于以下公式计算得到:
Figure BDA0003535610830000099
在测试阶段,多层映射网络模型的输入数据为n×m矩阵,扩张因子和压缩因子为m×m矩阵,输出数据为n×n矩阵,其中n为样本数据的特征数量,m为样本空间Z中的样本总数。
本发明实施例中,对模型参数
Figure BDA00035356108300000920
Figure BDA00035356108300000910
更新完毕后,便得到训练好的多层映射网络模型,于是进入测试阶段。
步骤S140,测试样本获取步骤,用于获得样本空间中数值矩阵形式的预定数量的测试样本。
本步骤与步骤S110基本相同,在此不再赘述。
在本发明实施例中,在测试阶段,测试样本不再经过聚类操作,而是直接将测试样本集(样本空间)中的测试样本作为多层映射网络模型的输入。
步骤S150,测试步骤,将得到的样本集合输入至经训练阶段训练后的多层映射网络模型,输出空间映射矩阵。
当模型用于推理阶段(测试阶段)时,将所有类别的权重参数
Figure BDA0003535610830000101
与样本数据相乘,相乘结果代表在压缩因子
Figure BDA0003535610830000102
的作用下样本类内间距的“压缩程度”。此外,在测试阶段,由于未经聚类步骤来对类别进行聚类,上面公式(5)中用于筛选类别的对角线矩阵Πj的值是不可知的,对此,本发明利用softmax函数计算压缩因子权重参数
Figure BDA0003535610830000103
并对计算结果进行加权,从而构造出一个类似于Пj的筛选器
Figure BDA0003535610830000104
Figure BDA0003535610830000105
其中,λ为常数,实验中设为500,但本发明并不限于此,还可以设置为更大或更小的数,该筛选器用于表示第l层的输出数据被筛选为第j各类别的概率。结合这个筛选器,在模型的推理阶段用于衡量类内间距的部分做出相应变换:
Figure BDA0003535610830000106
其中,所以,最终对于每一层(如第l层)输出数据可表示为:
Figure BDA0003535610830000107
由此,本发明通过在网络异常检测任务中构建了一种多层映射模型,将复杂、退分布化的原始特征映射到一个同构空间(称为流谱空间)中,在此空间中不同的网络行为被划分到几个独立的子空间中,为此具有更高的表征能力。此外,不同于深度学习这种“黑盒”模型,本发明采用的模型通过设计优化目标正向构建,这使得流谱构建过程具有高度的可解释性。也即,本发明提高了原始网络流数据对不同网络行为的表征能力。
基于本发明得到的同构的流谱统建,本发明能更好的提取数据的内在分布并应用于网络流表征任务中。采用一种基于无监督学习的数据增强方案,在模型前置引入无监督技术挖掘同类数据间的分布特征,将同类网络行为的不同聚类结果视为不同行为类别完成后续流谱的构建任务,进一步提升了流谱对于网络行为的表征能力。
在完成模型构建后直接将测试数据送入模型完成同构空间的映射,得到原始数据到流谱的映射。在每一层的网络映射后,数据在优化目标上的表现都更好,即在新的同构空间内,相比于复杂退分布化的原始特征,样本数据根据类别的不同、同类间的分布差异更具表达性。根据流谱的这些特性,可以继续完成后续的下游任务,如谱线可视化分析、流谱可分离性研究等。
本发明还具有一定的鲁棒性和可迁移性。通过数据压缩与分类原则构建的流谱理论在不同场景都能表现出相当的有效性,将模型应用至多个不同的网络网络流数据集上(CICIDS2017和CICIDS2018)并从两个角度进行效果分析:从可分离度的角度,通过距离度量指标量化类间、类内距离来判断映射后的流谱数据是否相比于原始流量数据具有更高的表征能力;从可视化分析的角度,通过热力图的方式将样本集类间和类内的相似度可视化,以一种直观的角度分析不同网络行为间可分离度的变化。结果表现出流谱模型具有一定的分类性能并有很不错的鲁棒性和可迁移性。
关于度量指标的量化分析和可视化分析的效果图如下所示:
表度量指标量化分析。
Figure BDA0003535610830000111
表中指标μ为表现映射前后数据区分度的综合度量指标μ。其中,对于率失真来说指标越大样本距离越远,所以
Figure BDA0003535610830000112
对于余弦相似度来说指标越大样本距离越近,所以
Figure BDA0003535610830000113
从图4中的(a)中可以看出,原始流量特征仅在类别为Generic(A4)和DoS(A5)的数据间有较明显的区分度,很难在途中找到其他的数据块。而在图4中(b)所示的流谱特征的热力图中,很明显的发现对角线外的部分区域颜色的减弱,在对角线上各个数据块相对图4中(a)图区分度更高,这表明数据间独立性的增强。图4中(b)的整体颜色较图4中(a)图更浅,这是因为模型目标函数的设计初衷包含两个部分:扩大类间间距和减小类内间距,而一般流量数据的特征分布较为稀疏(较多特征值为0),这导致在原始特征空间在映射过程中更倾向于扩大类间间距以达到目标函数最大化的目的。在实际网络行为表征的任务中,我们一般只关心如何将不同网络行为区分开,这需要抛开网络数据中大部分相似或相同的特征量并寻找不同行为类别之间的差异,从这个角度我们设计的流谱理论是符合实际应用需求的。
综上所述,在提升网络流表征能力的任务中,从数据压缩和分类两个原则出发,通过空间映射的方式实现了一种可解释的构造方法将原本复杂、退分布化的流量数据按照网络行为类别不同映射到表征能力更强的同构空间中。
在本发明的一些实施例中,模型参数(如聚类簇数、网络层数等)选取必须根据网络流数据的分布特点来决定,即根据不同网络环境选择不同的模型参数,否则十分影响模型训练效率,同时也不能充分利用数据的分布特点从而达不到理想的数据表征能力。
在本发明的一些实施例中,输入特征的维度需要考考虑,因为模型是在原始数据基础上完成构建,而过大的数据维度会导致模型规模的增大。对于从网络环境中捕获的原始流量包数据可以通过主成分分析法、PCA降维等方式减小特征维度;对于特征工程得到的特征集,可以根据分类任务中的特征重要度删除不重要的特征来减小特征维度。
与上述方法相应地,本发明还提供了一种基于聚类压缩的网络流空间映射表征装置,该装置包括处理器和存储器,所述存储器中存储有计算机指令,所述处理器用于执行所述存储器中存储的计算机指令,当所述计算机指令被处理器执行时该装置实现如前所述方法的步骤。
还发明还提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如前所述方法的步骤。
本领域普通技术人员应该可以明白,结合本文中所公开的实施方式描述的各示例性的组成部分、系统和方法,能够以硬件、软件或者二者的结合来实现。具体究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。当以硬件方式实现时,其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时,本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中,或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路,等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。
还需要说明的是,本发明中提及的示例性实施例,基于一系列的步骤或者装置描述一些方法或系统。但是,本发明不局限于上述步骤的顺序,也就是说,可以按照实施例中提及的顺序执行步骤,也可以不同于实施例中的顺序,或者若干步骤同时执行。
本发明中,针对一个实施方式描述和/或例示的特征,可以在一个或更多个其它实施方式中以相同方式或以类似方式使用,和/或与其他实施方式的特征相结合或代替其他实施方式的特征。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明实施例可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于聚类压缩的网络流空间映射表征方法,其特征在于,该方法包括训练阶段和测试阶段;
训练阶段包括以下步骤:
训练样本获取步骤,用于获取不同网络空间行为类别训练样本形成样本集,所述不同网络空间行为类别训练样本为由捕获的不同网络空间行为类别的网络流数据中提取的预定维度数的特征生成不同行为类别的数值矩阵;
聚类步骤:利用聚类算法对训练样本集中各行为类别的训练样本进行聚类,将每一行为类别的样本聚类为预定的簇数,基于不同行为类别的各个簇生成样本空间中的子类别样本数据;
多层映射网络模型构建步骤:将样本空间中的子类别样本数据输入至基于类间间距最大化以及类内间距最小化原则创建的多层映射网络模型,从模型的第一层开始逐层计算并更新包括扩张因子和压缩因子在内的模型参数,并基于更新的模型参数生成用于在测试阶段计算压缩因子权重并对结果进行加权的筛选器,其中,所述扩张因子用于增大整体样本空间的类间间距,所述压缩因子用于减小各类别样本空间的类内间距;
测试阶段包括以下步骤:
测试样本获取步骤,用于获得样本空间中数值矩阵形式的预定数量的测试样本;
测试步骤,将得到的样本集合输入至经训练阶段训练后的多层映射网络模型,输出空间映射矩阵。
2.根据权利要求1所述的方法,其特征在于,所述聚类算法为K-means聚类算法;
所述K-means聚类算法的输入为单个行为类别的数值矩阵以及当前类别的聚类簇数,所述利用聚类算法对获得的各行为类别的数值矩阵进行聚类包括:
从各行为类别的数值矩阵形成的聚类样本集中随机选择数量为预定的簇数的样本分别作为当前类别中各个簇的均值向量;
根据当前行为类别的各样本到每个均值向量的距离将样本划分到最近的均值向量所在的簇内;
基于当前划分的簇重新计算相应的簇的均值向量;
基于重新计算的均值向量不断迭代聚类,直至达到最大迭代轮数或均值向量不再变化。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:将输出的流谱空间矩阵中的各个子空间矩阵数据输出给下游网络流表征任务。
4.根据权利要求1所述的方法,其特征在于,
所述扩张因子表示为:
Figure FDA0003535610820000021
所述压缩因子表示为:
Figure FDA0003535610820000022
其中,矩阵
Figure FDA0003535610820000023
为第l层的输入数据
Figure FDA0003535610820000024
的扩张因子,
Figure FDA0003535610820000025
为第l层的输入数据
Figure FDA0003535610820000026
中第j类样本的压缩因子,
Figure FDA0003535610820000027
∈为误差率,
Figure FDA0003535610820000028
表示多层映射网络模型中第l层的输入矩阵,
Figure FDA0003535610820000029
表示矩阵
Figure FDA00035356108200000210
的伴随矩阵,I为单位矩阵,n为样本数据的特征数量,m表示样本空间
Figure FDA00035356108200000211
中的样本总数,
Figure FDA00035356108200000212
tr(Πj)为矩阵Πj的迹,Πj为用于筛选第j类的样本数据的一组对角线矩阵。
5.根据权利要求4所述的方法,其特征在于,所述筛选器被构建为:
Figure FDA00035356108200000213
其中,
Figure FDA00035356108200000214
为筛选器,表示第l层的输出数据被筛选为第j各类别的概率,λ为常数。
6.根据权利要求5所述的方法,其特征在于,训练好的多层映射网络模型中每一层的输出数据满足以下公式:
Figure FDA00035356108200000215
其中,η为学习率,γj为在训练阶段基于以下公式计算得到的:
Figure FDA00035356108200000216
其中,tr(Πj)为矩阵Πj的迹,代表类别为j的样本数量。
7.根据权利要求1所述的方法,其特征在于,在生成对应行为类别的数值矩阵之前,所述方法还包括:
在所述捕获的不同网络空间行为类别的网络流数据为从网络环境中捕获的原始流量包数据的情况下,通过主成分分析法或PCA降维方式减小特征维度;
在所述捕获的不同网络空间行为类别的网络流数据为特征工程得到的特征集的情况下,根据分类任务中的特征重要度删除部分特征来减小特征维度。
8.根据权利要求1所述的方法,其特征在于,在测试阶段,所述多层映射网络模型的输入数据为n×m矩阵,扩张因子和压缩因子为m×m矩阵,输出数据为n×n矩阵,其中n为样本数据的特征数量,m为样本空间Z中的样本总数。
9.一种基于聚类压缩的网络流空间映射表征装置,包括处理器和存储器,其特征在于,所述存储器中存储有计算机指令,所述处理器用于执行所述存储器中存储的计算机指令,当所述计算机指令被处理器执行时该装置实现如权利要求1至8中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至8中任一项所述方法的步骤。
CN202210225791.2A 2022-03-07 2022-03-07 基于聚类压缩的网络流空间映射表征方法、装置和存储介质 Pending CN114818850A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210225791.2A CN114818850A (zh) 2022-03-07 2022-03-07 基于聚类压缩的网络流空间映射表征方法、装置和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210225791.2A CN114818850A (zh) 2022-03-07 2022-03-07 基于聚类压缩的网络流空间映射表征方法、装置和存储介质

Publications (1)

Publication Number Publication Date
CN114818850A true CN114818850A (zh) 2022-07-29

Family

ID=82528419

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210225791.2A Pending CN114818850A (zh) 2022-03-07 2022-03-07 基于聚类压缩的网络流空间映射表征方法、装置和存储介质

Country Status (1)

Country Link
CN (1) CN114818850A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115455258A (zh) * 2022-09-14 2022-12-09 中国电子科技集团公司第十五研究所 一种网络空间语言描述与分析方法及装置
CN115658307A (zh) * 2022-10-26 2023-01-31 中国人民大学 一种基于压缩数据直接计算的智能负载处理方法和系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115455258A (zh) * 2022-09-14 2022-12-09 中国电子科技集团公司第十五研究所 一种网络空间语言描述与分析方法及装置
CN115658307A (zh) * 2022-10-26 2023-01-31 中国人民大学 一种基于压缩数据直接计算的智能负载处理方法和系统
CN115658307B (zh) * 2022-10-26 2023-04-18 中国人民大学 一种基于压缩数据直接计算的智能负载处理方法和系统

Similar Documents

Publication Publication Date Title
CN110532859B (zh) 基于深度进化剪枝卷积网的遥感图像目标检测方法
Bioucas-Dias et al. Hyperspectral subspace identification
CN110348399B (zh) 基于原型学习机制和多维残差网络的高光谱智能分类方法
CN114818850A (zh) 基于聚类压缩的网络流空间映射表征方法、装置和存储介质
David et al. Hierarchical data organization, clustering and denoising via localized diffusion folders
Jiang et al. Anomaly localization for network data streams with graph joint sparse PCA
CN112734000A (zh) 一种入侵检测方法、系统、设备及可读存储介质
Yu et al. Zinb-based graph embedding autoencoder for single-cell rna-seq interpretations
CN107451562B (zh) 一种基于混沌二进制引力搜索算法的波段选择方法
Jiang et al. A family of joint sparse PCA algorithms for anomaly localization in network data streams
CN114172688B (zh) 基于gcn-dl的加密流量网络威胁关键节点自动提取方法
CN110929643A (zh) 一种基于多特征和孤立树的高光谱异常检测方法
CN113821793B (zh) 基于图卷积神经网络的多阶段攻击场景构建方法及系统
CN110442618B (zh) 融合专家信息关联关系的卷积神经网络评审专家推荐方法
CN111914253A (zh) 一种入侵检测的方法、系统、设备及可读存储介质
Chebbout et al. Comparative study of clustering based colour image segmentation techniques
CN110889493A (zh) 针对关系网络添加扰动的方法及装置
CN113312809B (zh) 一种基于相关团划分的航天器遥测数据多参数异常检测方法
CN111027609B (zh) 一种图像数据加权分类方法和系统
CN111666999A (zh) 一种遥感图像的分类方法
CN111340196A (zh) 对抗网络数据生成方法以及异常事件检测方法
CN114429404A (zh) 一种多模异质社交网络社区发现方法
CN114519605A (zh) 广告点击欺诈检测方法、系统、服务器和存储介质
CN113962327A (zh) 数据分类方法、装置及电子设备
CN115249513A (zh) 一种基于Adaboost集成思想的神经网络拷贝数变异检测方法与系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination