CN113469247B - 网络资产异常检测方法 - Google Patents

网络资产异常检测方法 Download PDF

Info

Publication number
CN113469247B
CN113469247B CN202110737598.2A CN202110737598A CN113469247B CN 113469247 B CN113469247 B CN 113469247B CN 202110737598 A CN202110737598 A CN 202110737598A CN 113469247 B CN113469247 B CN 113469247B
Authority
CN
China
Prior art keywords
data
time sequence
reconstruction error
training data
long
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110737598.2A
Other languages
English (en)
Other versions
CN113469247A (zh
Inventor
邹凯
陈凯枫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Trustmo Information System Co ltd
Original Assignee
Guangzhou Trustmo Information System Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Trustmo Information System Co ltd filed Critical Guangzhou Trustmo Information System Co ltd
Priority to CN202110737598.2A priority Critical patent/CN113469247B/zh
Publication of CN113469247A publication Critical patent/CN113469247A/zh
Application granted granted Critical
Publication of CN113469247B publication Critical patent/CN113469247B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2474Sequence data queries, e.g. querying versioned data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2155Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Fuzzy Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种网络资产异常检测方法,涉及网络安全技术领域,解决了现有方案中只考虑单个异常情况或者未考虑行为在时序上的异常情况,导致误报率高的技术问题;包括:获取网络资产的时序特征数据、数据预处理、数据构造、构建异常检测模型、异常检测和“正常”数据的进一步挖掘;本发明同时采集和利用了网络流量中两类特征数据,使得异常检测模型能够更好地学习两类特征,为后续提高异常检测模型的检测精度奠定基础;本发明使用了基于LSTM‑AE的深度学习网络框架,能够对网络中的多维时间序列数据进行异常检测并取得更高的准确率;本发明对异常检测模型检测为“正常”的数据的重建误差矩阵进行二次异常检测,有效地提高了异常的召回率。

Description

网络资产异常检测方法
技术领域
本发明属于网络安全技术领域,具体是网络资产异常检测方法。
背景技术
随着当代网络的规模不断扩大,网络内的设备数量、设备类型也随之大规模增长。网络设备在日常的运作过程中,会形成属于自己的网络流量行为基线。当设备由于自身或者外界的原因,使得其行为偏离了自身的行为基线时,该设备就有可能发生了异常情况。因此,如果能准确有效地检测出网络设备的异常情况,不仅有助于入侵等风险行为的发现,还能帮助网络管理人员排查设备自身的问题。
公开号为CN111049839A的发明专利公开了一种异常检测方法、装置、存储介质及电子设备,该方法对安全告警数据进行相应的数据预处理后,使用孤立森林算法进行异常检测,能分离出告警数据中的异常特征。但该方法的不足是,孤立森林算法无法捕捉时间序列信号的前后依赖关系,因此无法实现对序列类型异常数据的长期监测,导致误报率较高。
陈兴蜀,江天宇,曾雪梅等所著的文献《基于多维时间序列分析的网络异常检测》中,提出了一种基于单位时间段内的统计特征数据,对多个维度特征分别建立ARIMA模型获得特征的偏离值后,用获得的特征偏离值进入机器学习分类器进行分类的异常检测系统。但该系统使用的是单位时间段内的统计特征,丢失了特征的时间序列特性,无法发现诸如序列前后位置变化等异常情况。
公开号为CN109525567A的发明专利提供了一种使用隐马尔可夫模型对序列数据进行异常检测从而检测网络攻击的方法;隐马尔可夫模型(HMM)是一种基于概率统计的生成式模型,对序列的概率建模效果不错。但该模型无法发现长时间序列之间的时序依赖关系,且输入的数据类型为状态序列,无法同时对连续型特征和类别型特征建模,因此应用范围有限。
上述方案对网络资产异常行为的检测大多数只考虑了单个异常情况或未考虑行为在时序上的异常情况,导致误报率较高。因此,本发明提出了一种基于时间序列算法的网络资产异常检测方法,综合利用了多种类型的数据特征和时序特征,有效地降低了网络资产异常检测的误报率。
发明内容
本发明提供了网络资产异常检测方法,用于解决现有方案中只考虑单个异常情况或者未考虑行为在时序上的异常情况,导致误报率高的技术问题,本发明提出了一种基于时间序列算法的网络资产异常检测方法,综合利用多种类型的数据特征和时序特征解决了上述问题。
本发明的目的可以通过以下技术方案实现:网络资产异常检测方法,包括:
获取网络资产的时序特征数据;
对时序特征数据进行数据预处理,并根据预处理结果构造时间序列训练数据;其中,所述时间序列训练数据包括长时间序列训练数据集和短时间序列训练数据集;
构建异常检测模型,并完成训练和测试;通过训练之后的异常检测模型进行获取平均重建误差,对平均重建误差进行分析实现网络资产的异常检测,结合多种无监督模型进行数据的进一步挖掘。
优选的,所述网络资产的所述时序特征数据的获取,包括:
获取解码的网络流量数据,以IP地址作为网络资产在域内的唯一标识,以单个网络资产作为检测对象;从网络流量数据中筛选目标参数对应的所有流量记录作为检测对象的源数据;其中,所述目标参数包括“源IP”和“目的IP”;
通过检测对象的源数据获取流量特征;其中,所述流量特征包括但不限于“源-目的”特征值、会话开始时间、会话结束时间、会话时长、协议类型、端口号、上行数据包数量、上行字节数、上行载荷字节数、下行数据包数量、下行字节数、下行载荷字节数、应用类型、应用协议类型;
在流量特征的基础上,获取检测对象的资产指纹特征;其中,所述资产指纹特征包括但不限于设备品牌、设备型号、设备操作系统、设备操作系统版本、设备类型、开发语言、开放的端口类型;
以检测对象作为统计聚合对象,分析统计检测对象过去S1和过去S2时间段内的所有特征;其中,所述所有特征均可分为数值型特征和类别型特征,S1和S2均为大于0的时间常数,且S1和S2不相等。
优选的,所述数据预处理用于对所有特征进行预处理,包括:
针对数值型特征:通过数据标准化方法对数值型特征进行标准化处理;其中,所述数据标准化方法包括Z-Score标准化、最大最小标准化和小数定标标准化;
针对类别型特征:对其中一个类别特征进行独热编码获取类别时间序列,对类别时间序列通过等长度的时间窗口步长切分,并作为Word2vec模型的训练数据,自定义Word2vec模型的输出维度;其中,Word2vec模型中的训练算法可使用CBOW算法,通过CBOW算法训练得到更低维度的稠密向量特征代替原有的独热编码;
将所有类别型特征都通过Word2vec模型建模嵌入将高维稀疏特征转化为低维稠密特征。
优选的,构造所述时间序列训练数据之前,还包括:
将标准化之后的数值型特征和经过Word2vec模型建模嵌入的类别型特征进行拼接,获取多维连续型时间序列特征。
优选的,所述时间序列训练数据的构造包括:
将多维连续型时间序列特征标记为多维特征数据,并获取多维特征数据的维度(m,n);其中,m为多维特征数据的总时间序列数,n为经过数据预处理的特征维度数;
取两种不同大小的时间序列长度K1和K2,以及步长S;其中,K1与K2至少相差一个数量级,步长S的取值通常为1;
针对多维特征数据(m,n),每隔步长S,取K1条数据作为一段时间序列特征数据t1,则可获得三维长序列训练数据(t1,t2,…,tj1);其中,
Figure BDA0003142130670000041
三维长序列训练数据(t1,t2,…,tj1)中包含j1条多维特征数据;
得到三维维度为(j1,K1,n)的长时间序列训练数据集;同理,可获取三维维度为(j2,K2,n)的短时间序列训练数据集;其中,
Figure BDA0003142130670000042
符号
Figure BDA0003142130670000043
表示向下取整。
优选的,j1条所述多维特征数据中的每条多维特征数据具体表示为:
Figure BDA0003142130670000051
其中,f为多维特征数据。
优选的,所述异常检测模型具体为LSTM-AE网络模型;分别通过短时间序列训练数据集和长时间序列训练数据集对LSTM-AE网络模型进行训练和测试,将训练完成的两个LSTM-AE网络模型分别标记为短时间序列检测模型和长时间序列检测模型;
通过LSTM-AE网络模型计算输入数据和输出数据的重建误差矩阵;其中,重建误差矩阵的获取公式为:E=X1-X2,X1为输入数据,X2为输出数据。
优选的,所述平均重建误差包括长序列平均重建误差和短序列平均重建误差;其中,长序列平均重建误差的获取包括:
将长时间序列训练数据集输入至长时间序列检测模型获取输出结果;
根据重建误差矩阵公式获取长时间序列训练数据集对应的重建误差矩阵,对重建误差矩阵的第二维和第三维取平均值,获得每一条长序列训练数据的平均重建误差
Figure BDA0003142130670000052
其中,短序列平均重建误差的获取步骤与长序列平均重建误差一致。
优选的,通过分析所述平均重建误差实现网络资产的异常检测,包括:
将长序列平均重建误差和短序列平均重建误差与对应的重建误差阈值进行比较,来判断对应的网络资产的异常情况;其中,所述重建误差阈值的获取包括经验分析法和数据分析法。
优选的,通过分析所述平均重建误差判断网络资产的异常可通过长短序列平均重建误差指标实现,所述长短序列平均重建误差指标(Long Short Series MeanReconstruction Error,LSSMRE)的获取公式为:
Figure BDA0003142130670000061
Figure BDA0003142130670000062
其中,elong为时间节点i开始的长序列训练数据的平均重建误差,eshort为时间节点i开始的短序列训练数据的平均重建误差,weightlong和weightshort分别为长序列训练数据平均重建误差和短序列训练数据平均重建误差的权重。
优选的,通过多种所述无监督模型进行数据的进一步挖掘,包括:
选取被判定为正常的时间序列训练数据;
提取时间序列训练数据中的长时间序列训练数据集,并设置维度为(p,K1,n);其中,p为时间序列训练数据中长时间序列训练数据集的数量;K1为该长时间序列的时间序列长度;n为使用的特征数量;
对长时间序列训练数据集维度(p,K1,n)中的第二维度K1取均值,获取第一特征数据集,维度为(p,n);对长时间序列训练数据集维度(p,K1,n)中的第三维度n取均值,获取第二特征数据集,维度为(p,K1);
水平拼接第一特征数据集和第二特征数据集获取目标特征数据集,维度为(p,n+K1);
通过异常挖掘算法分析目标特征数据集,选出超过设定阈值的异常挖掘算法判定为异常的重建误差矩阵,并将其作为异常的时间序列训练数据;其中,短时间序列训练数据集的判定方法与长时间序列训练数据集的一致,所述设定阈值的取值范围为
Figure BDA0003142130670000063
所述异常挖掘算法包括主成分分析法、孤立森林算法、One-Class SVM算法、K均值聚类算法、DBSCAN聚类算法。
与现有技术相比,本发明的有益效果是:
1、本发明同时采集和利用了网络流量中两类特征数据:数值型特征和类别型特征,经过数据预处理和数据构造之,异常检测模型能够对两类特征建模,使得异常检测模型能够更好地学习两类特征,保证训练数据的完整高效,为后续提高异常检测模型的检测精度奠定基础。
2、本发明使用了基于LSTM-AE的深度学习网络框架,对网络中的正常流量时间序列数据进行了不同时间长度的序列建模和异常检测。LSTM模型能学习长序列数据中时序上的前后关系特征。AE模型则通过将输出数据重建为输入数据的网络结构,使其在无监督异常检测的应用中取得良好效果的同时,不需要繁琐的人工标注工作。因此本发明使用的对称的LSTM-AE网络结构能够对网络中的多维时间序列数据进行异常检测并取得更高的准确率。
3、本发明构造了两种不同序列长度的多维时间序列训练数据,分别建立两个不同的LSTM-AE异常检测模型后,使用基于长、短序列异常以及长短序列平均重建误差三种阈值指标进行异常序列判断,能有效地识别和发现不同长度序列的异常程度。
4、本发明对异常检测模型检测为“正常”的多维时间序列的重建误差进行二次异常检测,有效地提高了异常的召回率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的方法步骤示意图;
图2为本发明的数据预处理流程图;
图3为本发明中LSTM-AE网络模型结构示意图;
图4为本发明中异常挖掘算法的工作流程示意图。
具体实施方式
下面将结合实施例对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
这里使用的术语用于描述实施例,并不意图限制和/或限制本公开;应该注意的是,除非上下文另有明确指示,否则单数形式的“一”、“一个”和“该”也包括复数形式;而且,尽管属于“第一”、“第二”等可以在本文中用于描述各种元件,但是元件不受这些术语的限制,这些术语仅用于区分一个元素和另一个元素。
请参阅图1,网络资产异常检测方法,包括:
获取网络资产的时序特征数据;
在获取时序特征数据时,先获取解码的网络流量数据,以IP地址作为网络资产在域内的唯一标识,以单个网络资产作为检测对象;从网络流量数据中筛选目标参数对应的所有流量记录作为检测对象的源数据;源数据中,若记录行的“源IP”为检测对象时,将其“目的IP”作为特征列,同时将“源-目的”特征值置为0;若记录行的“目的IP”为检测对象时,将其“源IP”作为特征列,同时将“源-目的”特征值置为1。
同时,通过检测对象的源数据获取流量特征;流量特征包括但不限于“源-目的”特征值、会话开始时间、会话结束时间、会话时长、协议类型、端口号、上行数据包数量、上行字节数、上行载荷字节数、下行数据包数量、下行字节数、下行载荷字节数、应用类型、应用协议类型。
由于在日常运作中,资产本身自带的属性可能被外部条件改变,例如设备操作系统升级等,继而造成资产行为逻辑随之改变,因此在流量特征的基础上,获取检测对象的资产指纹特征;其中,所述资产指纹特征包括但不限于设备品牌、设备型号、设备操作系统、设备操作系统版本、设备类型、开发语言、开放的端口类型;
最后,以检测对象作为统计聚合对象,分析统计检测对象过去S1和过去S2时间段内的所有特征;其中,S1和S2均为大于0的时间常数,且S1和S2不相等。如,对于统计聚合对象的数值型特征,统计其过去一分钟和一小时内的最大值、最小值、平均每秒/每分钟值、方差、标准差、第一四分位数、第二四分位数、第三四分位数、四分位距等;对于统计聚合对象的类别型特征,统计其过去一分钟和一小时内,出现最多的类别、最多类别的次数、最多类别次数占总记录数的比例、最多类别的平均每秒/每分钟次数。
请参阅图2,对时序特征数据进行数据预处理,并根据预处理结果构造时间序列训练数据;在进行数据预处理时,针对所有特征中的数值型特征和类别型特征进行不同的预处理。
针对数值型特征:为了能消除特征之间数量级的差异以及帮助神经网络更好地收敛,通过数据标准化方法对数值型特征进行标准化处理;数据标准化方法包括Z-Score标准化、最大最小标准化和小数定标标准化;Z-Score标准化的公式为z=(x-μ)/σ,其中,μ为该列特征的均值,σ为该列特征的标准差,z为新的特征值,x为原特征值。
针对类别型特征:对于类别形变量,通常的做法是使用独热编码。但这种方法会导致特征维度变大,特征空间十分稀疏,而神经网络通常很难学习到这样特点的特征。因此,本实施例的数据处理,先对类别型变量使用独热编码,然后对所有类别型变量的独热编码分别使用Word2vec算法建模生成嵌入向量embedding。对其中一个类别特征进行独热编码获取类别时间序列,对类别时间序列通过等长度的时间窗口步长切分,并作为Word2vec模型的训练数据,CBOW算法训练得到更低维度的稠密向量特征代替原有的独热编码,自定义Word2vec模型的输出维度,例如ip类特征,独热维度有100维左右,则Word2vec输出维度可选择16或者32维。
根据预处理结果构造时间序列训练数据;经过数据预处理之后的数据已经按照时间升序进行排列,将多维连续型时间序列特征标记为多维特征数据,并获取多维特征数据的维度(m,n);m为多维特征数据的总时间序列数,n为经过数据预处理的特征维度数;
取两种不同大小的时间序列长度K1和K2,以及步长S;其中,K1与K2至少相差一个数量级,如短序列的K1取32,长序列对应的K2取512,以及步长S,S通常取1即可;
针对多维特征数据(m,n),每隔步长S,取K1条数据作为一段时间序列特征数据t1,则可获得三维长序列训练数据(t1,t2,…,tj1);其中,
Figure BDA0003142130670000101
三维长序列训练数据(t1,t2,…,tj1)中包含j1条多维特征数据;j1条所述多维特征数据中的每条多维特征数据具体表示为:
Figure BDA0003142130670000111
n为特征维度数,K1为长序列长度,f即为基于时间序列、经过处理后的特征。
得到三维维度为(j1,K1,n)的长时间序列训练数据集;同理,可获取三维维度为(j2,K2,n)的短时间序列训练数据集,上述方法获得长时间序列训练数据集和短时间序列训练数据集将作为训练数据,分别训练两个不同的LSTM-AE网络模型。
构建异常检测模型,并完成训练和测试;本实施例所使用的LSTM-AE网络模型的结构如图3所示;采用编码器和解码器对称的神经网络结构;LSTM层1、Dropout层1和LSTM层2为Encode编码层,LSTM层3、Dropout层2和LSTM层4为与Encode编码层对称的Decode解码过程,TimeDistributedDense层对所有时间维度应用激活函数进行重建,保证维度与输入层一致。
通过LSTM-AE网络模型计算输入数据和输出数据的重建误差矩阵,重建误差矩阵的获取公式为E=X1-X2。
本实施例中,以长序列平均重建误差的获取为例,具体为:
将长时间序列训练数据集输入至长时间序列检测模型获取输出结果;
根据重建误差矩阵公式获取长时间序列训练数据集对应的重建误差矩阵,对重建误差矩阵的第二维和第三维取平均值,获得每一条长序列训练数据的平均重建误差
Figure BDA0003142130670000112
其中,短序列平均重建误差的获取步骤与长序列平均重建误差一致。
将长序列平均重建误差和短序列平均重建误差与对应的重建误差阈值进行比较,来判断对应的网络资产的异常情况,当超过重建误差阈值时,可判定数据异常。
通过分析所述平均重建误差判断网络资产的异常还可通过长短序列平均重建误差指标实现,所述长短序列平均重建误差指标的获取公式为:
Figure BDA0003142130670000121
Figure BDA0003142130670000122
其中,elong为时间节点i开始的长序列训练数据的平均重建误差,eshort为时间节点i开始的短序列训练数据的平均重建误差;weightlong和weightshort分别为长序列训练数据平均重建误差和短序列训练数据平均重建误差的权重,作为调整两类误差重要性的参数;在一条长序列中,最多包含了数量为(K1-K2)的子序列,这些子序列的平均重建误差可以从短序列训练的LSTM-AE网络模型得到。
本实施例提供两种重建误差阈值的确定方法:
方法一:经验分析法。定一个阈值(可选最大值),适用于训练数据中只有正常数据的场景。如果我们通过人工检验或其它方式判定训练数据全部为正常数据,则我们可以简单的选取训练数据中重建误差的最大值作为异常判断的阈值,即用待检测数据进入LSTM-AE网络模型后得到的重建误差,如果超过该阈值,则判断为异常数据。
方法二:数据分析法。根据异常数据的分布确定阈值,优选3-sigma方法或分位距方法等,适用于训练数据中仍有少量异常数据的场景:通过假设检验实验和观察发现,多维时间序列的重建误差的概率分布情况与正态分布相似,如上图4所示,因此我们可以认为重建误差数据符合正态分布,或者经过对数变换或其它数学变换后近似符合正态分布。如果训练数据中仍然存在少部分的异常数据,我们应用经典的3-sigma异常检测方法,将重建误差异常判定阈值选取为:重建误差的样本均值+3倍重建误差的样本标准差,大于该值的情况判定为异常,其它情况则判定为正常序列。此处可应用其它一维异常数据检测方法替换基于正态分布的3-sigma检验方法。
对于被判定为异常的时间序列,根据每个特征的序列平均重建误差,输出重建误差最大的top-k个特征,k可以根据分析需求自行选择,从而给后续的数据分析提供有力的帮助。对于经过编码后的类别型变量,取编码后的多维重建误差的均值作为该类别型特征的重建误差。例如某个类别型变量,经过Word2vec编码后输出为16维特征,则取这16维特征的重建误差的平均值作为该类别型变量的重建误差。
得到训练好的LSTM-AE网络模型和重建误差阈值后,将数据预处理之后输入至LSTM-AE网络模型得到三种重建误差矩阵,包括长序列平均重建误差、短序列平均重建误差和LSSMRE重建误差。超过重建误差阈值的数据判定为异常数据,并分别记录下长序列告警、短序列告警、LSSMRE告警三种不同的异常告警状态。
请参阅图4,选取被判定为正常的时间序列训练数据;主要选取被LSTM-AE网络模型判定为“正常”的时间序列训练数据。
提取时间序列训练数据中的长时间序列训练数据集,并设置维度为(p,K1,n);p为时间序列训练数据中长时间序列训练数据集的数量;K1为该长时间序列的时间序列长度;n为使用的特征数量。对长时间序列训练数据集维度(p,K1,n)中的第二维度K1取均值,获取第一特征数据集,维度为(p,n);对长时间序列训练数据集维度(p,K1,n)中的第三维度n取均值,获取第二特征数据集,维度为(p,K1);水平拼接第一特征数据集和第二特征数据集获取目标特征数据集,维度为(p,n+K1);
通过异常挖掘算法分析目标特征数据集,选出超过三分之二的异常挖掘算法判定为异常的重建误差矩阵,并将其作为异常的时间序列训练数据,所述异常挖掘算法包括主成分分析法、孤立森林算法、One-Class SVM算法、K均值聚类算法、DBSCAN聚类算法。
通过多种无监督模型进行数据的进一步挖掘是对LSTM-AE网络模型检测的补充,有助于提高异常时间序列训练数据的召回率。
上述公式均是去除量纲取其数值计算,公式是由采集大量数据进行软件模拟得到最接近真实情况的一个公式,公式中的预设参数和预设阈值由本领域的技术人员根据实际情况设定或者大量数据模拟获得。
本发明的工作原理:
获取解码的网络流量数据,以IP地址作为网络资产在域内的唯一标识,以单个网络资产作为检测对象;从网络流量数据中筛选目标参数对应的所有流量记录作为检测对象的源数据;通过检测对象的源数据获取流量特征,在流量特征的基础上,获取检测对象的资产指纹特征,以检测对象作为统计聚合对象,分析统计检测对象过去时间段内的所有特征。
对数据进行数据预处理。针对数值型特征:通过数据标准化方法对数值型特征进行标准化处理,针对类别型特征:对其中一个类别特征进行独热编码获取类别时间序列,对类别时间序列通过等长度的时间窗口步长切分,并作为Word2vec模型的训练数据,自定义Word2vec模型的输出维度。
将多维连续型时间序列特征标记为多维特征数据,并获取多维特征数据的维度(m,n);取两种不同大小的时间序列长度K1和K2,以及步长S;针对多维特征数据(m,n),每隔步长S,取K1条数据作为一段时间序列特征数据t1,则可获得三维长序列训练数据(t1,t2,…,tj1);得到三维维度为(j1,K1,n)的长时间序列训练数据集;同理,可获取三维维度为(j2,K2,n)的短时间序列训练数据集。
将长时间序列训练数据集输入至长时间序列检测模型获取输出结果;根据重建误差矩阵公式获取长时间序列训练数据集对应的重建误差矩阵,对重建误差矩阵的第二维和第三维取平均值,获得每一条长序列训练数据的平均重建误差E;其中,短序列平均重建误差的获取步骤与长序列平均重建误差一致。
将长序列平均重建误差和短序列平均重建误差与对应的重建误差阈值进行比较,来判断对应的网络资产的异常情况。选取被判定为正常的时间序列训练数据,提取时间序列训练数据中的长时间序列训练数据集,并设置维度为(p,K1,n);对长时间序列训练数据集维度(p,K1,n)中的第二维度K1取均值,获取第一特征数据集,维度为(p,n);对长时间序列训练数据集维度(p,K1,n)中的第三维度n取均值,获取第二特征数据集,维度为(p,K1);水平拼接第一特征数据集和第二特征数据集获取目标特征数据集,维度为(p,n+K1);通过异常检测算法分析目标特征数据集,选出超过设定阈值的异常检测算法判定为异常的重建误差矩阵,并将其作为异常的时间序列训练数据。
在本说明书的描述中,参考术语“一个实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上内容仅仅是对本发明结构所作的举例和说明,所属本技术领域的技术人员对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,只要不偏离发明的结构或者超越本权利要求书所定义的范围,均应属于本发明的保护范围。

Claims (8)

1.网络资产异常检测方法,其特征在于,包括:
获取网络资产的时序特征数据;
对时序特征数据进行数据预处理,并根据预处理结果构造时间序列训练数据;其中,所述时间序列训练数据包括长时间序列训练数据集和短时间序列训练数据集;
构建异常检测模型,并完成训练和测试;通过训练之后的异常检测模型进行获取平均重建误差,对平均重建误差进行分析实现网络资产的异常检测,结合多种无监督模型进行数据的进一步挖掘;
所述网络资产的所述时序特征数据的获取,包括:
获取解码的网络流量数据,以IP地址作为网络资产在域内的唯一标识,以单个网络资产作为检测对象;从网络流量数据中筛选目标参数对应的所有流量记录作为检测对象的源数据;其中,所述目标参数包括“源IP”和“目的IP”;
通过检测对象的源数据获取流量特征;
在流量特征的基础上,获取检测对象的资产指纹特征;
以检测对象作为统计聚合对象,分析统计检测对象过去S1和过去S2时间段内的所有特征;其中,所述所有特征均可分为数值型特征和类别型特征,S1和S2均为大于0的时间常数,且S1和S2不相等;
通过多种所述无监督模型进行数据的进一步挖掘,包括:
选取被判定为正常的时间序列训练数据;
提取时间序列训练数据中的长时间序列训练数据集,并设置维度为(p,K1,n);其中,p为时间序列训练数据中长时间序列训练数据集的数量;K1为该长时间序列的时间序列长度;
对长时间序列训练数据集维度(p,K1,n)中的第二维度K1取均值,获取第一特征数据集,维度为(p,n);对长时间序列训练数据集维度(p,K1,n)中的第三维度n取均值,获取第二特征数据集,维度为(p,K1);
水平拼接第一特征数据集和第二特征数据集获取目标特征数据集,维度为(p,n+K1);
通过异常挖掘算法分析目标特征数据集,选出超过设定阈值的异常挖掘算法判定为异常的重建误差矩阵,并将其作为异常的时间序列训练数据;其中,短时间序列训练数据集的判定方法与长时间序列训练数据集的一致,所述设定阈值的取值范围为
Figure FDA0003474790660000021
所述异常挖掘算法包括主成分分析法、孤立森林算法、One-Class SVM算法、K均值聚类算法、DBSCAN聚类算法。
2.根据权利要求1所述的网络资产异常检测方法,其特征在于,所述数据预处理用于对所有特征进行预处理,包括:
针对数值型特征:通过数据标准化方法对数值型特征进行标准化处理;其中,所述数据标准化方法包括Z-Score标准化、最大最小标准化和小数定标标准化;
针对类别型特征:对其中一个类别特征进行独热编码获取类别时间序列,对类别时间序列通过等长度的时间窗口步长切分,并作为Word2vec模型的训练数据,自定义Word2vec模型的输出维度;
将所有类别型特征都通过Word2vec模型建模嵌入将高维稀疏特征转化为低维稠密特征。
3.根据权利要求1所述的网络资产异常检测方法,其特征在于,所述时间序列训练数据的构造包括:
将多维连续型时间序列特征标记为多维特征数据,并获取多维特征数据的维度(m,n);其中,m为多维特征数据的总时间序列数,n为经过数据预处理的特征维度数;
取两种不同大小的时间序列长度K1和K2,以及步长S;其中,K1与K2至少相差一个数量级,步长S的取值通常为1;
针对多维特征数据(m,n),每隔步长S,取K1条数据作为一段时间序列特征数据t1,则可获得三维长序列训练数据(t1,t2,…,tj1);其中,
Figure FDA0003474790660000032
三维长序列训练数据(t1,t2,…,tj1)中包含j1条多维特征数据;
得到三维维度为(j1,K1,n)的长时间序列训练数据集;同理,可获取三维维度为(j2,K2,n)的短时间序列训练数据集;其中,
Figure FDA0003474790660000033
4.根据权利要求3所述的网络资产异常检测方法,其特征在于,j1条所述多维特征数据中的每条多维特征数据具体表示为:
Figure FDA0003474790660000031
其中,f为多维特征数据。
5.根据权利要求1所述的网络资产异常检测方法,其特征在于,所述异常检测模型具体为LSTM-AE网络模型;分别通过短时间序列训练数据集和长时间序列训练数据集对LSTM-AE网络模型进行训练和测试,将训练完成的两个LSTM-AE网络模型分别标记为短时间序列检测模型和长时间序列检测模型;
通过LSTM-AE网络模型计算输入数据和输出数据的重建误差矩阵。
6.根据权利要求1所述的网络资产异常检测方法,其特征在于,所述平均重建误差包括长序列平均重建误差和短序列平均重建误差;其中,长序列平均重建误差的获取包括:
将长时间序列训练数据集输入至长时间序列检测模型获取输出结果;
根据重建误差矩阵公式获取长时间序列训练数据集对应的重建误差矩阵,对重建误差矩阵的第二维和第三维取平均值,获得每一条长序列训练数据的平均重建误差
Figure FDA0003474790660000041
其中,短序列平均重建误差的获取步骤与长序列平均重建误差一致。
7.根据权利要求6所述的网络资产异常检测方法,其特征在于,通过分析所述平均重建误差实现网络资产的异常检测,包括:
将长序列平均重建误差和短序列平均重建误差与对应的重建误差阈值进行比较,来判断对应的网络资产的异常情况;其中,所述重建误差阈值的获取包括经验分析法和数据分析法。
8.根据权利要求6所述的网络资产异常检测方法,其特征在于,通过分析所述平均重建误差判断网络资产的异常可通过长短序列平均重建误差指标实现,所述长短序列平均重建误差指标的获取公式为:
Figure FDA0003474790660000042
Figure FDA0003474790660000043
其中,elong为时间节点i开始的长序列训练数据的平均重建误差,eshort为时间节点i开始的短序列训练数据的平均重建误差,weightlong和weightshort分别为长序列训练数据平均重建误差和短序列训练数据平均重建误差的权重。
CN202110737598.2A 2021-06-30 2021-06-30 网络资产异常检测方法 Active CN113469247B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110737598.2A CN113469247B (zh) 2021-06-30 2021-06-30 网络资产异常检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110737598.2A CN113469247B (zh) 2021-06-30 2021-06-30 网络资产异常检测方法

Publications (2)

Publication Number Publication Date
CN113469247A CN113469247A (zh) 2021-10-01
CN113469247B true CN113469247B (zh) 2022-04-01

Family

ID=77878254

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110737598.2A Active CN113469247B (zh) 2021-06-30 2021-06-30 网络资产异常检测方法

Country Status (1)

Country Link
CN (1) CN113469247B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104796301A (zh) * 2015-03-31 2015-07-22 北京奇艺世纪科技有限公司 网络流量异常判断方法和装置
CN110071913A (zh) * 2019-03-26 2019-07-30 同济大学 一种基于无监督学习的时间序列异常检测方法
CN112100614A (zh) * 2020-09-11 2020-12-18 南京邮电大学 一种基于cnn_lstm的网络流量异常检测方法
CN112398779A (zh) * 2019-08-12 2021-02-23 中国科学院国家空间科学中心 一种网络流量数据分析方法及系统

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10417788B2 (en) * 2016-09-21 2019-09-17 Realize, Inc. Anomaly detection in volumetric medical images using sequential convolutional and recurrent neural networks
JP7017861B2 (ja) * 2017-03-23 2022-02-09 株式会社日立製作所 異常検知システムおよび異常検知方法
US10616257B1 (en) * 2019-02-19 2020-04-07 Verizon Patent And Licensing Inc. Method and system for anomaly detection and network deployment based on quantitative assessment
US11522888B2 (en) * 2019-04-02 2022-12-06 Nec Corporation Anomaly detection and troubleshooting system for a network using machine learning and/or artificial intelligence
CN111428789A (zh) * 2020-03-25 2020-07-17 广东技术师范大学 一种基于深度学习的网络流量异常检测方法
CN112416643A (zh) * 2020-11-26 2021-02-26 清华大学 无监督异常检测方法与装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104796301A (zh) * 2015-03-31 2015-07-22 北京奇艺世纪科技有限公司 网络流量异常判断方法和装置
CN110071913A (zh) * 2019-03-26 2019-07-30 同济大学 一种基于无监督学习的时间序列异常检测方法
CN112398779A (zh) * 2019-08-12 2021-02-23 中国科学院国家空间科学中心 一种网络流量数据分析方法及系统
CN112100614A (zh) * 2020-09-11 2020-12-18 南京邮电大学 一种基于cnn_lstm的网络流量异常检测方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Ángel Luis Perales Gómez 等.MADICS: A Methodology for Anomaly Detection in Industrial Control Systems.《symmetry》.2020,1-23. *
基于深度神经网络的序列异常检测研究;马金;《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》;20180815(第(2018)08期);I138-570,正文第3章 *
面向网络交互的流量分析与异常检测应用;袁秋壮;《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》;20200615(第(2020)06期);I139-71,正文第3章 *

Also Published As

Publication number Publication date
CN113469247A (zh) 2021-10-01

Similar Documents

Publication Publication Date Title
CN111314331B (zh) 一种基于条件变分自编码器的未知网络攻击检测方法
CN108737406A (zh) 一种异常流量数据的检测方法及系统
CN112015153B (zh) 一种无菌灌装生产线异常检测系统和方法
US8630962B2 (en) Error detection method and its system for early detection of errors in a planar or facilities
CN111914873A (zh) 一种两阶段云服务器无监督异常预测方法
CN113242207B (zh) 一种迭代聚类的网络流量异常检测方法
Soleimani‐Babakamali et al. Toward a general unsupervised novelty detection framework in structural health monitoring
CN110011990B (zh) 内网安全威胁智能分析方法
CN115409131B (zh) 基于spc过程管控系统的生产线异常检测方法
CN114254716B (zh) 一种基于用户行为分析的高危操作识别方法及系统
CN116684878B (zh) 一种5g信息传输数据安全监测系统
CN111538311A (zh) 一种基于数据挖掘的机械设备柔性多状态自适应预警方法及装置
CN117041017B (zh) 数据中心的智能运维管理方法及系统
CN114528190B (zh) 单指标异常的检测方法、装置、电子设备及可读存储介质
CN114399321A (zh) 一种业务系统稳定性分析方法、装置和设备
CN115858794A (zh) 用于网络运行安全监测的异常日志数据识别方法
CN114841268A (zh) 基于Transformer和LSTM融合算法的异常电力客户识别方法
CN117094184B (zh) 基于内网平台的风险预测模型的建模方法、系统及介质
CN114357171A (zh) 一种应急事件处理方法、装置、存储介质及电子设备
CN112070180B (zh) 基于信息物理双侧数据的电网设备状态判断方法及装置
CN116975728B (zh) 用于煤层气钻井工程的安全管理方法及其系统
CN113469247B (zh) 网络资产异常检测方法
CN114580472B (zh) 工业互联网中因果与注意力并重的大型设备故障预测方法
CN116660761A (zh) 一种锂离子电池检测方法及系统
CN116627116A (zh) 一种流程工业故障定位方法、系统及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant