CN116992986A - 一种基于时间序列分解网络流量预测系统 - Google Patents
一种基于时间序列分解网络流量预测系统 Download PDFInfo
- Publication number
- CN116992986A CN116992986A CN202210402656.0A CN202210402656A CN116992986A CN 116992986 A CN116992986 A CN 116992986A CN 202210402656 A CN202210402656 A CN 202210402656A CN 116992986 A CN116992986 A CN 116992986A
- Authority
- CN
- China
- Prior art keywords
- sequence
- window
- subsequence
- residual
- trend
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000354 decomposition reaction Methods 0.000 title claims abstract description 26
- 238000000034 method Methods 0.000 claims abstract description 73
- 238000005070 sampling Methods 0.000 claims abstract description 73
- 238000013434 data augmentation Methods 0.000 claims abstract description 17
- 238000004422 calculation algorithm Methods 0.000 claims description 32
- 238000013528 artificial neural network Methods 0.000 claims description 24
- 238000012952 Resampling Methods 0.000 claims description 18
- 230000001932 seasonal effect Effects 0.000 claims description 18
- 238000007781 pre-processing Methods 0.000 claims description 17
- 238000000605 extraction Methods 0.000 claims description 14
- 238000003199 nucleic acid amplification method Methods 0.000 claims description 14
- 230000008569 process Effects 0.000 claims description 9
- 230000003321 amplification Effects 0.000 claims description 8
- 238000013507 mapping Methods 0.000 claims description 7
- 230000003416 augmentation Effects 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000013527 convolutional neural network Methods 0.000 claims description 4
- 108091093088 Amplicon Proteins 0.000 claims description 3
- 230000003190 augmentative effect Effects 0.000 claims description 3
- 239000000284 extract Substances 0.000 claims description 3
- 230000002457 bidirectional effect Effects 0.000 claims description 2
- 230000005540 biological transmission Effects 0.000 claims 1
- 238000013135 deep learning Methods 0.000 abstract description 14
- 230000006399 behavior Effects 0.000 abstract description 8
- 238000001514 detection method Methods 0.000 abstract description 5
- 230000035772 mutation Effects 0.000 abstract description 4
- 230000002159 abnormal effect Effects 0.000 abstract description 3
- 230000007774 longterm Effects 0.000 abstract 1
- 230000000737 periodic effect Effects 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 6
- 238000010801 machine learning Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 4
- 238000012549 training Methods 0.000 description 3
- 238000013136 deep learning model Methods 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000005856 abnormality Effects 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000005336 cracking Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000003999 initiator Substances 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 238000012821 model calculation Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
- H04L63/1416—Event detection, e.g. attack signature detection
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Economics (AREA)
- General Engineering & Computer Science (AREA)
- Human Resources & Organizations (AREA)
- Strategic Management (AREA)
- Computing Systems (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- General Business, Economics & Management (AREA)
- Quality & Reliability (AREA)
- Operations Research (AREA)
- Marketing (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Tourism & Hospitality (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Entrepreneurship & Innovation (AREA)
- Game Theory and Decision Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Development Economics (AREA)
- Computer Hardware Design (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及一种基于时间序列分解的网络流量预测系统,能够针对服务器流量短期噪声多,突变多的特点,长期行为模式稳定的特点,引入了经典时间序列分解方法,结合深度学习方法,对网络流量特征的时间序列进行的建模。在保证高精度的前提下还具备一定的可扩展性,同时可以用于流量的时间序列预测以及流量的异常检测任务。具体包括:从网络流量的流数据按一定采样频率提取特征;对特征序列进行周期性解,得到序列的趋势,季节和残差分量,设计了不同的序列建模策略,满足流量预测任务精度需求;设计了不同的时间序列数据增广方法,可以使模型捕获不同窗口,不同采样策略下的时间序列特征,提高模型的精度和泛化能力;针对流量的高噪声设计了基于深度学习的去噪方法,用于提升模型预测精度;定义了基于深度学习和时间序列分解的流量建模框架,设计了框架组成模块和建模流程。
Description
技术领域
本发明涉及网络安全、深度学习领域,尤其涉及一种基于时间序列分解网络流量预测系统。
背景技术
网络流量是所有攻击的发起者和传播载体。大量的攻击流量在时间行为上表现出与正常流量有明显的差别,比如DDoS、僵尸网络、扫描探测、暴力破解等等。对网络流量的行为进行建模并检测攻击事件又有两种方法,一种是基于分类的方法,结合机器学习和深度学习对网络流量的各种特征训练分类器,然后通过训练好的分类器进行攻击事件的检测,这种方法有很多局限性,其一是数据集样本分布不平衡的问题,人们多数是出于正常目的访问网络,因此网络中的正常流量站的比重很大,导致黑白样本占比存在显著差异。其二是基于分类任务的攻击检测方法对于未知威胁的检测效果比较差。
另一种是根据流量的特征数据建立正常的流量模型,然后基于正常模型检测异常,即先进行流量特征预测任务,如果当前流量特征的真实值与正常模型的预测值偏差较大时,认为发生异常事件。这种方法对异常事件的检测准确率和误报率极大程度依赖于网络流量预测模型的好坏,单个服务器的网络流量由于受到多种因素的影响,表现出噪声大,突变值多,规律不明显等特点,因此现阶段的难点和重点在于如何针对行为复杂的网络流量特征提高预测性能。
得益于深度学习技术的进一步发展,时间序列预测领域也越来越多的采用深度学习的方法,通过对大量的序列数据进行建模,学习用历史观测序列预测未来时间步的观测值,常见的时间序列预测模型有卷积神经网络CNN,循环神经网络RNN,长短期记忆网络LSTM,门控神经单元GRU,Transformer等等。相比于传统机器学习模型以及统计学模型,这些深度学习模型通常具有更大的规模,更多的参数量,以及更高的计算复杂度,但是对于时间序列预测任务也有着更高的精度,更小的预测误差,更强的泛化能力。故当前的各种时间序列预测任务通常采用深度学习的方法。
发明内容
本发明技术解决问题:克服现有技术的不足,提出一种基于时间序列分解网络流量预测系统,解决当前网络流量影响因素较多,因此具有高噪声,突变值多等特点,直接使用机器学习或深度学习模型拟合预测往往效果不佳这个问题,提升网络流量特征序列预测的准确性,减少预测误差。
本发明的一种基于时间序列分解网络流量预测系统,首先对原始的网络流数据按固定大小窗口聚合提取统计特征,然后经过时间序列分解,滑动窗口采样,时间序列数据增广等预处理操作,得到窗口序列样本,最后通过深度学习的方法对时间序列进行去噪或建模预测。提高了特征序列的预测结果准确度,减小了预测误差。
本发明的创新点包括:
(1)提出了一种网络流量特征提取方法(流量特征提取模块)
本发明针对网络流量的特点,提出了一种多尺度的网络流量特征提取方法,不仅提取流量的字节特征,同时还计算对端IP数,流入流出流量之比,对端端口熵,对端IP熵这些统计特征,它们能更准确的描述流量行为。在当前方法只计算服务器全局尺度流量特征的基础上针对指定的不同端口计算端口上的流量特征,从更细的尺度描述流量的行为。
(2)提出了一种时间序列数据增广方法(时间序列预处理模块)
本发明根据滑动窗口采样过后得到的窗口序列样本的特点,提出了一种时间序列增广方法,其包含三种不同的重采样策略,目的是希望模型能关注窗口特征序列中不同类型的时间步的观测值,增大数据量,同时提高模型的泛化能力,减少过拟合的风险,减少时间窗口大小的影响。
(3)提出了一种通过神经网络确定阈值的去噪算法(时间序列预测模块)
考虑到传统软阈值去噪,小波去噪等时间序列去噪算法在阈值选择上没有较好的方法,并且通常需要大量的先验知识,无法结合数据特点,参与到深度学习算法对特征序列的端到端建模过程中,所以为了更准确地对网络流量特征序列建模,本发明提出了一种动态阈值去噪的深度神经网络,它用神经网络模拟软阈值去噪算法,尝试在对特征序列进行端到端建模的同时,学习特征序列的特点,针对特征序列每一个不同时间步的观测值,给出更准确的去噪阈值,达到更好的去噪效果,提升模型预测值的准确率。
(4)提出了一种基于神经网络确定阈值的去噪算法和趋势残差子序列联合建模的MCLSTM模型(时间序列预测模块)
考虑到创新点(1)种采用多个模型分别对趋势子序列和残差子序列建模无法在模型训练过程中隐式地学习两种序列之间的关系,以及采用传统时间序列去噪方法又无法动态地根据数据来确定每一个时间步的去噪阈值。本发明提出了一种端到端的时间序列预测网络MCLSTM,它将分解后的趋势子序列和残差子序列同时作为输入,采用LSTM神经网络对两种分量联合建模预测,同时模型还引入了创新点(3)种提到的动态阈值去噪网络,对残差序列进行端到端的阈值去噪。有效的提升了网络流量特征序列任务的预测结果的准确度。减少了预测误差。
本发明采用的技术方案为:一种基于时间序列分解网络流量预测系统,包括:流量特征提取模块、特征序列预处理模块、时间序列预测模块。
流量特征提取模块:负责提取服务器流量特征序列,即按指定时间窗口大小由原始服务器流量数据计算各种特征,如上下行字节数,对端IP数,端口熵,源端端口熵,对端IP熵等等。这些特征可以描述服务器的行为,如果原始数据的特征更为丰富,还可以挖掘出更丰富的流量特征。同时这些特不仅可以由全局流量计算,还可以映射到不同的端口,计算各种端口的流量特征,用于更细粒度的服务器行为分析。
特征序列预处理模块:负责对上一步计算得到的流量特征序列进行预处理,首先使用经典的季节性分解算法,将流量的特征序列分解为趋势,季节季节以及残差三个子序列,由于季节子序列是由算法中的周期延拓操作得到,不需要进行后续的建模预测;然后对趋势子序列以及残差子序列按固定时间窗口采样得到后续建模需要的窗口样本序列,然后再应用时间序列数据增广方法,对原始窗口样本进行扩展,得到最终的扩增数据。这里需要注意的是,如果我们选择使用传统的时间序列去噪算法,则需要在窗口采样操作之前,对残差序列应用去噪算法。
时间序列预测模块:负责使用深度学习算法对分解后的网络流量特征序列的趋势子序列和残差子序列进行建模,采用自回归架构,在学习用历史特征序列观测值预测下一时间步特征值的过程中,提取有效的序列特征信息。最终将趋势序列的预测结果,残差序列的预测结果和季节序列的原始序列直接相加,得到最终的特征序列的预测结果。需要注意的是,这里的如果我们选择采用深度模型对残差序列去噪,则在上一模块不需要应用传统时间序列去噪方法,转为在得到增广后的窗口序列样本后应用深度去噪模型。
流量特征提取模块主要负责提取服务器流量特征序列具体实现如下:
计算不同特征前首先需要指定一个长度固定的采样窗口,计算窗口内的特征值。
(1)针对服务器每个指定端口的流数据以及服务器总体流数据,计算对端IP熵,对端端口熵,源端口熵特征。在计算对端IP熵的时候,统计采样窗口内的每个IP的频率作为概率pi,i表示窗口内不重复的IP地址编号。然后再根据公式(1)计算熵值,作为这个采样窗口内的对端IP熵值,X表示采样窗口内对端IP序列,其中H(X)代表采样窗口内的对端IP熵值,m表示采样窗口内不重复的IP地址总数;计算对端端口熵的时候i表示采样窗口内不重复对端端口编号,pi表示采样窗口内每个不重复对端端口的频率,X表示采样窗口内对端端口序列,H(X)代表采样窗口内对端端口熵值,m表示采样窗口内不重复的对端端口总数;计算源端端口熵的时候i表示采样窗口内不重复源端端口编号,pi表示采样窗口内每个不重复源端端口的频率,X表示采样窗口内源端端口序列,H(X)代表采样窗口内源端端口熵值,m表示采样窗口内不重复的源端端口总数。
(2)针对服务器每个指定端口的流数据以及服务器总体流数据计算对端IP数特征,计算方法就是在采样窗口内统计服务器对端IP出现的个数;
(3)针对服务器每个指定端口的流数据以及服务器总体流数据计算流入流量,流出流量和流入流出流量比例的特征,计算方法是在采样窗口内统计流入服务器的流量大小和流出服务器的流量大小,然后再计算比值。
特征序列预处理模块主要负责对流量特征序列进行时间序列分解,后通过滑动窗口采样得到窗口序列样本,最后应用时间序列数据增广方法,具体实现如下:
(1)对于提取好的特征序列Y应用经典时间序列分解方法,分解为趋势,季节,残差三个子序列:首先指定一个周期m,对特征序列应用2×m-MA移动平均算法,提取趋势子序列然后计算去趋势化后的序列/>计算全部周期内相同时间步的观测值的平均值作为没个周期内的每一时间步的观测值,得到了季节子序列/>最后依照公式得到残差子序列
(2)对趋势子序列和残差子序列应用指定大小为T的滑动窗口采样,得到窗口特征序列样本;然后应用时间序列数据增广方法,对窗口特征序列进行重采样,得到增广后的样本;将扩增后的样本送入后续的MCLSTM模型进行建模。增广后的样本数量变多了,多样性也更丰富了,在训练过程中让模型学习到更好的序列特征,达到更好的预测效果;
所述特征序列预处理模块中,时间序列数据增广方法包括三种滑动窗口内部的不同重采样策略,能关注窗口特征序列中不同类型的时间步的观测值,增大数据量,同时提高MCLSTM模型的泛化能力,减少过拟合的风险,同时减少滑动窗口采样时滑动窗口大小对建模的影响;
所述三种策略具体买现如下:
第一种数据增强方法称为多窗口增强,首先从(0,1)区间内确定两个重采样系数r1和r2,然后使用公式(2)计算两个新的窗口大小分别为Taug1和Taug2。公式(2)中T为滑动窗口大小,Taug为扩增后窗口大小,r为重采样系数,表示Taug等于T乘r的结果向下取整。然后从原始滑动窗口内部分别取后Taug1和Taug2长度时间步的子序列,作为两个扩增窗口aug_wnd1和aug_wnd2,扩增了数据;如果只得到末端的几个时间步的观测值,则采用此方法;
第二种数据增强方法称为交叉窗口增强,首先从(0,1)区间内确定两个重采样系数r1和r2,然后使用公式(2)计算两个新的窗口大小分别为Taug1和Taug2。公式(2)中T为滑动窗口大小,Taug为扩增后窗口大小,r为重采样系数,表示Taug等于T乘r的结果向下取整。然后从原始滑动窗口内部分别取前Taug1长度时间步的子序列和后Taug2长度时间步的子序列,作为两个扩增窗口aug_wnd1和aug_wnd2,扩增了数据;如果同时得到滑动窗口末端和起始端的几个时间步的观测值,则采用此方法;
第三种种数据增强方法称为多扩张增强,首先确定两个扩张系数d1=2和d2=3,在原始滑动窗口内以分别以d1和d2为步长进行间隔采样,得到两个新的扩增子序列,作为两个扩增窗口aug_wnd1和aug_wnd2。如果只得到滑动窗口内随机间隔的特征序列观测值,则采用此方法。
时间按序列预测模块主要负责对得到的窗口特征序列使用的基于神经网络确定阈值的去噪算法和趋势残差子序列联合建模的MCLSTM模型具体实现如下:
(1)首先使用上文提到的基于神经网络确定阈值的去噪算法对残差序列样本进行端到端的阈值去噪
(2)然后将残差子序列去噪后的结果与趋势子序列进行拼接,得到拼接后的二维时间序列,然后送入LSTM模型进行特征序列建模,通过子序列联合建模,将残差子序列和趋势子序列的窗口序列样本中每一时间步的(二维)观测值(其他人的做法是对两个子序列分别建模,所以别人的做法里每次输入的观测值是一维,而我们的做法是联合建模,这是创新点一)先映射到隐向量空间,然后再经过LSTM模型计算得到隐向量输出,隐式(对应后边的显式建模)地建模趋势子序列和残差子序列的关系,然后将隐向量输出映射回观测值所在的空间,得到下一时间步的趋势子序列预测值和残差子序列的联合预测结果。然后将趋势子序列预测值和残差子序列预测联合,送入多层全连接网络得到两序列的加权系数(创新点二,多元序列建模别人的做法只有通过神经网络隐式建模,我们的做法通过拟合权重系数达到对两个序列显式建模的效果),显式地建模趋势子序列和残差子序列的关系。
(3)最后对残差子序列预测结果、趋势子序列预测结果进行加权求和,再加上季节子序列进的观测值,得到最终的特征序列预测结果。
本发明与现有方法相比的主要优点在于:
(1)本发明结合时间序列分解算法和机器学习的泛化误差分解理论,将预测原始序列问题转为预测残差子序列的问题,有效的简化了问题。提出了三种时间序列数据增广方法,旨在关注窗口内不同时间步的观测值,以提高数据量,提升模型预测性能的同时,降低过拟合的风险。同时基于深度学习技术提出了端到端的去噪神经网络,可以在对序列建模的同时学习去噪算法的阈值,获得了更好的去噪性能。提出了一个端到端的用于时间序列预测的神将网络MCLSTM,它包含了去噪神将网络,以及针对分解后的趋势子序列和残差子序列进行了联合建模优化,隐式地学习两个子序列间的关系,有效的提升了网络流量特征序列任务的预测结果的准确度。减少了预测误差,有效的提升了网络流量特征序列这种包含噪声大,有规律,突变值多等特点的时间序列预测的准确性。
(2)本发明的创新点之一是联合建模,将残差子序列去噪后的结果与趋势子序列进行拼接,得到拼接后的二维时间序列,然后送入LSTM模型进行特征序列建模,通过子序列联合建模,将残差子序列和趋势子序列的窗口序列样本中每一时间步的(二维)观测值,其他人的做法是对两个子序列分别建模,所以别人的做法里每次输入的观测值是一维,而本发明的做法是联合建模,先映射到隐向量空间,然后再经过LSTM模型计算得到隐向量输出,隐式(对应后边的显式建模)地建模趋势子序列和残差子序列的关系,然后将隐向量输出映射回观测值所在的空间,得到下一时间步的趋势子序列预测值和残差子序列的联合预测结果。然后将趋势子序列预测值和残差子序列预测联合,送入多层全连接网络得到两序列的加权系数,这是创新点二,多元序列建模别人的做法只有通过神经网络隐式建模,本发明通过拟合权重系数达到对两个序列显式建模的效果,显式地建模趋势子序列和残差子序列的关系。因此本发明上述的提到显式建模方法和隐式建模方法,还有使用上一部分提到的基于神经网络确定阈值的去噪算法相比传统的时间序列预测方法有着更小的误差,更高的精度,且简单有效。
附图说明
图1是本发明系统整体框架图;
图2是本发明所设计的时间序列数据增广方法多窗口增强示意图;
图3是本发明所设计的时间序列数据增广方法交叉窗口增强示意图;
图4是本发明所设计的时间序列数据增广方法多扩张增强示意图;
图5是本发明所设计的神经网络确定阈值的去噪算法的示意图;
图6是本发明所设计的端到端的针对流量特征序列的多变量联合预测网络MCLSTM的结构图。
具体实施方式
下面参考附图,对本发明的实施例进行详细的说明。
本发明提到的各种窗口的含义:
(1)固定大小的采样窗口:流量特征提取模块中计算特征用的窗口;
(2)滑动窗口:时间序列预处理模块预处理中使用滑动窗口将整体序列划分为若干个相同大小的小窗口,得到的划分结果叫窗口序列样本简称为样本。
如图1所示,本发明一种基于时间序列分解网络流量预测系统,由流量特征提取模块、特征序列预处理模块、时间序列预测模块组成。其中,流量特征提取模块主要负责提取服务器流量特征序列,即按指定时间窗口大小由原始服务器流量数据计算各种特征。特征序列预处理模块负责对流量特征序列应用时间序列分解算法,将流量的特征序列分解为趋势,季节以及残差三个子序列,然后对趋势子序列以及残差子序列按固定时间窗口采样得到后续建模需要的窗口样本序列,然后再应用时间序列数据增广方法,对原始窗口样本进行扩展,得到最终的扩增数据。时间序列预测模块主要负责使用深度学习算法对分解后的网络流量特征序列的趋势子序列和残差子序列进行建模预测,最终将趋势序列的预测结果,残差序列的预测结果和季节序列的原始序列直接相加,得到最终的特征序列的预测结果。
流量特征提取模块主要负责提取服务器流量特征序列,具体实施方式如下:
服务器流量一般指的是由<源IP,目的IP,源端口,目的端口,传输协议>,五元组唯一标识的数据集合,它将一段时间内服务端和客户端发出的单向或双向数据包聚合成一条流数据。每一条流数据除以上五个特征外还包括比如,字节数、包数和开始时间。在计算流量特征之前需要先指定一个采样窗口,用于计算窗口内特征值。
计算不同特征前首先需要指定一个长度固定的采样窗口,计算窗口内的特征值。
(1)针对服务器每个指定端口的流数据以及服务器总体流数据,计算对端IP熵,对端端口熵,源端口熵特征。在计算对端IP熵的时候,统计采样窗口内的每个IP的频率作为概率pi,i表示窗口内不重复的IP地址编号。然后再根据公式(1)计算熵值,作为这个采样窗口内的对端IP熵值,X表示采样窗口内对端IP序列,其中H(X)代表采样窗口内的对端IP熵值,m表示采样窗口内不重复的IP地址总数;计算对端端口熵的时候i表示采样窗口内不重复对端端口编号,pi表示采样窗口内每个不重复对端端口的频率,X表示采样窗口内对端端口序列,H(X)代表采样窗口内对端端口熵值,m表示采样窗口内不重复的对端端口总数;计算源端端口熵的时候i表示采样窗口内不重复源端端口编号,pi表示采样窗口内每个不重复源端端口的频率,X表示采样窗口内源端端口序列,H(X)代表采样窗口内源端端口熵值,m表示采样窗口内不重复的源端端口总数。
(2)针对服务器每个指定端口的流数据以及服务器总体流数据计算对端IP数特征,计算方法就是在采样窗口内统计服务器对端IP出现的个数;
(3)针对服务器每个指定端口的流数据以及服务器总体流数据计算流入流量,流出流量和流入流出流量比例的特征,计算方法是在采样窗口内统计流入服务器的流量大小和流出服务器的流量大小,然后再计算比值。
特征序列预处理模块主要负责对流量特征序列进行时间序列分解,后通过滑动窗口采样得到窗口序列样本,最后针对不同引用场景采用不同的时间序列数据增广方法,得到增广后的窗口序列样本,目的是希望模型能关注窗口特征序列中不同类型的时间步的观测值,增大数据量,同时提高模型的泛化能力,减少过拟合的风险,减少滑动窗口大小的影响。具体实现如下:
(1)对于提取好的特征序列Y应用经典时间序列分解方法,分解为趋势,季节,残差三个子序列:首先指定一个周期m,比如按一天,这里的周期选择是依赖先验知识的,比如一般服务器的流量的整体周期与人的作息相似所以m取一天,对特征序列应用2×m-MA(移动平均)算法,提取趋势子序列于;然后计算去趋势化后的序列计算全部周期内相同时间步的观测值的平均值作为没个周期内的每一时间步的观测值,得到了季节子序列/>最后依照公式得到残差子序列/>理论依据为机器学习中的泛化误差分解理论论:
E(f(x)-y)=σ2+var(x)+bias2(x)=bias2(T+S+R)+var(T+S+R)+σ2=(bias(T)+bias(S)+bias(R))2+var(T)+var(S)+var(R)+σ2 (3)
机器学习模型的泛化误差如公式(3)所示可以分解为偏差bias2(x)项,方差项var(x)和噪声项σ2,偏差表示模型预测值偏离真实值的程度,方差表示模型预测值的波动程度,经典法分解求解季节子序列过程进行了周期延拓,即在该子序列的的预测是周期重复不变的,不存在预测误差。而趋势子序列在分解之后去掉了季节信息和残差信息,序列平滑。因此比原始序列更容易预测,所以趋势子序列模型预测的偏差和方差都会降低。所以最后的如果希望降低整体的期望泛化误差则需要尽可能降低剩余的残差子序列的预测模型的偏差和方差。这样就将主要问题由原始序列的精确预测一定程度上转为了对残差序列的精确预测。但是由于分解后序列的噪声基本全部存在于残差序列,因此可以对残差序列应用小波去噪降低序列的噪声,提高后续建模预测的准确性。
(2)由于分解后的季节子序列通过计算的到,不需要进行深度学习建模,所以将后续对趋势子序列和残差子序列分别按滑动窗口采样,得到窗口序列样本,后再应用时间序列数据增广方法对这些窗口序列样本进行重采样,得到最终的训练数据。
时间序列数据增广方法包括三种滑动窗口内部的不同重采样策略,能关注窗口特征序列中不同类型的时间步的观测值,增大数据量,同时提高MCLSTM模型的泛化能力,减少过拟合的风险,同时减少滑动窗口采样时滑动窗口大小对建模的影响;
三种策略具体实现如下:
如图2所示,第一种数据增强方法称为多窗口增强,首先从(0,1)区间内确定两个重采样系数r1和r2,然后使用公式(2)计算两个新的窗口大小分别为Taug1和Taug2。公式(2)中T为滑动窗口大小,Taug为扩增后窗口大小,r为重采样系数,表示Taug等于T乘r的结果向下取整。然后从原始滑动窗口内部分别取后Taug1和Taug2长度时间步的子序列,作为两个扩增窗口aug_wnd1和aug_wnd2,扩增了数据;如果只得到末端的几个时间步的观测值,则采用此方法;
如图2所示,第二种数据增强方法称为交叉窗口增强,首先从(0,1)区间内确定两个重采样系数r1和r2,然后使用公式(2)计算两个新的窗口大小分别为Taug1和Taug2。公式(2)中T为滑动窗口大小,Taug为扩增后窗口大小,r为重采样系数,表示Taug等于T乘r的结果向下取整。然后从原始滑动窗口内部分别取前Taug1长度时间步的子序列和后Taug2长度时间步的子序列,作为两个扩增窗口aug_wnd1和aug_wnd2,扩增了数据;如果同时得到滑动窗口末端和起始端的几个时间步的观测值,则采用此方法;
如图3所示,第三种种数据增强方法称为多扩张增强,首先确定两个扩张系数d1=2和d2=3,在原始滑动窗口内以分别以d1和d2为步长进行间隔采样,得到两个新的扩增子序列,作为两个扩增窗口aug_wnd1和aug_wnd2。如果只得到滑动窗口内随机间隔的特征序列观测值,则采用此方法。
时间按序列预测模块主要负责对得到的窗口特征序列应用基于神经网络确定阈值的去噪算法和趋势残差子序列联合建模的MCLSTM模型,得到特征序列的预测结果,具体实现如下:
(1)基于神经网络确定阈值的去噪算法
软阈值去噪理论如公式(3)所示,在常见的小波去噪过程中,离散小波变换对序列的分解后得到的多个分量,进行软阈值化,在阈值区间外的向内收缩,绝对值减去阈值,在阈值区间内的置为零,之后再把软阈值化后的分量重构求和,完成去噪过程;
其中x表示原始序列的观测值,threshold表示阈值,表示阈值去噪后的观测值。在软阈值化的这个过程中,阈值的取值是提前设置好的超参数。
如图5所示,本发明的基于神经网络确定阈值的去噪算法实现如下:
(1)将窗口序列样本送入AvgPooling层,卷积核尺寸为2,步长为1,得到中间结果记为baseline;
(2)将窗口序列样本送入一维卷积神经网络提取不同时刻之间的依赖关系,然后再送入全连接网络,对每一个时间步都学习一个去噪的阈值;
(3)使用公式(3)对原始序列进行阈值去噪,得到去噪后的窗口序列样本。
如图6所示,本发明的基于神经网络确定阈值的去噪算法和趋势残差子序列联合建模的MCLSTM模型具体实现如下:
(1)首先使用提到的基于神经网络确定阈值的去噪算法对残差序列样本进行端到端的阈值去噪;
(2)将残差子序列去噪后的结果与趋势子序列进行拼接,得到拼接后的二维时间序列,然后送入LSTM模型进行特征序列建模,通过子序列联合建模,将残差子序列和趋势子序列的窗口序列样本中每一时间步的二维观测值先映射到隐向量空间,然后再经过LSTM模型计算得到隐向量输出,隐式地建模趋势子序列和残差子序列的关系,然后将隐向量输出映射回观测值所在的空间,得到下一时间步的趋势子序列预测值和残差子序列的联合预测结果。然后将趋势子序列预测值和残差子序列预测联合,送入多层全连接网络得到两序列的加权系数,显式地建模趋势子序列和残差子序列的关系。
(3)最后对残差子序列预测结果、趋势子序列预测结果进行加权求和,再加上季节子序列进的观测值,得到最终的特征序列预测结果。
通过以上的实施方式的描述,本领域的普通技术人员可显而易见地得出其他优点和修改。以上实施方式仅用于说明本发明,而并非对本发明的限制,有关技术领域的普通技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变化和变型,因此所有等同的技术方案也属于本发明的范畴,本发明的保护范围应由权利要求限定。
Claims (6)
1.一种基于时间序列分解的网络流量预测系统,其特征在于,包括:流量特征提取模块,特征序列预处理模块、时间序列预测模块;
流量特征提取模块:提取服务器流量特征序列,即按指定采样窗口大小由服务器原始流量数据计算各种特征,所述各种特征包括上下行字节数,对端IP数,端口熵,源端端口熵,对端IP熵;服务器流量指由<源IP,目的IP,源端口,目的端口,传输协议>,五元组唯一标识的数据集合,它将一段时间内服务端和客户端发出的单向或双向数据包聚合成一条流数据;每一条流数据除包括上述五个特征,还包括字节数、包数和开始时间;在计算流量特征之前需要先指定一个采样窗口,用于计算窗口内特征值;
特征序列预处理模块:对流量特征提取模块提取的流量特征序列进行预处理,首先采用经典季节性分解算法将所述流量特征序列分解为趋势、季节及残差三个子序列,趋势子序列提取了原始序列的整体走势,季节子序列提取原始序列在每个周期内不变的模式,残差子序列由原始序列减去趋势子序列和季节子序列,表示原始序列的剩余分量,这三个子序列相加重构回原始特征序列,最终得到分解后的网络流量特征序列;季节子序列是由算法中的周期延拓操作得到,不需要进行后续的建模预测;然后对趋势子序列以及残差子序列按滑动窗口采样得到后续建模需要的窗口特征序列样本,再应用时间序列数据增广方法,对滑动窗口采样得到的窗口特征序列样本进行扩展,得到最终的扩增数据;
时间序列预测模块:使用基于神经网络确定阈值的去噪算法和趋势残差子序列联合建模的MCLSTM模型对分解后的网络流量特征序列的趋势子序列和残差子序列进行建模,首先使用神经网络去噪算法对残差子序列进行动态去噪,将去噪后的残差子序列和趋势子序列拼接,送入到LSTM网络中联合建模,得到趋势和残差序列的联合预测结果,然后经过全连接网络学习两者的关系,得到趋势序列和残差序列的权重系数,使用权重系数对趋势和残差的联合预测结果加权求和,再加上季节序列对应时间步的观测值,得到最终的预测结果。
2.根据权利要求1所述的基于时间序列分解的网络流量预测系统,其特征在于:所述流量特征提取模块具体实现如下:
计算不同特征前首先需要指定一个长度固定的采样窗口,计算窗口内的特征值;
(1)针对服务器每个指定端口的流数据以及服务器总体流数据,计算对端IP熵,对端端口熵,源端口熵特征。在计算对端IP熵的时候,统计采样窗口内的每个IP的频率作为概率pi,i表示窗口内不重复的IP地址编号;然后再根据公式(1)计算熵值,作为这个采样窗口内的对端IP熵值,X表示采样窗口内对端IP序列,其中H(X)代表采样窗口内的对端IP熵值,m表示采样窗口内不重复的IP地址总数;计算对端端口熵的时候i表示采样窗口内不重复对端端口编号,pi表示采样窗口内每个不重复对端端口的频率,X表示采样窗口内对端端口序列,H(X)代表采样窗口内对端端口熵值,m表示采样窗口内不重复的对端端口总数;计算源端端口熵的时候i表示采样窗口内不重复源端端口编号,pi表示采样窗口内每个不重复源端端口的频率,X表示采样窗口内源端端口序列,H(X)代表采样窗口内源端端口熵值,m表示采样窗口内不重复的源端端口总数;
(2)针对服务器每个指定端口的流数据以及服务器总体流数据计算对端IP数特征,计算方法就是在采样窗口内统计服务器对端IP出现的个数;
(3)针对服务器每个指定端口的流数据以及服务器总体流数据计算流入流量,流出流量和流入流出流量比例的特征,计算方法是在采样窗口内统计流入服务器的流量大小和流出服务器的流量大小,然后再计算比值。
3.根据权利要求1所述的基于时间序列分解网络流量预测系统,其特征在于:所述特征序列预处理模块实现如下:
(1)对于提取好的特征序列Y应用经典时间序列分解方法,分解为趋势,季节,残差三个子序列:首先指定一个周期m,对特征序列应用2×m-MA移动平均算法,提取趋势子序列然后计算去趋势化后的序列/>计算全部周期内相同时间步的观测值的平均值作为没个周期内的每一时间步的观测值,得到了季节子序列/>最后依照公式得到残差子序列/>
(2)对趋势子序列和残差子序列应用指定大小为T的滑动窗口采样,得到窗口特征序列样本;然后应用时间序列数据增广方法,对窗口特征序列进行重采样,得到增广后的样本;将扩增后的样本送入MCLSTM模型进行建模。
4.根据权利要求1所述的基于时间序列分解网络流量预测系统,其特征在于:所述特征序列预处理模块中,时间序列数据增广方法包括三种滑动窗口内部的不同重采样策略,能关注窗口特征序列中不同类型的时间步的观测值,增大数据量,同时提高MCLSTM模型的泛化能力,减少过拟合的风险,同时减少滑动窗口采样时滑动窗口大小对建模的影响;
所述三种策略具体实现如下:
第一种数据增强方法称为多窗口增强,首先从(0,1)区间内确定两个重采样系数r1和r2,然后使用公式(2)计算两个新的窗口大小分别为Taug1和Taug2,公式(2)中T为滑动窗口大小,Taug为扩增后窗口大小,r为重采样系数,表示Taug等于T乘r的结果向下取整。然后从原始滑动窗口内部分别取后Taug1和Taug2长度时间步的子序列,作为两个扩增窗口aug_wnd1和aug_wnd2,扩增了数据;如果只得到末端的几个时间步的观测值,则采用此方法;
第二种数据增强方法称为交叉窗口增强,首先从(0,1)区间内确定两个重采样系数r1和r2,然后使用公式(2)计算两个新的窗口大小分别为Taug1和Taug2,公式(2)中T为滑动窗口大小,Taug为扩增后窗口大小,r为重采样系数,表示Taug等于T乘r的结果向下取整;然后从原始滑动窗口内部分别取前Taug1长度时间步的子序列和后Taug2长度时间步的子序列,作为两个扩增窗口aug_wnd1和aug_wnd2,扩增了数据;如果同时得到滑动窗口末端和起始端的几个时间步的观测值,则采用此方法;
第三种数据增强方法称为多扩张增强,首先确定两个扩张系数d1=2和d2=3,在原始滑动窗口内以分别以d1和d2为步长进行间隔采样,得到两个新的扩增子序列,作为两个扩增窗口aug_wnd1和aug_wnd2;如果只得到滑动窗口内随机间隔的特征序列观测值,则采用此方法。
5.根据权利要求1所述的基于时间序列分解网络流量预测系统,其特征在于:所述时间序列预测模块中基于神经网络确定阈值的去噪算法具体实现如下:
(1)将窗口序列样本送入AvgPooling层,卷积核尺寸为2,步长为1,得到中间结果记为baseline;
(2)将窗口序列样本送入一维卷积神经网络提取不同时刻之间的依赖关系,然后再送入全连接网络,对每一个时间步都学习一个去噪的阈值;
(3)使用公式(3)对原始序列进行阈值去噪,得到去噪后的窗口序列样本;
其中x表示原始序列的观测值,threshold表示阈值,表示阈值去噪后的观测值,在软阈值化的这个过程中,阈值的取值是提前设置好的超参数。
6.根据权利要求1所述的基于时间序列分解网络流量预测系统,其特征在于:所述时间序列预测模块中使用的基于神经网络确定阈值的去噪算法和趋势残差子序列联合建模的MCLSTM模型具体实现如下:
(1)首先使用基于神经网络确定阈值的去噪算法对残差序列样本进行端到端的阈值去噪;
(2)然后将残差子序列去噪后的结果与趋势子序列进行拼接,得到拼接后的二维时间序列,然后送入LSTM模型进行特征序列建模,通过子序列联合建模,将残差子序列和趋势子序列的窗口序列样本中每一时间步的二维观测值先映射到隐向量空间,然后再经过LSTM模型计算得到隐向量输出,隐式地建模趋势子序列和残差子序列的关系,然后将隐向量输出映射回观测值所在的空间,得到下一时间步的趋势子序列预测值和残差子序列的联合预测结果,然后将趋势子序列预测值和残差子序列预测联合,送入多层全连接网络得到两序列的加权系数,显式地建模趋势子序列和残差子序列的关系;
(3)最后对残差子序列预测结果、趋势子序列预测结果进行加权求和,再加上季节子序列进的观测值,得到最终的特征序列预测结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210402656.0A CN116992986A (zh) | 2022-04-18 | 2022-04-18 | 一种基于时间序列分解网络流量预测系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210402656.0A CN116992986A (zh) | 2022-04-18 | 2022-04-18 | 一种基于时间序列分解网络流量预测系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116992986A true CN116992986A (zh) | 2023-11-03 |
Family
ID=88520009
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210402656.0A Pending CN116992986A (zh) | 2022-04-18 | 2022-04-18 | 一种基于时间序列分解网络流量预测系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116992986A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117556379A (zh) * | 2024-01-12 | 2024-02-13 | 西南石油大学 | 领域知识约束下深度特征融合的光伏发电功率预测方法 |
CN117729137A (zh) * | 2024-02-08 | 2024-03-19 | 金数信息科技(苏州)有限公司 | 一种网络流量数据的特征生成方法、装置及设备 |
CN117768207A (zh) * | 2023-12-24 | 2024-03-26 | 中国人民解放军61660部队 | 一种基于改进Transformer重构模型的网络流量无监督异常检测方法 |
CN117876091A (zh) * | 2023-12-07 | 2024-04-12 | 朴道征信有限公司 | 信息发送方法、装置、电子设备和计算机可读介质 |
CN117892066A (zh) * | 2024-03-14 | 2024-04-16 | 杭州银湖电气设备有限公司 | 一种磁控电抗器振动噪声数据处理方法 |
CN118485750A (zh) * | 2024-07-16 | 2024-08-13 | 山东漫动信息科技有限公司 | 一种文创动漫内容资源共享方法及系统 |
-
2022
- 2022-04-18 CN CN202210402656.0A patent/CN116992986A/zh active Pending
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117876091A (zh) * | 2023-12-07 | 2024-04-12 | 朴道征信有限公司 | 信息发送方法、装置、电子设备和计算机可读介质 |
CN117768207A (zh) * | 2023-12-24 | 2024-03-26 | 中国人民解放军61660部队 | 一种基于改进Transformer重构模型的网络流量无监督异常检测方法 |
CN117556379A (zh) * | 2024-01-12 | 2024-02-13 | 西南石油大学 | 领域知识约束下深度特征融合的光伏发电功率预测方法 |
CN117556379B (zh) * | 2024-01-12 | 2024-04-09 | 西南石油大学 | 领域知识约束下深度特征融合的光伏发电功率预测方法 |
CN117729137A (zh) * | 2024-02-08 | 2024-03-19 | 金数信息科技(苏州)有限公司 | 一种网络流量数据的特征生成方法、装置及设备 |
CN117892066A (zh) * | 2024-03-14 | 2024-04-16 | 杭州银湖电气设备有限公司 | 一种磁控电抗器振动噪声数据处理方法 |
CN117892066B (zh) * | 2024-03-14 | 2024-05-28 | 杭州银湖电气设备有限公司 | 一种磁控电抗器振动噪声数据处理方法 |
CN118485750A (zh) * | 2024-07-16 | 2024-08-13 | 山东漫动信息科技有限公司 | 一种文创动漫内容资源共享方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116992986A (zh) | 一种基于时间序列分解网络流量预测系统 | |
CN112398779B (zh) | 一种网络流量数据分析方法及系统 | |
US10848508B2 (en) | Method and system for generating synthetic feature vectors from real, labelled feature vectors in artificial intelligence training of a big data machine to defend | |
CN110048827B (zh) | 一种基于深度学习卷积神经网络的类模板攻击方法 | |
CN112468326B (zh) | 基于时间卷积神经网络的访问流量预测方法 | |
CN110460458B (zh) | 基于多阶马尔科夫链的流量异常检测方法 | |
He et al. | Generalized minimum error entropy for robust learning | |
CN110853074A (zh) | 一种利用光流增强目标的视频目标检测网络系统 | |
CN107945210A (zh) | 基于深度学习和环境自适应的目标跟踪算法 | |
Moraes et al. | Epanechnikov kernel for PDF estimation applied to equalization and blind source separation | |
TW202336549A (zh) | 檢測網路中基礎設施設備產生的時間序列數據異常的方法 | |
CN115694985A (zh) | 基于tmb的混合网络流量攻击预测方法 | |
CN114124734B (zh) | 一种基于GCN-Transformer集成模型的网络流量预测方法 | |
CN114117229A (zh) | 一种基于有向和无向结构信息的图神经网络的项目推荐方法 | |
CN116527346A (zh) | 基于深度学习图神经网络理论的威胁节点感知方法 | |
CN117082118A (zh) | 基于数据推导及端口预测的网络连接方法 | |
Pillai et al. | Strengthening Cybersecurity using a Hybrid Classification Model with SCO Optimization for Enhanced Network Intrusion Detection System | |
Awad et al. | Addressing imbalanced classes problem of intrusion detection system using weighted extreme learning machine | |
CN111262873B (zh) | 一种基于小波分解的用户登录特征预测方法及其装置 | |
CN109768995B (zh) | 一种基于循环预测和学习的网络流量异常检测方法 | |
CN111797997A (zh) | 网络入侵检测方法、模型构建方法、装置及电子设备 | |
CN115883424A (zh) | 一种高速骨干网间流量数据预测方法及系统 | |
CN116151369A (zh) | 一种公共审计的拜占庭鲁棒联邦学习系统及方法 | |
CN113609970A (zh) | 基于分组卷积深度U_Net的水下目标识别方法 | |
Thill et al. | Online adaptable time series anomaly detection with discrete wavelet transforms and multivariate gaussian distributions |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |