CN117241306B - 一种4g网络异常流量数据实时监测方法 - Google Patents
一种4g网络异常流量数据实时监测方法 Download PDFInfo
- Publication number
- CN117241306B CN117241306B CN202311490488.6A CN202311490488A CN117241306B CN 117241306 B CN117241306 B CN 117241306B CN 202311490488 A CN202311490488 A CN 202311490488A CN 117241306 B CN117241306 B CN 117241306B
- Authority
- CN
- China
- Prior art keywords
- sequence
- data
- flow
- time sequence
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000002159 abnormal effect Effects 0.000 title claims abstract description 105
- 238000000034 method Methods 0.000 title claims abstract description 39
- 238000012544 monitoring process Methods 0.000 title claims abstract description 30
- 239000011159 matrix material Substances 0.000 claims abstract description 108
- 238000012216 screening Methods 0.000 claims abstract description 89
- 239000013598 vector Substances 0.000 claims abstract description 71
- 230000010355 oscillation Effects 0.000 claims abstract description 58
- 230000000737 periodic effect Effects 0.000 claims abstract description 46
- 230000001932 seasonal effect Effects 0.000 claims description 30
- 238000012545 processing Methods 0.000 claims description 4
- 238000000354 decomposition reaction Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 230000005856 abnormality Effects 0.000 abstract description 9
- 238000001514 detection method Methods 0.000 abstract description 9
- 238000011144 upstream manufacturing Methods 0.000 description 47
- 238000004458 analytical method Methods 0.000 description 7
- 230000008859 change Effects 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 238000004891 communication Methods 0.000 description 4
- YHXISWVBGDMDLQ-UHFFFAOYSA-N moclobemide Chemical compound C1=CC(Cl)=CC=C1C(=O)NCCN1CCOCC1 YHXISWVBGDMDLQ-UHFFFAOYSA-N 0.000 description 3
- 230000004931 aggregating effect Effects 0.000 description 2
- 238000004220 aggregation Methods 0.000 description 2
- 230000000739 chaotic effect Effects 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 230000003203 everyday effect Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000002547 anomalous effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 230000009514 concussion Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000002354 daily effect Effects 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000005206 flow analysis Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000000691 measurement method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003534 oscillatory effect Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Abstract
本发明涉及网络流量检测技术领域,提出了一种4G网络异常流量数据实时监测方法,包括:获取时序区间的时序区间数据矩阵和历史数据库;获取周期震荡波动强度系数;根据历史数据库获取上行流量预测序列,结合周期震荡波动强度系数获取上行流量序列的数据异动指数;根据历史数据库获取上行流量序列集合,进而获取上行流量序列的数据异动离群筛选指数,进而获取时序区间的时序区间筛选向量;根据历史数据库和时序区间筛选向量获取网络异常流量确信指数,进而获取所有时序区间数据矩阵的综合异常得分,进而确定网络异常流量数据、实现4G网络异常流量数据的实时监测。本发明旨在解决现有的未知异常导致的4G网络异常流量识别结果易误判的问题。
Description
技术领域
本发明涉及网络流量检测技术领域,具体涉及一种4G网络异常流量数据实时监测方法。
背景技术
随着4G网络的大规模普及和应用,4G基站处理的网络流量逐渐增大,4G网络中出现故障或性能问题的可能性也随之增大。4G网络中出现故障或性能问题时,会产生4G网络异常流量,严重影响网络通信的质量,威胁用户主机和4G基站的安全使用。因此,对4G基站进行网络异常流量数据的实时监测是很有必要的,实时监测不仅可以避免由于异常流量导致的网络拥塞,提升用户的通信质量,还可以确保网络通信的安全性,避免因网络异常流量的出现导致4G基站被选定为网络攻击的迹象。
传统4G网络异常流量检测方法一般使用基于规则的方法,预先在系统中设定已确定的规则集,用来判断流量是否异常,将流量特征符合异常流量规则的流量数据判断为异常流量,但是,基于规则的方法无法有效地对新型攻击或未知异常导致的4G网络异常流量进行检测。为了实现对新型攻击或未知异常导致的4G网络异常流量进行检测,可以使用基于机器学习的异常检测方法,例如,孤立森林算法。但是,网络流量类型多种多样,当某种正常网络流量在孤立森林训练时出现的情况较少,可能出现孤立森林算法将正常网络流量误判成异常流量、无法对异常流量进行准确区分的问题。
发明内容
本发明提供一种4G网络异常流量数据实时监测方法,以解决现有的未知异常导致的4G网络异常流量识别结果易误判的问题,所采用的技术方案具体如下:
本发明一个实施例提供了一种4G网络异常流量数据实时监测方法,该方法包括以下步骤:
采集4G基站网络流量相关数据并进行预处理,获取时序区间的时序区间数据矩阵和历史数据库;
根据时序区间数据矩阵获取流量序列和上行流量序列,根据上行流量序列获取上行流量序列的周期平稳波动因子,根据上行流量序列和周期平稳波动因子获取周期震荡波动强度系数;
根据历史数据库获取上行流量预测序列,根据上行流量序列和上行流量预测序列获取时序区间数据偏差系数,根据周期震荡波动强度系数和时序区间数据偏差系数获取上行流量序列的数据异动指数;
根据历史数据库获取上行流量序列集合,根据上行流量序列集合和上行流量序列获取相似差异系数,根据上行流量序列和相似差异系数获取相似性权重,根据相似性权重获取离群值概率,进而获取上行流量序列的数据异动离群筛选指数,获取时序区间数据矩阵内除上行流量序列之外所有流量序列的数据异动离群筛选指数,进而获取时序区间的时序区间筛选向量;
根据历史数据库获取非同簇筛选向量集合和同簇筛选向量集合,根据非同簇筛选向量集合、同簇筛选向量集合和时序区间筛选向量获取网络异常流量确信指数,根据所有4G基站时序区间的时序区间数据矩阵获取时序区间的异常得分,根据时序区间的网络异常流量确信指数和异常得分获取综合异常得分,进而确定网络异常流量数据、实现4G网络异常流量数据的实时监测。
进一步,所述根据时序区间数据矩阵获取流量序列和上行流量序列,包括的具体方法为:
将时序区间数据矩阵内同一行4G基站网络流量相关数据对应的序列记为流量序列;
将时序区间数据矩阵内第一行4G基站网络流量相关数据对应的序列记为上行流量序列,其中,上行流量序列中的4G基站网络流量相关数据可以为上行流量。
进一步,所述根据上行流量序列获取上行流量序列的周期平稳波动因子,包括的具体方法为:
对上行流量序列使用时间序列分解算法进行处理,获取季节性数据序列;
将数据位于季节性数据序列的位次作为数据的横坐标,将数据的数值作为数据的纵坐标,建立季节性数据散点图;
对季节性数据散点图中包含的所有散点进行非线性拟合,获取季节性数据序列的拟合曲线函数;
获取季节性数据序列的拟合曲线函数的极值点,将所有极值点的按照极值点的横坐标从小到大的顺序进行排列,获取极值序列;
将极值序列中相邻数据对应的上行流量的差值记为相邻数据中位于极值序列中的位次最小的数据的极值震荡差值;
根据季节性数据序列、极值序列和时序区间数据矩阵获取上行流量序列的周期平稳波动因子。
进一步,所述根据上行流量序列和周期平稳波动因子获取周期震荡波动强度系数,包括的具体方法为:
将极值点对应的极值震荡差值按照极值点在极值序列中的次序进行排列,获取极值震荡差值序列;
获取极值震荡差值序列的信息熵;
根据极值震荡差值序列的信息熵、极值序列和上行流量序列的周期平稳波动因子获取周期震荡波动强度系数。
进一步,所述根据历史数据库获取上行流量预测序列,包括的具体方法为:
将历史数据库中时序区间之前第一预设阈值个相邻时序区间的上行流量按照所述上行流量的获取时间的先后顺序进行排列,获取上行流量相邻历史数据序列;
根据上行流量相邻历史数据序对时序区间数据进行预测,获取时序区间的上行流量预测序列。
进一步,所述根据周期震荡波动强度系数和时序区间数据偏差系数获取上行流量序列的数据异动指数,包括的具体方法为:
将时序区间数据矩阵内上行流量序列的周期震荡波动强度系数与时序区间数据偏差系数的乘积记为上行流量序列的数据异动指数。
进一步,所述根据历史数据库获取上行流量序列集合,包括的具体方法为:
在历史数据库中随机抽取第二预设阈值个与时序区间数据矩阵内上行流量序列在不同日期具有相同时间段的4G基站上行流量序列,将抽取的上行流量序列组成的集合记为过去上行流量序列集合。
进一步,所述进而获取时序区间的时序区间筛选向量,包括的具体方法为:
按照4G基站网络流量相关数据在时序区间数据矩阵内从上至下的排列顺序,将所有4G基站网络流量相关数据的时序区间筛选向量从左到右依次排列,获取时序区间的时序区间筛选向量。
进一步,所述根据历史数据库获取非同簇筛选向量集合和同簇筛选向量集合,包括的具体方法为:
将所分析的时序区间数据矩阵记为第一时序区间数据矩阵;
将历史数据库中随机抽取的第三预设阈值个已经判断是正常的时序区间数据矩阵和第一时序区间数据矩阵组成的集合记为时序区间数据矩阵集合;
获取随机抽取的所有正常时序区间数据矩阵的时序区间筛选向量;
对时序区间数据矩阵集合中所有时序区间筛选向量进行聚类,获取第四预设阈值个聚类簇;
将不包含第一时序区间数据矩阵的时序区间筛选向量的聚类簇组成的集合记为非同簇筛选向量集合;
将包含第一时序区间数据矩阵的时序区间筛选向量的聚类簇组成的集合记为同簇筛选向量集合。
进一步,所述进而确定网络异常流量数据、实现4G网络异常流量数据的实时监测,包括的具体方法为:
当时序区间的综合异常得分大于预设异常阈值时,认为时序区间包含的4G基站网络流量相关数据为网络异常流量数据;
当时序区间的综合异常得分小于等于预设异常阈值时,认为时序区间包含的4G基站网络流量相关数据不是网络异常流量数据,实现4G网络异常流量数据的实时监测。
本发明的有益效果是:
本发明采集4G基站网络流量相关数据并进行预处理,获取历史数据库和流量序列,对流量序列进行分析,首先,对流量序列进行分解,通过对分解后的序列的周期震荡波动特征进行分析,结合预测模型获取综合构建数据异动指数,综合构建数据异动指数反映流量序列的异常波动程度,避免不同流量序列对应的网络流量差异较大导致的无法直接区分网络异常流量数据的问题,提高后续异常检测的准确度;然后,基于不同日期同一时间段对应的流量序列的历史数据特征以及其与正常数据之间相似程度,构建网络异常流量确信指数,网络异常流量确信指数反映时序区间数据矩阵的数据异常程度;进而将网络异常流量确信指数作为孤立森林的异常得分校正因子改进孤立森林异常得分,解决不同时序区间具有不同的网络策略导致的数据异动指数误差较大的问题,提高后续异常检测的精度;最后,根据4G基站的时序区间网络流量相关数据和改进孤立森林异常得分实现4G网络异常流量数据的实时异常监测,对网络流量进行精确判断,及时识别4G基站网络异常流量数据,解决现有的未知异常导致的4G网络异常流量识别结果易误判的问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一个实施例所提供的一种4G网络异常流量数据实时监测方法流程示意图;
图2为周期震荡波动强度系数获取流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,其示出了本发明一个实施例所提供的一种4G网络异常流量数据实时监测方法流程图,该方法包括以下步骤:
步骤S001、采集4G基站网络流量相关数据并进行预处理,获取时序区间的时序区间数据矩阵和历史数据库。
采用网络流量分析工具对4G基站网络流量相关数据进行检测和采集。其中,网络流量分析工具可使用Wireshark,实施者也可根据需要自行选取网络流量分析工具。其中,4G基站网络流量相关数据包括4G基站的上行流量、下行流量、带宽利用率、丢包率和时延,实施者也可根据需要选取其他种类的4G基站网络流量相关数据,且4G基站网络流量相关数据的数量并不局限于上述五种,实施者可根据需要设置4G基站网络流量相关数据的种类数量。
其中,不同种类的4G基站网络流量相关数据的采集时刻、采集时刻间隔和采集数据量均相同。相同种类的两个相邻4G基站网络流量相关数据的时间间隔经验值为0.1秒,相同种类的4G基站网络流量相关数据采集的总时间长度经验值为8小时。
从采集的4G基站的上行流量、下行流量、带宽利用率、丢包率和时延的第一个数据开始,每1分钟划分一个时序区间,将每个种类的4G基站网络流量相关数据划分为多个时序区间。其中,实施者也可根据需要自行选取时序区间的长度。
根据对应同一段时间的时序区间获取时序区间数据矩阵,将第个时序区间数据矩阵记为/>,/>为时序区间数据矩阵/>的编号。时序区间数据矩阵的同一行对应同一种类的4G基站网络流量相关数据,同一种类的4G基站网络流量相关数据按照获取时间的先后顺序在时序区间数据矩阵中从左到右依次排列。
为了便于理解,本实施例以第1个时序区间数据矩阵为例进行分析,第1个时序区间数据矩阵为:
;
其中,为第1个时序区间数据矩阵,矩阵每一行代表采集到的同一种类网络流量相关数据。矩阵中包含的元素的下标包含三个数值:第一个数值对应元素所在的时序区间数据矩阵的编号;第二个数值对应元素对应的4G基站网络流量相关数据的种类,数字1-5分别对应4G基站上行流量、下行流量、带宽利用率、丢包率和时延;第三个数值对应元素在时序区间内对应的获取时间编号。例如:/>表示第1个时序区间数据矩阵内第4个数据获取时间的带宽利用率的数据值。其中,/>的经验值为600。
提取4G基站网络流量相关数据的历史数据,将所有提取的历史数据记为历史数据库。
至此,获取时序区间数据矩阵和历史数据库。
步骤S002、根据时序区间数据矩阵获取流量序列和上行流量序列,根据上行流量序列获取上行流量序列的周期平稳波动因子,根据上行流量序列和周期平稳波动因子获取周期震荡波动强度系数。
4G基站将用户设备与核心网络连接在一起,使用户设备能够访问互联网,所以,4G基站是4G网络的重要组成部分。对于正常、未有异常流量的4G基站而言,由于每个4G基站负责较多的用户设备进行网络通信,因此,在较短的时间内,4G基站网络流量相关数据通常较为稳定、平滑的,同一种类的数据之间差异较小;当4G网络出现异常状况时,例如,网络配置错误导致网络流量分配不均,会使同一时序区间内、同一种类的4G基站网络流量相关数据之间差异较大,具有震荡波动的特征。
将第1个时序区间数据矩阵内同一行4G基站网络流量相关数据对应的序列均记为流量序列。
以第1个时序区间数据矩阵内第一行4G基站网络流量相关数据对应的上行流量序列进行分析,对上行流量序列/>使用STL分解算法进行处理,获取季节性数据序列,季节性数据序列表示流量序列的周期震荡波动变化。
将季节性数据序列中数据位于季节性数据序列的位次作为数据的横坐标,将数据的数值作为数据的纵坐标,建立季节性数据散点图。对季节性数据散点图中包含的所有散点使用最小二乘法进行非线性拟合,获取季节性数据序列的拟合曲线函数。
当时序区间内的4G基站的上行流量出现异常状况时,季节性数据序列的拟合曲线函数会出现震荡波动的特征。
获取季节性数据序列的拟合曲线函数的极值点,极值点即为4G基站的上行流量中具有较大震荡波动的数据点。将所有极值点的按照极值点的横坐标从小到大的顺序进行排列,获取极值序列。记极值序列/>中共有/>个数据。计算极值序列/>中第/>个极值点与第个极值点的上行流量的差值,将该差值记为第/>个极值点对应的极值震荡差值,其中。
基于上述分析,根据季节性数据序列、极值序列和第1个时序区间数据矩阵获取第1个时序区间数据矩阵内上行流量序列的周期平稳波动因子/>。
;
其中,表示第1个时序区间数据矩阵内上行流量序列/>的周期平稳波动因子;/>表示极值序列/>中第/>个上行流量;/>表示季节性数据序列/>中包含的所有数据的均值;/>表示极值序列/>中包含的所有数据的总数量;/>表示极值序列/>中第/>个极值在第1个时序区间数据矩阵内上行流量序列/>中对应的横坐标值。
当季节性数据序列中极值点的数值与季节性数据序列中包含的所有数据的均值差异越大时,季节性数据序列中数据震荡程度越大,第1个时序区间数据矩阵内上行流量序列越不平稳,则第1个时序区间数据矩阵内上行流量序列的周期平稳波动因子越小;当两个相邻极值点的横坐标差异越小时,季节性数据序列中的数据极值越密集,数据震荡越频繁,第1个时序区间数据矩阵内上行流量序列越不平稳,则第1个时序区间数据矩阵内上行流量序列的周期平稳波动因子越小。
将极值点对应的极值震荡差值按照极值点在极值序列中的次序进行排列,获取极值震荡差值序列,极值震荡差值序列/>中共有/>个数据点。计算极值震荡差值序列的信息熵,将极值震荡差值序列/>的信息熵记为/>。
根据极值震荡差值序列的信息熵、极值序列和上行流量序列的周期平稳波动因子获取周期震荡波动强度系数。
;
其中,表示第1个时序区间数据矩阵内上行流量序列/>的周期震荡波动强度系数;/>表示极值震荡差值序列/>的信息熵;/>表示极值序列/>中包含的所有数据的总数量;/>表示第1个时序区间数据矩阵内上行流量序列/>的周期平稳波动因子;/>表示自然常数。
当极值序列中包含的所有数据的总数量越多时,季节性数据序列/>中数据变化越频繁,第1个时序区间数据矩阵内上行流量序列的震荡波动越明显;同时,当极值震荡差值序列/>包含的数据越混乱、越不一致时,极值震荡差值序列/>的信息熵越大,季节性数据序列/>中包含的数据的震荡波动变化的程度越混乱,第1个时序区间数据矩阵内上行流量序列/>的周期震荡波动特征越强烈,即第1个时序区间数据矩阵内上行流量序列的周期震荡波动强度系数/>越大;当第1个时序区间数据矩阵内上行流量序列的周期平稳波动因子/>越小时,第1个时序区间数据矩阵内上行流量序列具有周期震荡波动特征的强度越高,则第1个时序区间数据矩阵内上行流量序列的周期震荡波动强度系数越大。
其中,周期震荡波动强度系数获取流程图如图2所示。
至此,获取第1个时序区间数据矩阵内上行流量序列的周期震荡波动强度系数。
步骤S003、根据历史数据库获取上行流量预测序列,根据上行流量序列和上行流量预测序列获取时序区间数据偏差系数,根据周期震荡波动强度系数和时序区间数据偏差系数获取上行流量序列的数据异动指数。
相邻时序区间的网络流量相关数据通常具有较强的关联性,对于未有异常流量数据的4G基站网络流量相关数据而言,如前一个时序区间内具有较高的上行流量,由于两个相邻时序区间相隔较短,所有下一个时序区间应当与前一个时序区间数据相似,也具有较高的上行流量。
在历史数据库中获取第1个时序区间之前第一预设阈值个相邻时序区间的4G基站上行流量,其中,第一预设阈值经验值为50。将获取的4G基站上行流量按照4G基站上行流量的获取时间的先后顺序进行排列,获取上行流量相邻历史数据序列。
采用ARIMA差分自回归移动平均模型,根据上行流量相邻历史数据序列对第1个时序区间数据进行预测,ARIMA模型的输入为上行流量相邻历史数据序列/>,输出为第1个时序区间的上行流量预测序列/>。其中,使用ARIMA差分自回归移动平均模型进行数据预测为公知技术,不再赘述。
基于上述分析,根据上行流量序列和上行流量预测序列/>构建时序区间数据偏差系数/>:
;
其中,表示第1个时序区间数据矩阵内上行流量序列的时序区间数据偏差系数;/>表示第1个时序区间数据矩阵内上行流量序列/>和上行流量预测序列/>的dtw距离;/>表示第1个时序区间数据矩阵内上行流量序列/>中第/>个数据;表示上行流量预测序列中第/>个数据值。
当第1个时序区间数据矩阵内上行流量序列和上行流量预测序列/>中对应数据之间的差异越大时,两个序列之间整体相似性越低、整体差异越大,时第1个时序区间数据矩阵内上行流量序列的时序区间数据偏差系数越大。
对于未有网络异常流量数据的时序区间而言,数据之间较为稳定,数据变化程度较低,数据序列的周期震荡波动特征较低,即周期震荡波动强度系数较小,而且,其未有网络异常流量数据的时序区间与相邻历史时序区间数据关联程度较高,由相邻历史数据所得预测值较为接近实际值,即时序区间数据偏差系数较大;而对于含有网络异常流量数据的时序区间而言,数据变化突兀、不稳定、具有较强的周期震荡波动特征,周期震荡波动强度系数较大,而且,含有网络异常流量数据的时序区间与相邻历史区间数据差异较大、关联度较低、预测值与实际值偏差较大,即时序区间数据偏差系数较小。
基于上述分析,可得第1个时序区间的上行流量序列的数据异动指数/>:
;
其中,表示第1个时序区间数据矩阵内上行流量序列/>的数据异动指数;表示第1个时序区间数据矩阵内上行流量序列/>的周期震荡波动强度系数;/>表示第1个时序区间数据矩阵内上行流量序列的时序区间数据偏差系数。
当第1个时序区间数据矩阵内上行流量序列的周期震荡波动强度系数和时序区间数据偏差系数越大时,上行流量序列/>越可能具有异常波动,行流量序列/>的数据异动指数越大,时序区间内包含的数据越有可能是网络异常流量数据。
至此,获取第1个时序区间数据矩阵内上行流量序列的数据异动指数。
步骤S004、根据历史数据库获取上行流量序列集合,根据上行流量序列集合和上行流量序列获取相似差异系数,根据上行流量序列和相似差异系数获取相似性权重,根据相似性权重获取离群值概率,进而获取上行流量序列的数据异动离群筛选指数,获取时序区间数据矩阵内除上行流量序列之外所有流量序列的数据异动离群筛选指数,进而获取时序区间的时序区间筛选向量。
只使用数据异动指数来判断时序区间网络流量相关数据是否是异常状况并不准确,例如:在用户日常休息期间,用户上网次数较为频繁,与工作期间相比,4G基站可能具有较多网络流量相关数据,此时,4G基站会根据网络负载情况来调整网络策略,而这种正常的网络策略变化可能会导致网络流量数据在短时间内产生较大的震荡波动,具有较高的数据异动指数,此时,仅使用数据异动指数来判断时序区间网络流量相关数据是否是异常状况的判断结果误差较大。4G基站负责一个区域内众多的用户设备的网络连接,实际用户每天可能具有重复的生活模式,每天相同时序区间内的4G基站网络流量相关数据往往较为相似、差距不大。
在历史数据库中随机抽取第二预设阈值个与第1个时序区间数据矩阵内上行流量序列在不同日期具有相同时间段的4G基站上行流量序列,其中,第二预设阈值经验值为50。例如,序列/>对应的时间段为9时18分,则抽取其他日期中9时18分对应的上行流量序列,将抽取的上行流量序列分别记为/>,抽取的上行流量序列组成的集合记为过去上行流量序列集合/>。
根据上行流量序列集合和上行流量序列获取相似差异系数。
;
其中,表示上行流量序列/>与过去上行流量序列集合/>中第/>个过去数据序列的相似差异系数;/>、/>分别表示过去上行流量序列集合/>中第/>个、第/>个过去数据序列;/>表示过去上行流量序列集合/>中第/>个、第/>个过去数据序列之间的KL散度;/>表示过去上行流量序列集合/>中包含的过去数据序列数量。
当过去数据序列和过去上行流量序列集合/>中其他过去数据序列之间数据差异越大时,在同一时间段内不同日期的上行流量序列之间的相似度越低,则上行流量序列/>与过去上行流量序列集合/>中第/>个过去数据序列的相似差异系数越大。
根据上行流量序列与过去上行流量序列集合/>中过去数据序列的相似差异系数获取上行流量序列的相似性权重。
;
其中,表示上行流量序列/>的过去上行流量序列集合/>的相似性权重;表示过去上行流量序列集合/>中包含的所有序列相似差异系数的均值;/>表示第二预设阈值;/>表示上行流量序列/>与过去上行流量序列集合/>中第/>个过去数据序列的相似差异系数;/>表示过去上行流量序列集合/>中包含的过去数据序列数量。
当过去上行流量序列集合中过去数据序列之间的相似差异系数差异越小时,过去上行流量序列集合/>中各个过去数据序列之间越为相似,在同一时间段内、不同日期的上行流量序列具有越强的相似程度,过去上行流量序列集合/>中包含的过去数据序列越具有代表性,即上行流量序列/>的过去上行流量序列集合/>的相似性权重/>越小。
获取集合中每个数据序列的数据异动指数。
对集合中包含的所有序列和上行流量序列/>进行SOS异常检测,具体为将集合中每个序列对应的数据异动指数和上行流量序列/>对应的数据异动指数作为SOS算法的输入,度量方法采用欧式距离,输出为每个数据序列的离群值概率,将上行流量序列/>对应的SOS离群值概率记为/>。
根据过去上行流量序列集合中包含的序列的SOS离群值概率、上行流量序列的数据异动指数和SOS离群值概率获取数据异动离群筛选指数。
;
其中;表示上行流量序列/>的数据异动离群筛选指数;/>表示上行流量序列/>的数据异动指数;/>表示上行流量序列/>的SOS离群值概率;/>表示上行流量序列/>的过去上行流量序列集合/>的相似性权重。
当上行流量序列的数据异动指数越大时,上行流量序列/>越有可能具有异常波动、越有可能是网络异常流量数据,则上行流量序列/>的数据异动离群筛选指数/>越大;当上行流量序列/>的数据异动指数与过去上行流量序列集合S中各个过去数据序列的数据异动指数相比越离散,即/>越大时,上行流量序列/>越有可能是异常数据;当上行流量序列/>的过去上行流量序列集合/>的相似性权重越小时,随机抽取的过去数据序列之间的相似度越高,随机抽取的序列越能体现时序区间的网络流量数据特征,上行流量序列/>越有可能是网络异常流量数据,即数据异动离群筛选指数/>越大。
至此,获取上行流量序列的数据异动离群筛选指数。
同理,获取第1个时序区间数据矩阵内除上行流量序列之外所有流量序列的数据异动离群筛选指数,即下行流量序列的数据异动离群筛选指数、带宽利用率序列的数据异动离群筛选指数/>、丢包率序列的数据异动离群筛选指数/>和时延序列的数据异动离群筛选指数/>。
时序区间采集矩阵中不同行数据在网络传输中往往可能具有较强的关联性,如4G基站在一个时序区间内如果具有较高的上行流量,则往往也可能同时具有较高的下行数量数据。
根据第1个时序区间数据矩阵内所有序列的数据异动离群筛选指数获取第1个时序区间的时序区间筛选向量。
;
至此,获取第1个时序区间的时序区间筛选向量。
步骤S005、根据历史数据库获取非同簇筛选向量集合和同簇筛选向量集合,根据非同簇筛选向量集合、同簇筛选向量集合和时序区间筛选向量获取网络异常流量确信指数,根据所有4G基站时序区间的时序区间数据矩阵获取时序区间的异常得分,根据时序区间的网络异常流量确信指数和异常得分获取综合异常得分,进而确定网络异常流量数据、实现4G网络异常流量数据的实时监测。
在历史数据库中随机抽取第三预设阈值个已经判断是正常的时序区间数据矩阵,其中,第三预设阈值经验值为100;判断是正常的时序区间数据矩阵可采用人工进行判断。
同理,获取随机抽取的所有正常时序区间数据矩阵的时序区间筛选向量。
将随机抽取的所有正常时序区间数据矩阵和第1个时序区间数据矩阵组成的集合记为时序区间数据矩阵集合。
将时序区间数据矩阵集合中所有数据矩阵的时序区间筛选向量作为k-shape聚类算法的输入,采用k-shape聚类算法将时序区间数据矩阵集合/>中所有数据矩阵划分为第四预设阈值个聚类簇,聚类过程中的度量距离为欧氏距离。其中,第四预设阈值的经验值为2。
将时序区间数据矩阵集合中包含的所有时序区间数据矩阵的个数记为/>,将包含第1个时序区间数据矩阵的时序区间筛选向量的聚类簇中所有时序区间筛选向量的个数记为/>,将不包含第1个时序区间数据矩阵的时序区间筛选向量的聚类簇中包含的所有时序区间筛选向量的个数记为/>,其中,/>。
将不包含第1个时序区间数据矩阵的时序区间筛选向量的聚类簇组成的集合记为非同簇筛选向量集合,将包含第1个时序区间数据矩阵的时序区间筛选向量的聚类簇组成的集合记为同簇筛选向量集合。
根据非同簇筛选向量集合、同簇筛选向量集合和第1个时序区间的时序区间筛选向量获取第1个时序区间的网络异常流量确信指数。
;
其中,表示第1个时序区间的网络异常流量确信指数;/>表示第1个时序区间的时序区间筛选向量;/>表示非同簇筛选向量集合/>中第/>个时序区间筛选向量;/>表示非同簇筛选向量集合/>中包含的时序区间筛选向量的数量;/>表示获取括号内逗号分隔开的两个时序区间筛选向量之间的欧式距离;/>表示同簇筛选向量集合中包含的时序区间筛选向量的数量;/>表示时序区间数据矩阵集合/>中包含的时序区间筛选向量的数量;/>表示自然常数。
当第1个时序区间的时序区间筛选向量所在的聚类簇数量越少时,正常网络流量时序区间的筛选向量与时序区间筛选向量/>具有高相似度的时序区间筛选向量个数越少,即第1个时序区间对应的第1个时序区间数据矩阵/>与历史正常数据矩阵相比,相似程度较小;当第1个时序区间的时序区间筛选向量/>与其他非同簇的正常网络流量的差异越大时,即第1个时序区间数据矩阵/>与历史正常数据矩阵差异越大,则第1个时序区间数据矩阵/>越可能是网络异常流量数据,第1个时序区间的网络异常流量确信指数/>越大。
至此,获取第1个时序区间的网络异常流量确信指数。
同理,获取除第1个时序区间之外所有时序区间的网络异常流量确信指数。
将4G基站的每个序列区间作为一个样本,使用采集的所有4G基站时序区间的时序区间数据矩阵训练孤立森林,将每个序列区间对应的所有网络流量相关数据作为样本的维度数据,其中,孤立树的个数的经验值为50,每次抽取的样本树的经验值为128,采用交叉验证的方式确定最佳树深度,使用训练好的孤立森林对时序区间的时序区间数据矩阵进行处理,获取所有时序区间的异常得分。其中,使用孤立森林进行异常检测为公知技术,不再赘述。
根据时序区间的网络异常流量确信指数和异常得分获取综合异常得分。
;
其中,表示第/>时序区间的综合异常得分;/>表示第/>时序区间的网络异常流量确信指数;/>表示第/>时序区间的的异常得分;/>表示线性归一化函数。
至此,获取所有时序区间的综合异常得分。
当时序区间的综合异常得分大于预设异常阈值时,认为时序区间包含的4G基站网络流量相关数据为网络异常流量数据;当时序区间的综合异常得分小于等于预设异常阈值时,认为时序区间包含的4G基站网络流量相关数据不是网络异常流量数据,实现4G网络异常流量数据的实时监测。其中,预设异常阈值的经验值为0.75。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种4G网络异常流量数据实时监测方法,其特征在于,该方法包括以下步骤:
采集4G基站网络流量相关数据并进行预处理,获取时序区间的时序区间数据矩阵和历史数据库;
根据时序区间数据矩阵获取流量序列和上行流量序列,根据上行流量序列获取上行流量序列的周期平稳波动因子,根据上行流量序列和周期平稳波动因子获取周期震荡波动强度系数;
根据历史数据库获取上行流量预测序列,根据上行流量序列和上行流量预测序列获取时序区间数据偏差系数,根据周期震荡波动强度系数和时序区间数据偏差系数获取上行流量序列的数据异动指数;
根据历史数据库获取上行流量序列集合,根据上行流量序列集合和上行流量序列获取相似差异系数,根据上行流量序列和相似差异系数获取相似性权重,根据相似性权重获取离群值概率,进而获取上行流量序列的数据异动离群筛选指数,获取时序区间数据矩阵内除上行流量序列之外所有流量序列的数据异动离群筛选指数,进而获取时序区间的时序区间筛选向量;
根据历史数据库获取非同簇筛选向量集合和同簇筛选向量集合,根据非同簇筛选向量集合、同簇筛选向量集合和时序区间筛选向量获取网络异常流量确信指数,根据所有4G基站时序区间的时序区间数据矩阵获取时序区间的异常得分,根据时序区间的网络异常流量确信指数和异常得分获取综合异常得分,进而确定网络异常流量数据、实现4G网络异常流量数据的实时监测。
2.根据权利要求1所述的一种4G网络异常流量数据实时监测方法,其特征在于,所述根据时序区间数据矩阵获取流量序列和上行流量序列,包括的具体方法为:
将时序区间数据矩阵内同一行4G基站网络流量相关数据对应的序列记为流量序列;
将时序区间数据矩阵内第一行4G基站网络流量相关数据对应的序列记为上行流量序列,其中,上行流量序列中的4G基站网络流量相关数据为上行流量。
3.根据权利要求2所述的一种4G网络异常流量数据实时监测方法,其特征在于,所述根据上行流量序列获取上行流量序列的周期平稳波动因子,包括的具体方法为:
对上行流量序列使用时间序列分解算法进行处理,获取季节性数据序列;
将数据位于季节性数据序列的位次作为数据的横坐标,将数据的数值作为数据的纵坐标,建立季节性数据散点图;
对季节性数据散点图中包含的所有散点进行非线性拟合,获取季节性数据序列的拟合曲线函数;
获取季节性数据序列的拟合曲线函数的极值点,将所有极值点的按照极值点的横坐标从小到大的顺序进行排列,获取极值序列;
将极值序列中相邻数据对应的上行流量的差值记为相邻数据中位于极值序列中的位次最小的数据的极值震荡差值;
根据季节性数据序列、极值序列和时序区间数据矩阵获取上行流量序列的周期平稳波动因子。
4.根据权利要求3所述的一种4G网络异常流量数据实时监测方法,其特征在于,所述根据上行流量序列和周期平稳波动因子获取周期震荡波动强度系数,包括的具体方法为:
将极值点对应的极值震荡差值按照极值点在极值序列中的次序进行排列,获取极值震荡差值序列;
获取极值震荡差值序列的信息熵;
根据极值震荡差值序列的信息熵、极值序列和上行流量序列的周期平稳波动因子获取周期震荡波动强度系数。
5.根据权利要求2所述的一种4G网络异常流量数据实时监测方法,其特征在于,所述根据历史数据库获取上行流量预测序列,包括的具体方法为:
将历史数据库中时序区间之前第一预设阈值个相邻时序区间的上行流量按照所述上行流量的获取时间的先后顺序进行排列,获取上行流量相邻历史数据序列;
根据上行流量相邻历史数据序对时序区间数据进行预测,获取时序区间的上行流量预测序列。
6.根据权利要求1所述的一种4G网络异常流量数据实时监测方法,其特征在于,所述根据周期震荡波动强度系数和时序区间数据偏差系数获取上行流量序列的数据异动指数,包括的具体方法为:
将时序区间数据矩阵内上行流量序列的周期震荡波动强度系数与时序区间数据偏差系数的乘积记为上行流量序列的数据异动指数。
7.根据权利要求1所述的一种4G网络异常流量数据实时监测方法,其特征在于,所述根据历史数据库获取上行流量序列集合,包括的具体方法为:
在历史数据库中随机抽取第二预设阈值个与时序区间数据矩阵内上行流量序列在不同日期具有相同时间段的4G基站上行流量序列,将抽取的上行流量序列组成的集合记为过去上行流量序列集合。
8.根据权利要求1所述的一种4G网络异常流量数据实时监测方法,其特征在于,所述进而获取时序区间的时序区间筛选向量,包括的具体方法为:
按照4G基站网络流量相关数据在时序区间数据矩阵内从上至下的排列顺序,将所有4G基站网络流量相关数据的时序区间筛选向量从左到右依次排列,获取时序区间的时序区间筛选向量。
9.根据权利要求1所述的一种4G网络异常流量数据实时监测方法,其特征在于,所述根据历史数据库获取非同簇筛选向量集合和同簇筛选向量集合,包括的具体方法为:
将所分析的时序区间数据矩阵记为第一时序区间数据矩阵;
将历史数据库中随机抽取的第三预设阈值个已经判断是正常的时序区间数据矩阵和第一时序区间数据矩阵组成的集合记为时序区间数据矩阵集合;
获取随机抽取的所有正常时序区间数据矩阵的时序区间筛选向量;
对时序区间数据矩阵集合中所有时序区间筛选向量进行聚类,获取第四预设阈值个聚类簇;
将不包含第一时序区间数据矩阵的时序区间筛选向量的聚类簇组成的集合记为非同簇筛选向量集合;
将包含第一时序区间数据矩阵的时序区间筛选向量的聚类簇组成的集合记为同簇筛选向量集合。
10.根据权利要求1所述的一种4G网络异常流量数据实时监测方法,其特征在于,所述进而确定网络异常流量数据、实现4G网络异常流量数据的实时监测,包括的具体方法为:
当时序区间的综合异常得分大于预设异常阈值时,认为时序区间包含的4G基站网络流量相关数据为网络异常流量数据;
当时序区间的综合异常得分小于等于预设异常阈值时,认为时序区间包含的4G基站网络流量相关数据不是网络异常流量数据,实现4G网络异常流量数据的实时监测。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311490488.6A CN117241306B (zh) | 2023-11-10 | 2023-11-10 | 一种4g网络异常流量数据实时监测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311490488.6A CN117241306B (zh) | 2023-11-10 | 2023-11-10 | 一种4g网络异常流量数据实时监测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117241306A CN117241306A (zh) | 2023-12-15 |
CN117241306B true CN117241306B (zh) | 2024-02-06 |
Family
ID=89095138
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311490488.6A Active CN117241306B (zh) | 2023-11-10 | 2023-11-10 | 一种4g网络异常流量数据实时监测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117241306B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117421686B (zh) * | 2023-12-18 | 2024-03-05 | 山东金诺种业有限公司 | 一种水肥一体化灌溉用量数据收集方法 |
CN117439827B (zh) * | 2023-12-22 | 2024-03-08 | 中国人民解放军陆军步兵学院 | 一种网络流量大数据分析方法 |
CN117517596B (zh) * | 2024-01-08 | 2024-03-15 | 辽宁中消安全设备有限公司 | 基于物联网的可燃及有毒有害气体实时监测方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112685473A (zh) * | 2020-12-29 | 2021-04-20 | 山东大学 | 一种基于时序分析技术的网络异常流量检测方法及其系统 |
CN114338195A (zh) * | 2021-12-30 | 2022-04-12 | 中国电信股份有限公司 | 基于改进孤立森林算法的web流量异常检测方法及装置 |
CN115577275A (zh) * | 2022-11-11 | 2023-01-06 | 山东产业技术研究院智能计算研究院 | 一种基于lof和孤立森林的时序数据异常监测系统及方法 |
CN115967972A (zh) * | 2021-10-09 | 2023-04-14 | 中国移动通信集团黑龙江有限公司 | 网络异常检测方法、装置、电子设备及存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108777873B (zh) * | 2018-06-04 | 2021-03-02 | 江南大学 | 基于加权混合孤立森林的无线传感网络异常数据检测方法 |
-
2023
- 2023-11-10 CN CN202311490488.6A patent/CN117241306B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112685473A (zh) * | 2020-12-29 | 2021-04-20 | 山东大学 | 一种基于时序分析技术的网络异常流量检测方法及其系统 |
CN115967972A (zh) * | 2021-10-09 | 2023-04-14 | 中国移动通信集团黑龙江有限公司 | 网络异常检测方法、装置、电子设备及存储介质 |
CN114338195A (zh) * | 2021-12-30 | 2022-04-12 | 中国电信股份有限公司 | 基于改进孤立森林算法的web流量异常检测方法及装置 |
CN115577275A (zh) * | 2022-11-11 | 2023-01-06 | 山东产业技术研究院智能计算研究院 | 一种基于lof和孤立森林的时序数据异常监测系统及方法 |
Non-Patent Citations (1)
Title |
---|
基于孤立森林算法的移动警务网络流量监测方法研究;袁艺芳;李雁;陈绪;高永龙;席新;;软件(12);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN117241306A (zh) | 2023-12-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN117241306B (zh) | 一种4g网络异常流量数据实时监测方法 | |
CN111798312B (zh) | 一种基于孤立森林算法的金融交易系统异常识别方法 | |
CN108985632A (zh) | 一种基于孤立森林算法的用电数据异常检测模型 | |
CN112987675A (zh) | 一种异常检测的方法、装置、计算机设备和介质 | |
CN112508243B (zh) | 电力信息系统多故障预测网络模型的训练方法及装置 | |
CN109858714B (zh) | 基于改进神经网络的烟丝质检指标预测方法、装置及系统 | |
CN109273096A (zh) | 一种基于机器学习的药品风险分级评估方法 | |
CN111723367B (zh) | 一种电力监控系统业务场景处置风险评价方法及系统 | |
CN111666276A (zh) | 一种电力负荷预测中应用孤立森林算法剔除异常数据处理的方法 | |
CN115577152B (zh) | 基于数据分析的在线图书借阅管理系统 | |
CN112199670A (zh) | 一种基于深度学习改进iforest对行为异常检测的日志监控方法 | |
CN111444501B (zh) | 一种基于梅尔倒谱与半空间森林结合的LDoS攻击检测方法 | |
CN115719283A (zh) | 一种智能化会计管理系统 | |
CN110119756B (zh) | 一种基于投票法的趋势性数据特征自动选择方法 | |
CN117216713A (zh) | 故障定界方法、装置、电子设备和存储介质 | |
CN116701846A (zh) | 一种基于无监督学习的水电站调度运行数据清洗方法 | |
CN110807174A (zh) | 一种基于统计分布的污水厂厂群出水分析及异常识别方法 | |
CN116192520A (zh) | 一种基于大数据的安全通讯管理方法及系统 | |
CN116030955A (zh) | 基于物联网的医疗设备状态监测方法及相关装置 | |
CN115858606A (zh) | 时序数据的异常检测方法、装置、设备及存储介质 | |
CN115392710A (zh) | 一种基于数据过滤的风电机组运行决策方法及系统 | |
CN111144430A (zh) | 基于遗传算法的养卡号码识别方法及装置 | |
CN115967972A (zh) | 网络异常检测方法、装置、电子设备及存储介质 | |
Choi et al. | Comparison of various statistical methods for detecting disease outbreaks | |
CN113657726A (zh) | 基于随机森林的人员的危险性分析方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |