CN103647665B - 网络流量曲线分析方法和装置 - Google Patents

网络流量曲线分析方法和装置 Download PDF

Info

Publication number
CN103647665B
CN103647665B CN201310684985.XA CN201310684985A CN103647665B CN 103647665 B CN103647665 B CN 103647665B CN 201310684985 A CN201310684985 A CN 201310684985A CN 103647665 B CN103647665 B CN 103647665B
Authority
CN
China
Prior art keywords
curve
distance
modelcurve
assessed
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201310684985.XA
Other languages
English (en)
Other versions
CN103647665A (zh
Inventor
侯伟
周涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Venus Information Security Technology Co Ltd
Beijing Venus Information Technology Co Ltd
Original Assignee
Beijing Venus Information Security Technology Co Ltd
Beijing Venus Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Venus Information Security Technology Co Ltd, Beijing Venus Information Technology Co Ltd filed Critical Beijing Venus Information Security Technology Co Ltd
Priority to CN201310684985.XA priority Critical patent/CN103647665B/zh
Publication of CN103647665A publication Critical patent/CN103647665A/zh
Application granted granted Critical
Publication of CN103647665B publication Critical patent/CN103647665B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供了一种网络流量曲线分析方法和装置。涉及信息安全领域;解决了对网络流量变化规律分析的问题。该方法包括:根据待评估流量曲线,从历史数据中选取建模样本;以所述建模样本作为训练样本,构造模型;根据所述模型,评估所述待评估流量曲线的偏离度。本发明提供的技术方案适用于网络态势分析,实现了对高随机性的网络流量的分析。

Description

网络流量曲线分析方法和装置
技术领域
本发明涉及信息安全领域,尤其涉及一种网络流量曲线分析方法和装置。
背景技术
流量曲线(数据包个数、数据包体积等,能够表现流量特征的数值序列)是网络态势分析的常用工具,通过分析流量曲线可以在第一时间获取特定时期内的网络负载情况、负载变化情况,直观地评估网络环境的健康程度,特别是对于DDos洪泛攻击、Smurf攻击、Arp攻击等网络安全事件的发现具有比较实际、高效的指导作用。
流量曲线建模本质上是以历史流量曲线为样本的数据挖掘过程,是对历史流量曲线在形态上的概括总结。在分析网络状态或评估网络健康情况时,一般采用基于指标的态势感知分析方法,这种方法根据对比前后两个状态的差异程度来判断网络状态的迁移,区别于态势感知,曲线模型往往包含着在时间维度上的前后关联信息,这种关联信息不仅可以回答态势是否发生了迁移,还可以更近一步分析这种迁移以历史的角度,是否发生过,变化幅度是否是正常的。
网络流量的变化规律是由网络环境决定的,本质上是网络中各个节点的使用者(自然人或程序)行为规律的体现,因此当我们假设一个曲线样本在历史中发生过,本质上是在讨论产生这一曲线的行为是否曾经发生过。流量曲线中最重要的因素是时间,然而,通常情况下网络行为并不由时间唯一确定,特别是办公网络、社区网络等,网络行为主要由人引起,因此随机性很强,在小粒度时间点上基本没有普遍规律能够总结。
发明内容
本发明提供了一种网络流量曲线分析方法和装置,解决了对网络流量变化规律分析的问题。
一种网络流量曲线分析方法和装置,包括:
根据待评估流量曲线,从历史数据中选取建模样本;
以所述建模样本作为训练样本,构造模型;
根据所述模型,评估所述待评估流量曲线的偏离度。
优选的,根据待评估流量曲线,从历史数据中选取样本包括:
从历史数据中选择与所述待评估流量曲线的时间相吻合的历史曲线段作为候选样本,所述候选样本符合以下表达式
的定义;
根据GoalCurve遍历所有CandidateCurve,同时获得它们与GoalCurve的距离distance(C_(b1,e1),C_(b2,e2)),所述distance(C_(b1,e1),C_(b2,e2))根据以下表达式计算:
根据距离从小到大排序,从中选取距离最小的N个候选样本作为后续建模样本
优选的,当N的取值增加时,对网络流量异常的敏感度也增加。
优选的,所述以所述建模样本作为训练样本,构造模型包括:
根据以下表达式获取曲线数据:
ModelCurve={Cb,e|b=gbegin,e=gend};
进行曲线建模,其中,x采用1至length的整数作为模型的输入,length是待评估流量曲线的长度,输出为样本曲线的元素值vt,其中x与t一一对应,x是vt在曲线中的序号gbegin,gend是GoalCurve的起始、终止时间点,ModelCurve与GoalCurve在时间上一一对应,ModelCurve由模型以x为输入产出。
优选的,所述模型的中间层节点的数量取length/2,中间层节点的位置依x间隔选取。
优选的,所述模型的激发函数选用高斯函数,其扩展常数σ设为2。
优选的,根据所述模型,评估所述待评估流量曲线的偏离度包括:
将值域[0,1]平均分为N份,确定总体偏离距离的分位数,第N个建模样本曲线的偏离度设为1,其余各个建模样本的偏离度设为Deviation(Cs)=i/N,i是依distance(Cs,ModelCurve)从小到大的排序序号;
根据以下表达式,计算待评估流量曲线GoalCurve总体的偏离度:
其中,Cn使得distance(Cn,ModelCurve)与distance(Cs,ModelCurve)最接近;
对于曲线C它的单点最大偏离距离为
maxdistance(Cb,e,ModelCurvemb,me)=maxb≤t≤e(vt-v′t+mb-b)2,其中v′t+mb-b为ModelCurve的元素值,t即为最大偏离点maxbiaspoint;
依maxdistance从小到大的序号i,设置各个样本的单点偏离度为MaxDeviation(Cs)=i/N,确定单点偏离距离的分位数;
根据以下表达式计算待评估流量曲线GoalCurve总体的偏离度:
其中,Cn使得maxdistance(Cn,ModelCurve)与maxdistance(Cs,ModelCurve)的距离最接近。
本发明还提供了一种网络流量曲线分析装置,包括:
取样模块,用于根据待评估流量曲线,从历史数据中选取建模样本;
模型构造模块,用于以所述建模样本作为训练样本,构造模型;
评估模块,用于根据所述模型,评估所述待评估流量曲线的偏离度。
优选的,所述取样模块包括:
候选样本确定单元,用于从历史数据中选择与所述待评估流量曲线的时间相吻合的历史曲线段作为候选样本,所述候选样本符合以下表达式
的定义;
距离计算单元,用于根据GoalCurve遍历所有CandidateCurve,同时获得它们与GoalCurve的距离distance(C_(b1,e1),C_(b2,e2)),所述distance(C_(b1,e1),C_(b2,e2))根据以下表达式计算:
建模样本选取单元,用于根据距离从小到大排序,从中选取距离最小的N个候选样本作为后续建模样本。
优选的,所述模型构造模块包括:
曲线建模单元,用于根据以下表达式获取曲线数据:
ModelCurve={Cb,e|b=gbegin,e=gend};
进行曲线建模,其中,x采用1至length的整数作为模型的输入,length是待评估流量曲线的长度,输出为样本曲线的元素值vt,其中x与t一一对应,x是vt在曲线中的序号gbegin,gend是GoalCurve的起始、终止时间点,ModelCurve与GoalCurve在时间上一一对应,ModelCurve由模型以x为输入产出。
优选的,所述评估模块包括:
分位数确定单元,用于将值域[0,1]平均分为N份,确定总体偏离距离的分位数,第N个建模样本曲线的偏离度设为1,其余各个建模样本的偏离度设为Deviation(Cs)=i/N,i是依distance(Cs,ModelCurve)从小到大的排序序号;
偏离度计算单元,用于根据以下表达式,计算待评估流量曲线GoalCurve总体的偏离度:
其中,Cn使得distance(Cn,ModelCurve)与distance(Cs,ModelCurve)最接近;
最大偏离距离计算单元,用于对于曲线C它的单点最大偏离距离为
maxdistance(Cb,e,ModelCurvemb,me)=maxb≤t≤e(vt-v′t+mb-b)2
其中v′t+mb-b为ModelCurve的元素值,t即为最大偏离点maxbiaspoint;
单点偏离距离分位数计算单元,用于依maxdistance从小到大的序号i,设置各个样本的单点偏离度为MaxDeviation(Cs)=i/N,确定单点偏离距离的分位数;
第二偏离度计算单元,用于根据以下表达式计算待评估流量曲线GoalCurve总体的偏离度:
其中,Cn使得maxdistance(Cn,ModelCurve)与maxdistance(Cs,ModelCurve)的距离最接近。
本发明提供了一种网络流量曲线分析方法和装置,根据待评估流量曲线,从历史数据中选取建模样本,以所述建模样本作为训练样本,构造模型,最后根据所述模型,评估所述待评估流量曲线的偏离度,实现了对高随机性的网络流量的分析,解决了对网络流量变化规律分析的问题。
附图说明
图1为本发明的实施例应用场景的流量变化示意图;
图2为历史样本的空间分布示意图;
图3为本发明的实施例提供的网络流量曲线分析方法的原理示意图;
图4为本发明的实施例一提供的一种网络流量曲线分析方法的流程图;
图5为本发明的实施例二提供的一种网络流量曲线分析装置的结构示意图;
图6为图5中取样模块501的结构示意图;
图7为图5中模型构造模块502的结构示意图;
图8为图5中评估模块503的结构示意图。
具体实施方式
下文中将结合附图对本发明的实施例进行详细说明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。
图1是基于本本发明的实施例一具体应用场景的流量变化示意图,网络环境为办公网络,依图中所示,观测曲线在下午14:00至17:00间出现高峰,其容易解释为午后工作原因引起的较高流量,模型曲线可以描述该现象,但观测曲线的随机性也十分明显,因为人类行为个异性很大,规律性也并不严格。
在一般情况下,历史曲线由网络行为决定,而网络行为又受多种因素同时影响,形成多种各异的行为模式,从而曲线样本之间存在明显的稀疏性,可以假设一个行为模式产生的各个观测曲线是相似的,且相似的行为模式产生的观测曲线彼此也是相似的,同时不同行为模式产生的观测曲线彼此具有差异。基于以上假设,一个具体的观测曲线只与少数历史曲线样本关联,这些历史曲线样本背后的行为模式,与决定该观测曲线的行为模式是相同或相似的。
如上图2所示,可以将所有历史样本在空间的分布表达为一个超球(对应二维空间的圆形),受不同行为模式影响,曲线样本的分布并不一致,评估一个观测曲线是否是离群点(在历史中未出现过的曲线,可能意味着一种特殊的行为模式),最有效的方式是考虑它与相邻历史样本曲线的相对位置,对于图2中红色上三角的观测曲线与绿色下三角观测曲线,显然前者的出现具有更多历史曲线样本的支持,因此后者更可能意味着发生了一次特殊的网络行为。
基于上述,本发明的实施例利用观测曲线相邻的历史样本来构造模型,该模型的物理意义可以理解为由相邻样本构造的球心,如图3所示的圆心,图中红色三角为观测样本,其与模型的距离相对其他样本来说,并不明显偏离,因此可以推断该观测流量曲线是可接受的,并没有发生明显的异常网络行为。
下面结合附图,对本发明的实施例一进行说明。
本发明实施例提供了一种网络流量曲线分析方法,具体流程如图4所示。本发明的实施例提供的技术方案支持外部的网络状态分析系统,其工作流程包括三个主要步骤,建模样本选择,模型学习建立与偏离度评估。其中历史流量曲线由外部数据库维护,其以二元组<timepoint,value>形式维护流量曲线值,其中timepoint为时间点,其有序且间隔固定(可设为5分钟、3分钟等),value为相应的具体值(如:数据包大小、数量等)。
本发明实施例提供了一种网络流量曲线分析方法,具体流程如图4所示,包括:
步骤401、获取待评估流量曲线;
步骤402、根据待评估流量曲线,从历史数据中选取建模样本;
本步骤中,优先选取最相邻样本,是本发明的实施例中建模样本选择过程的基本原则。需要注意的是,历史数据库中的时序数据是连续不断的,其中只有与待评估曲线的时间相吻合的历史曲线段可以作为候选样本。为易于说明,引入如下定义:
1)曲线:
曲线是一个二元组<timepoint,value>序列,其格式与历史流量数据库一致,其中timepoint的最小最大值begin,end,length分别为起始、终止时间点及曲线元素个数。为表述清楚,这里给出曲线的形式化定义。
曲线Cbegin,end={vbegin,...,vt,vt+1,...,vend|begin≤t≤end}由begin与end唯一确定,length=end-begin+1。
2)待评估曲线:
待评估曲线GoalCurve={Cb,e|b=gbegin,e=gend}是本发明的实施例的评估对象。
3)放松时延E:
放松时延是一个整数值,定义了候选样本在begin,end之外的向前、向后允许的时延范围,其避免考虑曲线规律时在时间上过于严格。
4)候选样本:
由于24小时是自然规律性最强的周期,因此在历史曲线数据库中,间隔每24小时则存在一个与待评估曲线对应的样本曲线。
严格的候选样本曲线的形式化定义为
其中gbegin,gend是GoalCurve的起始、终止时间点,dayinterval为24小时对应的时间点个数。
本发明实施例中,利用放松时延扩展的候选样本曲线。放松时延扩展即为定义时延后,该时延的起始和结束时刻是可以滑动的,如在10:00am-11:00am这一段时间中,定义放松时延ε=5分钟,1分钟一个数据点,那么9:55am-10:55am,9:56-10:56am,直到10:05am-11:00am,这11个时间段都是可接受的采样区间。
本发明实施例中,具体的将放松时延扩展的候选样本网线形式化定义为
5)曲线距离:
两个曲线的距离采用欧氏距离来评估,可形式化的表达为
基于上述定义,样本选择算法遍历流量曲线历史数据库,根据GoalCurve遍历所有CandidateCurve,同时获得它们与GoalCurve的距离distance(Cb1,e1,Cb2,e2),根据距离从小到大排序,从中选取距离最小的N个曲线样本作为后续建模样本。这里N越大则模型越平缓,对网络流量异常更为敏感。
曲线样本可表达为
步骤403、以所述建模样本作为训练样本,构造模型;
本发明的实施例的曲线建模过程利用径向基函数神经网络算法(RBF算法),针对曲线做回归建模或内插的算法有很多,相对而言,RBF算法在拟合过程中在中间层节点数量、激发函数的形状等方面具有很高的灵活性,同时具备良好的性能,这是本发明的实施例选取该算法的主要原因。
建模过程遵循RBF建模的一般规则,训练样本由样本选择过程产生的曲线样本构成,模型的输入x采用1至length的整数,length是待评估曲线的长度,输出为样本曲线的元素值vt,其中x与t一一对应,x是vt在曲线中的序号(从1计)。
为保证模型拟合效果,中间层节点的数量取length/2,中间层节点的位置依x间隔选取,激发函数选用高斯函数,其扩展常数σ设为2,经实验验证,迭代次数可设定为100左右效果即可接受,性能比较理想。
曲线建模过程的结果是一个曲线数据ModelCurve={Cb,e|b=gbegin,e=gend},这里gbegin,gend是GoalCurve的起始、终止时间点,ModelCurve与GoalCurve在时间上一一对应,ModelCurve由模型以x为输入产出。
步骤404、根据所述模型,评估所述待评估流量曲线的偏离度;
本发明实施例中,系统最终反馈结果包括以下信息:
1)待评估流量曲线的整体偏离度Deviation,Deviation≥0,Deviation越大表示该曲线的偏离程度相对其他临近历史样本越明显,反之偏离越小,当Deviation>100时表示该曲线与模型的偏离已经超过任一临近历史样本;
2)最大偏离时间点maxbiaspoint,该值表示流量曲线与模型间的最大偏离位置;
3)最大偏离时间点处偏离度MaxDeviation,MaxDeviation评估的是单点偏离的程度,参考依据是相邻曲线样本与模型的单点最大偏离度,MaxDeviation≥0,其越大表示maxbiaspoint的偏离相对越明显,MaxDeviation>1时表示maxbiaspoint的偏离已经超过相邻曲线的最大单点偏离距离。
偏离度评估基于ModelCurve、SampleCurve以及GoalCurve三者之间的距离,具体步骤如下:
a)确定总体偏离距离的分位数
将值域[0,1]平均分为N份,第N个样本曲线的偏离度设为1,其余各个样本的偏离度设为Deviation(Cs)=i/N,i是依distance(Cs,ModelCurve)从小到大的排序序号。
b)给出整体偏离度评估值
待评估流量曲线GoalCurve总体的偏离度定义为
其中Cn使得distance(Cn,ModelCurve)与distance(Cs,ModelCurve)最接近。
c)求相关曲线单点最大偏离距离
对于曲线C它的单点最大偏离距离为
maxdistance(Cb,e,ModelCurvemb,me)=maxb≤t≤e(vt-v′t+mb-b)2,v′t+mb-b为ModelCurve的元素值。其中t即为最大偏离点maxbiaspoint。
d)确定单点偏离距离的分位数
与步骤a)相似,依maxdistance从小到大的序号i,设置各个样本的单点偏离度为MaxDeviation(Cs)=i/N。
e)给出单点偏离度评估值
待评估流量曲线GoalCurve总体的偏离度定义为
其中,Cn使得maxdistance(Cn,ModelCurve)与maxdistance(Cs,ModelCurve)的距离最接近。
经过以上步骤,本发明的实施例即可提供待评估曲线GoalCurve的总体偏离度Deviation(Cg),最大偏离点maxbiaspoint,及其对应的单点偏离度MaxDeviation(Cg)。
下面结合附图,对本发明的实施例二进行说明。
一种网络流量曲线分析装置,其结构如图5所示,包括:
取样模块501,用于根据待评估流量曲线,从历史数据中选取建模样本;
模型构造模块502,用于以所述建模样本作为训练样本,构造模型;
评估模块503,用于根据所述模型,评估所述待评估流量曲线的偏离度。
优选的,所述取样模块501的结构如图6所示,包括:
候选样本确定单元5011,用于从历史数据中选择与所述待评估流量曲线的时间相吻合的历史曲线段作为候选样本,所述候选样本符合以下表达式
的定义;
距离计算单元5012,用于根据GoalCurve遍历所有CandidateCurve,同时获得它们与GoalCurve的距离distance(C_(b1,e1),C_(b2,e2)),所述distance(C_(b1,e1),C_(b2,e2))根据以下表达式计算:
建模样本选取单元5013,用于根据距离从小到大排序,从中选取距离最小的N个候选样本作为后续建模样本。
优选的,所述模型构造模块502的结构如图7所示,包括:
曲线建模单元5021,用于根据以下表达式获取曲线数据:ModelCurve={Cb,e|b=gbegin,e=gend};
进行曲线建模,其中,x采用1至length的整数作为模型的输入,length是待评估流量曲线的长度,输出为样本曲线的元素值vt,其中x与t一一对应,x是vt在曲线中的序号gbegin,gend是GoalCurve的起始、终止时间点,ModelCurve与GoalCurve在时间上一一对应,ModelCurve由模型以x为输入产出。
优选的,所述评估模块503的结构如图8所示,包括:
分位数确定单元5031,用于将值域[0,1]平均分为N份,确定总体偏离距离的分位数,第N个建模样本曲线的偏离度设为1,其余各个建模样本的偏离度设为Deviation(Cs)=i/N,i是依distance(Cs,ModelCurve)从小到大的排序序号;
偏离度计算单元5032,用于根据以下表达式,计算待评估流量曲线GoalCurve总体的偏离度:
其中,Cn使得distance(Cn,ModelCurve)与distance(Cs,ModelCurve)最接近;
最大偏离距离计算单元5033,用于对于曲线C它的单点最大偏离距离为
maxdistance(Cb,e,ModelCurvemb,me)=maxb≤t≤e(vt-v′t+mb-b)2
其中v′t+mb-b为ModelCurve的元素值,t即为最大偏离点maxbiaspoint;
单点偏离距离分位数计算单元5034,用于依maxdistance从小到大的序号i,设置各个样本的单点偏离度为MaxDeviation(Cs)=i/N,确定单点偏离距离的分位数;
第二偏离度计算单元5035,用于根据以下表达式计算待评估流量曲线GoalCurve总体的偏离度:
其中,Cn使得maxdistance(Cn,ModelCurve)与maxdistance(Cs,ModelCurve)的距离最接近。
本发明的实施例提供了一种网络流量曲线分析方法,根据待评估流量曲线,从历史数据中选取建模样本,以所述建模样本作为训练样本,构造模型,最后根据所述模型评估所述待评估流量曲线的偏离度。本发明的实施例以历史流量曲线为对象,利用径向基函数神经网络(Radial Basis Function Network,RBF网络),根据具体观测的流量曲线,有针对性地建立历史流量曲线模型,并建立在历史样本曲线、观测曲线、曲线模型三者间距离的基础上,给出观测曲线与曲线模型间的量化偏离度评估方法。实现了对高随机性的网络流量的分析,解决了对网络流量变化规律分析的问题。
针对历史流量曲线的数据挖掘,为进一步挖掘流量规律、利用流量曲线更加深入地识别网络事件、具体及量化地评估网络情况提供了可能性。
本领域普通技术人员可以理解上述实施例的全部或部分步骤可以使用计算机程序流程来实现,所述计算机程序可以存储于一计算机可读存储介质中,所述计算机程序在相应的硬件平台上(如系统、设备、装置、器件等)执行,在执行时,包括方法实施例的步骤之一或其组合。
可选地,上述实施例的全部或部分步骤也可以使用集成电路来实现,这些步骤可以被分别制作成一个个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
上述实施例中的各装置/功能模块/功能单元可以采用通用的计算装置来实现,它们可以集中在单个的计算装置上,也可以分布在多个计算装置所组成的网络上。
上述实施例中的各装置/功能模块/功能单元以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。上述提到的计算机可读取存储介质可以是只读存储器,磁盘或光盘等。
任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求所述的保护范围为准。

Claims (9)

1.一种网络流量曲线分析方法,其特征在于,包括:
根据待评估流量曲线,从历史数据中选取建模样本;
以所述建模样本作为训练样本,构造模型;
根据所述模型,评估所述待评估流量曲线的偏离度;
根据待评估流量曲线,从历史数据中选取样本包括:
从历史数据中选择与所述待评估流量曲线的时间相吻合的历史曲线段作为候选样本,所述候选样本符合以下表达式
C a n d i d a t e C u r v e = { C b , e | b = g b e g i n - i &times; d a y int e r v a l - &epsiv; , e = g e n d - i &times; d a y int e r v a l - &epsiv; , &ForAll; i &Element; I &lsqb; - E , E &rsqb; }
的定义;
根据GoalCurve遍历所有CandidateCurve,同时获得它们与GoalCurve的距离distance(C_(b1,e1),C_(b2,e2)),所述distance(C_(b1,e1),C_(b2,e2))根据以下表达式计算:
d i s t a r c e ( C b 1 , e 1 , C b 2 , e 2 ) &Sigma; b 1 &le; i + b 1 &le; e 1 ( v b 1 + i - v b 2 + i ) 2 e 1 - b 1 + 1 ;
根据距离从小到大排序,从中选取距离最小的N个候选样本作为后续建模样本
其中,CandidateCurve为候选样本,GoalCurve为待评估曲线,SampleCurve为建模样本,distance为曲线距离,dayinterval为24小时对应的时间点个数,ε为放松时延,b1表示第1个曲线C_(b1,e1)的起始时间,e1表示第1个曲线C_(b1,e1)的终止时间,b2表示第2个曲线的起始时间,e2表示第2个曲线C_(b2,e2)的终止时间,vb1表示第1个曲线C_(b1,e1)在b1时间点的元素值,vb2表示第2个曲线C_(b2,e2)在b2时间点的元素值,gbegin、gend是GoalCurve的起始、终止时间点。
2.根据权利要求1所述的网络流量曲线分析方法,其特征在于,当N的取值增加时,对网络流量异常的敏感度也增加。
3.根据权利要求1所述的网络流量曲线分析方法,其特征在于,所述以所述建模样本作为训练样本,构造模型包括:
根据以下表达式获取曲线数据:
ModelCurve={Cb,e|b=gbegin,e=gend};
进行曲线建模,其中,x采用1至length的整数作为模型的输入,length是待评估流量曲线的长度,输出为样本曲线的元素值vt,其中x与t一一对应,x是vt在曲线中的序号,ModelCurve与GoalCurve在时间上一一对应,ModelCurve由模型以x为输入产出;
t即为最大偏离时间点,x从1计。
4.根据权利要求1所述的网络流量曲线分析方法,其特征在于,所述模型的中间层节点的数量取length/2,中间层节点的位置依x间隔选取。
5.根据权利要求1所述的网络流量曲线分析方法,其特征在于,所述模型的激发函数选用高斯函数,其扩展常数σ设为2。
6.根据权利要求1所述的网络流量曲线分析方法,其特征在于,根据所述模型,评估所述待评估流量曲线的偏离度包括:
将值域[0,1]平均分为N份,确定总体偏离距离的分位数,第N个建模样本曲线的偏离度设为1,其余各个建模样本的偏离度设为Deviation(Cs)=i/N,i是依distance(Cs,ModelCurve从小到大的排序序号;
根据以下表达式,计算待评估流量曲线GoalCurve总体的偏离度:
D e v i a t i o n ( C g ) = D e &upsi; i a t i o n ( C n ) &times; ( 1 + | d i s t a r c e ( C g , M o d e l C u r v e ) - d i s t a r c e ( C n , M o d e l C u r v e ) | d i s t a r c e ( C n , M o d e l C u r v e ) )
其中,Cn使得distance(Cn,ModelCurve)与distance(Cs,ModelCurve)最接近;
对于曲线C它的单点最大偏离距离为
maxdistance(Cb,e,ModelCurvemb,me)=maxb≤t≤e(vt-(vt+mb-b)′)2,其中(vt+mb-b)′为ModelCurve的元素值,t即为最大偏离时间点maxbiaspoint;
依maxdistance从小到大的序号i,设置各个样本的单点偏离度为MaxDeviation(Cs)=i/N,确定单点偏离距离的分位数;
根据以下表达式计算待评估流量曲线GoalCurve总体的偏离度:
M a x D e v i a t i o n ( C g ) = M a x D e v i a t i o n ( C n ) &times; ( 1 + | max d i s tan c e ( C g , M o d e l C u r v e ) - max d i s tan c e ( C n , M o d e l C u r v e ) | max d i s tan c e ( C n , M o d e l C u r v e ) )
其中,Cn使得maxdistance(Cn,ModelCurve)与maxdistance(Cs,ModelCurve)的距离最接近,mb为模型的起始时间,me为模型的终止时间;max(b≤t≤e),即在目标曲线的起始时间b和终止时间e中找到的一个时间点t,即该点t对应的数值vt与模型曲线中相同时间点的数值(vt+mb-b)′的最大的距离。
7.一种网络流量曲线分析装置,其特征在于,包括:
取样模块,用于根据待评估流量曲线,从历史数据中选取建模样本;
模型构造模块,用于以所述建模样本作为训练样本,构造模型;
评估模块,用于根据所述模型,评估所述待评估流量曲线的偏离度;
所述取样模块包括:
候选样本确定单元,用于从历史数据中选择与所述待评估流量曲线的时间相吻合的历史曲线段作为候选样本,所述候选样本符合以下表达式
C a n d i d a t e C u r v e = { C b , e | b = g b e g i n - i &times; d a y int e r v a l - &epsiv; , e = g e n d - i &times; d a y int e r v a l - &epsiv; , &ForAll; i &Element; I &ForAll; &epsiv; &Element; I &lsqb; - E , E &rsqb; }
的定义;
距离计算单元,用于根据GoalCurve遍历所有CandidateCurve,同时获得它们与GoalCurve的距离distance(C_(b1,e1),C_(b2,e2)),所述distance(C_(b1,e1),C_(b2,e2))根据以下表达式计算:
d i s t a r c e ( C b 1 , e 1 , C b 2 , e 2 ) = &Sigma; b 1 &le; i + b 1 &le; e 1 ( v b 1 + i - v b 2 + i ) 2 e 1 - b 1 + 1 ;
建模样本选取单元,用于根据距离从小到大排序,从中选取距离最小的N个候选样本作为后续建模样本;
其中,CandidateCurve为候选样本,GoalCurve为待评估曲线,SampleCurve为建模样本,distance为曲线距离,dayinterval为24小时对应的时间点个数,ε为放松时延,b1表示第1个曲线C_(b1,e1)的起始时间,e1表示第1个曲线C_(b1,e1)的终止时间,b2表示第2个曲线的起始时间,e2表示第2个曲线C_(b2,e2)的终止时间,vb1表示第1个曲线C_(b1,e1)在b1时间点的元素值,vb2表示第2个曲线C_(b2,e2)在b2时间点的元素值,gbegin、gend是GoalCurve的起始、终止时间点。
8.根据权利要求7所述的网络流量网线分配装置,其特征在于,所述模型构造模块包括:
曲线建模单元,用于根据以下表达式获取曲线数据:
ModelCurve={Cb,e|b=gbegin,e=gend};
进行曲线建模,其中,x采用1至length的整数作为模型的输入,length是待评估流量曲线的长度,输出为样本曲线的元素值vt,其中x与t一一对应,x是vt在曲线中的序号,ModelCurve与GoalCurve在时间上一一对应,ModelCurve由模型以x为输入产出,t即为最大偏离时间点,x从1计。
9.根据权利要求7所述的网络流量曲线分析装置,其特征在于,所述评估模块包括:
分位数确定单元,用于将值域[0,1]平均分为N份,确定总体偏离距离的分位数,第N个建模样本曲线的偏离度设为1,其余各个建模样本的偏离度设为Deviatiom(Cs)=i/N,i是依distance(Cs,ModelCurve)从小到大的排序序号;
偏离度计算单元,用于根据以下表达式,计算待评估流量曲线GoalCurve总体的偏离度:
D e v i a t i o n ( C g ) = D e v i a t i o n ( C n ) &times; ( 1 + | d i s tan c e ( C g , M o d e l C u r v e ) - d i s tan c e ( C n , M o d e l C u r v e ) | d i s tan c e ( C n , M o d e l C u r v e ) )
其中,Cn使得distance(Cn,ModelCurve)与distance(Cs,ModelCurve)最接近;
最大偏离距离计算单元,用于对于曲线C它的单点最大偏离距离为
maxdistance(Cb,e,ModelCurvemb,me)=maxb≤t≤e(vt-)2
其中(vt+mb-b)′为ModelCurve的元素值,t即为最大偏离时间点maxbiaspoint;
单点偏离距离分位数计算单元,用于依maxdistance从小到大的序号i,设置各个样本的单点偏离度为MaxDeviation(Cs)=i/N,确定单点偏离距离的分位数;
第二偏离度计算单元,用于根据以下表达式计算待评估流量曲线GoalCurve总体的偏离度:
M a x D e v i a t i o n ( C g ) = M a x D e v i a t i o n ( C n ) &times; ( 1 + | max d i s tan c e ( C g , M o d e l C u r v e ) - max d i s tan c e ( C n , M o d e l C u r v e ) | max d i s tan c e ( C n , M o d e l C u r v e ) )
其中,Cn使得maxdistance(Cn,ModelCurve)与maxdistance(Cs,ModelCurve)的距离最接近,mb为模型的起始时间,me为模型的终止时间;max(b≤t≤e),即在目标曲线的起始时间b和终止时间e中找到的一个时间点t,即该点t对应的数值vt与模型曲线中相同时间点的数值(vt+mb-b)′的最大的距离。
CN201310684985.XA 2013-12-13 2013-12-13 网络流量曲线分析方法和装置 Expired - Fee Related CN103647665B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310684985.XA CN103647665B (zh) 2013-12-13 2013-12-13 网络流量曲线分析方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310684985.XA CN103647665B (zh) 2013-12-13 2013-12-13 网络流量曲线分析方法和装置

Publications (2)

Publication Number Publication Date
CN103647665A CN103647665A (zh) 2014-03-19
CN103647665B true CN103647665B (zh) 2017-07-14

Family

ID=50252826

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310684985.XA Expired - Fee Related CN103647665B (zh) 2013-12-13 2013-12-13 网络流量曲线分析方法和装置

Country Status (1)

Country Link
CN (1) CN103647665B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106100896B (zh) * 2016-07-13 2018-11-23 焦点科技股份有限公司 一种基于网站用户访问路径的流量预警方法
CN107508815B (zh) * 2017-08-30 2020-09-11 杭州安恒信息技术股份有限公司 基于网站流量分析预警方法及装置
CN107832578B (zh) * 2017-11-07 2021-08-31 四川大学 基于态势变化模型的数据处理方法及装置
CN108540443A (zh) * 2018-02-22 2018-09-14 贵州财经大学 一种计算机流量异常检测分析系统
CN111935188B (zh) * 2020-10-12 2020-12-29 南京赛宁信息技术有限公司 基于ks检测的靶场环境中最大化攻击流量方法与装置
WO2023173343A1 (en) * 2022-03-17 2023-09-21 Huawei Technologies Co., Ltd. Device and method for multiflow quantiles extraction and reconstruction

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102176221A (zh) * 2011-03-16 2011-09-07 中南大学 基于动态工况的焦炉加热燃烧过程焦炉温度预测方法
CN102567477A (zh) * 2011-06-16 2012-07-11 北京亿赞普网络技术有限公司 网站价值评估方法及装置
JP2013148983A (ja) * 2012-01-17 2013-08-01 Hiroshima Univ モデル化方法、解析方法及びプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102176221A (zh) * 2011-03-16 2011-09-07 中南大学 基于动态工况的焦炉加热燃烧过程焦炉温度预测方法
CN102567477A (zh) * 2011-06-16 2012-07-11 北京亿赞普网络技术有限公司 网站价值评估方法及装置
JP2013148983A (ja) * 2012-01-17 2013-08-01 Hiroshima Univ モデル化方法、解析方法及びプログラム

Also Published As

Publication number Publication date
CN103647665A (zh) 2014-03-19

Similar Documents

Publication Publication Date Title
CN103647665B (zh) 网络流量曲线分析方法和装置
CN101841435B (zh) Dns查询流量异常的检测方法、装置和系统
CN105577440B (zh) 一种网络故障时间定位方法和分析设备
CN106778894A (zh) 一种学术异构信息网络中作者合作关系预测的方法
CN107066476A (zh) 一种基于物品相似度的实时推荐方法
CN104166731A (zh) 一种社交网络重叠社区发现系统及其方法
CN106209856A (zh) 基于可信计算的大数据安全态势地图生成方法
CN105225149A (zh) 一种征信评分确定方法及装置
CN109118119A (zh) 风控模型生成方法及装置
CN108076060A (zh) 基于动态k-means聚类的神经网络态势预测方法
Li et al. A hybrid strategy for network immunization
CN109447658A (zh) 反欺诈模型的生成及应用方法、装置、设备及存储介质
CN105843733A (zh) 一种大数据平台的性能检测方法及装置
CN105335800A (zh) 一种基于联合学习的电力用户用电量预测方法
CN108665513A (zh) 基于用户行为数据的绘图方法和装置
CN102364490A (zh) 基于层次分析模型的自动同调识别方法
JP2015525956A5 (zh)
CN110138638A (zh) 一种网络流量的处理方法及装置
CN103870671B (zh) 一种从Cookie中提取用户样本的方法及装置
CN104484627A (zh) 面向可重构阵列架构的随机化抗故障攻击措施的设计方法
CN106201655A (zh) 虚拟机分配方法和虚拟机分配系统
Bogachev et al. Approximate waiting times for queuing systems with variable long-term correlated arrival rates
Peng et al. Detecting and predicting tipping points
CN115374709A (zh) 一种基于深度森林模型和flus模型的土地分析方法及系统
Xie et al. Modeling traffic of big data platform for large scale datacenter networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20170714