CN113660147B - 一种基于模糊熵的ip会话序列周期性评估方法 - Google Patents
一种基于模糊熵的ip会话序列周期性评估方法 Download PDFInfo
- Publication number
- CN113660147B CN113660147B CN202111223978.0A CN202111223978A CN113660147B CN 113660147 B CN113660147 B CN 113660147B CN 202111223978 A CN202111223978 A CN 202111223978A CN 113660147 B CN113660147 B CN 113660147B
- Authority
- CN
- China
- Prior art keywords
- matrix
- frequency
- sampling
- width
- esh
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/06—Generation of reports
- H04L43/067—Generation of reports using time frame reporting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/50—Network services
- H04L67/535—Tracking the activity of the user
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Optimization (AREA)
- Data Mining & Analysis (AREA)
- Computational Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Mathematical Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Pure & Applied Mathematics (AREA)
- Algebra (AREA)
- Computer Hardware Design (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
- Complex Calculations (AREA)
Abstract
本发明属于网络信息处理领域,具体是一种基于模糊熵的IP会话序列周期性评估方法,其包括如下步骤:计算T天的IP会话的统计量形成T个高频矩阵;设置采样窗口W1和W2进行采样,分别获得两组T个高频采样矩阵和T个低频采样矩阵;针对两组高频采样矩阵计算形成高频和低频采样欧式距离数值矩阵;分别计算高频和低频采样欧式距离数值矩阵的整体平均隶属度;求每个IP会话序列的模糊熵FuzzyEn,根据模糊熵周期性进行评估。本发明对IP会话的序列进行合理的量化处理。增加了窗口参数,保留了前后IP会话序列的上下文关系。使用欧式距离评估了不同窗口的数据差异,可以通过计算模糊熵来评估序列的周期性。
Description
技术领域
本发明属于网络信息处理领域,具体是一种基于模糊熵的IP会话序列周期性评估方法。
背景技术
随着信息技术的发展,网络通信变得异常方便和简单,日常活动如工作、生活、休闲娱乐等都不可避免伴随着大量的信息交互,同样网络中各类异常行为也会产生信息交互,并与正常流量交叉在一起。研究发现,虽然人类活动举动是随意的不可预测的,但人类活动总会遵循简单的重复模式,进而在人类行动过程中产生的网络交互也会遵循潜在的规律性。
目前经常被使用的网络应用包括,web网页服务、邮件服务、文件传输服务、远程访问服务等,这类网络行为都有周期性,访问的网站序列都具有较高的重复性和相似性,如上班开机、关机,上网寻找资料、发送邮件、下载文件等。在正常行为过程中可能存在行为异常的网络交互流量,这类流量往往是突发性或者没有规律性的,其独特的行为逻辑可能破坏周期性,所以能通过方法分析并从海量数据中抽取到该异常行为数据,则该方法是具有很高价值的。
理论上分析可以使用传统特征进行研究,如通信时间、业务关系、通信内容等指标,事实上,人类行为在较小尺度下具有很高的随机性,且行为分布是长尾分布,存在长时间的静默和短期的高频率爆发,时间间隔分布同样具有长尾特性。将人们交互的IP作为分析对象,不论是正常还是异常的IP会话序列都将是混乱的,很难直接分析出规律。针对IP的会话分析,现在常见的都是通过统计访问频率、活跃度,基于时间统计方式来判断其网络活动是否具有周期性。可是周期性判断方式并非系统的方法,很多都是基于经验来设定阈值规则,容易产生漏报或误报。
网络流量是网络参与者交互作用后的流量记录,网络行为与网络参与者的目的有较高的关联度,然而由于影响网络流量行为长期变化的因素比较多,使得流量周期行为属于非严格周期,是基于统计与模糊概念上的周期,因此很难有一个线性方法能描述流量行为的周期性。研究分析网络流量的周期性,能为网络行为管理、异常分析和处置提供基本依据,对网络运行的质量和安全保障有重大意义。
在网络流量周期性分析过程中,现有的主要方法是通过统计流经目标系统的各类统计指标值,最后得到众多特征数据,再经过运算加工生成如平均值、方差、概率等指标,然后检测当前网络流量中的各个IP会话序列是否满足各类指标,进而判断会话序列是否在正常范围内。这种方法简单、容易实现,却没有形成一个普遍适用的分析方法。另一方面,因为整个统计分析过程没有考虑到不同时段的网络情况,忽略了不同时间段的作用关系,导致统计值只体现一个时间窗口内统计,并没有体现前后实际IP会话的上下文关系。
发明内容
为解决现有技术存在的上述问题,现提出一种基于模糊熵的IP会话序列周期性评估方法,该方法能够普遍使用,可以量化IP会话序列的周期性,并且可以量化不同时间段IP会话序列的数据差异。
为实现上述技术效果,本发明的技术方案如下:
一种基于模糊熵的IP会话序列周期性评估方法,包括如下步骤:
步骤一,计算T天的IP会话的统计量形成T个高频矩阵H1、…、HT和T个低频矩阵L1、…、LT;T为正整数。
步骤二,设置采样窗口W1,高频矩阵H1至HT,低频矩阵L1至LT通过滑动的采样窗口W1进行采样,获得T个高频采样矩阵SH1、…、SHT,T个低频采样矩阵SL1、…、SLT;
步骤三,设置采样窗口W2,高频矩阵H1至HT,低频矩阵L1至LT通过滑动的采样窗口W2进行采样,获得T个高频采样矩阵SH1'、…、SHT',T个低频采样矩阵SL1'、…、SLT';
步骤四,针对两组高频采样矩阵SH1至SHT和SH1'至SHT'、低频采样矩阵SL1至SLT和SL1'至SLT',计算形成高频采样欧式距离数值矩阵ESH1至ESHT、ESH1'至ESHT',低频采样欧式距离数值矩阵ESL1至ESLT、ESL1'至ESLT';
步骤五,分别计算高频采样欧式距离数值矩阵ESH1至ESHT、ESH1'至ESHT',低频采样欧式距离数值矩阵ESL1至ESLT、ESL1'至ESLT'的整体平均隶属度;
步骤六,求每个IP会话序列的模糊熵FuzzyEn,其中模糊熵FuzzyEn包括高频模糊熵FuzzyEnESH和低频模糊熵FuzzyEnESL;
步骤七,根据模糊熵周期性进行评估。
进一步地,所述步骤一具体为:按照每天活动频率将24小时划分为两个时间段,获取24小时的IP会话全流量记录,统计并计算该IP每5分钟对外访问的主机数量数值,因此每小时主机数量数值可以获得12个;
将第1天高频时间段的主机数量数值按照时间顺序存入高频矩阵H1中,12小时的流量数据可形成行宽*列宽为12*12的高频矩阵H1,按上述方法依次将第1天至第T天的高频时间段主机数量数值存入低频矩阵H1至HT中。
将第1天低频时间段的主机数量数值按照时间顺序存入低频矩阵L1中,形成行宽*列宽为12*12的低频矩阵L1,按上述方法依次将第1天至第T天的低频时间段主机数量数值存入低频矩阵L1至LT中。
进一步地,步骤二具体为:
使用采样窗口W1在高频矩阵H1至HT上游走采样,并将采样到的数据拼接形成采样矩阵SH1至SHT,同理使用采样窗口W1在低频矩阵L1至LT上游走采样,并将采样到的数据拼接形成采样矩阵SL1至SLT。拼接后的采样矩阵SH1至SHT和采样矩阵SL1至SLT的行宽相等且为 ,列宽为((width+2*p- )*s+1)^2)*,其中width为定值,等于高频矩阵的行宽或者列宽中最小宽度并且等于低频矩阵的行宽或者列宽中最小宽度。
进一步地,步骤三具体为:
使用采样窗口W2在高频矩阵H1至HT上游走采样,并将采样到的数据拼接形成采样矩阵SH1'至SHT',同理使用采样窗口W2在低频矩阵L1至LT上游走采样,并将采样到的数据拼接形成采样矩阵SL1'至SLT'。拼接后的采样矩阵SH1'至SHT'和采样矩阵SL1'至SLT'的行宽相等且为 ',列宽为((width+2*p- ')*s+1)^2)* ',其中width为定值,等于高频矩阵的行宽或者列宽中最小宽度并且等于低频矩阵的行宽或者列宽中最小宽度;
进一步地,步骤四具体为:
按W1窗口长度对高频采样矩阵SH1进行分割,分割出数量为(width+2*p- )*s+1)^2个行宽和列宽均为 *的矩阵。基于上述分割得到的矩阵,循环抽取两个 * 的矩阵,分别命名为矩阵A和矩阵B,两两计算欧氏距离;
得到行宽为SH1的列宽除以,列宽为SH1的列宽除以 的高频采样欧式距离矩阵ESH1。按上述方法,依次按W1窗口长度 对高频采样矩阵SH1至SHT进行分割,并分别计算欧式距离获得到高频欧式距离矩阵ESH1至ESHT。
按W1窗口长度对低频采样矩阵SL1进行分割,分割出数量为(width+2*p-)*s+1)^2个行宽和列宽均为 *的矩阵,循环抽取两个 * 的矩阵,两两计算欧氏距离。按上述方法,依次按W1窗口长度对低频采样矩阵SL1至SLT进行分割,并分别计算欧式距离获得到低频欧式距离矩阵ESL1至ESLT;
按W2窗口长度'对高频采样矩阵SH1进行分割,分割出数量为(width+2*p-)*s+1)^2个行宽和列宽均为 *的矩阵。基于上述分割得到的矩阵,循环抽取两个 * 的矩阵,分别命名为矩阵A'和矩阵B',两两计算欧氏距离。
得到行宽为SH1'的列宽除以',列宽为SH1'的列宽除以 '的高频采样欧式距离矩阵ESH1'。按上述方法,依次分割高频采样矩阵SH1'至SHT',并分别计算欧式距离获得到高频欧式距离矩阵ESH1'至ESHT';
按W2窗口长度 '对低频采样矩阵SL1'进行分割,分割出数量为(width+2*p- )*s+1)^2个行宽和列宽均为 *的矩阵,循环抽取两个* 的矩阵,两两计算欧氏距离。按上述方法,依次按W2窗口长度 对低频采样矩阵SL1'至SLT'进行分割,并分别计算欧式距离获得到低频欧式距离矩阵ESL1'至ESLT';
进一步地,所述步骤五具体为:
除对角线数值外,按行统计每行的值的方差r,
计算矩阵每行的隶属度,其中dij为第i行j列的欧式距离矩阵中的值,其中i不等于j, 为行的长度,r为欧式距离矩阵每行dij值的方差,e为自然底数,欧式距离矩阵包括:ESH1至ESHT、ESL1至ESLT、ESH1'至ESHT'和ESL1'至ESLT';
依次计算高频采样欧式距离的隶属值为ESHTlsd,和ESH'Tlsd,低频采样欧式距离的隶属值ESLTlsd,和ESL'Tlsd。
进一步地,所述步骤六具体为:
进一步地,所述步骤七具体为:
记录并计算连续T天的高频模糊熵和低频模糊熵,并计算前1天至前T天中的最小值和最大值;
当第N天IP的通信模糊熵在最大值和最小值范围内,则判定IP通信是周期性行为,若低于最小值或者高于最大值,则判定该IP通信判定非周期性行为。
本发明的优点在于:
1. 本发明对IP会话的序列进行合理的量化处理。从时间上考虑,将每天按高频访问和低频访问进行划分,在按照每小时的每5分钟进行精确统计,将统治指标定为对外访问主机的数量,将其量化成矩阵数据。
2. 本发明增加了窗口参数,使得窗口统计过程中可以滑动计算、填充计算,保留了前后IP会话序列的上下文关系。
3. 本发明使用欧式距离评估了不同窗口的数据差异。
4. 本发明给定了一个合理的方法评估IP会话序列的周期性方法,可以通过计算模糊熵来评估序列的周期性。
附图说明
图1为本方法的流程示意图。
具体实施方式
为了更好的理解上述技术方案,下面将结合附图通过具体实施例进行进一步的说明,需要注意的是本发明技术方案包括但不限于一下实施例。
实施例1
一种基于模糊熵的IP会话序列周期性评估方法,包括如下步骤:
步骤一,计算T天的IP会话的统计量形成T个高频矩阵H1、…、HT和T个低频矩阵L1、…、LT;
步骤二,设置采样窗口W1,高频矩阵H1至HT,低频矩阵L1至LT通过滑动的采样窗口W1进行采样,获得T个高频采样矩阵SH1、…、SHT,T个低频采样矩阵SL1、…、SLT;
步骤三,设置采样窗口W2,高频矩阵H1至HT,低频矩阵L1至LT通过滑动的采样窗口W2进行采样,获得T个高频采样矩阵SH1'、…、SHT',T个低频采样矩阵SL1'、…、SLT';
步骤四,针对两组高频采样矩阵SH1至SHT和SH1'至SHT'、低频采样矩阵SL1至SLT和SL1'至SLT',计算形成高频采样欧式距离数值矩阵ESH1至ESHT、ESH1'至ESHT',低频采样欧式距离数值矩阵ESL1至ESLT、ESL1'至ESLT';
步骤五,分别计算高频采样欧式距离数值矩阵ESH1至ESHT、ESH1'至ESHT',低频采样欧式距离数值矩阵ESL1至ESLT、ESL1'至ESLT'的整体平均隶属度;
步骤六,求每个IP会话序列的模糊熵FuzzyEn,其中模糊熵FuzzyEn包括高频模糊熵FuzzyEnESH和低频模糊熵FuzzyEnESL;
步骤七,根据模糊熵周期性进行评估。
本发明对IP会话的序列进行合理的量化处理。从时间上考虑,将每天按高频访问和低频访问进行划分。本发明增加了窗口参数,使得窗口统计过程中可以滑动计算、填充计算,保留了前后IP会话序列的上下文关系。使用欧式距离评估了不同窗口的数据差异。
实施例2
一种基于模糊熵的IP会话序列周期性评估方法,包括如下步骤:
步骤一,计算T天的IP会话的统计量形成T个高频矩阵H1、…、HT和T个低频矩阵L1、…、LT;
步骤一具体为:按照每天活动频率将24小时划分为两个时间段,具体划分原则可根据日常工作作息时间来定义的,如果分析环境是企业环境的流量安全,则可将活动高频时间段设置在8:00-20:00,活动低频时间段设置在20:00-8:00,获取24小时的IP会话全流量记录,统计并计算该IP每5分钟对外访问的主机数量数值,因此每小时主机数量数值可以获得12个;
将第1天高频时间段的主机数量数值按照时间顺序存入高频矩阵H1中,12小时的流量数据可形成行宽*列宽为12*12的高频矩阵H1,按上述方法依次将第1天至第T天的高频时间段主机数量数值存入高频矩阵H1至HT中。
将第1天低频时间段的主机数量数值按照时间顺序存入低频矩阵L1中,形成行宽*列宽为12*12的低频矩阵L1,按上述方法依次将第1天至第T天的低频时间段主机数量数值存入低频矩阵L1至LT中;例如第1个5分钟的统计值存放于矩阵H的第1行第1列,第2个5分钟统计值存放于第1行第2列,每隔12个值更换行,如第13个统计值存放在第2行第1列,以此类推。
连续记录T天时间,T为自然数,例如:T默认为3天,则可以获得3个高频矩阵,为H1、H2和H3,获得3个低频矩阵,为L1、L2和L3。
步骤二,设置采样窗口W1,高频矩阵H1至HT,低频矩阵L1至LT通过滑动的采样窗口W1进行采样,获得T个高频采样矩阵SH1、…、SHT,T个低频采样矩阵SL1、…、SLT;
步骤二具体为:
采样窗口W1设置3个窗口参数,分别为窗口长度 ,滑动步长s,窗口填充长度p,其中窗口长度取值可选,窗口长度 可选值为1到矩阵H的行宽(row)或者列宽(column)中最小宽度,选择标准由分析时间颗粒度决定,数值越小分析时间窗口越小,精度越高,计算量越大,默认可将窗口长度为3。还需满足步长加填充的和等于窗口长度条件,滑动步长s和窗口填充长度p可在满足条件下任意选择。例如窗口长度 =3、滑动步长s=1、窗口填充长度p=2。
使用采样窗口W1在高频矩阵H1至HT上游走采样,并将采样到的数据拼接形成采样矩阵SH1至SHT,同理使用采样窗口W1在低频矩阵L1至LT上游走采样,并将采样到的数据拼接形成采样矩阵SL1至SLT。拼接后的采样矩阵SHT和采样矩阵SLT的行宽为 ,列宽为((width+2*p- )*s+1)^2)*,其中width为定值,等于高频矩阵的行宽或者列宽中最小宽度并且等于低频矩阵的行宽或者列宽中最小宽度,例如当窗口长度 =3、滑动步长s=1、窗口填充长度p=2时,采样矩阵SHT和采样矩阵SLT的行宽为3,列宽为((12+2*2-3)*1+1)^2*3=(14*14)*3=196*3。
步骤三,设置采样窗口W2,高频矩阵H1至HT,低频矩阵L1至LT通过滑动的采样窗口W2进行采样,获得T个高频采样矩阵SH1'、…、SHT',T个低频采样矩阵SL1'、…、SLT';
步骤三具体为:
使用采样窗口W1在高频矩阵H1至HT上游走采样,并将采样到的数据拼接形成采样矩阵SH1至SHT,同理使用采样窗口W1在低频矩阵L1至LT上游走采样,并将采样到的数据拼接形成采样矩阵SL1至SLT。拼接后的采样矩阵SHT'和采样矩阵SLT'的行宽为',列宽为((width+2*p- )*s+1)^2)*,其中width为定值,等于高频矩阵的行宽或者列宽中最小宽度并且等于低频矩阵的行宽或者列宽中最小宽度;例如窗口长度 =4、滑动步长s=1、窗口填充长度p=3时,采样矩阵SHT'和采样矩阵SLT'的行宽为3,列宽为((12+2*3-4)*1+1)^2*4=(15*15)*4=225*4。
步骤四,针对两组高频采样矩阵SH1至SHT和SH1'至SHT'、低频采样矩阵SL1至SLT和SL1'至SLT',计算形成高频采样欧式距离数值矩阵ESH1至ESHT、ESH1'至ESHT',低频采样欧式距离数值矩阵ESL1至ESLT、ESL1'至ESLT';
步骤四具体为:
得到行宽为SH1的列宽除以 ,列宽为SH1的列宽除以的高频采样欧式距离矩阵ESH1,依次按W1窗口长度 对高频采样矩阵SH1至SHT进行分割,并分别计算欧式距离获得到高频欧式距离矩阵ESH1至ESHT;例如SH1至SHT行宽都为3,列宽都为196*3,计算后得到196*196采样欧式距离矩阵ESH1至ESHT;按W1窗口长度 对低频采样矩阵SL1进行分割,分割出数量为(width+2*p- )*s+1)^2个行宽和列宽均为* 的矩阵,循环抽取两个* 的矩阵,两两计算欧氏距离;按上述方法,依次按W1窗口长度 对低频采样矩阵SL1至SLT进行分割,并分别计算欧式距离获得到高频欧式距离矩阵ESL1至ESLT;
计算过程为第1个抽取的矩阵A,与第1个矩阵B计算欧式距离,结果存于ESH1的第1行第1列,第2个一直到第(width+2*p-)*s+1)^2个矩阵B进行欧氏距离计算,结果存于对应的第1行第2列一直到第1行第(width+2*p-)*s+1)^2列,第二个抽取的矩阵A,与第1个矩阵B计算欧式距离,结果存于ESH1的第2行第1列,再循环上述过程,直到全部抽取完成。
步骤四还包括:
按W2窗口长度 '对高频采样矩阵SH1进行分割,分割出数量为(width+2*p- )*s+1)^2个行宽和列宽均为 * 的矩阵,基于上述分割得到的矩阵,循环抽取两个 * 的矩阵,分别命名为矩阵A'和矩阵B',两两计算欧氏距离,
得到行宽为SH1'的列宽除以 ',列宽为SH1'的列宽除以 '的高频采样欧式距离矩阵ESH1'。按上述方法,依次分割高频采样矩阵SH1'至SHT',并分别计算欧式距离获得到高频欧式距离矩阵ESH1'至ESHT';例如SH1'至SHT'行宽都为4,列宽都为225*4,计算后得到225*225采样欧式距离矩阵ESH1'至ESHT';
按W2窗口长度 '对低频采样矩阵SL1'进行分割,分割出数量为(width+2*p-)*s+1)^2个行宽和列宽均为* 的矩阵,循环抽取两个 * 的矩阵,两两计算欧氏距离,按上述方法,依次按W2窗口长度 对低频采样矩阵SL1'至SLT'进行分割,并分别计算欧式距离获得到低频欧式距离矩阵ESL1'至ESLT';计算过程为第1个抽取的矩阵A',与第1个矩阵B'计算欧式距离,结果存于ESH1'至ESHT'的第1行第1列,第2个一直到第(width+2*p-)*s+1)^2个矩阵B'进行欧氏距离计算,结果存于对应的第1行第2列一直到第1行第(width+2*p-)*s+1)^2列,第二个抽取的矩阵A',与第1个矩阵B'计算欧式距离,结果存于ESH1'至ESHT'的的第2行第1列,再循环上述过程,直到全部抽取完成。
步骤五,分别计算高频采样欧式距离数值矩阵ESH1至ESHT、ESH1'至ESHT',低频采样欧式距离数值矩阵ESL1至ESLT、ESL1'至ESLT'的整体平均隶属度;
步骤五具体为:
除对角线数值外,按行统计每行的值的方差r,
计算矩阵每行的隶属度,其中dij为第i行j列的欧式距离矩阵中的值,其中i不等于j, 为行的长度,r为欧式距离矩阵每行dij值的方差,e为自然底数,欧式距离矩阵包括:ESH1至ESHT、ESL1至ESLT、ESH1'至ESHT'和ESL1'至ESLT';
依次计算高频采样欧式距离的隶属值为ESHTlsd,和ESH'Tlsd,低频采样欧式距离的隶属值ESLTlsd,和ESL'Tlsd;具体为:分别从ESH1至ESHT中取出欧式距离矩阵中值计算每行的隶属度 ,计算每行平均隶属度,其中n等于(width+2*p-)*s+1)^2,依次计算(width+2*p- )*s+1)^2行后得到每行平均隶属度,并累加隶属度求平均得到整体ESH1至ESHT平均隶属度ESH1lsd至ESHTlsd和ESH'1lsd至ESH'Tlsd,依次类推可计算出ESL1至ESLT、ESH1'至ESHT'和ESL1'至ESLT'的整体平均隶属度。
步骤六,求每个IP会话序列的模糊熵FuzzyEn,其中模糊熵FuzzyEn包括高频模糊熵FuzzyEnESH和低频模糊熵FuzzyEnESL;
步骤六具体为:
步骤七,根据模糊熵周期性进行评估。
步骤七具体为:
记录并计算连续T天的高频模糊熵和低频模糊熵,并计算前1天至前T天中的最小值和最大值;
当第N天IP的通信模糊熵在最大值和最小值范围内,其中N为正整数,则判定IP通信是周期性行为,若低于最小值或者高于最大值,则判定该IP通信判定非周期性行为。结合高频时段和低频时段,当高频时段出现非周期状态,低频时段出现周期流量时,则需要重点分析该IP的网络流量。
本发明对IP会话的序列进行合理的量化处理。从时间上考虑,将每天按高频访问和低频访问进行划分,在按照每小时的每5分钟进行精确统计,将统治指标定为对外访问主机的数量,将其量化成矩阵数据。增加了窗口参数,使得窗口统计过程中可以滑动计算、填充计算,保留了前后IP会话序列的上下文关系。使用欧式距离评估了不同窗口的数据差异,可以通过计算模糊熵来评估序列的周期性。
Claims (7)
1.一种基于模糊熵的IP会话序列周期性评估方法,其特征在于,包括如下步骤:
步骤一,计算T天的IP会话的统计量形成T个高频矩阵H1、…、HT和T个低频矩阵L1、…、LT;其中T为正整数;
步骤二,设置采样窗口W1,高频矩阵H1至HT,低频矩阵L1至LT通过滑动的采样窗口W1进行采样,获得T个高频采样矩阵SH1、…、SHT,T个低频采样矩阵SL1、…、SLT;
步骤三,设置采样窗口W2,高频矩阵H1至HT,低频矩阵L1至LT通过滑动的采样窗口W2进行采样,获得T个高频采样矩阵SH1'、…、SHT',T个低频采样矩阵SL1'、…、SLT';
步骤四,针对两组高频采样矩阵SH1至SHT和SH1'至SHT'、低频采样矩阵SL1至SLT和SL1'至SLT',计算形成高频采样欧式距离数值矩阵ESH1至ESHT、ESH1'至ESHT',低频采样欧式距离数值矩阵ESL1至ESLT、ESL1'至ESLT';
步骤五,分别计算高频采样欧式距离数值矩阵ESH1至ESHT、ESH1'至ESHT',低频采样欧式距离数值矩阵ESL1至ESLT、ESL1'至ESLT'的整体平均隶属度;
步骤六,求每个IP会话序列的模糊熵FuzzyEn,其中模糊熵FuzzyEn包括高频模糊熵FuzzyEnESH和低频模糊熵FuzzyEnESL;
步骤七,根据模糊熵周期性进行评估;
步骤四具体为:
按W1窗口长度对高频采样矩阵SH1进行分割,分割出数量为(width+2*p-)*s+1)^2个行宽和列宽均为*的矩阵;width为定值,等于高频矩阵的行宽或者列宽中最小宽度并且等于低频矩阵的行宽或者列宽中最小宽度,s为滑动步长,p为窗口填充长度;
按上述方法,依次分割高频采样矩阵SH1'至SHT',并分别计算欧式距离获得到高频欧式距离矩阵ESH1'至ESHT';
2.根据权利要求1所述的一种基于模糊熵的IP会话序列周期性评估方法,其特征在于,所述步骤一具体为:按照每天活动频率将24小时划分为两个时间段,获取24小时的IP会话全流量记录,统计并计算该IP每5分钟对外访问的主机数量数值,因此每小时主机数量数值可以获得12个;
将第1天高频时间段的主机数量数值按照时间顺序存入高频矩阵H1中,12小时的流量数据可形成行宽*列宽为12*12的高频矩阵H1,按上述方法依次将第1天至第T天的高频时间段主机数量数值存入高频矩阵H1至HT中;
将第1天低频时间段的主机数量数值按照时间顺序存入低频矩阵L1中,形成行宽*列宽为12*12的低频矩阵L1,按上述方法依次将第1天至第T天的高频时间段主机数量数值存入低频矩阵L1至LT中。
7.根据权利要求6所述的一种基于模糊熵的IP会话序列周期性评估方法,其特征在于,所述步骤七具体为:
记录并计算连续T天的高频模糊熵和低频模糊熵,并计算前1天至前T天中的最小值和最大值;
当第N天IP的通信模糊熵在最大值和最小值范围内,其中N为正整数,则判定IP通信是周期性行为,若低于最小值或者高于最大值,则判定该IP通信判定非周期性行为。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111223978.0A CN113660147B (zh) | 2021-10-21 | 2021-10-21 | 一种基于模糊熵的ip会话序列周期性评估方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111223978.0A CN113660147B (zh) | 2021-10-21 | 2021-10-21 | 一种基于模糊熵的ip会话序列周期性评估方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113660147A CN113660147A (zh) | 2021-11-16 |
CN113660147B true CN113660147B (zh) | 2022-01-11 |
Family
ID=78494753
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111223978.0A Active CN113660147B (zh) | 2021-10-21 | 2021-10-21 | 一种基于模糊熵的ip会话序列周期性评估方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113660147B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114221816B (zh) * | 2021-12-17 | 2024-05-03 | 恒安嘉新(北京)科技股份公司 | 流量检测方法、装置、设备及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109242250A (zh) * | 2018-08-03 | 2019-01-18 | 成都信息工程大学 | 一种基于模糊熵权法与云模型的用户行为可信度检测方法 |
CN111122162A (zh) * | 2019-12-25 | 2020-05-08 | 杭州电子科技大学 | 基于欧氏距离多尺度模糊样本熵的工业系统故障检测方法 |
WO2021034351A1 (en) * | 2019-08-22 | 2021-02-25 | Hecox Kurt E | Systems and methods for seizure detection based on changes in electroencephalogram (eeg) non-linearities |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101217427B (zh) * | 2008-01-11 | 2010-11-10 | 清华大学 | 不确定网络环境中网络服务评价和优选方法 |
CA3146349A1 (en) * | 2019-08-22 | 2021-02-25 | Advanced Global Clinical Solutions Inc. | Systems and methods for seizure detection based on changes in electroencephalogram (eeg) non-linearities |
CN111914516B (zh) * | 2020-08-20 | 2024-03-22 | 杭州安恒信息技术股份有限公司 | 一种网络数据预测序列生成方法、装置、设备及存储介质 |
-
2021
- 2021-10-21 CN CN202111223978.0A patent/CN113660147B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109242250A (zh) * | 2018-08-03 | 2019-01-18 | 成都信息工程大学 | 一种基于模糊熵权法与云模型的用户行为可信度检测方法 |
WO2021034351A1 (en) * | 2019-08-22 | 2021-02-25 | Hecox Kurt E | Systems and methods for seizure detection based on changes in electroencephalogram (eeg) non-linearities |
CN111122162A (zh) * | 2019-12-25 | 2020-05-08 | 杭州电子科技大学 | 基于欧氏距离多尺度模糊样本熵的工业系统故障检测方法 |
Non-Patent Citations (2)
Title |
---|
"A Maximal Fuzzy Entropy Based Gaussian Clustering Algorithm for Tracking Dim Moving Point Targets in Image Sequences";Xingke Lian等;《2008 International Conference on Computer Science andsoftware Engineering》;20081114;全文 * |
"基于模糊聚类和特征选择的异常检测系统研究";崔芳怡;《中国优秀硕士学位论文全文数据库》;20200215;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113660147A (zh) | 2021-11-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107493277B (zh) | 基于最大信息系数的大数据平台在线异常检测方法 | |
CN109447180A (zh) | 一种基于大数据和机器学习的电信诈骗上当人发现方法 | |
CN112433919A (zh) | 一种信息告警方法、设备及存储介质 | |
CN102750320B (zh) | 一种网络视频实时关注度的计算方法、装置和系统 | |
CN112306787B (zh) | 报错日志处理方法、装置、电子设备和智能音箱 | |
CN109145033B (zh) | 计算机系统以及计算机实施方法 | |
CN113535454B (zh) | 一种日志数据异常检测的方法及设备 | |
CN109767269A (zh) | 一种游戏数据的处理方法和装置 | |
CN1783092A (zh) | 数据分析装置和数据分析方法 | |
CN113660147B (zh) | 一种基于模糊熵的ip会话序列周期性评估方法 | |
CN109978575B (zh) | 一种挖掘用户流量经营场景的方法及装置 | |
CN114238360A (zh) | 一种用户行为分析系统 | |
CN114022051A (zh) | 一种指标波动分析方法,存储介质和电子设备 | |
CN109145109B (zh) | 基于社交网络的用户群体消息传播异常分析方法及装置 | |
CN110851758B (zh) | 一种网页访客数量统计方法及装置 | |
CN114495137B (zh) | 票据异常检测模型生成方法与票据异常检测方法 | |
US10511556B2 (en) | Bursty detection for message streams | |
CN115858763A (zh) | 多模态数据融合的城管事件分析方法及其应用 | |
CN111881170B (zh) | 时效性查询内容字段挖掘方法、装置、设备和存储介质 | |
CN110413899B (zh) | 服务器存储新闻的存储资源优化方法及系统 | |
Mainych et al. | Cluster Analysis of Discussions Change Dynamics on Twitter about War in Ukraine. | |
CN114218134A (zh) | 一种缓存用户的方法和装置 | |
CN110705736A (zh) | 宏观经济预测方法、装置、计算机设备及存储介质 | |
CN111507397A (zh) | 一种异常数据的分析方法及装置 | |
CN104951869A (zh) | 一种基于工作流的舆情监控方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |