CN110753053B - 一种基于大数据分析的流量异常预判方法 - Google Patents
一种基于大数据分析的流量异常预判方法 Download PDFInfo
- Publication number
- CN110753053B CN110753053B CN201911008033.XA CN201911008033A CN110753053B CN 110753053 B CN110753053 B CN 110753053B CN 201911008033 A CN201911008033 A CN 201911008033A CN 110753053 B CN110753053 B CN 110753053B
- Authority
- CN
- China
- Prior art keywords
- data
- fcim
- foim
- abnormal
- time slice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
- H04L63/1425—Traffic logging, e.g. anomaly detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
- H04L63/1416—Event detection, e.g. attack signature detection
Landscapes
- Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Mathematical Analysis (AREA)
- Theoretical Computer Science (AREA)
- Mathematical Physics (AREA)
- Pure & Applied Mathematics (AREA)
- Computational Mathematics (AREA)
- Computing Systems (AREA)
- Mathematical Optimization (AREA)
- Computer Hardware Design (AREA)
- Computer Networks & Wireless Communication (AREA)
- Evolutionary Biology (AREA)
- Operations Research (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Computational Biology (AREA)
- Algebra (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明公开了一种基于大数据分析的流量异常预判方法,涉及网络安全技术领域。该方法通过从流数据信息中提取数据特征,并验证数据特征之间的线性相关性,如果数据特征之间线性相关,则计算残差e,最后通过比较|ei|和zα/2的大小,判定第i个时间片的流量是否异常。可见,采用本发明提供的方法,通过将网络安全结合业务做精细化的流量解析,可以实现对流量异常情况的预判,可以在安全威胁爆发前预判网络安全趋势,而不只是被动防御,不会出现误告或新型攻击漏告的情况,从而能够有效保护网络安全。
Description
技术领域
本发明涉及网络安全技术领域,尤其涉及一种基于大数据分析的流量异常预判方法。
背景技术
随着网络和业务的不断发展,网络中包含大量的数据,既有大量的正常数据,各种异常行为数据,而这些异常行为数据可能会暗含病毒、网络攻击行为数据,还可能导致业务设备无法正常运行,从而影响整体业务的正常运行,进而带来一系列连锁问题,所以,异常行为检测对于维护网络安全具有重要的作用。
目前,网络异常行为的检测方法通常为:依赖单个或多个安全设备通过将告警日志等数据与已知异常行为特征库对比,发现网络病毒及网络攻击等行为数据,而由于异常行为数据千变万化且不断衍生新版本,所以,异常行为特征收集更新速度远跟不上异常行为产生速度,因此,目前这种通过异常行为特征识别异常数据的方法,只能是被动防御,无法在安全威胁爆发前预判网络安全趋势,对很多未知或者新的异常行为也无法进行识别,从而不能有效保护网络安全。
发明内容
本发明的目的在于提供一种基于大数据分析的流量异常预判方法,从而解决现有技术中存在的前述问题。
为了实现上述目的,本发明采用的技术方案如下:
一种基于大数据分析的流量异常预判方法,包括如下步骤:
S1,获取流数据信息;
S2,根据所述流数据信息提取数据特征;
S3,验证所述数据特征之间的线性相关性,如果验证通过,则根据数据特征的值采用如下公式计算残差e;
y=α1x+α0+e
其中,x、y均为数据特征,e为残差,α1,α0为参数;
S4,比较|ei|和zα/2的大小,若|ei|>zα/2,则判定第i个时间片的流量出现异常,其中,|ei|为第i个时间片的残差绝对值;
zα/2为正态分布表中查找到的值,表示当前分位数α/2下的误差概率,α是预设的正态分位数。
优选地,所述流数据信息包括源IP地址、目的IP地址、源端口号、目的端口号、协议号、包数、字节数。
优选地,S2包括:
S201,以流数据作为键值,利用哈希算法将每个时间片的流数据分到m个组中;
S202,统计每个时间片内每个组中的数据流的数量和字节数,分别得到n×m的流数量矩阵FCM和字节数矩阵FOM,FCM和FOM作为数据特征,其中n为时间片的个数,m为每个时间片内的流数据的分组数目。
优选地,S202之后还包括步骤S203,对FCM和FOM分别计算每一行的熵值,对应得到两个n维数组FCIM和FOIM,作为新的数据特征。
优选地,
第i个时间片内的FCIM按照如下公式进行计算:
其中,C(i,j)为FCM中第i行第j列的元素;
第i个时间片内的FOIM按照如下公式进行计算:
其中,O(i,j)为FOM中第i行第j列的元素。
优选地,
验证FCIM与FOIM的线性相关性,如果验证通过,则根据FCIM与FOIM的值采用如下公式计算残差e:
y=α1x+α0+e
其中,x为FCIM,y为FOIM,e为残差,α1,α0为参数。
优选地,所述验证FCIM与FOIM的线性相关性,包括:
绘制Q-Q图,直观判断FCIM和FOIM的线性相关性;
计算皮尔逊相关系数验证FCIM和FOIM的线性相关性。
优选地,参数α1,α0按照如下公式计算得到:
其中,xi为FCIM中的第i个元素;
yi为FOIM中的第i个元素;
优选地,S3和S4之间还包括步骤利用标准差估计值σ对残差e进行标准化:
优选地,S4之后还包括步骤:
对流量出现异常的第i个时间片的数据流详细信息进行统计;
根据异常数据特征库,判断第i个时间片的数据流的异常类型,所述异常类型包括:流量网络攻击异常、扫描行为异常和端口异常;
将数据流和判断结果均加入到所述异常数据特征库,对其进行更新。
本发明的有益效果是:本发明提供的基于大数据分析的流量异常预判方法,通过从流数据信息中提取数据特征,并验证数据特征之间的线性相关性,如果数据特征之间线性相关,则计算残差e,最后通过比较|ei|和zα/2的大小,判定第i个时间片的流量是否异常。可见,采用本发明提供的方法,通过将网络安全结合业务做精细化的流量解析,可以实现对流量异常情况的预判,可以在安全威胁爆发前预判网络安全趋势,而不只是被动防御,不会出现误告或新型攻击漏告的情况,从而能够有效保护网络安全。
附图说明
图1是本发明提供的基于大数据分析的流量异常预判方法流程示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本发明,并不用于限定本发明。
如图1所示,本发明实施例提供了一种基于大数据分析的流量异常预判方法,包括如下步骤:
S1,获取流数据信息;
S2,根据所述流数据信息提取数据特征;
S3,验证所述数据特征之间的线性相关性,如果验证通过,则根据数据特征的值采用如下公式计算残差e;
y=α1x+α0+e
其中,x、y均为数据特征,e为残差,α1,α0为参数;
S4,比较|ei|和zα/2的大小,若|ei|>zα/2,则判定第i个时间片的流量出现异常,其中,|ei|为第i个时间片的残差绝对值;
zα/2为正态分布表中查找的值,表示当前分位数α/2下的误差概率,α是预设的正态分位数。
其中,所述流数据信息包括源IP地址、目的IP地址、源端口号、目的端口号、协议号、包数、字节数。
作为一个实施例,本发明中所用到的流数据数据可以为采集自铁路的NetFlow流量数据。采集器可以以1∶1000的采样率采集数据,时间长度为5分钟。具体的,模型训练数据采集了2019年7月14日0点到13点共十三个小时的数据,以5分钟为一个时间片,共有156个时间片。
该实施例中采集的流数据信息中,包括源IP地址、目的IP地址、源端口号、目的端口号、协议号、包数、字节数。
在本发明中,S2包括:
S201,以流数据作为键值,利用哈希算法将每个时间片的流数据分到m个组中;
S202,统计每个时间片内每个组中的数据流的数量和字节数,分别得到n×m的流数量矩阵FCM和字节数矩阵FOM,FCM和FOM作为数据特征,其中n为时间片的个数,m为每个时间片内的流数据的分组数目。
在一个实施例中,可以以流数据的五元组(源IP地址、目的IP地址、源端口号、目的端口号、协议号)作为键值,将每个时间片的流数据利用哈希算法分到m个组中。统计每个时间片内每个组中的数据流的数量和字节数,分别得到n×m的流数量矩阵FCM和字节数矩阵FOM,FCM和FOM作为数据特征,其中n为时间片的个数,m为每个时间片内的流数据的分组数目。流数量矩阵FCM中的元素FCM(i,j)表示第i个时间片第j组的数据流数量,字节数矩阵FOM中的元素FOM(i,j)表示第i个时间片第j组的数据字节数。
如果一个时间片某个组内的数据流数量越多,则其字节数也应该会越大,也就是说,数据流的数目分布和字节数具有相似的分布。而熵值能够反映数据的分布程度。因此,可以对FCM和FOM分别计算每一行的熵值,通过得到的熵值结果判断数据流的数目分布和字节数是否具有相似的分布。
本发明实施例中,S202之后还包括步骤S203,对FCM和FOM分别计算每一行的熵值,对应得到两个n维数组FCIM和FOIM,作为新的数据特征。
然后,根据FCIM和FOIM判断数据流的数目分布和字节数是否具有相似的分布。
其中,
第i个时间片内的FCIM按照如下公式进行计算:
其中,C(i,j)为FCM中第i行第j列的元素;
第i个时间片内的FOIM按照如下公式进行计算:
其中,O(i,j)为FOM中第i行第j列的元素。
本发明实施例中,验证FCIM与FOIM的线性相关性,如果验证通过,则根据FCIM与FOIM的值采用如下公式计算残差e:
y=α1x+α0+e
其中,x为FCIM,y为FOIM,e为残差,α1,α0为参数。
上述方法中,如果通过验证,发现FCIM与FOIM线性相关,则可以根据FCIM与FOIM的值以及上述公式计算残差e。
其中,可以首先通过绘制Q-Q图的方式直观判断FCIM和FOIM的线性相关性,然后计算皮尔逊相关系数验证两者的线性相关性。Q-Q图原理是分别以两个概率分布的分位数作为自变量和因变量绘制曲线图,如果该曲线近似于一条直线,则说明这两个概率分布具有很强的相关性。
皮尔逊相关系数是统计学中验证两个变量线性相关程度的指标,具体计算公式如下:
皮尔逊相关系数越接近-1,说明两者具有越强的负相关性;越接近1说明两者具有越强的正相关性。
本发明实施例中,利用采集自铁路的NetFlow流量数据计算得到皮尔逊相关系数结果为0.932,因此FCIM与FOIM具有很强的正线性相关性。
另外,本发明中,如下公式
y=α1x+α0+e
中的参数α1,α0可以按照如下公式计算得到:
其中,xi为FCIM中的第i个元素;
yi为FOIM中的第i个元素;
参数α1,α0的计算公式可以按照如下方法得到:
然后分别对α0和α1求导,再令导数等于0,得到参数α1,α0的计算公式。
在本发明的一个优选实施例中,S3和S4之间还包括步骤利用标准差估计值σ对残差e进行标准化:
则,S4中利用标准化残差e与zα/2进行比较,判定第i个时间片的流量是否出现异常。
本发明实施例中,首先进行时间片段异常检测,然后进行流量网络攻击异常检测、扫描行为异常检测、端口异常检测,从而得到最终结果。时间片异常检测可以从全局观判断某个时间片内流量是否发生异常,但并不能确定何种异常。而流量网络攻击异常检测、扫描行为异常检测、端口异常检测是在时间片异常的基础上进行深入分析从而对具体异常类型进行判断。
因此,本发明中,如果判定出第i个时间片的流量出现了异常,S4之后还包括步骤:
对流量出现异常的第i个时间片的数据流详细信息进行统计;
根据异常数据特征库,判断第i个时间片的数据流的异常类型,所述异常类型包括:流量网络攻击异常、扫描行为异常和端口异常;
将数据流和判断结果均加入到所述异常数据特征库,对其进行更新。上述方法中,主要是对于某个时间片流量出现异常的数据进行更深入的分析,推断异常产生类型和重点怀疑端口和IP。通过对异常数据进行统计分析得到异常数据特征库,异常数据类型包括流量网络攻击、扫描行为异常、端口异常三大类。以视频监控应用流量为例,每类特征判断逻辑如下:
1.流量网络攻击
判断连续一段时间段内摄像头与存储服务器、磁盘阵列是否有交互数据,若没有则产生流量中断异常告警;若下次采集仍没有交互则继续告警,否则恢复正常。
2.扫描行为异常
对该时间段内的服务器、磁盘阵列的请求和响应数据进行统计,若有请求有响应则正常;若有请求无响应,则统计服务器、磁盘阵列是否超出对端IP数量最大阈值,若超出则产生扫描行为异常告警,否则不属于扫描行为异常。
3.端口异常
通过统计历史数据自学习建立历史端口模型,以及系统提前录入的黑名单异常端口,实时监测针对服务器、磁阵对摄像头、终端的端口,只分析定义为正常范围内的请求行为,对交互行为中响应端的端口检测,端口超出交互行为端口范围或属于黑名单端口进行告警,对其他类型的资产根据网络中的交互放入的记录分析表根据其特征进行深入分析。
通过采用本发明公开的上述技术方案,得到了如下有益的效果:本发明提供的基于大数据分析的流量异常预判方法,通过从流数据信息中提取数据特征,并验证数据特征之间的线性相关性,如果数据特征之间线性相关,则计算残差e,最后通过比较|ei|和zα/2的大小,判定第i个时间片的流量是否异常。可见,采用本发明提供的方法,通过将网络安全结合业务做精细化的流量解析,可以实现对流量异常情况的预判,可以在安全威胁爆发前预判网络安全趋势,而不只是被动防御,不会出现误告或新型攻击漏告的情况,从而能够有效保护网络安全。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视本发明的保护范围。
Claims (10)
1.一种基于大数据分析的流量异常预判方法,其特征在于,包括如下步骤:
S1,获取流数据信息;
S2,根据所述流数据信息提取数据特征;
S3,验证所述数据特征之间的线性相关性,如果验证通过,则根据数据特征的值采用如下公式计算残差e;
y=α1x+α0+e
其中,x、y均为数据特征,e为残差,α1,α0为参数;
S4,比较|ei|和zα/2的大小,若|ei|>zα/2,则判定第i个时间片的流量出现异常,其中,|ei|为第i个时间片的残差绝对值;
zα/2为正态分布表中查找到的值,表示当前分位数α/2下的误差概率,α是预设的正态分位数。
2.根据权利要求1所述的基于大数据分析的流量异常预判方法,其特征在于,所述流数据信息包括源IP地址、目的IP地址、源端口号、目的端口号、协议号、包数、字节数。
3.根据权利要求2所述的基于大数据分析的流量异常预判方法,其特征在于,S2包括:
S201,以流数据作为键值,利用哈希算法将每个时间片的流数据分到m个组中;
S202,统计每个时间片内每个组中的数据流的数量和字节数,分别得到n×m的流数量矩阵FCM和字节数矩阵FOM,FCM和FOM作为数据特征,其中n为时间片的个数,m为每个时间片内的流数据的分组数目。
4.根据权利要求3所述的基于大数据分析的流量异常预判方法,其特征在于,S202之后还包括步骤S203,对FCM和FOM分别计算每一行的熵值,对应得到两个n维数组FCIM和FOIM,作为新的数据特征。
6.根据权利要求4所述的基于大数据分析的流量异常预判方法,其特征在于,
验证FCIM与FOIM的线性相关性,如果验证通过,则根据FCIM与FOIM的值采用如下公式计算残差e:
y=α1x+α0+e
其中,x为FCIM,y为FOIM,e为残差,α1,α0为参数。
7.根据权利要求6所述的基于大数据分析的流量异常预判方法,其特征在于,所述验证FCIM与FOIM的线性相关性,包括:
绘制Q-Q图,直观判断FCIM和FOIM的线性相关性;
计算皮尔逊相关系数验证FCIM和FOIM的线性相关性。
10.根据权利要求6所述的基于大数据分析的流量异常预判方法,其特征在于,S4之后还包括步骤:
对流量出现异常的第i个时间片的数据流详细信息进行统计;
根据异常数据特征库,判断第i个时间片的数据流的异常类型,所述异常类型包括:流量网络攻击异常、扫描行为异常和端口异常;
将数据流和判断结果均加入到所述异常数据特征库,对其进行更新。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911008033.XA CN110753053B (zh) | 2019-10-22 | 2019-10-22 | 一种基于大数据分析的流量异常预判方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911008033.XA CN110753053B (zh) | 2019-10-22 | 2019-10-22 | 一种基于大数据分析的流量异常预判方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110753053A CN110753053A (zh) | 2020-02-04 |
CN110753053B true CN110753053B (zh) | 2021-07-20 |
Family
ID=69279383
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911008033.XA Active CN110753053B (zh) | 2019-10-22 | 2019-10-22 | 一种基于大数据分析的流量异常预判方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110753053B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113904920B (zh) * | 2021-09-14 | 2023-10-03 | 上海纽盾科技股份有限公司 | 基于失陷设备的网络安全防御方法、装置及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105163326A (zh) * | 2015-09-30 | 2015-12-16 | 南京华苏科技股份有限公司 | 一种基于无线网络话务特征的小区聚类方法和系统 |
WO2018121157A1 (zh) * | 2016-12-29 | 2018-07-05 | 北京神州绿盟信息安全科技股份有限公司 | 一种网络流量异常检测方法及装置 |
CN109302419A (zh) * | 2018-11-21 | 2019-02-01 | 贵州电网有限责任公司 | 一种基于行为分析的网络应用流异常检测方法 |
-
2019
- 2019-10-22 CN CN201911008033.XA patent/CN110753053B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105163326A (zh) * | 2015-09-30 | 2015-12-16 | 南京华苏科技股份有限公司 | 一种基于无线网络话务特征的小区聚类方法和系统 |
WO2018121157A1 (zh) * | 2016-12-29 | 2018-07-05 | 北京神州绿盟信息安全科技股份有限公司 | 一种网络流量异常检测方法及装置 |
CN109302419A (zh) * | 2018-11-21 | 2019-02-01 | 贵州电网有限责任公司 | 一种基于行为分析的网络应用流异常检测方法 |
Non-Patent Citations (1)
Title |
---|
网络异常检测算法研究;王子玉;《中国博士学位论文全文数据库 信息科技辑》;20190215;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN110753053A (zh) | 2020-02-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111277570A (zh) | 数据的安全监测方法和装置、电子设备、可读介质 | |
US8418247B2 (en) | Intrusion detection method and system | |
CN114978770B (zh) | 基于大数据的物联网安全风险预警管控方法及系统 | |
CN107360118B (zh) | 一种高级持续威胁攻击防护方法及装置 | |
CN111107102A (zh) | 基于大数据实时网络流量异常检测方法 | |
CN111092862B (zh) | 一种用于对电网终端通信流量异常进行检测的方法及系统 | |
CN109361673B (zh) | 基于流量数据样本统计和平衡信息熵估计的网络异常检测方法 | |
CN114143037B (zh) | 一种基于进程行为分析的恶意加密信道检测方法 | |
CN116015894B (zh) | 一种信息安全管理方法及系统 | |
CN110753053B (zh) | 一种基于大数据分析的流量异常预判方法 | |
CN115150182A (zh) | 基于流量分析的信息系统网络攻击检测方法 | |
CN117640257B (zh) | 一种基于大数据的网络安全运营的数据处理方法及系统 | |
JP2008118242A (ja) | 異常トラヒック検出方法およびその装置およびプログラム | |
CN116094817A (zh) | 一种网络安全检测系统和方法 | |
CN117201188B (zh) | 基于大数据的it安全运行风险预测方法、系统和介质 | |
CN112637224B (zh) | 一种自治系统内基于子空间和相对熵的DDoS攻击检测方法 | |
KR20070077517A (ko) | 프로파일 기반 웹 애플리케이션 침입탐지시스템 및 그 방법 | |
CN117395076A (zh) | 基于大数据的网络感知异常检测系统与方法 | |
CN117319047A (zh) | 一种基于网络安全异常检测的网络路径分析方法及系统 | |
CN116633685A (zh) | 基于IPv6发展态势监测的分析方法 | |
CN111865951A (zh) | 一种基于数据包特征提取的网络数据流异常检测方法 | |
CN111181969A (zh) | 一种基于自发流量的物联网设备识别方法 | |
Yan et al. | Detect and identify DDoS attacks from flash crowd based on self-similarity and Renyi entropy | |
CN114006719B (zh) | 基于态势感知的ai验证方法、装置及系统 | |
TW202008758A (zh) | 分散式網路流分析惡意行為偵測系統與其方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |