CN115150182A

CN115150182A - 基于流量分析的信息系统网络攻击检测方法

Info

Publication number: CN115150182A
Application number: CN202210877610.4A
Authority: CN
Inventors: 孙毅臻; 李自尊; 田峥; 田建伟; 朱宏宇; 高隽; 眭建新; 蔡凌; 冯晓文; 陈毅波; 陈中伟; 祝视; 杨芳僚; 向行
Original assignee: State Grid Corp of China SGCC; State Grid Hunan Electric Power Co Ltd; Information and Telecommunication Branch of State Grid Hunan Electric Power Co Ltd
Current assignee: State Grid Corp of China SGCC; State Grid Hunan Electric Power Co Ltd; Information and Telecommunication Branch of State Grid Hunan Electric Power Co Ltd
Priority date: 2022-07-25
Filing date: 2022-07-25
Publication date: 2022-10-04
Anticipated expiration: 2042-07-25
Also published as: CN115150182B

Abstract

本发明公开了一种基于流量分析的信息系统网络攻击检测方法，包括获取信息系统的历史网络流量数据；进行日志提取；进行日志过滤；进行会话标识提取；进行参数解析；进行特征提取；建立基线模型并进行训练；采用训练后的模型进行实时的信息系统网络攻击检测。本发明提供的这种基于流量分析的信息系统网络攻击检测方法，通过对信息系统流量的分析，提取用户的请求参数特征与会话行为特征，建立各类特征所对应的基线模型，从而能够有效识别各类型攻击行为，有效弥补现有安全设备信息系统渗透攻击监测能力不足的问题，可靠性高、实用性好且适用范围广。

Description

基于流量分析的信息系统网络攻击检测方法

技术领域

本发明属于网络安全技术领域，具体涉及一种基于流量分析的信息系统网络攻击检测方法。

背景技术

随着经济技术的发展和人们生活水平的提高，人们对于网络安全的重视程度也越来越高。

目前，大型企业信息系统网络攻击安全监测主要以部署安全设备为主，包括WAF、IPS及态势感知类设备等。传统的网络安全设备监测主要依赖已有攻击的特征库检测模型，对于传统网络攻击行为监测效果较好。但是，这类基于规则检测的安全监测设备存在难以监测针对性渗透攻击、业务逻辑渗透攻击的问题。在针对性的渗透攻击过程中，攻击者往往采取攻击payload编码等绕过特征库的手段进行攻击，导致传统安全设备难以监测。而对业务逻辑渗透而言，攻击人员在渗透过程中提交的请求包经常与正常请求类似，难以触发安全设备规则。尤其在系统存在顶层设计缺陷、业务逻辑不严谨的情形下，业务逻辑类漏洞风险突出，传统安全防护设备难以依据其行为特征及时预警，无法进一步提取其共性攻击特征，具有不可预见性的特点。

当前国内外也开展了许多基于统计方法及机器学习技术的攻击监测研究，但以研究传统攻击行为监测为主，如SQL注入、XSS、命令执行等，缺乏根据针对性渗透攻击、业务逻辑渗透攻击特性，监测其攻击行为的方法。特别是许多渗透攻击的攻击载荷体现在其请求的参数中，而目前缺乏根据信息系统网络流量中请求的参数进行分析的方法，对于针对性渗透攻击、业务逻辑渗透攻击发现能力较差。

发明内容

本发明的目的在于提供一种可靠性高、实用性好且适用范围广的基于流量分析的信息系统网络攻击检测方法。

本发明提供的这种基于流量分析的信息系统网络攻击检测方法，包括如下步骤：

S1.获取信息系统的历史网络流量数据；

S2.根据步骤S1获取的数据，进行日志提取；

S3.对步骤S2得到的日志数据，进行日志过滤；

S4.结合专家规则，根据步骤S3获取的数据进行会话标识提取；

S5.根据步骤S3获取的数据进行参数解析；

S6.根据步骤S4和步骤S5得到的数据结果，进行特征提取；

S7.根据步骤S6提取得到的特征，建立基线模型并进行训练；

S8.采用步骤S7得到的训练后的模型，进行实时的信息系统网络攻击检测。

步骤S2所述的根据步骤S1获取的数据，进行日志提取，具体包括如下步骤：

对信息系统的访问流量进行镜像，得到信息系统的流量日志，并提取HTTP协议数据；

对于采用HTTPS协议的信息系统，则在网络链路中HTTPS解密后的位置进行流量镜像，获得HTTP协议的流量数据。

步骤S3所述的对步骤S2得到的日志数据，进行日志过滤，具体包括如下步骤：

将请求的URL后缀为设定值的HTTP流量日志进行过滤；所述的设定值包括js、css、png和gif等静态页面；

然后，将触发安全设备告警的流量日志、异常访问日志和爬虫行为的流量日志进行过滤。

步骤S4所述的结合专家规则，根据步骤S3获取的数据进行会话标识提取，具体包括如下步骤：

获取能够唯一标记会话的会话标识；

结合专家规则，判断HTTP流量cookie中是否包含用户标识字段：

若包含用户标识字段，则直接获取会话标识；

若不包含用户标识字段，则将IP地址作为会话标识；

步骤S5所述的根据步骤S3获取的数据进行参数解析，具体包括如下步骤：

HTTP协议的URL中包括协议部分、域名部分、端口部分、路径名部分、参数部分和锚部分；对于POST请求而言，还包括采用x-www-form-urlencode格式的请求体的内容；

URL的参数部分以及x-www-form-urlencode格式的请求体，以问号开始并符合name＝value的样式；若存在多个URL参数，则各个参数之间用符号&隔开；

对每条HTTP流量日志进行解析，提取得到参数为“参数名：参数值”的键值对集合。

步骤S6所述的根据步骤S4和步骤S5得到的数据结果，进行特征提取，具体包括如下步骤：

提取得到的参数特征为{Arg_k}，其中Arg_i为提取得到的第i个参数特征，且i＝1,2,...,K，K为提取的参数特征的总和；

Arg_i的组成为Arg_i＝[Session_id_i,Arg_name_i,Arg_value_i]，Session_id_i为第i个参数特征的会话标识，Arg_name_i为第i个参数特征的参数名，Arg_value_i为第i个参数特征的参数值；

参数特征包括参数字符特征与会话行为特征：参数字符特征为参数名与参数值字符的统计、集合等特征；会话行为特征为会话标识相同时参数值集合{Arg_name_i,Arg_value_i}满足的规律特征；

参数字符特征包括参数名、固定类参数值、参数值长度和参数值类型；会话行为特征包括单个会话内参数请求次数、单个会话内用户绑定类参数值个数、单个会话内参数请求占比和单个会话内参数个数；

用户绑定类参数指与信息系统用户存在一一对应关系的参数，即正常用户访问时，通常其值不会变的参数；

参数名为信息系统正常请求时的参数名集合；

固定类参数值为对于同一个参数名，所对应的去重后的参数值所得到的集合{Arg_value_k}，其中k＝1,2,...,K，K为小于设定的固定常数α的参数；

参数值长度为参数值字符串的长度；

参数值类型：采用如下公式进行编码：

type＝ccap*16+clow*8+cnum*4+csym*2+coth

式中type为编码后的参数值类型；ccap为二值变量，用于表示是否包含大写字符，且若包含大写字符则ccap＝1，否则ccap＝0；clow为二值变量，用于表示是否包含小写字符，且若包含小写字符则clow＝1，否则clow＝0；cnum为二值变量，用于表示是否包含数字，且若包含数字则cnum＝1，否则cnum＝0；csym为二值变量，用于表示是否包含符号，且若包含符号则csym＝1，否则csym＝0；coth为二值变量，用于表示是否包含特殊字符，且若包含特殊字符则coth＝1，否则coth＝0；

单个会话内参数请求次数为单个会话内，请求参数名的总次数；

单个会话内用户绑定类参数值个数为单个会话内，请求用户绑定类参数，出现的参数值去重后的个数；

单个会话内参数请求占比为单个会话内，请求参数名的HTTP流量日志占会话总HTTP流量日志的比重；

单个会话内参数个数为单个会话内，出现的参数名去重后的个数。

步骤S7所述的根据步骤S6提取得到的特征，建立基线模型并进行训练，具体包括如下步骤：

建立的基线模型包括：

参数名基线模型：训练过程中将出现过的参数名作为白名单保存在基线中；

固定类参数值基线模型：训练时，首先判断参数是否为固定类参数：若为固定类参数，则在训练过程中将固定类参数的出现次数、参数值及出现概率作为已知知识，构建固定类参数分布概率字典，并作为特征输入到基线模型；

参数值长度基线模型：训练时，首先判断为固定长度参数还是可变长度参数；对于固定长度参数，建立固定长度白名单基线模型；对于可变长度参数，采用DBSCAN聚类算法，在训练过程中对各参数的参数值长度序列利用DBSCAN算法进行聚类，保存每个可变参数对应的BSCAN算法核心点、Epsilon值为基线模型；

参数值类型基线模型：针对编码后的参数值类型，在训练过程中将参数值类型出现的次数、参数值和出现概率作为已知知识，构建分布概率字典，并作为特征输入到基线模型中；

单个会话内参数请求次数基线模型：采用箱型图判断某个请求次数是否为异常；具体实施时，箱型图利用四分位距对异常值进行检测，首先计算第一四分位数Q1和第三四分位数Q3，随后再计算IQR值为IQR＝Q3-Q1，最后训练得到正常区间为[Q1-1.5IQR,Q3+1.5IQR]；

单个会话内用户绑定类参数值个数基线模型：训练过程为识别参数是否为用户绑定类参数：若在单个会话中，目标参数的值保持不变，则目标参数为用户绑定类参数；

单个会话内参数请求占比基线模型：采用箱型图判断某个请求占比是否为异常；具体实施时，箱型图利用四分位距对异常值进行检测，首先计算第一四分位数Q1和第三四分位数Q3，随后再计算IQR值为IQR＝Q3-Q1，最后训练得到正常区间为[Q1-1.5IQR,Q3+1.5IQR]；

单个会话内参数个数基线模型：采用箱型图判断某个参数个数是否为异常；具体实施时，箱型图利用四分位距对异常值进行检测，首先计算第一四分位数Q1和第三四分位数Q3，随后再计算IQR值为IQR＝Q3-Q1，最后训练得到正常区间为[Q1-1.5IQR,Q3+1.5IQR]；

参数基线聚合基线模型：将参数名、固定类参数值、参数值长度和参数值类型作为输入，采用CART决策树算法进行训练，训练完成后形成二分类决策树，作为基线模型；

会话行为基线聚合基线模型：将单个会话内参数请求次数、单个会话内用户绑定类参数值个数、单个会话内参数请求占比和单个会话内参数个数作为输入，采用孤立森林算法进行训练，训练完成后得到能够判断正常和异常的孤立森林模型，作为基线模型。

步骤S8所述的采用步骤S7得到的训练后的模型，进行实时的信息系统网络攻击检测，具体包括如下步骤：

采用步骤S7训练后的10个基线模型，进行实时的信息系统网络攻击检测，当任意一个基线模型检测到异常时，认定此时发生访问异常；

具体实施时：

参数名基线模型：判断出现的参数名字符串是否在白名单中；若不在白名单中，则认定访问异常；若在白名单中，则认定访问正常；

固定类参数值基线模型：监测过程中计算HTTP流量中每个参数值出现的概率，若出现概率小于设定的阈值，则认定出现访问异常；

参数值长度基线模型：对于固定长度参数，监测过程中判断是否在白名单中：若不在白名单中，则认定访问异常；若在白名单中，则认定访问正常；对于可变长度参数，监测过程中获取各个参数值长度，判断与对应参数保存的核心点距离，若与核心点距离均大于设定值则为异常；

参数值类型基线模型：监测过程中计算每个参数值类型出现的概率，若出现概率小于设定的阈值，则认定出现访问异常；

单个会话内参数请求次数基线模型：监测过程中，判断特征值是否在经训练得到的正常区间内：若在区间内，则访问正常；如不在区间内，则访问异常；

单个会话内用户绑定类参数值个数基线模型：监测过程中，统计用户绑定类参数的参数值去重后的个数，若出现多个参数值，则认定访问异常；

单个会话内参数请求占比基线模型：监测过程中，判断特征值是否在经训练得到的正常区间内：若在区间内，则访问正常；如不在区间内，则访问异常；

单个会话内参数个数基线模型：监测过程中，判断特征值是否在经训练得到的正常区间内：若在区间内，则访问正常；如不在区间内，则访问异常；

参数基线聚合基线模型：根据输入的特征，采用训练好的决策树模型进行异常判定；

会话行为基线聚合基线模型：根据输入的特征，采用训练好的孤立森林模型进行异常判定。

本发明提供的这种基于流量分析的信息系统网络攻击检测方法，通过对信息系统流量的分析，提取用户的请求参数特征与会话行为特征，建立各类特征所对应的基线模型，从而能够有效识别各类型攻击行为，有效弥补现有安全设备信息系统渗透攻击监测能力不足的问题，可靠性高、实用性好且适用范围广。

附图说明

图1为本发明的方法流程示意图。

具体实施方式

如图1所示为本发明的方法流程示意图：本发明提供的这种基于流量分析的信息系统网络攻击检测方法，包括如下步骤：

S1.获取信息系统的历史网络流量数据；

S2.根据步骤S1获取的数据，进行日志提取；具体包括如下步骤：

对于采用HTTPS协议的信息系统，则在网络链路中HTTPS解密后的位置进行流量镜像，获得HTTP协议的流量数据；

S3.对步骤S2得到的日志数据，进行日志过滤；具体包括如下步骤：

将请求的URL后缀为设定值的HTTP流量日志进行过滤；所述的设定值包括js、css、png和gif等；这些日志通常为访问信息系统时自动加载的一些静态资源或前端脚本，需要过滤；

然后，将触发安全设备告警的流量日志、异常访问日志和爬虫行为等的流量日志进行过滤；

S4.结合专家规则，根据步骤S3获取的数据进行会话标识提取；具体包括如下步骤：

获取能够唯一标记会话的会话标识；

判断HTTP流量cookie中是否包含用户标识字段：如Token、SessionID等；

若包含用户标识字段，则直接获取到会话标识；

若不包含用户标识字段，则将IP地址作为会话标识；

S5.根据步骤S3获取的数据进行参数解析；具体包括如下步骤：

对每条HTTP流量日志进行解析，提取得到参数为“参数名：参数值”的键值对集合；

例如，一条HTTP流量日志URL为：

/mws/mwsMain_getMwsAdList.do？openid＝ohYmw0thgZi1GxID&noncestr＝ac53fab4&timestamp＝1652198079

请求体为：

{sign＝dc60425}

解析后提取参数为键值对集合：

{‘openid’:’ohYmw0thgZi1GxID’,’noncestr’:’ac53fab4’,’timestamp’:’1652198079’,’sign’:’dc60425’}；

S6.根据步骤S4和步骤S5得到的数据结果，进行特征提取；具体包括如下步骤：

参数名为信息系统正常请求时的参数名集合；

固定类参数值为对于同一个参数名，所对应的去重后的参数值所得到的集合{Arg_value_k}，其中k＝1,2,...,K，K为小于设定的固定常数α的参数；固定类参数通常为信息系统前端自动提交的参数，如type＝1,2,3分别表示三种类型；

参数值长度为参数值字符串的长度；对于同一个参数名，其对应的参数值长度可能为一个恒定的值，如参数telephone＝137****7653，其参数值长度恒定为11位，该类为固定长度参数；也有部分参数长度位于个区间，比如，以下参数为进行了加密后URL编码再提交的数据：bdxm＝djcXH6psWdElwAlA％2BpHxhMlnRO5sP3FkhKvdbPe4qeK9eC％3D，其长度受原始值、加密编码算法影响，并不固定，该类为可变长度参数；

参数值类型：采用如下公式进行编码：

type＝ccap*16+clow*8+cnum*4+csym*2+coth

单个会话内用户绑定类参数值个数为单个会话内，请求用户绑定类参数，出现的参数值去重后的个数；用户绑定类参数指与信息系统用户存在一一对应关系的参数，即正常用户访问时，通常其值不会变的参数；这类参数通常和用户认证信息、用户身份信息相关，如用户id、手机号、身份证号等；

单个会话内参数个数为单个会话内，出现的参数名去重后的个数；

S7.根据步骤S6提取得到的特征，建立基线模型并进行训练；具体包括如下步骤：

建立的基线模型包括：

参数名基线模型：训练过程中将出现过的参数名作为白名单保存在基线中；因白名单的方式对训练集敏感，在实际应用中，必须保证训练集中无异常会话，同时本发明还提供白名单调整反馈机制，对白名单进行实时更新；

参数值长度基线模型：训练时，首先判断为固定长度参数还是可变长度参数；对于固定长度参数，建立固定长度白名单基线模型；对于可变长度参数，采用DBSCAN聚类算法，在训练过程中对各参数的参数值长度序列利用DBSCAN算法进行聚类，保存每个可变参数对应的BSCAN算法核心点、Epsilon值为基线模型；DBSCAN算法是一种典型的基于密度的聚类方法，该算法是根据密度将紧密相连区域的样本聚集成簇，将不属于任何一簇的样本标记为异常样本，DBSCAN聚类算法可以发现各种形状的簇，不需要预先设置簇的个数，异常会话值作为离群点对聚成簇几乎没有影响；

单个会话内参数请求次数基线模型：采用箱型图判断某个请求占比是否为异常；具体实施时，箱型图利用四分位距对异常值进行检测，首先计算第一四分位数Q1和第三四分位数Q3，随后再计算IQR值为IQR＝Q3-Q1，最后训练得到正常区间为[Q1-1.5IQR,Q3+1.5IQR]；

单个会话内参数请求占比基线模型：采用箱型图判断某个参数个数是否为异常；具体实施时，箱型图利用四分位距对异常值进行检测，首先计算第一四分位数Q1和第三四分位数Q3，随后再计算IQR值为IQR＝Q3-Q1，最后训练得到正常区间为[Q1-1.5IQR,Q3+1.5IQR]；

单个会话内参数个数基线模型：采用箱型图判断某个请求次数是否为异常；具体实施时，箱型图利用四分位距对异常值进行检测，首先计算第一四分位数Q1和第三四分位数Q3，随后再计算IQR值为IQR＝Q3-Q1，最后训练得到正常区间为[Q1-1.5IQR,Q3+1.5IQR]；

会话行为基线聚合基线模型：将单个会话内参数请求次数、单个会话内用户绑定类参数值个数、单个会话内参数请求占比和单个会话内参数个数作为输入，采用孤立森林算法进行训练，训练完成后得到能够判断正常和异常的孤立森林模型，作为基线模型；

S8.采用步骤S7得到的训练后的模型，进行实时的信息系统网络攻击检测；具体包括如下步骤：

具体实施时：

以下结合一个实施例，对本发明方法进行进一步说明：

为了验证基于信息系统参数特征分析方法的安全监测效果，本申请选取了某企业的传统业务(WEB1)、微信公众号业务(WEB2)。对其正常时期的10万条WEB流量日志进行训练，并对其正常时期、攻防演练时期的各100万条WEB访问日志进行测试。在攻防演练期间，由攻击人员针对性开展渗透测试。因为WAF、IPS等安全设备通常会对其监测的攻击进行阻断，训练集采用的为安全设备之后的日志，测试集采用的为安全设备之前的日志。训练数据集如表1所示：

表1数据集描述示意表

通过表2所示的4个评价指标来评估本发明实施结果，其中TP表示异常会话被正确标记为异常，TN表示正常会话被正确标记为正常，FN表示异常会话被错误标记为正常，FP则表示正常会话被错误标记为异常。

表2评价指标示意表

指标	缩写	定义
			准确率	Acc	(TP+TN)/(TP+TN+FP+FN)
误报率	FPR	FP/(FP+TN)
			漏报率	FNR	FN/(TP+FN)

对上述数据集进行测试结果如表3所示。

表3验证结果示意表

从表中的准确率、误报率、漏报率等指标可知，本申请采用的监测方法准确率高，并且正常会话被判断为异常的数量很少，误报率低。

Claims

1.一种基于流量分析的信息系统网络攻击检测方法，包括如下步骤：

S1.获取信息系统的历史网络流量数据；

S2.根据步骤S1获取的数据，进行日志提取；

S3.对步骤S2得到的日志数据，进行日志过滤；

S5.根据步骤S3获取的数据进行参数解析；

S6.根据步骤S4和步骤S5得到的数据结果，进行特征提取；

S7.根据步骤S6提取得到的特征，建立基线模型并进行训练；

2.根据权利要求1所述的基于流量分析的信息系统网络攻击检测方法，其特征在于步骤S2所述的根据步骤S1获取的数据，进行日志提取，具体包括如下步骤：

3.根据权利要求2所述的基于流量分析的信息系统网络攻击检测方法，其特征在于步骤S3所述的对步骤S2得到的日志数据，进行日志过滤，具体包括如下步骤：

将请求的URL后缀为设定值的HTTP流量日志进行过滤；所述的设定值包括js、css、png和gif；

4.根据权利要求3所述的基于流量分析的信息系统网络攻击检测方法，其特征在于步骤S4所述的结合专家规则，根据步骤S3获取的数据进行会话标识提取，具体包括如下步骤：

获取能够唯一标记会话的会话标识；

结合专家规则，判断HTTP流量cookie中是否包含用户标识字段：

若包含用户标识字段，则直接获取会话标识；

若不包含用户标识字段，则将IP地址作为会话标识。

5.根据权利要求4所述的基于流量分析的信息系统网络攻击检测方法，其特征在于步骤S5所述的根据步骤S3获取的数据进行参数解析，具体包括如下步骤：

6.根据权利要求5所述的基于流量分析的信息系统网络攻击检测方法，其特征在于步骤S6所述的根据步骤S4和步骤S5得到的数据结果，进行特征提取，具体包括如下步骤：

参数名为信息系统正常请求时的参数名集合；

参数值长度为参数值字符串的长度；

参数值类型：采用如下公式进行编码：

type＝ccap*16+clow*8+cnum*4+csym*2+coth

7.根据权利要求6所述的基于流量分析的信息系统网络攻击检测方法，其特征在于步骤S7所述的根据步骤S6提取得到的特征，建立基线模型并进行训练，具体包括如下步骤：

建立的基线模型包括：

8.根据权利要求7所述的基于流量分析的信息系统网络攻击检测方法，其特征在于步骤S8所述的采用步骤S7得到的训练后的模型，进行实时的信息系统网络攻击检测，具体包括如下步骤：

具体实施时：