CN110225007A

CN110225007A - webshell流量数据聚类分析方法以及控制器和介质

Info

Publication number: CN110225007A
Application number: CN201910446822.5A
Authority: CN
Inventors: 饶毓; 严寒冰; 丁丽; 刘威歆; 张胜军; 温森浩; 姚力; 朱芸茜; 王小群; 吕利锋; 陈阳; 李世淙; 徐剑; 王适文; 肖崇蕙; 贾子骁; 张帅; 吕志泉; 韩志辉; 马莉雅
Original assignee: National Computer Network and Information Security Management Center
Current assignee: National Computer Network and Information Security Management Center
Priority date: 2019-05-27
Filing date: 2019-05-27
Publication date: 2019-09-10

Abstract

本发明涉及一种webshell流量数据聚类分析方法以及控制器和介质，所述方法包括:获取webshell流量数据集合，所述webshell流量数据集合包括多条webshell流量数据；计算每条所述webshell流量数据与预设的待分析的webshell流量数据的编辑距离；将所述编辑距离小于预设距离阈值的webshell流量数据与所述待分析的webshell流量数据聚类。本发明不受webshell攻击工具类型的限制，具有通用性且准确度高。

Description

webshell流量数据聚类分析方法以及控制器和介质

技术领域

本发明涉及网络安全技术领域，尤其涉及一种webshell流量数据聚类分析方法以及控制器和介质。

背景技术

webshell是黑客所使用的攻击脚本，攻击者利用其对已经被攻击的WEB应用进行升级和访问。黑客控制服务器留下后门之后，常借助webshell对服务器进行持续的访问和升级，webshell的功能不仅包括执行shell命令以及代码，还包括对数据库及文件进行操作。现有的webshell集成攻击工具包括中国菜刀、蚁剑等，都可以为黑客提供便捷的webshell后门管理功能。当攻击者入侵服务器成功之后，采用相同攻击工具或者攻击动作的攻击者会在网络流量中留下一些具有相似特点的指纹信息，利用这些作案痕迹可以分析出哪些攻击者之间具备比较高的相似性，通过对webshell流量数据中攻击动作的聚类分析可以很好地对攻击者进行画像构建以及团伙分析，便于更好的做出安全决策和安全防御机制，由此可知，对webshell流量数据进行聚类分析十分必要。

现有技术中，对攻击者webshell流量数据进行聚类分析的主要途径是根据不同攻击工具的流量特点进行流量数据划分，例如通过中国菜刀攻击工具产生的webshell流量中大多数包含chopper关键词，因此这就成为了判断中国菜刀webshell攻击行为的一种判断条件，类似的，其他攻击工具例如蚁剑等产生的流量数据中也常常包含各自的特点。但是，现有的技术方案仅能够对已知的攻击工具的流量特征进行分析，从中抽取出不同工具流量数据中包含的特点，当出现新型攻击工具的流量数据特点时需要花费一定的时间成本不断从中找到其特有的模式特点，且单纯通过不同工具产生的流量数据做特点的匹配很容易造成聚类错误，因此现有的webshell流量数据聚类分析方法具备一定的局限性，而且准确度低。

发明内容

本发明目的在于，提供一种webshell流量数据聚类分析方法以及控制器和介质，不受webshell攻击工具类型的限制，具有通用性且准确度高。

为了解决上述技术问题，根据本发明第一实施例，提供了一种webshell流量数据聚类分析方法，包括:

获取webshell流量数据集合，所述webshell流量数据集合包括多条webshell流量数据；

计算每条所述webshell流量数据与预设的待分析的webshell流量数据的编辑距离；

将所述编辑距离小于预设距离阈值的webshell流量数据与所述待分析的webshell流量数据聚类。

进一步的，所述获取webshell流量数据集合，包括：

采用工具生成方式产生webshell流量数据，再抓包获取所述webshell流量数据集合。

进一步的，采用动态规划算法计算每条所述webshell流量数据与预设的待分析的webshell流量数据的编辑距离。

进一步的，所述采用动态规划算法计算每条所述webshell流量数据与预设的待分析的webshell流量数据的编辑距离，包括：

所述待分析的webshell流量数据为m位的字符串，所述webshell流量数据为n为的字符串，其中，m、n均为正整数，d[i][j]表示字符串a[1]-a[i]转换为b[1]-b[j]的编辑距离，i＝2,3…m,j＝2,3…n，采用以下递归规律进行计算：

当a[i]等于b[j]时，d[i][j]＝d[i-1][j-1]；

当a[i]不等于b[j]时：

删除a[i]，计算d[i-1][j]+1，

在a[i]后插入b[j]，计算d[i][j-1]+1，

将a[i]替换为b[j]，计算d[i-1][j-1]+1，

d[i][j]取d[i-1][j]+1、d[i][j-1]+1和d[i-1][j-1]+1中的最小值；

采用所述递归规律进行循环，最终计算得到d[m][n]。

进一步的，所述方法还包括：将所述编辑距离小于预设距离阈值的webshell流量数据按照编辑距离从小到大的顺序进行排序。

进一步的，所述方法还包括：从所述排序结果中从前至后获取预设数量的webshell流量数据，与所述待分析的webshell流量数据聚类。

进一步的，所述方法还包括：根据计算得的每条所述webshell流量数据与预设的待分析的webshell流量数据的编辑距离，调整所述预设距离阈值。

根据本发明第二实施例，提供一种控制器，其包括存储器与处理器，所述存储器存储有计算机程序，所述程序在被所述处理器执行时能够实现所述方法的步骤。

根据本发明第三实施例，提供一种计算机可读存储介质，用于存储计算机程序，所述程序在由一计算机或处理器执行时实现所述方法的步骤。

本发明与现有技术相比具有明显的优点和有益效果。借由上述技术方案，本发明一种webshell流量数据聚类分析方法以及控制器和介质可达到相当的技术进步性及实用性，并具有产业上的广泛利用价值，其至少具有下列优点：

本发明通过计算两个字符串之间的编辑距离来判断webshell流量数据之间相似度，将同类的webshell流量数据进行聚类，不受webshell攻击工具类型的限制，具有通用性且准确度高。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其他目的、特征和优点能够更明显易懂，以下特举较佳实施例，并配合附图,详细说明如下。

附图说明

图1为本发明一实施例提供webshell流量数据聚类分析方法流程图。

具体实施方式

为更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例，对依据本发明提出的一种webshell流量数据聚类分析方法以及控制器和介质的具体实施方式及其功效，详细说明如后。

编辑距离表示从一个字符串转化为另一个字符串所需要的最少编辑次数，许可的编辑操作包括将一个字符替换成另一个字符，插入一个字符，删除一个字符。一般来说，编辑距离越小，两个字符串的相似度越大。例如将“apple”通过删除’l’与’e’转化成“app”，所以其最小编辑次数为2。编辑距离的核心就是如何计算出一对字符串间的最小编辑次数。

在相似的webshell流量数据之间往往存在特定的模式行为以字符串的形式出现在流量报文中的数据(payload)中，例如下面两条由中国菜刀产生的流量数据：

gb2312＝B&z0＝UTF-8&z1＝D:\\www\\Web\\themes\\default\\Views\\Home\\；

gb2312＝B&z0＝UTF-8&z1＝D:\\www\\Web\\App_Data\\exlogs\\201702\\；

通过分析可以发现这两条webshell流量数据中包含众多重复的连续关键字例如gb2312＝B&z0＝UTF-8&z1＝D:\\www\\Web\\，这说明对于相似的webshell流量数据之间的编辑距离往往比较小。

再对比下面这条由蚁剑产生的流量数据：

pfn＝/nfs/c11/h07/mnt/201921/domains/chrisbonesmusic.com/html/wp-content/themes/twentysixteen/genericons/lan.php&pfc＝<？php($f＝$_POST['I'])&&@preg_replace('/ad/e','@'.str_rot13('riny').'($f)','add')；？>&mtime＝2017-10-03 16:47:17；

可以明显的看出由蚁剑产生的流量数据转化为上面两条中国菜刀流量数据所需的编辑距离更大。

通过上述分析可知，webshell流量行为中相似的webshell流量数据之间往往包含一些列特定关键字信息，而且其关键特征具备连续性，因此本发明实施例提出了一种基于编辑距离计算的聚类方法，应用编辑距离作为计算webshell流量数据相似度的度量方式，还可在整个聚类过程中通过将编辑距离大小进行排序，当编辑距离越小时，webshell流量数据越相似。

本发明实施例提供了一种webshell流量数据聚类分析方法，如图1所示，包括以下步骤:

步骤S1、获取webshell流量数据集合，所述webshell流量数据集合包括多条webshell流量数据；

需要说明的是，本发明实施例所述的webshell流量数据指的是当黑客利用攻击脚本或者攻击工具对服务器进行webshell攻击时，会在网络侧产生流量数据，这些流量数据中包含黑客的控制和操作行为信息，比如说黑客通过攻击脚本上传恶意脚本或者下载文件，这些行为痕迹会在流量数据中体现。

作为一种示例，步骤S1可采用工具生成方式产生webshell流量数据，再抓包获取所述webshell流量数据集合，但可以理解的是，上述获取方式仅为一种示例，也可采用其他方式获取所述webshell流量数据集合。

步骤S2、计算每条所述webshell流量数据与预设的待分析的webshell流量数据的编辑距离；

作为一种示例，步骤S2可采用动态规划算法计算每条所述webshell流量数据与预设的待分析的webshell流量数据的编辑距离，具体可包括以下步骤：

步骤S21、所述待分析的webshell流量数据为m位的字符串，所述webshell流量数据为n为的字符串，其中，m、n均为正整数，d[i][j]表示字符串a[1]-a[i]转换为b[1]-b[j]的编辑距离，a[i]和b[j]分别是当前计算过程中字符串a和b对应的最后一位，其中，i＝2,3…m,j＝2,3…n，采用以下递归规律进行计算：

当a[i]等于b[j]时，d[i][j]＝d[i-1][j-1]，例如，字符串fxy->字符串fay的编辑距离等于fx->fa的编辑距离；

当a[i]不等于b[j]时：

(1)删除a[i]，计算d[i-1][j]+1，例如，字符串fxy->字符转fab的编辑距离＝字符串fx->字符串fab的编辑距离+1。

(2)在a[i]后插入b[j]，计算d[i][j-1]+1，例如字符串fxy->字符串fab的编辑距离＝字符串fxyb->字符串fab的编辑距离+1＝字符串fxy->字符串fa的编辑距离+1。

(3)将a[i]替换为b[j]，计算d[i-1][j-1]+1，例如，fxy->fab的编辑距离＝fxb->fab的编辑距离+1＝fx->fa的编辑距离+1。

d[i][j]取d[i-1][j]+1、d[i][j-1]+1和d[i-1][j-1]+1中的最小值。

步骤S22、采用所述递归规律进行循环，最终计算得到d[m][n]。

步骤S3、将所述编辑距离小于预设距离阈值的webshell流量数据与所述待分析的webshell流量数据聚类。

其中，所述距离阈值可以通过具体的分析需求或者根据经验值来设定，例如设置为0.2，在具体分析过程中，还可对该距离阈值进行微调，作为一种示例，所述方法还可包括步骤S20、根据计算得的每条所述webshell流量数据与预设的待分析的webshell流量数据的编辑距离，调整所述预设距离阈值。

作为一种示例，所述方法还可包括步骤S4、将所述编辑距离小于预设距离阈值的webshell流量数据按照编辑距离从小到大的顺序进行排序，这样可以明确webshell流量数据与待分析的webshell流量数据的相似程度的排序，排在第一个的即为与待分析的webshell流量数据的相似程度最高的webshell流量数据。

所述方法还可进一步包括步骤S5、从所述排序结果中从前至后获取预设数量的webshell流量数据，与所述待分析的webshell流量数据聚类。例如，预设数量可设为1，则可筛选出与待分析的webshell流量数据的相似程度最高的webshell流量数据，预设数量可设为1也可设为3，则可筛选出与待分析的webshell流量数据的相似程度排在前三位的webshell流量数据。

作为一种具体实施例，待分析的webshell流量数据为z＝B&z0＝UTF-8&z1＝D:\\Main\\Upload\\WebImage\\&z2＝，通过所述方法筛选出如下几条webshell流量数据：

z＝E&z0＝UTF-8&z1＝D:\\Main\\Upload\\WebImage\\main1&z2＝；

z＝E&z0＝UTF-8&z1＝D:\\Main\\Upload\\WebImage\\main1.ashx&z2＝；

z＝B&z0＝UTF-8&z1＝D:\\wroot\\jinguanchuanmei_com\\Main\\Upload\\&z2＝；

z＝B&z0＝UTF-8&z1＝C:\\wroot\\source\\Upload\\WebImage\\&z2＝。

通过聚类得到满足编辑距离条件的webshell流量行为可以发现这组由中国菜刀工具产生的流量之间payload具备很高的相似度。通过本发明实施例将同类的webshell流量数据聚合后，可用于网络安全分析，具体应用场景可根据具体分析需求来设定。

本发明实施例通过计算两个字符串之间的编辑距离来判断webshell流量数据之间相似度，将同类的webshell流量数据进行聚类，不受webshell攻击工具类型的限制，具有通用性；从聚类分析效果上发现本发明实施例能够很好的将具有相似流量行为的样本聚集到一起，不具备相似流量行为的样本很少被聚类到一起，因此本发明实施例所述方法聚类准确度高。

本发明实施例还提供一种控制器，其包括存储器与处理器，所述存储器存储有计算机程序，所述程序在被所述处理器执行时能够实现所述webshell流量数据聚类分析方法的步骤。

本发明实施例还提供一种计算机可读存储介质，用于存储计算机程序，所述程序在由一计算机或处理器执行时实现所述webshell流量数据聚类分析方法的步骤。

以上所述，仅是本发明的较佳实施例而已，并非对本发明作任何形式上的限制，虽然本发明已以较佳实施例揭露如上，然而并非用以限定本发明,任何熟悉本专业的技术人员，在不脱离本发明技术方案范围内,当可利用上述揭示的技术内容作出些许更动或修饰为等同变化的等效实施例,但凡是未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰，均仍属于本发明技术方案的范围内。

Claims

1.一种webshell流量数据聚类分析方法，其特征在于，包括:

2.根据权利要求1所述的webshell流量数据聚类分析方法，其特征在于，

所述获取webshell流量数据集合，包括：

3.根据权利要求1所述的webshell流量数据聚类分析方法，其特征在于，

采用动态规划算法计算每条所述webshell流量数据与预设的待分析的webshell流量数据的编辑距离。

4.根据权利要求3所述的webshell流量数据聚类分析方法，其特征在于，

所述采用动态规划算法计算每条所述webshell流量数据与预设的待分析的webshell流量数据的编辑距离，包括：

当a[i]等于b[j]时，d[i][j]＝d[i-1][j-1]；

当a[i]不等于b[j]时：

删除a[i]，计算d[i-1][j]+1，

在a[i]后插入b[j]，计算d[i][j-1]+1，

将a[i]替换为b[j]，计算d[i-1][j-1]+1，

d[i][j]取d[i-1][j]+1、d[i][j-1]+1和d[i-1][j-1]+1中的最小值；

采用所述递归规律进行循环，最终计算得到d[m][n]。

5.根据权利要求1-4中任意一项所述的webshell流量数据聚类分析方法，其特征在于，

所述方法还包括：将所述编辑距离小于预设距离阈值的webshell流量数据按照编辑距离从小到大的顺序进行排序。

6.根据权利要求5所述的webshell流量数据聚类分析方法，其特征在于，

所述方法还包括：从所述排序结果中从前至后获取预设数量的webshell流量数据，与所述待分析的webshell流量数据聚类。

7.根据权利要求1-4中任意一项所述的webshell流量数据聚类分析方法，其特征在于，

所述方法还包括：根据计算得的每条所述webshell流量数据与预设的待分析的webshell流量数据的编辑距离，调整所述预设距离阈值。

8.一种控制器，其包括存储器与处理器，其特征在于,所述存储器存储有计算机程序，所述程序在被所述处理器执行时能够实现权利要求1至7中任意一项权利要求所述的方法的步骤。

9.一种计算机可读存储介质，用于存储计算机程序，其特征在于,所述程序在由一计算机或处理器执行时实现如权利要求1至7中任意一项权利要求所述的方法的步骤。