CN110866607B

CN110866607B - 一种基于机器学习的渗透行为预测算法

Info

Publication number: CN110866607B
Application number: CN201910872552.4A
Authority: CN
Inventors: 陈泽; 左晓军; 董娜; 董立勉; 侯波涛; 常杰; 赵建斌; 刘欣; 郗波; 康之增; 王春璞; 刘惠颖; 刘伟娜; 王颖; 郭禹伶; 刘硕; 张君艳
Original assignee: Electric Power Research Institute of State Grid Hebei Electric Power Co Ltd
Current assignee: Electric Power Research Institute of State Grid Hebei Electric Power Co Ltd
Priority date: 2019-09-16
Filing date: 2019-09-16
Publication date: 2023-08-11
Anticipated expiration: 2039-09-16
Also published as: CN110866607A

Abstract

本发明涉及信息安全的技术领域，特别是涉及一种基于机器学习的渗透行为预测算法，其针对当前网络环境下的所有行为信息和环境数据，根据已有的渗透专家的渗透经验，对下一步的有效渗透行为进行预测，起到辅助用户进行渗透测试；包括以下步骤：数据收集，收集渗透专家对于目标站点的渗透行为数据和站点特征数据；其中，渗透行为数据包括专家的动作、专家使用的工具、专家输入的命令和专家的观测对象；其中，站点特征数据包括站点的域名、服务、端口和内容；数据转换，将收集到的渗透行为数据切割成为不可分割的部分，将所有这些不可分割的部分依次以数字代替，即将一系列的动作行为转换成为一系列的数字向量。

Description

一种基于机器学习的渗透行为预测算法

技术领域

本发明涉及信息安全的技术领域，特别是涉及一种基于机器学习的渗透行为预测算法。

背景技术

在生活向信息化高速发展的今天，网络安全开始占据越来越重要的地位，信息安全行业在不断细分。但在信息安全体系中，渗透测试仍然存在渗透运行的高成本、渗透技术的高要求、实际执行的高工作量等问题。目前，网络信息系统环境的复杂多样化和多变性，导致网络信息系统中的漏洞和弱点具有高隐蔽性的特点，通过挖掘漏洞预防网络风险的难度也越来越大。如何去降低渗透测试的难度，提高渗透测试的效率，实现渗透工具智能模块化、多工具多流程跨平台自动联动运行，成为信息安全服务系统升级和优化的关键所在。人工智能是研究使计算机来模拟人的某些思维过程和智能行为（如学习、推理、思考、规划等）的学科，主要包括计算机实现智能的原理、制造类似于人脑智能的计算机，使计算机能实现更高层次的应用。因此为了节约人力成本，提高自动使用机器进行渗透测试和漏洞挖掘的效率，将人工智能技术用于信息安全行业成为主要发展方向。现有的渗透测试方法通常分为人工渗透测试和脚本渗透测试，人工渗透测试费时费力，在面对大批量的渗透测试目标时所需成本太高；脚本渗透测试的准确率无法保证，经常会出现误报的情况，且面对全新的漏洞类型时无法发挥作用。

发明内容

为解决上述技术问题，本发明提供一种针对当前网络环境下的所有行为信息和环境数据，根据已有的渗透专家的渗透经验，对下一步的有效渗透行为进行预测，起到辅助用户进行渗透测试的一种基于机器学习的渗透行为预测算法。

本发明的一种基于机器学习的渗透行为预测算法，包括以下步骤：

数据收集，收集渗透专家对于目标站点的渗透行为数据和站点特征数据；其中，渗透行为数据包括专家的动作、专家使用的工具、专家输入的命令和专家的观测对象；其中，站点特征数据包括站点的域名、服务、端口和内容；

数据转换，将收集到的渗透行为数据切割成为不可分割的部分，将所有这些不可分割的部分依次以数字代替，即将一系列的动作行为转换成为一系列的数字向量，这一系列数字向量可以被机器识别利用；

模型训练，在对机器学习模型进行权值初始化之后，从数据集中取出一组输入参数和输出参数，将输入参数输入机器学习模型之中，分别经历模型中卷积层、池化层等中间层的输出，最终得到模型预测的输出参数；

参数更新，将模型预测的输出参数与实际结果进行比较，计算得出预测误差；对于卷积层和池化层也计算出误差，之后根据预测误差依次计算出卷积层和池化层权值的调整量和阈值的调整量；在调整权值和调整阈值后，判断误差是否满足精度要求，如果不满足，则返回模型训练步骤，并继续迭代至判断误差满足精度要求；

完成训练，当误差满足精度需求之后，结束训练过程，将权值和阈值保存在本地文件之中，此时权值已经达到稳定状态，可用于渗透行为的预测；之后在使用模型进行渗透行为预测时，直接从文件中取出权值和阈值进行渗透行为的预测，无需进行初始化预测；

模型预测，在得到训练好的机器学习模型之后，当需要对当前目标环境下合适的渗透行为进行预测时，需要将当前目标环境下的站点特征和之前的渗透行为进行量化，并将得到的向量数据输入模型之中，模型就会对下一步合适的渗透行为进行预测，指导用户进行下一步的渗透测试动作。

本发明的一种基于机器学习的渗透行为预测算法，卷积层模型为：

；

其中b为偏差量，和为第l+1层的卷积输入和输出，为目标的长和宽，为卷积层参数；其中为卷积核的大小，为卷积步长，为填充层数；为卷积核，为卷积核的长和宽；为依据步长划分的分块个数。

本发明的一种基于机器学习的渗透行为预测算法，池化层模型为：

；

其中为第l层的池化层，为目标的长和宽，为池化的大小，为池化步长，为填充层数，为池化的长和宽。

本发明的一种基于机器学习的渗透行为预测算法，参数更新中迭代方程为：

；

其中为学习速率，为卷积核，b为偏差量。

本发明的有益效果为：相较于传统的人工测试和一般的渗透工具而言，基于卷积神经网络的渗透行为预测算法所需要的渗透时间短，渗透效率高，且可以发现隐藏性较高的漏洞，提高渗透测试的成功率；可在相对较低的成本下，对大规模网络环境进行详细的渗透测试和漏洞扫描；针对当前网络环境下的所有行为信息和环境数据，根据已有的渗透专家的渗透经验，对下一步的有效渗透行为进行预测，起到辅助用户进行渗透测试。

附图说明

图1是本发明的流程示意图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

1、数据收集，收集渗透专家对于目标站点的渗透行为数据和站点特征数据；其中，渗透行为数据包括专家的动作、专家使用的工具、专家输入的命令和专家的观测对象；其中，站点特征数据包括站点的域名、服务、端口和内容；

2、数据转换，将收集到的渗透行为数据切割成为不可分割的部分，将所有这些不可分割的部分依次以数字代替，即将一系列的动作行为转换成为一系列的数字向量，这一系列数字向量可以被机器识别利用；

3、模型训练，在对机器学习模型进行权值初始化之后，从数据集中取出一组输入参数和输出参数，将输入参数输入机器学习模型之中，分别经历模型中卷积层、池化层等中间层的输出，最终得到模型预测的输出参数；

其中卷积层模型为：

；

其中b为偏差量，和为第l+1层的卷积输入和输出，为目标的长和宽，为卷积层参数；其中为卷积核的大小，为卷积步长，为填充层数；为卷积核，为卷积核的长和宽；为依据步长划分的分块个数；

其中池化层模型为：

；

其中为第l层的池化层，为目标的长和宽，为池化的大小，为池化步长，为填充层数，为池化的长和宽；

并且在模型训练时，将数据转换后的数字向量分为训练数据集以及测试数据集；并且将训练数据集用于模型训练；

4、参数更新，将模型预测的输出参数与实际结果进行比较，计算得出预测误差；对于卷积层和池化层也计算出误差，之后根据预测误差依次计算出卷积层和池化层权值的调整量和阈值的调整量；在调整权值和调整阈值后，判断误差是否满足精度要求，如果不满足，则返回模型训练步骤，并继续迭代至判断误差满足精度要求；

参数更新中迭代方程为：

；

其中为学习速率，为卷积核，b为偏差量；

若误差不满足要求，则继续迭代训练数据集直至误差满足要求；

若误差满足要求，则完成训练并生成模型；

5、完成训练，当误差满足精度需求之后，结束训练过程，将权值和阈值保存在本地文件之中，此时权值已经达到稳定状态，可用于渗透行为的预测，并生成模型；之后在使用模型进行渗透行为预测时，直接从文件中取出权值和阈值进行渗透行为的预测，无需进行初始化预测；

6、模型预测，在得到训练好的机器学习模型之后，当需要对当前目标环境下合适的渗透行为进行预测时，需要将当前目标环境下的站点特征和之前的渗透行为进行量化，并将得到的向量数据输入模型之中，模型就会对下一步合适的渗透行为进行预测，指导用户进行下一步的渗透测试动作。

相较于传统的人工测试和一般的渗透工具而言，基于卷积神经网络的渗透行为预测算法所需要的渗透时间短，渗透效率高，且可以发现隐藏性较高的漏洞，提高渗透测试的成功率；可在相对较低的成本下，对大规模网络环境进行详细的渗透测试和漏洞扫描；针对当前网络环境下的所有行为信息和环境数据，根据已有的渗透专家的渗透经验，对下一步的有效渗透行为进行预测，起到辅助用户进行渗透测试。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变型，这些改进和变型也应视为本发明的保护范围。

Claims

1.一种基于机器学习的渗透行为预测算法，其特征在于，包括以下步骤：

模型训练，在对机器学习模型进行权值初始化之后，从数据集中取出一组输入参数和输出参数，将输入参数输入机器学习模型之中，分别经历模型中卷积层、池化层中间层的输出，最终得到模型预测的输出参数；

2.如权利要求1所述的一种基于机器学习的渗透行为预测算法，其特征在于，卷积层模型为：

；

其中b为偏差量，和/>为第l+1层的卷积输入和输出，/>为目标的长和宽，/>为卷积层参数；其中/>为卷积核的大小，/>为卷积步长，/>为填充层数；/>为卷积核，/>为卷积核的长和宽；/>为依据步长划分的分块个数。

3.如权利要求2所述的一种基于机器学习的渗透行为预测算法，其特征在于，池化层模型为：

；

其中为第l层的池化层，/>为目标的长和宽，/>为池化的大小，/>为池化步长，/>为填充层数，/>为池化的长和宽。

4.如权利要求3所述的一种基于机器学习的渗透行为预测算法，其特征在于，参数更新中迭代方程为：

；

其中为学习速率，/>为卷积核，b为偏差量。