CN112764878A

CN112764878A - 一种基于深度学习的大数据一体机容器集群风险预测方法

Info

Publication number: CN112764878A
Application number: CN202110040854.2A
Authority: CN
Inventors: 王海荣
Original assignee: Zhongke Shuguang Nanjing Computing Technology Co ltd
Current assignee: Zhongke Shuguang Nanjing Computing Technology Co ltd
Priority date: 2021-01-13
Filing date: 2021-01-13
Publication date: 2021-05-07
Anticipated expiration: 2041-01-13
Also published as: CN112764878B

Abstract

本发明公开了一种基于深度学习的大数据一体机容器集群风险预测方法，包括三个步骤：数据预处理、构建标准库和文件检测。(1)将Dockerfile文件解析并生成量化的符号向量，通过卷积神经网络模型输出Dockerfile文件的语义和结构特征；(2)将测试文件集输入K‑Means聚类算法模型分成存在存在风险和不存在风险两类，得到文件标准库；(3)待检测的Dockerfile文件的语义和结构特征输入KNN算法中进行风险预测并返回风险概率，如果存在风险则由用户决定是否对镜像进行放置。通过本发明的风险预测方法可以检测Dockerfile文件的风险和漏洞，从源头控制Docker容器的风险，提高大数据一体机容器集群的安全性。

Description

一种基于深度学习的大数据一体机容器集群风险预测方法

技术领域

本发明涉及风险预测方法，尤其是一种大数据一体机容器集群的风险预测方法。

背景技术

近几年，云计算作为一种新型的计算形式快速的发展起来虚拟机是云计算环境中的常用资源，但因为多个应用对运行环境的要求不同，导致应用部署产生了很多麻烦，因此Docker技术应运而生。Docker作为一种轻量级、可移植、自包含的软件打包技术，使应用程序可以几乎在任何地方以相同的方式运行。随着Docker应用的规模越来越大，大数据一体机也由传统虚拟机集群为基础的云计算集群逐渐转变为以Docker物理节点为集群的方式，因而容器安全方面的问题也越来越受到关注。国内已经有很多关于容器安全方面的工作，但主要还是分布在如何从底层提升Docker安全性而忽略了Docker镜像这一环节。Dockerfile是一个用来构建镜像的文本文件，文本内容包含了一条条构建镜像所需的指令和说明。Clair是目前最流行的镜像扫描工具，但是Clair只能对Docker镜像进行检测，无法检测Dockerfile文件，从源头控制风险，也无法提前检测可能存在的安全风险。

发明内容

发明目的：本发明的目的是提供一种可检测Dockerfile文件，预测Dockerfile文件风险的大数据一体机容器集群风险预测方法。

技术方案：本发明所述的一种基于深度学习的大数据一体机容器集群风险预测方法，包括数据预处理、构建标准库和文件检测；所述数据预处理包括如下步骤：(11)解析Dockerfile文件；(12)生成符号向量；(13)符号向量标准化；(14)建立卷积神经网络模型；所述文件检测包括如下步骤：(21)预测风险概率；(22)根据风险概率决定如何放置Dockerfile文件。

所述数据预处理包括如下步骤：

(31)将Dockerfile文件解析生成抽象语法树；

(32)将Dockerfile文件中的部分指令和控制流节点作为符号向量，所述部分指令集和控制流节点如下表所示；

指令	FROM、RUN、CMD、MAINTAINER、apt-get、echo……
		控制流节点	if、for…...

(33)将符号向量编码为整数向量；

(34)建立卷积神经网络模型，将测试文件的整数向量输入模型中得到测试文件的语义特征；所述卷积神经网络模型包括嵌入层、卷积层、最大池化层、全连接层和输出层。

所述卷积神经网络模型包括嵌入层、卷积层、最大池化层、全连接层和输出层；所述嵌入层、卷积层、最大池化层和全连接层的输出添加第一激活函数f₁(x)＝max(0，x)；所述输出层的输出添加第二激活函数

所述将符号向量编码为整数向量的方法为：所述指令和控制流节点对应不同的整数标识符，所述整数标识符从1开始至符号向量类型的总数结束；在向量的结尾添加“0”使所有向量长度一致。

所述构建标准库的步骤为：将所述测试文件的语义特征输入K-Means聚类算法模型进行分类，所述测试文件分为存在风险和不存在风险两类，分类后的测试文件是判断风险的标准库。

所述文件检测包括如下步骤：

(41)将待检测的Dockerfile文件的语义和结构特征输入到KNN算法中进行风险预测并返回风险概率；

(42)如果待检测的Dockertfile文件被标记为不存在风险，集群通过自身的负载均衡算法将容器放入；如果Dockerfile文件被标记为存在风险，则进行风险提示，并由用户决定是否对镜像进行放置。如果所述用户决定对镜像进行放置，则镜像文件放置的方法为：通过基于风险控制的放置算法将镜像文件放入到集群中：

S:

s.t.W′:

P:

其中，S表示安全性、W′表示工作负载、P表示能耗，N^*和K^*是预先确定的阈值。

H＝{h₁，h₂，…h_K}表示有K个主机的云计算系统，U＝{u₁,u₂,…u_M}表示M个用户，D＝{d₁,d₂,…d_N}表示N个容器，X_D×H×U＝{x_d，h，u|x_d，h，u＝1，如果用户u的容器d分配给主机h}表示将每个用户的容器分配到特定的主机上。

有益效果：本发明的风险预测方法利用卷积神经网络提取Dockerfile文件的语义和结构特征并判断其是否存在风险及风险概率，得到风险概率后根据用户需求进行下一步工作，从源头控制风险，提前检测Docker镜像可能存在的漏洞，提高Docker容器的安全，从而进一步提高大数据一体机容器集群的安全。

附图说明

图1为本发明的风险预测框架；

图2为本发明的数据预处理过程；

图3为本发明的CNN模型结构图。

具体实施方式

下面结合附图对本发明的技术方案作进一步说明。

如图1所示，本发明所述的基于深度学习的大数据一体机容器集群方向预测方法，包括数据预处理、构建标准库和文件检测。

如图2所示，数据预处理的步骤如下：

(1)解析Dockerfile文件

将Dockerfile文件解析生成抽象语法树，抽象语法树上的节点具有构建Dockerfile文件表示的合适粒度，既保留了语法信息又保留了结构信息。

(2)生成符号向量

选择Dockerfile文件中重要指令集和控制流节点作为符号向量，选取的指令集和控制流节点如下表所示。请将表一补充完整

(3)符号向量标准化

在符号向量和整数之间进行映射，将符号向量编码为整数向量。不同的指令或控制流节点对应不同的整数标识符，整数标识符从1开始至符号向量类型的总数结束。由于不同的Dockerfile文件内容不同，所以提取到的符号向量长度不同，进一步向量标准化后得到的整数向量长度不同，因此，在每个整数向量后添加0作为补充，使它们的长度与最长向量一致。通过此算法得到的整数向量可以输入卷积神经网络(CNN)模型并且保持了原有符号向量顺序的不变，保留了原本的结构信息。

(4)建立CNN模型

如图3所示，本实施例中深度学习算法的CNN模型基于Keras实现，包括嵌入层、卷积层、最大池化层、全连接层和输出层。

(4-1)嵌入层

解析Dockerfile文件，将Dockerfile文件向量化及标准化，并将标准化向量输入到卷积层。

(4-2)卷积层

设CNN模型的输入为矩阵A，经过F₁个卷积核

的卷积生成F₁个特征图

其中conv2(A，B，′valid′)被称作窄卷积,

是该层的激活函数，f₁(x)＝max(0，x)。

(4-3)最大池化层

将卷积层输出的

传入最大池化层进行池化操作：

其中

是经过最大池化层的结果，

是该层的激活函数，f₁(x)＝max(0，x)。

(4-4)全连接层

重复上述操作n次，进入到全连接层，将最后得到的

顺序展开成向量，有序连接成一个长向量，作为全连接层的输入。全连接层的输出加入激活函数f₁(x)＝max(0，x)

(4-5)输出层

输出层接收全连接层的输出结果，并加入激活函数

使用反向传播与梯度下降优化调整CNN网络中的参数，得到CNN模型后，将测试数据向量化后的整数向量输入到CNN模型中，然后CNN的输出层获得测试数据的语义和结构特征。

构建标准库的步骤如下：

将CNN模型输出的测试数据集中的Dockerfile文件的语义特征输入到K-Means聚类算法模型，将Dockerfile文件分成两类：存在风险和不存在风险。K-Means聚类算法模型采用距离作为相似性的评级指标，即两个对象的距离越近，其相似度越大。通过计算当前点与每组中间中间的距离，对每个点进行分类，然后归到与距离最近的中心组内。分类后的Dockerfile文件作为判断风险的标准库。

文件检测的步骤如下：

(1)预测风险概率

将待检测的Dockerfile文件输入到CNN模型中生成语义和结构特征，将语义和结构特征输入到KNN算法中进行风险预测并返回风险概率。KNN算法根据标准库的数据，基于距离进行分类和回归演算，即通过不同特征值之间的距离进行分类预测，每次检测后都不断更新和完善标准库。

(2)Dockertfile文件放置

如果待检测的Dockertfile文件被标记为不存在风险，集群通过虚拟机自身的负载均衡算法将容器放入；负载均衡算法即是指虚拟机本身的任务调度算法，例如先来先服务算法、后来先服务算法、min-min算法、max-min算法等。

如果Dockerfile文件被标记为存在风险，则进行风险提示，并由用户决定是否对镜像进行放置，如果决定放置则通过基于风险控制的放置算法放入到集群中。该风险控制放置算法定量描述了集群安全性、工作负载、能耗之间的关系，不仅大大降低了存在风险的容器与其他安全容器共存的可能性，而且可以满足工作负载平衡和能耗方面的限制。

S:

s.t.W′:

P:

其中，S表示安全性、W′表示工作负载、P表示能耗，N^*和K^*是预先确定的阈值。在K个主机H＝{h₁，h₂，…h_K}的云计算系统中，M个用户U＝{u₁，u₂，…u_M},启动N个容器D＝{d₁，d₂，…d_N}。如果将每个用户的容器分配到特定的主机上，则

X_D×H×U＝{x_d,h,u|x_d，h，u＝1，如果用户u的容器d分配给主机h}。

Claims

1.一种基于深度学习的大数据一体机容器集群风险预测方法，其特征在于，包括数据预处理、构建标准库和文件检测；所述数据预处理包括如下步骤：(11)解析Dockerfile文件；(12)生成符号向量；(13)符号向量标准化；(14)建立卷积神经网络模型；所述文件检测包括如下步骤：(21)预测风险概率；(22)根据风险概率决定如何放置Dockerfile文件。

2.根据权利要求1所述的基于深度学习的大数据一体机容器集群风险预测方法，其特征在于，所述数据预处理包括如下步骤：

(31)将Dockerfile文件解析生成抽象语法树；

指令 FROM、RUN、CMD、MAINTAINER、apt-get、echo...... 控制流节点 if、for......

(33)将符号向量编码为整数向量；

3.根据权利要求2所述的基于深度学习的大数据一体机容器集群风险预测方法，其特征在于，所述卷积神经网络模型包括嵌入层、卷积层、最大池化层、全连接层和输出层；所述嵌入层、卷积层、最大池化层和全连接层的输出添加第一激活函数f1(x)＝max(0，x)；所述输出层的输出添加第二激活函数

4.根据权利要求2所述的基于深度学习的大数据一体机容器集群风险预测方法，其特征在于，所述将符号向量编码为整数向量的方法为：所述指令和控制流节点对应不同的整数标识符，所述整数标识符从1开始至符号向量类型的总数结束；在向量的结尾添加“0”使所有向量长度一致。

5.根据权利要求1所述的基于深度学习的大数据一体机容器集群风险预测方法，其特征在于，所述构建标准库的步骤为：将所述测试文件的语义特征输入K-Means聚类算法模型进行分类，所述测试文件分为存在风险和不存在风险两类，分类后的测试文件是判断风险的标准库。

6.根据权利要求1所述的基于深度学习的大数据一体机容器集群风险预测方法，其特征在于，所述文件检测包括如下步骤：

(42)如果待检测的Dockertfile文件被标记为不存在风险，集群通过自身的负载均衡算法将容器放入；如果Dockerfile文件被标记为存在风险，则进行风险提示，并由用户决定是否对镜像进行放置。

7.根据权利要求6所述的基于深度学习的大数据一体机容器集群风险预测方法，其特征在于，如果所述用户决定对镜像进行放置，则镜像文件放置的方法为：通过基于风险控制的放置算法将镜像文件放入到集群中：

其中，S表示安全性、W′表示工作负载、P表示能耗，N^*和K^*是预先确定的阈值。H＝{h₁，h₂，...h_K}表示有K个主机的云计算系统，U＝{u₁，u₂，...u_M}表示M个用户，D＝{d₁，d₂，...d_N}表示N个容器，X_D×H×U＝{x_d，h，u|x_d，h，u＝1，如果用户u的容器d分配给主机h}表示将每个用户的容器分配到特定的主机上。