CN104978612A

CN104978612A - 基于ahp-rbf的分布式大数据系统风险预测方法

Info

Publication number: CN104978612A
Application number: CN201510414923.6A
Authority: CN
Inventors: 林凡; 王备战; 吴鹏程; 夏侯建兵
Original assignee: Xiamen University
Current assignee: Xiamen University
Priority date: 2015-01-27
Filing date: 2015-07-15
Publication date: 2015-10-14

Abstract

本发明公开一种基于AHP-RBF的分布式大数据系统风险预测方法，包括如下步骤：步骤1：采用AHP方法构建云计算虚拟机的单点风险描述模型；步骤2：用RBF神经网络实现AHP的风险指标的预测；RBF神经网络包含3层：第一层是输入层，由信号源节点组成；第二层为隐含层，该层所含的神经元数目是由具体问题而定的；第三层为输出层，主要是对输入模式做出响应；步骤3：采用MRPGA算法对RBF神经网络的隐含层优化，实现RBF神经网络对云计算虚拟机的单点风险预测；首先采用混合递阶遗传算法训练RBF神经网络，其将递阶遗传算法与递推最小二乘法相结合，利用递阶遗传算法确定RBF神经网络的结构、隐含层节点的中心和宽度，同时用递推最小二乘法对隐含层和输出层之间的连接权值进行构造。

Description

基于AHP-RBF的分布式大数据系统风险预测方法

技术领域

本发明属于云计算技术领域，涉及一种针对面向服务的云计算系统的风险评测研究，具体是一种基于AHP-RBF的分布式大数据系统风险预测方法。

背景技术

近年来，云计算技术发展迅猛，成为产业界、学术界、政府等各界关注的焦点。云计算的实质是一种动态的资源组合与服务技术，并通过大量虚拟化组件形成资源池来对计算任务进行分配，使用户可对云计算的服务按需获取。云计算也是并行计算、效用计算、网格计算和虚拟化技术综合运用的技术，按照服务类型主要划分为SaaS、PaaS、IaaS三种层次架构，各层次架构针对服务的资源类型与形式有所不同，但均以Web服务的形式为用户提供资源访问入口，因而向云计算系统的Web服务层提出了更高的要求。

伴随着云计算的广泛运用，以及网络计算机资源Web化和服务化的普及，云计算服务的安全问题及其重要性也越来越明显。系统是否安全可靠，关键在于衡量系统的异常行为是否可识别、服务行为是否可以预测、行为结果是否可以评估。这些重要的衡量参数都直接体现了云计算系统的风险度高低。所以如何准确评测地云计算系统服务层的风险度，是衡量云计算系统是否安全可靠和进行服务选择的关键因素之一。

目前，云计算系统的WebService服务安全大多采用WSDL安全策略。然而，这些都是静态的Web安全措施，并未针对云计算虚拟化、大规模、分布式的技术特点进行优化，二者之间存在较大的技术代沟。因而在云计算环境下，WebService将面临全新的的安全挑战。基于云计算环境的WebService是动态变化的，其所需要的安全措施会根据应用背景和服务性质的不同而有所区别。即使已有的WebService安全技术已经成熟，能够解决一部分安全问题，但面向云计算环境的WebService效果却不能令人满意。云计算的安全架构和安全策略对WebService系统服务层设计提出了较高的要求。因此，进行面向服务的云计算系统风险评测研究是十分必要的。

发明内容

因此，针对上述的问题，本发明提出一种基于AHP-RBF(AHP：AnalyticHierarchy Process，层次化分析法；RBF：Radial Basis Function，径向基神经网络)的云计算风险预测方法，该方法以AHP方法为云计算虚拟机节点进行风险值建模，在AHP中设定四个指标(虚拟机性能指标、时间指标、安全事件指标、风险识别指标)，并在指标层和参数层之间引入RBF神经网络进行风险指标预测，从而获得虚拟机节点的主机风险预测值，提高了风险值预测精度。同时采用MRPGA(MapReduce for Parallelizing Genetic Algorithms，基于MapReduce模型的并行化遗传算法)并行遗传算法对RBF的核函数进行优化，通过RBF核函数的动态学习和优化，用多个节点实现快速的实时评估。仿真结果显示，基于MRPGA-RBF并行遗传神经网络的风险预测方法得到的预测值和基准风险值高度一致。

云计算系统的风险监测包含系统状态可用性和可靠性监测、事件安全风险识别、层次化风险预测、整体风险评估、SLA服务选择等几个关键模块，首先对虚拟池里面的多个VM进行基于风险评估的Qos约束(接口、质量、行为)，然后根据云计算服务访问需求以及单点风险监测预测器进行系统风险评估，最后从决策库里服务选择决策。其中，虚拟池里面的VM(Virtual Machine)代表网络系统中的受监测的虚拟化主机，云计算系统主要是对由VM组成的资源池进行动态管理，因此可以通过VM的表现对系统所处的风险状态进行反推。本发明主要研究对VM监测采集后的风险指标进行计算，对VM的可服务能力进行评估，从而满足更上层的风险决策和系统状态判断。

VM的运行状态数据通过风险状态监测器进行采集。该监测器的主要功能是对VM的操作系统、虚拟设备和Web服务进程进行参数采集，举例说明如下：(1)虚拟机性能方面的主要指标有：CPU使用率、磁盘I/O、内存大小、内存使用率和空闲率、硬盘大小及使用率、系统调用和负载状况。这些指标反映了虚拟机系统的负载程度；(2)虚拟机时间指标：包括平均响应时间、用户等待时间、IO读写时间等；(3)安全事件指标主要包括：针对系统安全事件日志进行统计分析，获得每个时间周期的各类安全事件数量。可反映系统受访问行为的审计统计数据。该指标还可扩展到WebService服务进程访问日志统计、软件防火墙安全日志统计等不同Web应用服务层实体的日志信息；可从WebService接口的访问行为日志进行接口语义层面的日志分析；(4)风险识别指标是采用事件语义分析方法获得的LSA风险等级，例如分为Level1至Level4。基于上述指标实现了风险预测模块，可采集虚拟节点执行的效率、负载、服务访问成功率、资源性能以及响应时间长短等参数并综合分析。所有可能获取参数按照类型可以划分为不同的风险指标。

但是，状态采集频度太高会大量的消耗本地VM的计算资源，在通信过程中也会消耗更多的网络带宽。并且，过于频繁的采集会获得大量的噪声数据，这在一定程度上会干扰风险判别过程。在实践过程中，对很大一部分状态的采集要通过对应用程序植入跟踪代码来完成，把相应的状态收集功能嵌入在Web服务接口的代码中，不仅会使云计算Web服务的设计和部署难度加大，还会对风险监测功能产生影响。因此要同时兼顾VM的性能承受能力和风险状态之间相关性，从这个角度出发，合理的设计风险预测所必须的参数，妥当的制定风险监测策略。

为了解决上述技术问题，本发明所采用的技术方案是，一种基于AHP-RBF的分布式大数据系统风险预测方法，包括如下步骤：

步骤1：采用AHP方法构建云计算虚拟机的单点风险描述模型；其中，AHP方法的具体步骤如下:

步骤11：划分递阶层次结构，其包括三层，目标层、准则层和方案层，其中，目标层包含一个元素，是构建云计算虚拟机的单点风险描述的预设目标；准则层包含多个元素，是构建云计算虚拟机的单点风险描述的中间环节，还可以划分为不同的准则、子准则；方案层位于最底层，是构建云计算虚拟机的单点风险描述的各种可行方案和措施；

步骤12：建立两两比较判断矩阵，判断矩阵是针对某一层某要素而言的，表示该要素与处于相同层的其它要素之间的相对优越程度；首先以第一层的要素为标准，将第二层次的要素和其进行两两比较，依据评定尺度对其相对重要度进行确定，构造判断矩阵；

步骤13：通过判断矩阵来计算被比较元素的相对权重值，将该层各种要素和上一层相比排出优劣顺序，也即权重值；权重值通过各判断矩阵计算而得，计算权重值时，首先计算出判断矩阵的特征向量W，再通过归一化处理的方法，便可计算出针对的相对重要度，也就是权重；

步骤14：对每一层次的元素的组合权重进行计算，在计算时要用到层次单排序时的计算结果，也就是每一层元素关于上一层各元素的相对权重值，进而得出层次分析模型中每一层中的所有要素和针对总目标的组合权重值；组合权重在计算时的顺序是由上而下进行的，最终得出最低层元素对于总体目标的组合权重；

步骤2：用RBF径向基神经网络(简称RBF神经网络)实现AHP中的风险指标的预测；RBF神经网络包含3层：第一层是输入层，由信号源节点组成；第二层为隐含层，该层所含的神经元数目是由具体问题而定的；第三层为输出层，主要是对输入模式做出响应；其中，RBF神经网络的隐含层的传输函数采用径向基函数，径向基函数网络是局部逼近网络，学习速度比较快，高斯函数是比较常用的基函数，基函数表示为：

T_{i} (x) = e^{- | | x - c_{i} | |^{2} / 2 δ_{i}^{2}}, i = 1, 2, ..., m;

在式中，||x-c_i||表示x与c_i之间的欧式距离，T_i(x)表示第i个隐含层节点的输出，x是n维的输入向量，m是隐含层神经元个数，c_i是基函数中心，σ_i是第i个隐含层节点的基宽度；隐含层的每个神经元节点都有一个径向基函数中心向量c_i，该向量和输入样本x具有相同的维数，c_i＝[c_i1,c_i2,...,c_im]^T,i＝1,2,...m，隐含层有m个神经元，则有m个这样的中心；

RBF神经网络的输出层是隐含层节点输出的线性组合，输出表达式为：

Y_{k} = Σ_{i = 1}^{m} ω_{i k} T_{i} (x);

ω_i是第i个隐含层节点到输出层节点的权值，p是输出层神经元个数。

在RBF神经网络中，隐含层节点的输出代表着输入样本X离开隐含层节点的径向基函数中心C_i的程度。由于不存在连接输入节点和隐含层节点的权矩阵，因此隐含层的训练任务不是调节权矩阵，而是为每个隐节点选择其中心向量。网络的输入层实现非线性映射，输出层实现线性映射；

步骤3：采用MRPGA算法对RBF神经网络的隐含层优化，实现RBF神经网络对云计算虚拟机的单点风险预测；

在RBF神经网络中，每个指标都对应一个RBF，每个指标的RBF输入为各自对应的参数，如虚拟机性能指标P，P＝{P₁，P₂，P₃，P₄，P₅，P₆}，该指标对应的RBF₁输入为该指标下的参数P_i，输出为该指标的评分为S_p。最后再将各个指标的评分结果(S_p，S_t，S_a，S_r)作为RBF_s的输入参数，输出即为总体评价值S_final。即逐层推进对每个指标进行评分，然后综合考虑各个指标的风险情况，得到最后的风险值。因此，RBF神经网络中需要确定的参数有：

(1)隐含层节点数：本发明的验证数据维数较低，可以接设为参数层的个数；

(2)隐含层节点的中心值和宽度：可采用进化算法进行优化，采用MapReduce做并行进化算法的优化；

(3)隐含层到输出层的连接权值：递推的最小二乘法训练。

其中隐含层节点中心值的选取对网络的函数逼近能力具有很大的影响，不恰当地选取会使网络收敛慢，甚至会造成网络发散。因此本发明采用GA算法寻优，并利用MRPGA进行并行加速，快速确定RBF的最优值。

本发明主要采用改进的并行的递阶遗传算法(HGA)实现对RBF核函数进行优化。首先采用混合递阶遗传算法训练RBF神经网络，其将递阶遗传算法与递推最小二乘法相结合。利用递阶遗传算法只确定RBF神经网络的结构、隐含层节点的中心和宽度，同时用递推最小二乘法对隐含层和输出层之间的连接权值进行构造。采用递推最小二乘法确定隐含层和输出层之间的权值，可以保证较快的收敛速度。混合递阶遗传算法使递阶遗传算法训练RBF神经网络的效率得到了提高，同时也保留了递阶遗传算法的优点。

混合递阶遗传算法训练RBF神经网络步骤如下：

步骤(1)：编码阶段：考虑到RBF神经网络参数及其解的寻优能力，参数基因采用实数编码，每个基因用一个实数代表。控制基因仍然采用二进制编码，每个二进制位对应一个隐含层节点的中心编码和宽度编码；

步骤(2)：生成初始化种群；

步骤(3)：个体解码，构造RBF神经网络隐含层；

步骤(4)：递推最小二乘法确定权值；

步骤(5)：每次迭代由输入训练样本形成的协方差矩阵递推求得权值的精确解。定义误差目标函数为：

E (n) = \frac{1}{2} Σ_{k = 1}^{n} λ^{n - k} Σ_{i = 1}^{M} {(d_{i} - y_{i})}^{2};

式中λ为遗忘因子，y_i、d_i分别表示实际输出和期望输出；

步骤(6)：评价RBF神经网络性能，计算出种群中个体的适应值；

考虑到训练RBF神经网络的目标是使其能在满足一定精度的要求下具有最简单的网络结构，也就是要使逼近误差精度和神经网络复杂度在综合指标达到最小。这其中逼近误差精度目标函数由误差平方和来表示，网络复杂度由隐含层节点个数来表示。本发明采用的适应值函数为

f = \frac{2 N}{(a + {be}^{\frac{M}{d n}}) Σ_{i = 1}^{N} {(d_{i} - y_{i})}^{2}};

上式中，N为样本数量，M为隐含层节点个数，n为神经网络输入节点个数，y_i是第i个输入样本对应的网络的输出，d_i为期望输出，a、b和d为常数；

步骤(7)：判定终止条件。如果满足条件则终止，否则继续下一步；

步骤(8)：根据个体适应值选择个体作为父代；

其中，本发明采用基于适应值比例的选择操作，个体i被选择的概率P_i＝f_i/∑f_j

，其中f_i为个体i的适应值，∑f_j为种群个体适应值的总和；

步骤(9)：父代进行交叉、变异，产生新个体，父代和新个体形成新的种群；

在递阶遗传中，需要对控制基因和参数基因同时进行交叉、变异操作。交叉概率和变异概率采用自适应调整交叉和变异概率。

控制基因的交叉操作遵循二进制编码的交叉规则。为使参数基因的实数编码执行交叉操作产生新的参数基因，参数基因采用线性组合方式将两个参数基因串对应交叉位的值相组合产生新的参数基因串。

控制基因的变异操作是以一定的概率对其进行求反运算。参数基因则采用偏置变异，以一定的概率给变异位加上一个随机偏置值。

步骤(10)：转步骤(3)继续执行。

其中，采用并行遗传算法优化RBF神经网络权值的具体过程如下:

(1)使用实数编码策略来进行权值初始化，染色体基因编码是依据神经网络模型的结构及所求解的问题进行的，从而构造出编码链；

(2)产生种群，随机产生初始的染色体群体，该群体符合均匀分布；

(3)输入一组训练样本进行个体评价，对群体中个体所代表的神经网络进行训练，对每个个体的学习误差进行计算，在此基础上确定出遗传操作的适应度函数，然后对种群中的个体进行评价。网络输出与实际输出的误差越小就表明适应度越大，那么网络性能越好；

(4)遗传操作：对群体中个体进行选择、交叉和变异等遗传操作；

(5)保存最优个体：选择出最优个体，把当代个体每个与目前为止的最优个体进行对比，如果有比目前最优个体更好的个体出现，那么就用其替代当前最优个体，同时用最优个体将当前群体中的最差个体替代掉；

(6)重复进行以上(2)、(3)、(4)、(5)的操作步骤，直到实现训练目标为止。

进一步的，步骤1在具体实施中，AHP中具有四个风险指标，虚拟机性能指标P、虚拟机时间指标T、报警日志指标A和LSA风险识别指标R；其包括如下过程：首先建立两两比较判断矩阵，对于虚拟机性能指标P，首先构造其相对应参数的判断矩阵PD，

P D = [\begin{matrix} 1 & 2 & 5 & 7 & 3 & 3 \\ 1 / 2 & 1 & 3 & 5 & 2 & 2 \\ 1 / 5 & 1 / 3 & 1 & 2 & 1 & 1 \\ 1 / 7 & 1 / 3 & 1 / 2 & 1 & 1 / 2 & 1 / 2 \\ 1 / 3 & 1 / 2 & 1 & 2 & 1 & 1 \\ 1 / 3 & 1 / 2 & 1 & 2 & 1 & 1 \end{matrix}];

然后计算相对各个参数对虚拟机性能指标P的相应权重；首先求出判断矩PD的阵特征向量M，然后对M进行归一化处理后得到参数的相对权重：

W_p＝(0.391，0.2357，0.0968，0.0525，0.1118，0.1118)^T；

对于虚拟机时间指标T，构造其相对应参数的判断矩阵TD：

T D = [\begin{matrix} 1 & 5 & 5 & 6 \\ 1 / 5 & 1 & 1 & 2 \\ 1 / 5 & 1 & 1 & 2 \\ 1 / 6 & 1 / 2 & 1 / 2 & 1 \end{matrix}];

然后计算相对各个参数对虚拟机时间指标T的相应权重，首先求出判断矩TD的阵特征向量M，然后对M进行归一化处理后得到参数的相对权重：

W_d＝(0.6293，0.1440，0.1440，0.0828)^T；

对于报警日志指标A，构造其相对应参数的判断矩阵AD，

A D = [\begin{matrix} 1 & 1 & 1 / 2 & 1 / 5 & 1 / 7 \\ 1 & 1 & 1 / 2 & 1 / 5 & 1 / 7 \\ 2 & 2 & 1 & 1 / 3 & 1 / 5 \\ 5 & 5 & 3 & 1 & 1 / 2 \\ 7 & 7 & 5 & 2 & 1 \end{matrix}];

计算相对各个参数对报警日志指标A的相应权重，首先求出判断矩AD的阵特征向量M，然后对M进行归一化处理后得到参数的相对权重：

W_a＝(0.0601，0.0601，0.1080，0.2889，0.4829)^T；

针对LSA风险识别指标R，构造对应参数的判断矩阵：

R D = [\begin{matrix} 1 & 3 & 7 & 5 \\ 1 / 3 & 1 & 5 & 3 \\ 1 / 7 & 1 / 5 & 1 & 1 / 3 \\ 1 / 5 & 1 / 3 & 3 & 1 \end{matrix}];

计算个参数的相对权重，求出判断矩阵RD的特征向量并归一化后得到的参数相对权重：

W_R＝(0.5579,0.2633,0.0569,0.1219)^T；

在P、T、A、R四个指标获得后，汇聚为总指标RiskA：

T R i s k = [\begin{matrix} 1 & 1 & 1 / 3 & 1 / 5 \\ 1 & 1 & 1 / 3 & 1 / 5 \\ 3 & 3 & 1 & 1 / 3 \\ 5 & 5 & 3 & 1 \end{matrix}];

计算P、T、A、R汇聚的权重矩阵为：

W_Risk＝(0.0965，0.0965，0.2516，0.6549)^T；

计算出各因素的相对权重后，风险值即为递阶推进的参数值与相对权重的加权和，公式如下：

S_risk＝∑V_i；

式中为求得的风险值，为参数值，为参数所对应的相对权重。

本发明采用上述步骤，在AHP层次化风险值计算框架下提出一种基于MRPGA-RBF并行遗传神经网络的风险指标预测方法。该方法采用AHP构建云计算虚拟机的单点风险描述模型，用RBF实现AHP中四个风险指标的预测，采用RMRPGA并行遗传算法对RBF的核函数进行并行化，通过RBF核函数的动态学习和优化，实现对云计算系统虚拟机单点运行状况的风险预测。本发明采用RBF神经网络根据历史数据和当前评估状态，进行云计算的不确定性风险预测，为云计算系统的风险预测提供保障。

附图说明

图1为风险监测的体系结构；

图2为AHP概念结构图；

图3为针对云计算风险预测的AHP框架；

图4为RBF神经网络模型图；

图5为高斯函数图；

图6为AHP-RBF模型；

图7为阶梯遗传算法优化RBF隐层参数；

图8为遗传神经网络算法流程图；

图9为试验样本数据；

图10为AHP-RBF单指标预测效果与AHP比较，(a)性能指标的RBF与AHP对比；(b)时间指标的RBF与AHP对比；(c)事件指标的RBF与AHP对比；(d)LSA指标的RBF与AHP对比；

图11为采用GA优化后的RBF单指标风险预测对比，(1)P指标的优化对比；(2)T指标的优化对比；(3)A指标的优化对比；(4)R指标的优化对比；

图12为采用GA优化后的RBF综合风险预测对比，(a)综合指标的RBF预测对比；(b)GA优化后的RBF预测对比；

图13为MRPGA和GA并行处理效率时间对比；

图14为MRPGA和GA风险预测的准确率对比。

具体实施方式

现结合附图和具体实施方式对本发明进一步说明。

云计算是集群计算、并行计算、网格计算不断发展的新一代产物，融合了分布式计算的多种概念和技术。云计算环境典型呈现出大规模分布式、结构复杂化、架构多样化、运算动态化和服务虚拟化的特点，其中虚拟化技术是云计算的关键技术之一。虚拟化对面向服务(WebService)提供为主的云计算系统供应商提出了更高的安全和质量要求，而传统研究大多聚焦于信息系统风险评估和网络入侵检测等领域，缺乏针对云计算的深入探索，因此进行面向服务的云计算系统风险评测研究是十分必要的。

本发明的方法以AHP方法为云计算虚拟机节点进行风险值建模，在AHP中设定四个指标(虚拟机性能指标、虚拟机时间指标、安全事件指标、风险识别指标)，并在指标层和参数层之间引入RBF神经网络进行风险指标预测，从而获得虚拟机节点的主机风险预测值，提高了风险值预测精度。同时采用MRPGA并行遗传算法对RBF的核函数进行优化，通过RBF核函数的动态学习和优化，用多个节点实现快速的实时评估。仿真结果显示，基于MRPGA-RBF并行遗传神经网络的风险预测方法得到的预测值和基准风险值高度一致。

采用AHP构建云计算虚拟机的单点风险描述模型，用RBF实现AHP中四个风险指标的预测，并采用MRPGA算法对RBF神经网络隐含层优化，实现RBF神经网络对云计算虚拟机的单点风险预测。

本发明提出了一种在AHP层次化风险值计算框架下基于MRPGA-RBF并行遗传神经网络的风险指标预测方法。该方法采用RMRPGA并行遗传算法对RBF的核函数进行并行化，通过RBF核函数的动态学习和优化，实现对云计算系统虚拟机单点运行状况的风险预测。

云计算风险监测系统包含系统状态可用性和可靠性监测、事件安全风险识别、层次化风险预测、整体风险评估、SLA服务选择等几个关键模块，其内部的流程可以用图1来表示。图中VM(Virtual Machine)代表网络系统中的受监测的虚拟化主机，云计算系统主要是对由VM组成的资源池进行动态管理，因此可以通过VM的表现对系统所处的风险状态进行反推。因为系统服务层功能的是否正常，系统是否正在遭受病毒攻击或者系统是否发生故障，都会有足够的可供参考的状态信息可以获取。本发明主要研究对VM监测采集后的风险指标进行计算，对VM的可服务能力进行评估，从而满足更上层的风险决策和系统状态判断。

VM的运行状态数据通过风险状态监测器进行采集。该监测器的主要功能是对VM的操作系统、虚拟设备和Web服务进程进行参数采集，举例说明如下：

(1)虚拟机性能方面的主要指标有：CPU使用率、磁盘I/O、内存大小、内存使用率和空闲率、硬盘大小及使用率、系统调用和负载状况。这些指标反映了虚拟机系统的负载程度。

(2)虚拟机时间指标：包括平均响应时间、用户等待时间、IO读写时间等。

(3)安全事件指标主要包括：针对系统安全事件日志进行统计分析，获得每个时间周期的各类安全事件数量。可反映系统受访问行为的审计统计数据。该指标还可扩展到WebService服务进程访问日志统计、软件防火墙安全日志统计等不同Web应用服务层实体的日志信息；可从WebService接口的访问行为日志进行接口语义层面的日志分析。

(4)风险识别指标包括了采用事件语义分析方法获得的LSA风险等级，分为Level1至Level4。

基于上述指标实现了风险预测模块，可采集虚拟节点执行的效率、负载、服务访问成功率、资源性能以及响应时间长短等参数并综合分析。所有可能获取参数按照类型可以划分为不同的风险指标，如图1所示。

一、AHP层次分析评估方法

1、AHP概述

层次分析法(AHP，Analytic Hierarchy Process)，是在20世纪70年代中期由美国著名运筹学专家SattyTL提出的，该方法主要用于对不易定量化的变量的多准则处理。该将复杂的问题分解成递阶层次结构，然后在不同的层次上进行逐步分解。它能够把人的主观判断通过数量来进行表达，同时考虑可定量和不易定量的因素，并验证不同评估者对问题的主观判断是否一致。

AHP方法的具体步骤如下:①将复杂问题分解为递阶层次结构；②建立两两对比分析矩阵；③通过分析矩阵来计算被比较元素的相对权重值；④对每一层次的元素的组合权重进行计算。

(1)划分递阶层次结构

这个步骤实际上是对复杂问题的剖析分解过程，目标的焦点位于递阶层次结构的最上层，只有一个元素。而之下的层次可以有多个元素，相邻两层种对应的元素的排列是遵守一定的规则的，处于同一层中的元素其量值具有同等级。对于差别较大的元素，则被归纳到不同的层次中。通常情况下，递阶层次结构模型包括三层，如图2所示。

目标层:包含一个元素，为待解决问题的预设目标。

准则层:包含多个元素，为实现预设总目标所涉及的中间环节，还可以划分为不同的准则、子准则。

方案层:位于最底层，为实际解决问题的各种可行方案和措施等。

(2)建立两两比较判断矩阵

判断矩阵是针对某一层某要素而言的，表示该要素与处于相同层的其它要素之间的相对优越程度。

例如，方案层，，...，。是和上一层准则有联系的。那么这几个方案针对准则的判断矩阵构造如下:

B = [\begin{matrix} b_{11} & b_{12} & ... & b_{1 n} \\ b_{21} & b_{22} & ... & b_{2 n} \\ . & . & . \\ . & . & . \\ . & . & . \\ b_{n 1} & b_{n 2} & ... & b_{n n} \end{matrix}] - - - (5 - 1)

方案与比较而得到的相对重要程度或优越性用来表示，值在确定时主要是依据资料、统计数据以及咨询专家意见和系统分析员的经验等。层次分析法采用的是1-9标度法，使要素相比较得以定量描述。其取值见表1。

b_ij取值	含义
		1	P_i与P_j同样重要
3	P_i比P_j稍重要
		5	P_i比P_j明显重要
7	P_i比P_j重要得多
		9	P_i比P_j极端重要
2，4，6，8	介于上述两相邻判断中间
		上述各数的倒数	反比较：即P_i与P_j重要性之比为b_ji＝1/b_ij

表1 AHP中相对权重的标定意义

判断矩阵B应具有以下特性:

● ＝1

● ＝1/ (i，j＝1，2，...，n)

● ＝ / (i，j，k＝1，2，...，n)

(3)通过判断矩阵来计算被比较元素的相对权重值

这个步骤也叫做层次单排序，就是将该层种各要素和上一层相比排出优劣顺序。权重值各判断矩阵计算而得，和积法和方根法是用得较多的方法。

计算针对的权重时，第一步要计算出判断矩阵的特征向量W，再通过归一化处理的方法，便可计算出针对的相对重要度，也就是权重。

先计算向量：M＝(m₁，m₂，…，m_n)^T

其中，

m_{i} = \sqrt[n]{Π_{j = 1}^{n} b_{i j}}, i = 1, 2, ..., n

归一化处理，W＝(W₁,W₂,…,W_n)^T

其中，

W_{i} = m_{i} / Σ_{i = 1}^{n} m_{i};

(4)对每一层次的元素的组合权重进行计算

这个步骤也叫做层次总排序。在计算时要用到层次单排序时的计算结果，也就是每一层元素关于上一层各元素的相对权重值，进而得出层次分析模型中每一层中的所有要素和针对总目标的组合权重值。组合权重在计算时的顺序是由上而下进行的，最终得出最低层元素对于总体目标的组合权重。

2、针对云计算的AHP层次分析框架

考虑到云计算系统风险性的不同属性，在进行风险判定和识别时，所依据的状态指标体系也是不一样，在面向风险评测的云计算系统中，根据系统组件所能提供的计算能力来判定可用性。监测选取过程必须遵循专业性和可操作性的原则，针对不同的应用环境，要从不同的角度出发来提取影响风险决策的行为证据，举例来说，电子商务类型的云计算系统更关注交易订单和购物车服务实体的运行负载，同时接受的并发访问数量，并根据最大访问限制进行约束。而云存储类的云计算服务则关注单个节点的总数据吞吐量、磁盘繁忙程度等。侧重点不同，在调度策略执行的时候也会有不同规则。

本发明针对的主要是形式化的云计算风险评测研究，侧重于评估云计算系统的单点风险和整体风险，其重点在于可服务能力的提现，具体映射到传统意义的负载状态、服务质量、安全威胁分析等方面。而将来在具体实施不同的云计算系统时，风险指标的构成可以根据实际情况修改。

层次分析法可以把不易量化的问题数量化、系统化，将定性分析与定量分析进行有效整合，这样就能够有效的分析和解决多层次、多目标的大规模系统评测问题。层次分析方法流程如下：首先构造网络安全风险评估的递阶层次结构，顶层为总目标；其次构造比较判断矩阵并计算得出指标和参数相对权重；最后计算指标的加权并汇总风险值。

(1)构建递阶层次结构

本发明在研究影响云计算系统安全因素的基础上，依据系统完整性、可衡量性、可解构性以及简明科学的原则。云计算系统安全风险评价的整体结构采用AHP模型建立的，如图3所示。

本发明将不同指标下的参数看成是相互独立的因素，每个指标都对应一个权重矩阵。整个AHP层次风险分析结构是由4个第二层的分项指标和1个第一层的总指标组成的。其中顶层的总指标是以第二层分项指标的预测结果作为输入值，然后获得最后的风险值。

(2)相对权重计算

判断矩阵在建立时所采用的是传统的AHP方法，首先以第一层的要素为标准，将第二层次的要素和其进行两两比较，依据评定尺度对其相对重要度进行确定，构造判断矩阵。

对于虚拟机性能指标P，构造其相对应参数的判断矩阵PD，

P D = [\begin{matrix} 1 & 2 & 5 & 7 & 3 & 3 \\ 1 / 2 & 1 & 3 & 5 & 2 & 2 \\ 1 / 5 & 1 / 3 & 1 & 2 & 1 & 1 \\ 1 / 7 & 1 / 3 & 1 / 2 & 1 & 1 / 2 & 1 / 2 \\ 1 / 3 & 1 / 2 & 1 & 2 & 1 & 1 \\ 1 / 3 & 1 / 2 & 1 & 2 & 1 & 1 \end{matrix}] - - - (5 - 2)

然后计算相对各个参数对虚拟机性能指标P的相应权重。首先求出判断矩PD的阵特征向量M，然后对M进行归一化处理后得到参数的相对权重

W_p＝(0.391，0.2357，0.0968，0.0525，0.1118，0.1118)^T (5-3)

对于的虚拟机时间指标T，构造其相对应参数的判断矩阵TD，

T D = [\begin{matrix} 1 & 5 & 5 & 6 \\ 1 / 5 & 1 & 1 & 2 \\ 1 / 5 & 1 & 1 & 2 \\ 1 / 6 & 1 / 2 & 1 / 2 & 1 \end{matrix}] - - - (5 - 4)

然后计算相对各个参数对虚拟机时间指标T的相应权重。首先求出判断矩TD的阵特征向量M，然后对M进行归一化处理后得到参数的相对权重

W_d＝(0.6293，0.1440，0.1440，0.0828)^T (5-5)

对于报警日志指标A，构造其相对应参数的判断矩阵AD，

A D = [\begin{matrix} 1 & 1 & 1 / 2 & 1 / 5 & 1 / 7 \\ 1 & 1 & 1 / 2 & 1 / 5 & 1 / 7 \\ 2 & 2 & 1 & 1 / 3 & 1 / 5 \\ 5 & 5 & 3 & 1 & 1 / 2 \\ 7 & 7 & 5 & 2 & 1 \end{matrix}] - - - (5 - 6)

计算相对各个参数对报警日志指标A的相应权重。首先求出判断矩AD的阵特征向量M，然后对M进行归一化处理后得到参数的相对权重：

W_a＝(0.0601，0.0601，0.1080，0.2889，0.4829)^T (5-7)

针对LSA风险识别指标，构造对应参数的判断矩阵：

R D = [\begin{matrix} 1 & 3 & 7 & 5 \\ 1 / 3 & 1 & 5 & 3 \\ 1 / 7 & 1 / 5 & 1 & 1 / 3 \\ 1 / 5 & 1 / 3 & 3 & 1 \end{matrix}] - - - (5 - 8)

W_R＝(0.5579,0.2633,0.0569,0.1219)^T (5-9)

⑤在P、T、A、R四个指标获得后，汇聚为总指标RiskA

T R i s k = [\begin{matrix} 1 & 1 & 1 / 3 & 1 / 5 \\ 1 & 1 & 1 / 3 & 1 / 5 \\ 3 & 3 & 1 & 1 / 3 \\ 5 & 5 & 3 & 1 \end{matrix}] - - - (5 - 10)

计算P、T、A、R汇聚的权重矩阵为

W_Risk＝(0.0965，0.0965，0.2516，0.6549)^T (5-11)

(3)计算风险值

计算出各因素的相对权重后，风险值即为递阶推进的参数值与相对权重的加权和。公式如下：

S_risk＝∑V_i (5-12)

二、RBF预测模型

1、RBF概述

1.1 RBF神经网络

多变量插值的径向基函数方法是Powell于1985年提出的。1988年，Lowe和Broomhead将RBF应用于神经网络，从而构建了RBF神经网络，中文称作径向基函数神经网络。最基本的RBF神经网络包含三层，即输入层、输出层、隐含层。

RBF神经网络可以逼近非线性函数，具有很快的学习和收敛速度，可以处理系统内在的比较难解析的规律性，具有实时性等特点，所以RBF神经网络的用途十分广泛。目前，RBF径向基网络已成功的应用到时间序列分析、非线性函数逼近、模式识别、数据分类、系统建模、控制和故障诊断、信息处理等问题。

RBF神经网络是多层前向神经网络，它包含3层：第一层是输入层，由信号源节点组成。第二层为隐含层，该层所含的神经元数目是由具体问题而定的。第三层为输出层，主要是对输入模式做出响应。RBF神经网络模型如图4所示。

RBF神经网络隐含层的传输函数采用径向基函数。径向基函数网络是局部逼近网络，学习速度比较快。高斯函数是比较常用的基函数，其示意图参见图5。基函数表示为：

T_{i} (x) = e^{- | | x - c_{i} | |^{2} / 2 δ_{i}^{2}}, i = 1, 2, ..., m - - - (5 - 13)

在式中，||x-ci||表示x与ci之间的欧式距离，Ti(x)表示第i个隐含层节点的输出，x是n维的输入向量，m是隐含层神经元个数，ci是基函数中心，σi是第i个隐含层节点的基宽度。隐含层的每个神经元节点都有一个径向基函数中心向量ci，该向量和输入样本x具有相同的维数，c_i＝[c_i1,c_i2,...,c_im]^T,i＝1,2,...m，隐含层有m个神经元，则有m个这样的中心。

RBF神经网络的输出层是隐含层节点输出的线性组合，输出表达式为

Y_{k} = Σ_{i = 1}^{m} ω_{i k} T_{i} (x) - - - (5 - 14)

ωi是第i个隐含层节点到输出层节点的权值，p是输出层神经元个数。在RBF神经网络中，隐含层节点的输出代表着输入样本X离开隐含层节点的径向基函数中心Ci的程度。由于不存在连接输入节点和隐含层节点的权矩阵，因此隐含层的训练任务不是调节权矩阵，而是为每个隐节点选择其中心向量。网络的输入层实现非线性映射，输出层实现线性映射。

1.2 RBF神经网络学习方法

通过RBF神经网络的结构得知，要训练整个网络，需要确定隐含层神经元个数，基函数的中心矢量和它的宽度，隐含层和输出层之间的权重ωij。径向基函数中心是RBF神经网络需要学习的一个重要的参数，根据中心选取方法的不同，RBF神经网络的学习方法不同，用的比较多的学习方法有以下5种:即Poggio法、Moody和Darken法、局部学习法、正交最小二乘法、聚类与Givens最小二乘联合迭代法。

(1)Poggio方法：通过正则方法推导而出的。S＝{(xi，yi)∈Rd×R i＝1，…，n}为训练样本，将集合S中xi选为RBF神经网络的中心，选定一个σi，再依据yi计算出ci的大小，这便是RBF神经网络的训练过程。

(2)与Poggio法不同的是，Moody和Darken的算法中所隐含单元数比训练样本数目少得多。整个训练过程要经过非监督学习和监督学习两个环节。非监督学习阶段主要使用K-means聚类方法，寻找聚类中心ci和参数σi，再接着进入监督学习阶段。确定了聚类中心ci和参数σi之后，RBF神经网络就会成为一个线性方程组，所以在监督学习阶段计算网络的输出权值wi时可以采用最小二乘法求解。

(3)局部学习法：即在RBF神经网络中每个隐含层单元的学习是独立进行的。基函数通过以下方法进行选择:在某个空间区域内，仅一个隐含层单元的基函数取值较大，其它基函数值近似为零。所以这些函数是近似正交的。为了使网络的综合性能有所提高并且能够适应新的外界输入，应当添加惩罚。在这个算法之中，不需要明确的函数中心，也不需要提前了解RBF神经网络隐含单元数目，所以是一种优良的方法。然而因为算法中涉及到了复杂的优化问题，在求解时有一定难度。

(4)目前训练RBF神经网络时使用频率最高的方法是正交最小二乘法OLS(Orthogonal Least Squares)。该方法的优点是操作简单，运算速度快，缺点是不适合递推运算，同时不易进行基函数中心的确定，还需要进一步研究。S.Chen等人最早提出了正交最小二乘法，分别对单输出和多输出的RBF神经网络的正交最小二乘学习方法进行了研究，在正交最小二乘法中，线性回归模型的一个典型例子就是RBF神经网络。基矢量的集合由回归因子矢量pi组成。因为不同的回归因子之间存在相关关系，所以不同的回归因子对输出能量的贡献要通过一个方法来进行确定，OLS方法很好的解决了这个问题。具体的过程是：首先将pi集合通过公示p＝WA转换为正交集合，其中A是对角线为1的上三角阵，W是包含正交矢量wi的矩阵。所以得到方程d＝Wg+E，AΘ＝g。A，g通过正交化可以得到，所以Θ也能容易的求解出来。在每一步正交过程中，要使用“新息-贡献”准则进行正交优选。直到LS法符合一定精度后算法终止，此时的正交矢量数目就等于隐含层的神经元数目。

(5)Givens迭代算法：该算法是由S.Chen等提出来的。文献(赵冬梅，马建峰，王跃生.信息系统的模糊风险评测模型[J].通信学报，2007，28(4)：51-55)对Givens迭代算法进行了详细的介绍，同时还将该算法同聚类方法相结合，从而得出了另外一种新的有效的RBF神经网络训练算法。然而，这种算法存在一定的缺点，即其运行所占用的存储空间大，运算的速度也较为缓慢，这与运算运行的实时性要求并不适应。Givens迭代算法主要包括Givens最小二乘法和聚类，主要有以下两个目的:①Givens最小二乘法具有能够实时监测和修正RBF神经网络的权值的良好性能；②在RBF神经网络的实时运用过程中，数据的输入是实时发生变化的，所以RBF神经网络所涉及的函数中心须适当选择从而使得其能够对输入域进行充分的取样，同时还能够实时监测数据输入变化的规则及模式，因此该计算方法运用了递推K-means聚类方法。

在风险预测当中，BP神经网络是用的比较多的技术，但是BP网络训练速度比较慢，效率低，并且存在局部最优问题。BP网络的每个权值都影响着网络的输出结果，而在训练时权值都需要通过反向误差传播进行调整，学习速度比较慢。因此，并不是风险预测当中比较好的方法，RBF神经网络就在一定程度上克服了这些问题。和其它的前向网络相比较，RBF神经网络有最佳逼近的特性，而且这种最佳逼近存在且唯一，并且训练速度有了明显的提高，训练步数显著的减少。

2、RBF预测模型构建

如果任何一次评级都通过加权由AHP计算所得到的各级指标来进行相应的计算与评价，这种计算过程显得较为复杂，而且很难保证不出差错，在延展性方面较差；并且AHP判断矩阵的构建主观性较强，需要一定的经验知识。所以，把RBF神经网络同AHP进行有效的结合，可以使RBF神经网络经由相应的训练得到一个具有相关领域专家经验的网络；当要进行一个新的评价时，只需要对训练成熟网络的输入参数进行相应的设置和修改，就可得到想要的网络输出，也就是通常所指的综合评价值，这种么模式从很大程度上降低了运算过程的复杂性。在本发明中，以上述层次分析法部分作为依据建立其了一个层级架构，模拟得到数据及相应的参数数据作为RBF神经网络的数据集，将其中一部分作为训练集，剩下的作为测试集，对RBF神经网络的预测作用进行验证。

构建的RBF预测模型如图6所示。根据图6的层级结构，所构建的模型中每个指标都对应一个RBF，每个指标的RBF输入为各自对应的参数。如虚拟机性能指标P，P＝{P₁，P₂，P₃，P₄，P₅，P₆}，该指标对应的RBF1输入为该指标下的参数P_i，输出为该指标的评分为S_p。最后再将各个指标的评分结果(S_p，S_t，S_a，S_r)作为RBF₅的输入参数，输出即为总体评价值S_final。即逐层推进对每个指标进行评分，然后综合考虑各个指标的风险情况，得到最后的风险值。

在本模型中，参见图7，RBF神经网络中需要确定的参数有：

(3)隐含层到输出层的连接权值：递推的最小二乘法训练。

三、MRPGA优化RBF预测模型

1、并行遗传算法MRPGA

并行遗传算法是一种常见的解决优化问题的算法，并被应用到多个领域，不同的并行遗传算法也被提出。Argonne国家实验室的研究人员提出了一种基于MPI(Massage Passing Interface，MPI)的并行遗传算法工具包；Lim提出了一种有效的基于网格平台的异构的并行遗传算法(Hierarchical ParallelGenetic Algorithm，GE-HMRPGA)框架。然而，相比串行遗传算法，并行遗传算法不得不处理更多更复杂的由于算法并行化所带来的问题，如：任务分配问题，通信错误的处理，程序的安全等。因此，研究简化并行遗传算法的实现方法具有重要的意义。

本发明将常见的并行遗传算法分为四类：

1)、简单并行遗传算法(Simple MRPGA)。这是最简单的并行遗传算法，其基本思想是同时运行多个GA以达到算法加速的效果。本发明将这种并行方法命名为简单的并行遗传算法。一些应用表明了该算法的有效性，如：Shonkwiler使用简单的并行遗传算法去求解一维的分形逆问题(1-D fractal inverseproblem)并获得了线性加速。

Mukhopadhyay采用该方法对遗传基因学中的数量性状(quantitativetrait)进行了分析，用以选择重要的基因和环境因子。研究结果表明，MRPGA能正确地选择变量(variables)并且是很容易使用变量选择工具。另外一些应用却获得了超线性加速，1993年，R.Shinkwiler通过严格的数学证明证明了SMRPGA的加速是ms^m-1，这里，m是并行遗传算法的并行个数，s是依赖于算法具体实现的加速因子，但通常情况下都大于1。

2)、主从并行遗传算法(Master-slave MRPGA，MMRPGA)。这也是一种常见的并行遗传算法，不同于SMRPGA，MMRPGA的个体适应度的计算是并行的。算法的整个进化过程是由Master来负责的，而适应度的计算是由slaves来计算的。这种方法适用于适应度函数计算开销很大的情况。

3)、孤岛并行遗传算法(Island MRPGA，IMRPGA)。在这种方法中，种群的进化是模拟岛种群进化模式，每一个PC看着一个隔绝的孤岛，分别运行一个遗传算法，同时种群间按照一定的规律进行迁移。这种遗传算法的特点是相比串行遗传算法更加容易发现全局最优解且不容易陷入局部最优解中，IMRPGA是适合由多个计算机组成的集群环境并且求解的问题有较多的局部最优解。

4)、细胞并行遗传算法(Cellular MRPGA，CMRPGA)。这种方法有些类似与IMRPGA，但是，不同之处在于每个子种群的规模更小，甚至只有一个个体，迁移也只发生在与它相邻个体间。Reza Abbasia创建了一些线程来模拟进化的种群，在迭代一定次数后收集个体并选择较好的个体进入下一代的进化。

通过简化并行遗传算法实现来扩展并行遗传算法应用领域是一件非常有意义的事情。采用基于虚拟化技术的MapReduce可以实现上述多种并行遗传算法在云计算环境下的运行和部署，对复杂问题的寻优可实现快速求解。本发明主要采用并行的递阶遗传算法实现对RBF核函数进行优化。

递阶遗传算法(HGA)是根据生物染色体的层次结构提出，染色体有两部分构成：控制基因和参数基因。由控制基因决定参数基因是否被激活，控制基因以二进制的形式表示，“1”表示下层基因处于激活状态，“0”表示下层基因处于非激活状态。采用二进制编码和实数编码相结合的混合编码方法，可以将RBF神经网络的隐含层节点中心、宽度、连接权重和拓扑结构看成一个整体，编码为染色体，然后对种群规模进行适当的选择。通过遗传迭代逐步优化，同时得到RBF神经网络隐含层节点中心、宽度、连接权重参数和隐节点个数优化的结果。虽然基于递阶遗传算法能够确定RBF神经网络的参数和结构，但是网络学习收敛速度比较慢、效率低。

因而，本发明采用混合递阶遗传算法训练RBF神经网络，其将递阶遗传算法与递推最小二乘法相结合。利用递阶遗传算法只确定RBF神经网络的结构、隐含层节点的中心和宽度，同时用递推最小二乘法对隐含层和输出层之间的连接权值进行构造。采用递推最小二乘法确定隐含层和输出层之间的权值，可以保证较快的收敛速度。混合递阶遗传算法使递阶遗传算法训练RBF神经网络的效率得到了提高，同时也保留了递阶遗传算法的优点。

混合递阶遗传算法训练RBF神经网络步骤如下：

(1)编码阶段；

考虑到RBF神经网络参数及其解的寻优能力，参数基因采用实数编码，每个基因用一个实数代表。控制基因仍然采用二进制编码，每个二进制位对应一个隐含层节点的中心编码和宽度编码。

(2)生成初始化种群；

(3)个体解码，构造RBF神经网络隐含层；

(4)递推最小二乘法确定权值；

(5)每次迭代由输入训练样本形成的协方差矩阵递推求得权值的精确解。定义误差目标函数为

E (n) = \frac{1}{2} Σ_{k = 1}^{n} λ^{n - k} Σ_{i = 1}^{M} {(d_{i} - y_{i})}^{2} - - - (5 - 15)

式中λ为遗忘因子，y_i、d_i分别表示实际输出和期望输出。

(6)评价RBF神经网络性能，计算出种群中个体的适应值；

f = \frac{2 N}{(a + {be}^{\frac{M}{d n}}) Σ_{i = 1}^{N} {(d_{i} - y_{i})}^{2}} - - - (5 - 16)

上式中，N为样本数量，M为隐含层节点个数，n为神经网络输入节点个数，y_i是第i个输入样本对应的网络的输出，d_i为期望输出，a、b和d为常数。

(7)判定终止条件。如果满足条件则终止，否则继续下一步；

(8)根据个体适应值选择个体作为父代。

本发明采用基于适应值比例的选择操作，个体i被选择的概率P_i＝f_i/∑f_j，其中f_i为个体i的适应值，∑f_j为种群个体适应值的总和。

(9)父代进行交叉、变异，产生新个体，父代和新个体形成新的种群。

(10)转步骤(3)继续执行。

2、MRPGA优化RBF预测模型

云计算系统安全风险预测模型是基于AHP学习算法和RBF算法相结合进行建模的。本发明用MRPGA对RBF预测模型进行优化，之所以如此是因为RBF学习算法存在一定的缺点，如收敛速度慢，不容易收敛到全局最优解，相比之下遗传算法很好的解决全局寻优问题。所以把遗传算法与RBF学习算法相结合进行模型建立，而且并行遗传算法提高处理能力和实时性，克服RBF学习算法收敛慢和易局部收敛的缺陷，这样能够弥补遗传算法局部搜索能力的不足的问题。将这两种算法结合起来就成为了一种新的算法，即并行遗传神经网络。

怎样能够很好的将RBF学习算法和并行遗传算法结合起来使用，是并行遗传神经网络的实施的关键所在。该云计算系统安全风险预测模型提出了一种MRPGA遗传神经网络算法，具体来说就是每一代隐含层的输出通过实施遗传操作，将最优个体选择出来保存到下一代，同时用RBF学习算法进行学习，最后输出层输出结果。将动态学习率改进策略使用到RBF学习法当中，一方面展现了系统的非线性，另一方面通过MRPGA遗传算法的学习对权值进行优化，使运算速度大大的提高了。

采用并行遗传算法优化RBF神经网络权值的具体过程如下:

算法1 GA的伪代码如下：

遗传神经网络算法流程图如图8所示。

四、实验

1、实验环境

本发明参考“国家高性能实验室”(National Center forHigh-Performance Computing，NCHC)Hadoop环境。实验环境配置如表2所示。Hadoop的软件版本是hadoop-0.20.0。

表2实验中Hadoop的硬件环境

在本发明的实验中，所采用的网络访问数据是WS-DREAM数据集和KDD99。其中WS-DREAM数据集用于模拟对云计算系统进行Web服务正常访问，KDD99用于模拟攻击，根据对云计算系统的虚拟机进行CPU、内存、OS、磁盘IO、通信等多种虚拟化设备的监测和采集，计算各个指标的风险预测值，综合各节点的统计数据，进行整个云计算系统的整体风险估值。云计算系统可采用Hadoop进行模拟云数据并行处理服务，虚拟机采用KVM。

2、实验数据预处理

本发明采用WS-DREAM对云计算中的Web服务主机进行访问模拟，采用KDD99模拟入侵行为，由于不同量纲和单位的数值型属性，在计算对象之间的距离时，需要把不同的度量单位统一成相同的度量单位。不同的概念属性拥有不同的含义，要把全部的属性都转换成某个特定的度量单位是不可能实现的。一般常用的方法是把所有属性的值映射到同一个区间里，称作正规化或标准化。标准化的方法是：令D是n个数据的集合：x_i属于D，x_ij是x_i第j个属性的值，x_ij标准化后的值是x_ij'，公式为：

{x_{i j}}^{'} = \frac{x_{i j} - a_{j}}{b_{j} - a_{j}} - - - (5 - 17)

上式中标准化的方法是用原始值减去值域的最小值，在除以值域区间。其中，a_j是x_i中的最小值，b_j是x_i中的最大值，标准化后，a_j的值就为0，b_j的值就为1，x_i就转换为[0.1]之间的值，标准化后的数据就可以应用到风险预测当中。

3、数据特征选择

一条数据的每个属性所占的权重是不同的，对数据的结果也有着不同的影响，有些属性比较重要，而有些属性则无足轻重，因此，特征的选择是一个比较重要的问题。选择那些对数据有较大影响的特征属性，可以提高预测速度和效率。在本发明中，采用Chi-square方法来进行特征选择，Chi-square方法避免了复杂的矩阵运算，不用考虑多个变量之间的关系，因此减少了异常检测的时间。该方法减少了计算并且提高了系统的性能，采用该方法无需根据训练集的改变而调节特征阈值的大小，对分类效果的影响比较小，分类的准确率比较高，比较可靠。

假设i是第i个数据，j是第j个属性，n是数据总数，m是属性的总数。Chi-square特征提取方法步骤如下：

①输入一类数据，每一列是这类数据的第j个属性值得集合，求出该列的平均值；

{x^{'}}_{j} = Σ_{i = 1}^{n} x_{i j} / n - - - (5 - 18)

②利用下面的公式计算每一列属性值的Chi-aquare值，表示该属性的卡方值CS_j，

{CS}_{j} = Σ_{i = 1}^{n} {(x_{i j} - {x^{'}}_{j})}^{2} / {x^{'}}_{j} - - - (5 - 19)

③计算各个属性的影响权值因子eff_j

{eff}_{j} = {CS}_{j} / Σ_{j = 1}^{m} {CS}_{j} - - - (5 - 20)

在本发明中，选择Chi-aquare值不为零的属性作为特征属性，并在此基础上计算这些属性的影响权值因子。

4、实验结果

4.1 RBF预测模型

从AHP层次分析模型的结果集中随机选出120条数据作为样本训练数据，1000条作为测试样本。数据集以虚拟机指标P的数据为例，图9是虚拟机指标P各个参数的取值情况，其中各列参数分别代表的是CPU使用、内存使用、WebServer的CPU占有率、WebServer的内存占有率、I/O读取字节、I/O写入字节的取值。

在Matlab中，使用RBF神经网络根据训练输入数据和训练输出数据来训练网络，网络训练好之后输入测试数据，得到相应的结果，将该结果和测试目标输出相比较，得到风险预测评估数值。将测试样本输入训练好的网络，得到的预测输出和实际输出结果如图10所示。其中，图10(a)为虚拟机性能指标P所对应的RBF₁的预测结果曲线与AHP的风险值作为目标值曲线的拟合结果。图10(b)为虚拟机时间指标T所对应的RBF₂的预测结果曲线与AHP的风险值作为目标值曲线的拟合结果。图10(c)为报警日志指标A所对应的RBF₃的预测结果曲线与AHP的风险值作为目标值曲线的拟合结果。图10(d)为LSA指标R所对应的RBF₄的预测结果曲线与AHP的风险值作为目标值曲线的拟合结果。图中一条曲线表示的是由目标值(由AHP层次分析法得出)，另一条曲线表示的是由RBF预测模型得到的预测值。纵坐标表示的是风险值。从图中可以看出RBF预测模型具有良好的预测效果。但在部分数据点存在一定范围的偏离，说明直接RBF时如果没有经过其他方法优化，起预测的跟随性还有改进空间。

4.2 GA优化RBF预测模型

本实验主要是用GA对RBF预测模型进行优化，数据集与(1)中的实验相同。根据经验，适应值函数公式(5-16)的系数分别取a＝0.95，b＝0.05，d＝3，训练网络隐节点个数为16。遗传算法中，种群规模设为100，交叉概率为0.65，变异概率为0.005，选择适当的参数偏置变异区间。经过50代左右后，RBF的隐含层基函数中心的最优值稳定下来，使RBF的预测误差稳定小于阈值。

工具采用Matlab，使用GA的RBF神经网络根据训练输入数据和训练输出数据来训练网络，网络训练好之后输入测试数据，得到相应的结果，将该结果和测试目标输出相比较，得到风险预测评估数值。将测试样本输入训练好的网络，得到的预测输出和实际输出结果如图11所示。(1)图11(1)为虚拟机性能指标P所对应的经GA优化后的RBF₁的预测结果曲线拟合结果。(2)图11(2)为虚拟机时间指标T所对应的经GA优化后的RBF₂的预测结果曲线拟合结果。(3)图11(3)为报警日志指标A所对应的经GA优化后的RBF₃的预测结果曲线拟合结果。(4)图11(4)为LSA指标R所对应的经GA优化后的RBF₄的预测结果曲线拟合结果。图中的其中两条曲线所表示的意义与图11(1)中相同，另外一条曲线则表示的是经MRPGA优化后的预测值。纵坐标表示的是风险值。

4.3综合风险预测值的实验结果

随后，本发明根据AHP的综合指标权重矩阵，计算四个指标的汇聚后的整体指标，权重配置将LSA风险识别度比重提高，而降低了具有较大不确定性的性能指标比重。结果如图12所示。从实验结果看来，由于引入权重矩阵，降低了性能指标P对综合指标的影响，其对风险预测值表述的不确定性降低，从而总体指标看RBF有更好的预测效果。并经过GA算法优化后，起预测性能有一定程度的提高，几个明显的预测偏离点得以改进。

将上述四组指标综合后，用AHP判断矩阵计算的综合指标代表了该节点的风险预测总值。与采用训练后的RBF进行指标预测的结果对比，相较于AHP综合风险值而言，RBF输出的风险值更具有线性化、稳定化的特点，符合了其径向基函数的数学特点，特别是在云计算节点中由于用户访问行为的动态性和不确定性，传统仅采用AHP方法将会出现较为剧烈的输出震荡。使系统的服务选择调度机制无法稳定的进行处理。

其原因主要在于，虚拟机的原始数据采用，采取的是瞬间快照数据，大量的短时间的非线性数据在时间上不具有连续性，呈现较大的跳变特点。而RBF预测输出其实更具有宏观的风险代表性。为后续的整体风险评估提供较为稳定的输入。

针对GA的RBF神经网络和MRPGA的RBF神经网络并行处理性能进行比较，发现MRPGA的并行处理大大提高了GA的处理效率，提高了响应时间。具体平均响应时间如图13所示。

GA_AHP-RBF综代表功能综合评估加权的云计算中KVM设备的总体风险预测准确率，GA_AHP-RBF预代表预测数值，GA_AHP-RBF实代表实际数值。

GA_AHP-RBF综＝GA_AHP-RBF预/GA_AHP-RBF实

MRPGA_AHP-RBF综代表功能综合评估加权的云计算中KVM设备的总体风险预测准确率，MRPGA_AHP-RBF预代表预测数值，MRPGA_AHP-RBF实代表实际数值。

MRPGA_AHP-RBF综＝MRPGA_AHP-RBF预/MRPGA_AHP-RBF实

比较MRPGA_AHP-RBF综和GA_AHP-RBF综，发现MRPGA方法除了比GA方法时间大幅度提高外，风险预测的准确率也有所提高。实际应用中，可以根据系统虚拟机节点的可用资源和评测规模，采用不同的GA算法优化RBF隐含层中心函数。

按照功能综合风险评定加权系数可以对其进行AHP-RBF风险预测值的综合评定，对预测值和实际值将进行对比，总体上，AHP-RBF风险预测值和实际值相近，可以用来评估预测值。

本发明采用RBF神经网络根据历史数据和当前评估状态，进行云计算的不确定性风险预测，为云计算系统的风险预测提供保障。本发明对比研究RBF神经网络的各类学习方法，对比了的不同RBF神经网络在不确定性推理、分类和预测方面的差异。本发明采用并行遗传算法对RBF的核函数进行并行化，通过RBF核函数的学习和优化，用多个节点实现快速的实时评估。

根据对云计算系统的虚拟机进行CPU、内存、磁盘IO、通信等多种设备的实时采集，综合事件日志统计和风险识别要素，产生带有四个主要参数指标的层次化结构定义，进行单个虚拟机节点的风险值预测。系统可通过虚拟机池调度，临时调用MapReduce资源进行RBF核函数的MRPGA并行处理服务，虚拟机采用KVM。总体上，预测值和实际值相近，可以用来评估预测值。基于MRPGA的RBF神经网络风险预测性能大大提高。

尽管结合优选实施方案具体展示和介绍了本发明，但所属领域的技术人员应该明白，在不脱离所附权利要求书所限定的本发明的精神和范围内，在形式上和细节上可以对本发明做出各种变化，均为本发明的保护范围。

Claims

1.一种基于AHP-RBF的分布式大数据系统风险预测方法，包括如下步骤：

步骤11：划分递阶层次结构，其包括三层，目标层、准则层和方案层；

步骤12：建立两两比较判断矩阵，判断矩阵是针对某一层的某要素而言的，表示该要素与处于相同层的其它要素之间的相对优越程度；首先以第一层的要素为标准，将第二层次的要素和其进行两两比较，依据评定尺度对其相对重要度进行确定，构造判断矩阵；

步骤13：通过判断矩阵来计算被比较元素的相对权重值，将该层各种要素和上一层相比排出优劣顺序，也即权重值；权重值通过各判断矩阵计算而得，计算权重值时，首先计算出判断矩阵的特征向量W，再通过归一化处理的方法，计算出权重；

步骤2：用RBF神经网络实现AHP的风险指标的预测；RBF神经网络包含3层：第一层是输入层，由信号源节点组成；第二层为隐含层，该层所含的神经元数目是由具体问题而定的；第三层为输出层，主要是对输入模式做出响应；其中，RBF神经网络的隐含层的传输函数采用高斯函数作为基函数，基函数表示为：

T_{i} (x) = e^{- | | x - c_{i} | |^{2} / 2 δ_{i}^{2}} i = 1, 2, ..., m;

在式中，||x-c_i||表示x与c_i之间的欧式距离，T_i(x)表示第i个隐含层节点的输出，x是n维的输入向量，m是隐含层神经元个数，c_i是基函数中心，σ_i是第i个隐含层节点的基宽度；隐含层的每个神经元节点都有一个径向基函数中心向量c_i，该向量和输入样本x具有相同的维数，c_i＝[c_i1,c_i2,...,c_im]^T,i＝1,2,...m，隐含层有m个神经元，则有m个这样的中心；RBF神经网络的输出层是隐含层节点输出的线性组合，输出表达式为：

Y_{k} = Σ_{i = 1}^{m} ω_{i k} T_{i} (x);

ω_i是第i个隐含层节点到输出层节点的权值，p是输出层神经元个数；在RBF神经网络中，隐含层节点的输出代表着输入样本X离开隐含层节点的径向基函数中心C_i的程度；

步骤3：采用MRPGA算法对RBF神经网络的隐含层优化，实现RBF神经网络对云计算虚拟机的单点风险预测；首先采用混合递阶遗传算法训练RBF神经网络，其将递阶遗传算法与递推最小二乘法相结合，利用递阶遗传算法确定RBF神经网络的结构、隐含层节点的中心和宽度，同时用递推最小二乘法对隐含层和输出层之间的连接权值进行构造。

2.根据权利要求1所述的基于AHP-RBF的分布式大数据系统风险预测方法，其特征在于：所述步骤1中，AHP中具有四个风险指标，虚拟机性能指标P、虚拟机时间指标T、报警日志指标A和LSA风险识别指标R；其包括如下过程：首先建立两两比较判断矩阵，对于虚拟机性能指标P，首先构造其相对应参数的判断矩阵PD：

P D = [\begin{matrix} 1 & 2 & 5 & 7 & 3 & 3 \\ 1 / 2 & 1 & 3 & 5 & 2 & 2 \\ 1 / 5 & 1 / 3 & 1 & 2 & 1 & 1 \\ 1 / 7 & 1 / 3 & 1 / 2 & 1 & 1 / 2 & 1 / 2 \\ 1 / 3 & 1 / 2 & 1 & 2 & 1 & 1 \\ 1 / 3 & 1 / 2 & 1 & 2 & 1 & 1 \end{matrix}];

W_p＝(0.391，0.2357，0.0968，0.0525，0.1118，0.1118)^T；

对于虚拟机时间指标T，构造其相对应参数的判断矩阵TD：

T D = [\begin{matrix} 1 & 5 & 5 & 6 \\ 1 / 5 & 1 & 1 & 2 \\ 1 / 5 & 1 & 1 & 2 \\ 1 / 6 & 1 / 2 & 1 / 2 & 1 \end{matrix}];

W_d＝(0.6293.0.1440，0.1440，0.0828)^T；

对于报警日志指标A，构造其相对应参数的判断矩阵AD，

A D = [\begin{matrix} 1 & 1 & 1 / 2 & 1 / 5 & 1 / 7 \\ 1 & 1 & 1 / 2 & 1 / 5 & 1 / 7 \\ 2 & 2 & 1 & 1 / 3 & 1 / 5 \\ 5 & 5 & 3 & 1 & 1 / 2 \\ 7 & 7 & 5 & 2 & 1 \end{matrix}];

W_a＝(0.0601，0.0601，0.1080，0.2889，0.4829)^T；

针对LSA风险识别指标R，构造对应参数的判断矩阵：

R D = [\begin{matrix} 1 & 3 & 7 & 5 \\ 1 / 3 & 1 & 5 & 3 \\ 1 / 7 & 1 / 5 & 1 & 1 / 3 \\ 1 / 5 & 1 / 3 & 3 & 1 \end{matrix}];

W_R＝(0.5579,0.2633,0.0569,0.1219)^T；

在P、T、A、R四个指标获得后，汇聚为总指标RiskA：

T R i s k = [\begin{matrix} 1 & 1 & 1 / 3 & 1 / 5 \\ 1 & 1 & 1 / 3 & 1 / 5 \\ 3 & 3 & 1 & 1 / 3 \\ 5 & 5 & 3 & 1 \end{matrix}];

计算P、T、A、R汇聚的权重矩阵为：

W_Risk＝(0.0965，0.0965，0.2516，0.6549)^T；

S_risk＝ΣV_i；

3.根据权利要求1所述的基于AHP-RBF的分布式大数据系统风险预测方法，其特征在于：步骤3中，采用混合递阶遗传算法训练RBF神经网络，其包括如下步骤：

步骤(1)：编码阶段，参数基因采用实数编码，每个基因用一个实数代表，控制基因仍然采用二进制编码，每个二进制位对应一个隐含层节点的中心编码和宽度编码；

步骤(2)：生成初始化种群；

步骤(3)：个体解码，构造RBF神经网络隐含层；

步骤(4)：递推最小二乘法确定权值；

步骤(5)：每次迭代由输入训练样本形成的协方差矩阵递推求得权值的精确解，定义误差目标函数为：

E (n) = \frac{1}{2} Σ_{k = 1}^{n} λ^{n - k} Σ_{i = 1}^{M} {(d_{i} - y_{i})}^{2};

式中λ为遗忘因子，y_i、d_i分别表示实际输出和期望输出；

逼近误差精度目标函数由误差平方和来表示，网络复杂度由隐含层节点个数来表示，采用的适应值函数为

f = \frac{2 N}{(a + {be}^{\frac{M}{d n}}) Σ_{i = 1}^{N} {(d_{i} - y_{i})}^{2}};

步骤(7)：判定终止条件，如果满足条件则终止，否则继续下一步；

步骤(8)：根据个体适应值选择个体作为父代；

步骤(10)：转步骤(3)继续执行。

4.根据权利要求3所述的基于AHP-RBF的分布式大数据系统风险预测方法，其特征在于：步骤(8)中，个体i被选择的概率为P_i＝f_i/Σf_j，其中f_i为个体i的适应值，Σf_j为种群个体适应值的总和。