CN112667591A

CN112667591A - 一种基于海量日志的数据中心任务干扰预测方法

Info

Publication number: CN112667591A
Application number: CN202110036506.8A
Authority: CN
Inventors: 梁毅; 梁岩德; 于泽群
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2021-01-12
Filing date: 2021-01-12
Publication date: 2021-04-16

Abstract

本发明公开了一种基于海量日志的数据中心任务干扰预测方法，分为五个步骤：初始化、日志任务分类、任务干扰分布矩阵构建、任务干扰预测模型构建、任务干扰预测。本发明针对批处理任务，提取了海量日志中与任务干扰相关的特征属性集，基于所提取的特征属性集使用聚类的方法将负载任务进行分类，并根据任务类间混合运行的时间序列关系，利用卷积神经网络构建任务干扰预测模型。本发明设计基于卷积神经网络的训练构建方法，可预测出在任意混合运行模式下，任务受到的性能干扰程度，对任务的部署调度有较强的指导意义。

Description

一种基于海量日志的数据中心任务干扰预测方法

技术领域

本发明属于数据中心智能管理领域，具体涉及数据中心批处理任务干扰预测分析。

背景技术

数据中心是互联网及相关产业的信息化基础设施。随着大数据、人工智能等应用的蓬勃发展，数据中心负载呈现种类多样化、部署环境复杂化、资源需求差异化的变化趋势。批处理应用是数据中心的一类主要负载，以静态数据集并行化处理为主要特征。随着批处理负载部署模式从独立部署向混合部署的转变，任务干扰已成为影响批处理负载运行效率的新因素。任务干扰是指混合部署于同一物理服务器上的多个批处理任务由于资源竞争导致执行时间延长。随着数据中心规模扩大、负载多样化，任务干扰日益普遍。因此，准确预测批处理负载间的任务干扰是优化数据中心任务调度、提升负载执行效率的必要前提。

既有数据中心任务干扰分析工作存在如下缺陷：1)多采用白盒特征分析方法，特征采集开销大，难以扩展至多任务间干扰分析。该类工作通常预先指定一类或多类任务间可能竞争的资源，通过采集任务在独立运行和混合运行下指定资源的使用特征，确定任务间的干扰程度。然而，随着数据中心负载种类和数量的急剧增加，该类方法暴露出特征采集开销大，无法穷尽所有混合部署任务组合的弊端，目前仅集中于负载间两两干扰分析。2)简单地将多任务间的干扰定义为两-两任务干扰的线性累加。对于多于两个任务混合部署的场景，既有工作简单地将任一任务受到的干扰定义为其与各个混合部署任务两两干扰分析结果的线性累加，并未考虑资源竞争度对任务运行性能下降的非线性影响，难以准确量化任务性能受到干扰的程度。

数据中心日志是对负载任务执行行为、事件和资源使用特征信息的记录，可为任务干扰分析预测提供较为丰富的直接或间接信息。充分利用数据中心海量日志对数据中心反复运行的批处理负载进行任务干扰预测分析，可大幅降低任务干扰分析中特征采集开销，并获取多任务混合部署下任务运行性能的直接信息。本发明旨在充分利用既有公开的数据中心海量日志，利用机器学习的方法对粗颗粒度的日志信息进行分析，挖掘较为精确的任务干扰信息。

发明内容

基于以上问题，本发明提出了一种基于海量日志的数据中心任务干扰预测方法。对于任一任务，本发明以批处理负载中与其运行相同计算逻辑且执行时间最短的任务为基准，将该任务受到干扰的程度定义为任务执行时间与最短执行时间的比例。

本发明针对批处理任务，提取了海量日志中与任务干扰相关的特征属性集，基于所提取的特征属性集使用聚类的方法将负载任务进行分类，并根据任务类间混合运行的时间序列关系，利用卷积神经网络构建任务干扰预测模型。通过本发明所构建的模型，可预测出在任意混合运行模式下，任务受到的性能干扰程度，对任务的部署调度有较强的指导意义。

本发明所提出的数据中心任务干扰预测方法主要由五个步骤组成：初始化、日志任务分类、任务干扰分布矩阵构建、任务干扰预测模型构建、任务干扰预测。在本方法中，主要有以下重要参数：方差分析的属性选择边界标准差std(standard deviation)，聚类方法的核心对象数量minp(min points)，聚类方法的邻域半径α，卷积神经网络的学习率step，卷积神经网络的训练批尺寸b，卷积神经网络的训练次数β。std一般取0～10，minp一般取2～15，α一般取0.1～5，step一般取0.0001～0.1，b一般取1～18，β一般取5～100。

上述方法按以下步骤实现：

1.初始化

使用日志中的任务信息来进行数据的初始化，令日志中包含的属性全集为A＝{a₁，a₁…a_F}，与任务相关的属性子集为

日志中包含的负载集合为W＝{w₁，w₂…w_Z}；W中的负载w_i由多个任务集组成，可表示为w_i＝{WT_i1，WT_i2…WT_iH}，每一个任务集由多个执行逻辑相同的并行任务组成，可表示为WT_ij＝{wt_ij1，wt_ij2…wt_ijV，}，1≤i≤Z，1≤j≤H，任务的执行时间集合Time_ij＝{time_ij1，time_ij2…time_ijV}，其中time_ijo为任务wt_ijo的执行时间，1≤o≤V，Time_ij中最短执行时间记为MinTime_ij，定义inter_ijo＝time_ijo/MinTime_ij，1≤o≤V，代表任务wt_ijo的受干扰程度。

2.日志任务分类

2.1)遍历任务相关的属性子集T，选取任务的干扰特征属性，构建任务的干扰特征属性集合；

2.1.1)从资源使用特征，执行时间，资源申请规模，任务优先级四个方面选取可表示任务受干扰程度的属性子集S＝{s₁，s₁，...s_N}。

2.1.2)对日志中每一个任务集WT_ij，1≤i≤Z，1≤j≤H，计算其与任务干扰强相关的属性集WT_S_ij。计算方法如下，遍历S中的每一个属性s_u，1≤u≤N，通过标准差分析，判断s_u在不同的混合运行环境下的稳定性。定义WT_ij在属性s_u上的标准差为q_iju，使用公式(1)计算q_iju，其中，v_ijou表示在WT_ij中第o个实例在属性s_u上的取值，

为WT_ij中所有v_ijou的平均值，1≤o≤V。若标准差超过std，说明该属性在不同环境下有波动，能够表现一定的干扰情况，故选择该属性，否则放弃选择该属性；

2.1.3)对于所有WT_S_ij集合取交集，得到能够代表任务间干扰特征属性共性的属性集合C＝{c₁，c₂…c_B}。

2.2)对于C＝{c₁，c₂…c_B}，定义权重列向量P＝[p₁，p₂…p_B]^T，为每一个属性赋予权重。

2.3)基于DBSCAN聚类方法，对于任务集合进行分类

2.3.1)对日志中的所有任务wt_ijo，1≤i≤Z，1≤j≤H，1≤o≤V使用DBSCAN聚类算法进行分类，选取wt_ijo在干扰属性集合C上相对应的特征值列向量G_ijo＝[G_ijo1，G_ijo2…G_ijoB]^T作为聚类所需的特征值，使用权重列向量P作为G_ijo中特征值的权重，定义任务类别总集合Type，初始化

定义存放待筛选任务的候选集合N，初始化

对于所有wt_ijo初始化其访问标签visited_ijo为false，设置聚类核心对象数量为minp，邻域半径为α，α邻域代表着与任务wt_ijo距离小于等于α的所有任务所在的域，按照公式(2)计算两个任务wt_ijo与wt_i′j′o′间的距离。

2.3.2)选择一个visited_ijo标签为false的任务wt_ijo，并检查wt_ijo的α邻域是否至少包含minp个对象。如果不是，则wt_ijo被标记为噪声点，否则为wt_ijo创建一个新的任务类集合WType_u，初始化

将wt_ijo添加到N中。

2.3.3)对于N中的任务wt_ijo′，若wt_ijo′的visited_ijo为false，则将其标记为true，并检查wt_ijθ′的α邻域，如果wt_ijo′的α邻域中至少包含minp个任务，则将其α邻域中所有的任务都添加到N中，并将wt_ijo′添加到WType_u中，最后将wt_ijo′从N中删除，若wt_ijo′的visited_ijo为true，则直接将wt_ijo′从N中删除。

2.3.4)重复步骤2.3.3直到N为空，将聚类完成的WType_u添加到Type中。

2.3.5)重复步骤2.3.2～2.3.4，直到所有任务都被访问。得到任务的总聚类数E＝|Type|。

3.任务干扰分布矩阵构建

3.1)对于任意任务wt_ijo，1≤i≤Z，1≤j≤H，1≤o≤V，定义其任务干扰分布矩阵形式如下：

矩阵的行数为L，列数为Y，矩阵任意元素m_ua，1≤u≤L，1≤a≤Y，表示在任务运行的第i个单位时间内，与该任务混合运行的第j类任务的数量。该矩阵的列数为日志中的任务类型总数E，每一列j对应一个不同的任务类WType_a。该矩阵的行数为日志中该任务所属任务类中任务最大运行时间(以单位时间计)，得到构建好的矩阵模型：

3.2)对于每一个wt_ijo，根据任务实际执行情况，完成干扰分布矩阵构建。

3.2.1)建立任务wt_ijo的干扰分布矩阵M_ijo，初始化矩阵为全零矩阵，遍历任务的运行时间，按序统计第u个单位时间内与该任务混合运行的第a类任务的数量，设置m_ua的值为该数量。

3.2.2)重复步骤3.2.1直到对所有任务建立干扰分布矩阵。

4.任务干扰预测模型构建

4.1)本发明为每一类任务集WType_i构建相对应的卷积神经网络干扰预测模型CNN_i。模型的输入是大小为L×Y的任务干扰分布矩阵，输出为WType_i类任务在该并行情况下的受干扰程度，设置卷积神经网络的学习率为step，训练的批尺寸为b。本发明使用三层卷积层和三层全连接层作为CNN的设计结构，其中卷积层的卷积核尺寸为3x3的卷积核，卷积步长为2，卷积层的输出通道数分别为{4，8，16}，全连接层的输入层神经元数量Neu为卷积层输出的特征值数量，隐藏层的神经元数量是Neu/2。损失函数选择公式3的交叉熵函数作为损失函数，其中fl为CNN网络的层数，x⁽ⁱ⁾为样本输入，y⁽ⁱ⁾样本标签，f(x⁽ⁱ⁾)为卷积网络预测的结果值，Weight＝{we₁，we₂…we_k}为卷积神经网络的参数矩阵集合，优化算法选择公式3的随机梯度优化算法SGD。

4.2)选择任务类wtype_u，构建与之对应的卷积神经网络CNN_u。

4.2.1)将该类所有任务wt_ijo作为样本数据，每次训练输入b个样本，wt_ijo的干扰分布矩阵M_ijo和受干扰程度inter_ijo作为模型的输入值和标签值，通过前向传播算法和随机梯度优化算法更新模型参数进行训练，重复输入直到该类任务全部训练完毕，1≤i≤Z，1≤j≤H，1≤o≤V，1≤u≤E。

4.3)重复4.2.1的过程β次，对模型进行多轮参数更新，在参数更新结束后该类任务训练完成，完成对应的卷积神经网络的构建。

4.4)重复步骤4.2，4.3，对所有任务类wtype_u都训练相对应的卷积神经网络CNN_u。

5.任务干扰预测。

5.1)对于任意任务wt_ijo，输入其任务类别wtype_u以及需要预测的干扰矩阵M_ijo，选择wtype_u对应的卷积神经网络模型CNN_u，进行预测，输出预测出的干扰程度inter_ijo，代表wtypeu类型的任务在M_ijo并行情况下受到的干扰。

5.2)改变输入的任务类别以及选择的卷积神经网络模型，重复步骤5.1，即可得到任务集合中所有任务的受干扰情况。

附图说明

图1为预测模型依附的集群平台。

图2为本发明的架构图。

图3为本发明的流程图。

图4为使用DBSCAN聚类方法对任务集合进行分类的流程图。

图5为任务干扰分布矩阵构建的流程图。

图6为任务干扰预测模型构建的流程图。

具体实施方式

下面结合附图和具体实施方式对本发明加以说明。

本发明所提出的任务间干扰预测方法搭建在多台相互连接的服务器上，通过编写相应的功能实现。图1是本方法搭建的平台的部署图。该平台由多个计算机服务器(平台节点)组成，服务器间通过网络连接，分布式的存储数据和执行任务。平台节点分为两类：包括一个管理节点和多个计算节点。本发明方法所搭建的平台包含三类核心软件模块：资源管理模块、数据接收模块、数据处理模块。其中，资源管理模块负责为数据接收模块分配所需的日志数据，并收集管理数据结果，仅在管理节点上部署；数据接收模块负责拉取所需的日志数据，需要在每个计算节点上部署；数据处理模块负责运行相应算法，将结果返回到资源管理模块，该模块在计算节点上部署。上述三类软件模块都在平台启动时部署运行。

图2为本发明方法的架构图，本发明以数据中心非侵入式日志为输入，首先对日志中记录的任务选取干扰相关的属性项并进行分类，对于分类后的每一个任务生成相对应的并行任务分布矩阵。基于生成的矩阵集合，对每一类任务构建卷积神经网络模型，通过对模型进行训练，最终得到每一类任务的干扰预测模型，将任意任务样本的任务类型以及其对应的干扰分布矩阵输入到对应任务类的干扰预测模型中，即可预测出该任务的受干扰程度。

下面结合图2发明内容总流程说明本发明方法的具体实施方法。在本实施方法中，基本参数设置如下：方差分析的属性选择边界标准差std＝1.5，聚类方法的核心对象数量minp＝10，聚类方法的邻域半径α＝2.5，卷积神经网络的学习率step＝0.01，卷积神经网络的训练批尺寸b＝8，卷积神经网络的训练次数β＝50。

具体实施方法可分为以下步骤：

1.初始化

本发明使用的日志中共有49个日志属性，包含的属性全集为A＝{a₁，a₁…a₄₉}，与任务相关的属性有23个，任务属性子集T＝{t₁，t₂…t₂₃}，日志中包含的负载共有4201014个，负载集合为W＝{w₁，w₂…w_4201014}；以负载w₁为例，负载w₁由12个任务集组成，w₁＝{WT₁₁，WT₁₂…WT1₁₂}，以任务集WT₁₂为例，任务集WT₁₂中有35个执行逻辑相同而执行环境可能不相同的任务，即WT₁₂＝{wt₁₂₁，wt₁₂₂…wt₁₂₃₅，}，每一个任务相对应的执行时间Time₁₂＝{31，38...54}，WT₁₂任务集中任务的最短执行时间MinTime₁₂＝29，由发明内容步骤1中的干扰程度计算方法得到任务的受干扰程度集合{1，1.06...2.24}。

2.日志任务分类

2.1.1)人工选择能表现任务受干扰程度的特征集合S＝{cpuavg，cpumax，memavg，memmax，exetime}，其中cpuavg是任务执行期间的平均cpu使用情况，cpumax是任务执行期间的最大cpu使用情况，memavg是任务执行期间的平均内存使用情况，memmax是任务执行期间的最大内存使用情况，exetime是任务从开始执行到任务结束的持续时间。

2.1.2)对日志中每一个任务集WT_ij，计算其与任务干扰强相关的属性集WT_S_ij。以WT₁₂为例，通过发明内容2.1.2的方法构建其与任务干扰强相关的属性集WT_S1₂，通过方差分析，得到每一个属性的方差分别为2.325，3.431，0.213，0.256，1.618，由于方差分析的属性选择边界值std为1.5，故WT_S₁₂＝{cpuavg，cpumax，exetime}。

2.1.3)对于所有WT_S_ij集合取交集，得到特征属性集合C＝{cpuavg，cpumax，exetime}。

2.2)对于特征属性集合C＝{cpuavg，cpumax，exetime}，定义属性值权重列向量P＝[0.6，0.4，0.8]^T，为每一个属性赋予权重。

2.3)基于DBSCAN聚类方法，对于任务集合进行分类。

2.3.1)对所有wt_ijo进行初始化，以wt₁₂₂为例，选取wt₁₂₂在干扰属性集合C上相对应的特征值列向量G₁₂₂＝[63，156，38]^T作为聚类所需的特征值，使用权重列向量P作为G₁₂₂中特征值的权重，定义任务类别总集合Type，初始化

定义存放待筛选任务的候选集合N，初始化

初始化wt₁₂₂访问标签visited₁₂₂为false，设置聚类核心对象数量为10，邻域半径为2.5，α邻域包含与任务wt₁₂₂距离小于等于2.5的所有任务，以计算wt₁₂₂，wt₁₂₁两个任务间的距离为例，其中wt₁₂₁在干扰属性集合C上相对应的特征值列向量G₁₂₂＝[51，142，31]^T，按照发明内容步骤2.3.1的公式(2)计算两个任务wt₁₂₂与wt₁₂₁间的距离D(wt₁₂₂，wt₁₂₁)＝2.009。

2.3.2)将负载集合中所有任务作为聚类对象，使用发明内容2.3.2～2.3.5的方法对全部任务进行分类，共得到15类任务，即分类后的任务总集合Type＝{WType₁，WType₂…WType₁₅}，任务总类别数E＝15。

3.任务干扰分布矩阵构建

3.1)对于每一个wt_ijo，根据任务实际执行情况，完成干扰分布矩阵构建。以任务wt₁₂₂为例，wt₁₂₂所属的任务类中最长的任务执行时间为65秒，任务总类别数E＝15，故wt₁₂₂对应的干扰分布矩阵M₁₂₂的行数L＝65，列数Y＝15。按照步骤3.1的方法定义其任务干扰分布矩阵形式如下：

3.2.1)选择一个未生成干扰分布矩阵的任务wt_ijo构建干扰分布矩阵，以任务wt₁₂₂为例，通过发明内容步骤3.2.1的方法建立任务wt₁₂₂的干扰分布矩阵

3.2.2)重复步骤3.2.1直到对所有任务建立干扰分布矩阵。

4.任务干扰预测模型构建

4.1)构建卷积神经网络基本结构，设置卷积神经网络的学习率为0.01，训练的批尺寸为8。卷积层的卷积核尺寸为3×3的卷积核，卷积步长为2，卷积层的输出通道数分别为{4，8，16}，全连接层的输入层神经元数量为300，隐藏层的神经元数量是150。

4.2)选择任务类wtype_u，构建与之对应的卷积神经网络CNN_u。

4.2.1)以任务类wtype₂为例，无放回的从任务类wtype₂中抽取8个任务{wt₂₁₃，wt₂₁₅…wt₆₄₉}作为一次训练的样本，样本的输入为8个40×15的干扰分布矩阵，样本标签值为8个任务的受干扰程度{1.12,1.05...2.11}，通过发明内容4.2的步骤进行训练，重复输入直到wtype₂中的任务全部训练完毕。

4.3)重复4.2.1的过程50次，对模型进行多轮参数更新，在参数更新结束后该类任务训练完成，完成CNN₂的构建。

4.4)重复步骤4.2，4.3，对所有任务类训练出相对应的卷积神经网络。

5.任务干扰预测

根据本发明所提出的大规模日志的数据中心任务干扰预测方法，发明人进行了相关的性能测试。测试结果表明本发明方法可适用于具有数据体量庞大的非侵入型日志阿里巴巴数据中心日志。采用本方法可较准确地预测数据中心日志中的任务间的干扰程度。

性能测试将本方法与现存的机器学习预测方法：GBDT梯度提升树预测、多层感知机预测进行比较，以体现本发明提出的方法在干扰程度预测准确率上的优势。性能测试运行于由1台计算机，硬件配置包括：Intel E5-2660@2.20GHz的CPU、64GB DDR4 RAM。

准确率(ACC)常被用于评价一个预测模型是否有效，它的计算公式如公式(5)所示，其中TP为预测正确的数量，FP为预测错误的数量。

性能测试选择阿里巴巴日志中通过聚类方法分类后的五个任务类，分别为任务类集合中任务最长执行时间为10秒的TY10，任务最长执行时间为40秒的TY40任务最长执行时间为80秒的TY80，任务最长执行时间为100秒的TY100，任务最长执行时间为200秒的TY200。性能测试的结果如表1所示。

表1性能测试结果(ACC)

由表1的数据可以得出，在五组实验中，相对于五种对比方法，本发明方法的ACC平均提高了44.2％，ACC最大提高了78.3％。GBDT梯度提升树预测和多层感知机预测的在不同数据集上准确率差异较大，而本发明方法的准确率则保持稳定。性能测试结果证明相对于两种对比方法，本发明方法的干扰程度预测方法的准确率更高，且更为稳定。

最后应说明的是：以上示例仅用以说明本发明而并非限制本发明所描述的技术，而一切不脱离发明的精神和范围的技术方案及其改进，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于海量日志的数据中心任务干扰预测方法，其特征在于：由五个步骤组成：初始化、日志任务分类、任务干扰分布矩阵构建、任务干扰预测模型构建、任务干扰预测；

方差分析的属性选择边界标准差std，聚类方法的核心对象数量minp，聚类方法的邻域半径α，卷积神经网络的学习率step，正则化系数λ，卷积神经网络的训练批尺寸b，卷积神经网络的训练次数β；std取1.5，minp取10，α取2.5，step取0.01，λ取0.03，b取8，β取50；

执行本方法前，将所需日志数据读入并转化为可处理的形式；

(1)初始化：

使用日志中的任务信息来进行数据的初始化，令日志中包含的属性全集为A＝{a₁，a₁…a_F}，与任务相关的属性子集为T＝{t₁，t₂…t_S}，

日志中包含的负载集合为W＝{w₁，w₂…w_Z}；W中的第i个负载wi由多个任务集组成，可表示为w_i＝{WT_i1，WT_i2…WT_iH}，每一个任务集由多个执行逻辑相同的并行任务组成，第j个任务集可表示为WT_ij＝{wt_ij1，wt_ij2…wt_ijV，}，1≤i≤Z，1≤j≤H，任务的执行时间集合Time_ij＝{time_ij1，time_ij2…time_ijV}，其中time_ijo为第o个任务wt_ijo的执行时间，1≤o≤V，Time_ij中最短执行时间记为MinTime_ij，定义inter_ijo＝time_ijo/MinTime_ij，1≤o≤V，代表任务wt_ijo的受干扰程度；

(2)日志任务分类：

2.1.1)从资源使用特征，执行时间，资源申请规模，任务优先级四个方面选取可表示任务受干扰程度的属性子集S＝{s₁，s₁，...s_N}；

2.1.2)对日志中每一个任务集WT_ij，1≤i≤Z，1≤j≤H，计算其与任务干扰强相关的属性集WT_S_ij；计算方法如下，遍历S中的每一个属性，记第u个属性为s_u，1≤u≤N，通过标准差分析，判断su在不同的混合运行环境下的稳定性；定义WT_ij在属性s_u上的标准差为q_iju，使用公式(1)计算q_iju，其中，v_ijou表示在WT_ij中第o个实例在属性s_u上的取值，

为WT_ij中所有v_ijou的平均值，1≤o≤V；若q_iju大于std，说明该属性在不同环境下有明显波动，能够表现一定的干扰情况，故选择该属性，否则放弃选择该属性；

2.1.3)对于所有WT_S_ij集合取交集，得到能够代表任务间干扰特征属性共性的属性集合C＝{c₁，c₂…c_B}；

2.2)对于C＝{c₁，c₂…c_B}，定义权重列向量P＝[p₁，p₂…p_B]^T，为每一个属性赋予权重；

2.3)基于DBSCAN聚类方法，对于任务集合进行分类；

定义存放待筛选任务的候选集合N，初始化

对于所有wt_ijo初始化其访问标签visited_ijo为false，设置聚类核心对象数量为minp，邻域半径为α，α邻域代表着与任务wt_ijo距离小于α的所有任务所在的域，按照公式(2)计算两个任务wt_ijo与wt_i′j′o′间的距离，其中，wt_i′j′o′为日志中另外一个任务，满足1≤i′≤Z，1≤j′≤H，1≤o′≤V.

2.3.2)选择一个visited_ijo标签为false的任务wt_ijo，并检查wt_ijo的α邻域是否至少包含minp个对象；如果不是，则wt_ijo被标记为噪声点，否则为wt_ijo创建一个新的任务类集合WTypeu，初始化

将wt_ijo添加到N中；

2.3.3)对于N中的任务wt_ijo′，若wt_ijo′的visited_ijo为false，则将其标记为true，并检查wt_ijo′的α邻域，如果wt_ijo′的α邻域中至少包含minp个任务，则将其α邻域中所有的任务都添加到N中，并将wt_ijo′添加到WType_u中，最后将wt_ijo′从N中删除，若wt_ijo′的visited_ijo为true，则直接将wt_ijo′从N中删除；

2.3.4)重复步骤2.3.3)直到N为空，将聚类完成的WType_u添加到Type中；

2.3.5)重复步骤2.3.2)～2.3.4)，直到所有任务都被访问；得到任务的总聚类数E＝|Type|；

(3)任务干扰分布矩阵构建：

3.1)对于任意任务wt_ijo，1≤i≤Z，1≤j≤H，1≤o≤V，定义其任务干扰分布矩阵M_ijo形式如下：

矩阵的行数为L，列数为Y，矩阵任意元素m_ua，1≤u≤L，1≤a≤Y，表示在任务运行的第u个单位时间内，与该任务混合运行的第a类任务的数量，其中以一秒作为一个单位时间；该矩阵的列数Y为日志中的任务类型总数E，每一列j对应一个不同的任务类WType_a；该矩阵的行数L为日志中该任务所属任务类中所有任务的最大运行时间的秒数；

3.2)对于每一个wt_ijo，根据wt_ijo所属任务类的任务最长运行时间秒数以及任务类型总数E初始化创建任务wt_ijo的干扰分布矩阵M_iio；对于M_ijo的每一个元素m_ua，若在任务执行的第u秒，存在并行的a类任务，则设置mua为任务执行到第u秒时并行的a类任务的数量，若不存在并行的a类任务，则设置m_ua为0；

(4)任务干扰预测模型构建：

4.1)使用由三层卷积层和三层全连接层组成的卷积神经网络CNN模型作为干扰预测模型的设计结构，模型的输入是大小为L×Y的任务干扰分布矩阵，输出为任务在该并行情况下的受干扰程度，设置卷积神经网络的学习率为step，训练的批尺寸为b；卷积层的卷积核尺寸为3x3的卷积核，卷积步长为2，卷积层的输出通道数分别为{4，8，16}，全连接层由输入层，隐藏层，输出层组成，输入层的神经元数量Neu为卷积层输出的特征值数量，隐藏层的神经元数量是Neu/2，输出层接受前两层的参数输出干扰预测值；对于一个批尺寸大小为b的输入批中所有样本输入x和样本标签y训练时的损失值计算，选择公式3的交叉熵函数J作为损失值计算函数，其中fl＝5为CNN网络的层数，x^(j)，y^(j)为输入批中的第j个样本输入和样本标签，1≤j≤b，f(x^(j))为卷积网络预测的结果值，Weight＝{we₁，we₂…we_fl}为卷积神经网络的参数矩阵集合，||we_k||²代表Weight中第k个参数矩阵的L2正则化，其含义是we_k参数矩阵中每一个参数的平方和，1≤k≤fl，λ为正则化系数；每一个参数矩阵we_k中的第o个参数we_ko的参数优化方法选择公式4的随机梯度优化算法，其中

代表参数we_ko对应的梯度，step为卷积神经网络的学习率，we_ko′代表更新后的梯度；

4.2)为每一类任务集WType_u，构建相对应的卷积神经网络干扰预测模型CNN_u，其中u代表第u类任务，1≤u≤E，E代表任务类总数；

4.2.1)训练构建好的卷积神经网络CNN_u，将该类所有任务wt_ijo作为样本数据，其中wt_ijo代表日志中第i个负载中第j个任务集的第个o任务，每次训练输入b个样本，wt_ijo的干扰分布矩阵M_ijo和受干扰程度inter_ijo作为模型的输入值和标签值，通过前向传播算法和随机梯度优化算法更新模型参数进行训练，重复输入直到该类任务全部训练完毕；

4.3)重复4.2.1)的过程β次，对模型进行多轮参数更新，在参数更新结束后该类任务训练完成，完成对应的卷积神经网络的构建；

4.4)重复步骤4.2)～4.3)，对所有任务类wtype_u都训练相对应的卷积神经网络CNN_u；

(5)任务干扰预测：

5.1)对于任意任务wt_ijo，输入其任务类别wtype_u以及需要预测的干扰矩阵M_ijo，使用wtype_u对应的卷积神经网络模型CNN_u进行预测，输出预测出的干扰程度inter_ijo，即wtype_u类型的任务在M_ijo并行情况下受到的干扰；

5.2)改变输入的任务类别，使用该类别任务对应的卷积神经网络模型作为干扰预测模型，重复步骤5.1)，得到任务集合中所有任务的受干扰情况。