CN112667591A - 一种基于海量日志的数据中心任务干扰预测方法 - Google Patents

一种基于海量日志的数据中心任务干扰预测方法 Download PDF

Info

Publication number
CN112667591A
CN112667591A CN202110036506.8A CN202110036506A CN112667591A CN 112667591 A CN112667591 A CN 112667591A CN 202110036506 A CN202110036506 A CN 202110036506A CN 112667591 A CN112667591 A CN 112667591A
Authority
CN
China
Prior art keywords
task
ijo
equal
interference
tasks
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110036506.8A
Other languages
English (en)
Inventor
梁毅
梁岩德
于泽群
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN202110036506.8A priority Critical patent/CN112667591A/zh
Publication of CN112667591A publication Critical patent/CN112667591A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于海量日志的数据中心任务干扰预测方法,分为五个步骤:初始化、日志任务分类、任务干扰分布矩阵构建、任务干扰预测模型构建、任务干扰预测。本发明针对批处理任务,提取了海量日志中与任务干扰相关的特征属性集,基于所提取的特征属性集使用聚类的方法将负载任务进行分类,并根据任务类间混合运行的时间序列关系,利用卷积神经网络构建任务干扰预测模型。本发明设计基于卷积神经网络的训练构建方法,可预测出在任意混合运行模式下,任务受到的性能干扰程度,对任务的部署调度有较强的指导意义。

Description

一种基于海量日志的数据中心任务干扰预测方法
技术领域
本发明属于数据中心智能管理领域,具体涉及数据中心批处理任务干扰预测分析。
背景技术
数据中心是互联网及相关产业的信息化基础设施。随着大数据、人工智能等应用的蓬勃发展,数据中心负载呈现种类多样化、部署环境复杂化、资源需求差异化的变化趋势。批处理应用是数据中心的一类主要负载,以静态数据集并行化处理为主要特征。随着批处理负载部署模式从独立部署向混合部署的转变,任务干扰已成为影响批处理负载运行效率的新因素。任务干扰是指混合部署于同一物理服务器上的多个批处理任务由于资源竞争导致执行时间延长。随着数据中心规模扩大、负载多样化,任务干扰日益普遍。因此,准确预测批处理负载间的任务干扰是优化数据中心任务调度、提升负载执行效率的必要前提。
既有数据中心任务干扰分析工作存在如下缺陷:1)多采用白盒特征分析方法,特征采集开销大,难以扩展至多任务间干扰分析。该类工作通常预先指定一类或多类任务间可能竞争的资源,通过采集任务在独立运行和混合运行下指定资源的使用特征,确定任务间的干扰程度。然而,随着数据中心负载种类和数量的急剧增加,该类方法暴露出特征采集开销大,无法穷尽所有混合部署任务组合的弊端,目前仅集中于负载间两两干扰分析。2)简单地将多任务间的干扰定义为两-两任务干扰的线性累加。对于多于两个任务混合部署的场景,既有工作简单地将任一任务受到的干扰定义为其与各个混合部署任务两两干扰分析结果的线性累加,并未考虑资源竞争度对任务运行性能下降的非线性影响,难以准确量化任务性能受到干扰的程度。
数据中心日志是对负载任务执行行为、事件和资源使用特征信息的记录,可为任务干扰分析预测提供较为丰富的直接或间接信息。充分利用数据中心海量日志对数据中心反复运行的批处理负载进行任务干扰预测分析,可大幅降低任务干扰分析中特征采集开销,并获取多任务混合部署下任务运行性能的直接信息。本发明旨在充分利用既有公开的数据中心海量日志,利用机器学习的方法对粗颗粒度的日志信息进行分析,挖掘较为精确的任务干扰信息。
发明内容
基于以上问题,本发明提出了一种基于海量日志的数据中心任务干扰预测方法。对于任一任务,本发明以批处理负载中与其运行相同计算逻辑且执行时间最短的任务为基准,将该任务受到干扰的程度定义为任务执行时间与最短执行时间的比例。
本发明针对批处理任务,提取了海量日志中与任务干扰相关的特征属性集,基于所提取的特征属性集使用聚类的方法将负载任务进行分类,并根据任务类间混合运行的时间序列关系,利用卷积神经网络构建任务干扰预测模型。通过本发明所构建的模型,可预测出在任意混合运行模式下,任务受到的性能干扰程度,对任务的部署调度有较强的指导意义。
本发明所提出的数据中心任务干扰预测方法主要由五个步骤组成:初始化、日志任务分类、任务干扰分布矩阵构建、任务干扰预测模型构建、任务干扰预测。在本方法中,主要有以下重要参数:方差分析的属性选择边界标准差std(standard deviation),聚类方法的核心对象数量minp(min points),聚类方法的邻域半径α,卷积神经网络的学习率step,卷积神经网络的训练批尺寸b,卷积神经网络的训练次数β。std一般取0~10,minp一般取2~15,α一般取0.1~5,step一般取0.0001~0.1,b一般取1~18,β一般取5~100。
上述方法按以下步骤实现:
1.初始化
使用日志中的任务信息来进行数据的初始化,令日志中包含的属性全集为A={a1,a1…aF},与任务相关的属性子集为
Figure BDA0002894551340000021
日志中包含的负载集合为W={w1,w2…wZ};W中的负载wi由多个任务集组成,可表示为wi={WTi1,WTi2…WTiH},每一个任务集由多个执行逻辑相同的并行任务组成,可表示为WTij={wtij1,wtij2…wtijV,},1≤i≤Z,1≤j≤H,任务的执行时间集合Timeij={timeij1,timeij2…timeijV},其中timeijo为任务wtijo的执行时间,1≤o≤V,Timeij中最短执行时间记为MinTimeij,定义interijo=timeijo/MinTimeij,1≤o≤V,代表任务wtijo的受干扰程度。
2.日志任务分类
2.1)遍历任务相关的属性子集T,选取任务的干扰特征属性,构建任务的干扰特征属性集合;
2.1.1)从资源使用特征,执行时间,资源申请规模,任务优先级四个方面选取可表示任务受干扰程度的属性子集S={s1,s1,...sN}。
2.1.2)对日志中每一个任务集WTij,1≤i≤Z,1≤j≤H,计算其与任务干扰强相关的属性集WT_Sij。计算方法如下,遍历S中的每一个属性su,1≤u≤N,通过标准差分析,判断su在不同的混合运行环境下的稳定性。定义WTij在属性su上的标准差为qiju,使用公式(1)计算qiju,其中,vijou表示在WTij中第o个实例在属性su上的取值,
Figure BDA0002894551340000031
为WTij中所有vijou的平均值,1≤o≤V。若标准差超过std,说明该属性在不同环境下有波动,能够表现一定的干扰情况,故选择该属性,否则放弃选择该属性;
Figure BDA0002894551340000032
2.1.3)对于所有WT_Sij集合取交集,得到能够代表任务间干扰特征属性共性的属性集合C={c1,c2…cB}。
2.2)对于C={c1,c2…cB},定义权重列向量P=[p1,p2…pB]T,为每一个属性赋予权重。
2.3)基于DBSCAN聚类方法,对于任务集合进行分类
2.3.1)对日志中的所有任务wtijo,1≤i≤Z,1≤j≤H,1≤o≤V使用DBSCAN聚类算法进行分类,选取wtijo在干扰属性集合C上相对应的特征值列向量Gijo=[Gijo1,Gijo2…GijoB]T作为聚类所需的特征值,使用权重列向量P作为Gijo中特征值的权重,定义任务类别总集合Type,初始化
Figure BDA0002894551340000033
定义存放待筛选任务的候选集合N,初始化
Figure BDA0002894551340000034
对于所有wtijo初始化其访问标签visitedijo为false,设置聚类核心对象数量为minp,邻域半径为α,α邻域代表着与任务wtijo距离小于等于α的所有任务所在的域,按照公式(2)计算两个任务wtijo与wti′j′o′间的距离。
Figure BDA0002894551340000035
2.3.2)选择一个visitedijo标签为false的任务wtijo,并检查wtijo的α邻域是否至少包含minp个对象。如果不是,则wtijo被标记为噪声点,否则为wtijo创建一个新的任务类集合WTypeu,初始化
Figure BDA0002894551340000042
将wtijo添加到N中。
2.3.3)对于N中的任务wtijo′,若wtijo′的visitedijo为false,则将其标记为true,并检查wtijθ′的α邻域,如果wtijo′的α邻域中至少包含minp个任务,则将其α邻域中所有的任务都添加到N中,并将wtijo′添加到WTypeu中,最后将wtijo′从N中删除,若wtijo′的visitedijo为true,则直接将wtijo′从N中删除。
2.3.4)重复步骤2.3.3直到N为空,将聚类完成的WTypeu添加到Type中。
2.3.5)重复步骤2.3.2~2.3.4,直到所有任务都被访问。得到任务的总聚类数E=|Type|。
3.任务干扰分布矩阵构建
3.1)对于任意任务wtijo,1≤i≤Z,1≤j≤H,1≤o≤V,定义其任务干扰分布矩阵形式如下:
矩阵的行数为L,列数为Y,矩阵任意元素mua,1≤u≤L,1≤a≤Y,表示在任务运行的第i个单位时间内,与该任务混合运行的第j类任务的数量。该矩阵的列数为日志中的任务类型总数E,每一列j对应一个不同的任务类WTypea。该矩阵的行数为日志中该任务所属任务类中任务最大运行时间(以单位时间计),得到构建好的矩阵模型:
Figure BDA0002894551340000041
3.2)对于每一个wtijo,根据任务实际执行情况,完成干扰分布矩阵构建。
3.2.1)建立任务wtijo的干扰分布矩阵Mijo,初始化矩阵为全零矩阵,遍历任务的运行时间,按序统计第u个单位时间内与该任务混合运行的第a类任务的数量,设置mua的值为该数量。
3.2.2)重复步骤3.2.1直到对所有任务建立干扰分布矩阵。
4.任务干扰预测模型构建
4.1)本发明为每一类任务集WTypei构建相对应的卷积神经网络干扰预测模型CNNi。模型的输入是大小为L×Y的任务干扰分布矩阵,输出为WTypei类任务在该并行情况下的受干扰程度,设置卷积神经网络的学习率为step,训练的批尺寸为b。本发明使用三层卷积层和三层全连接层作为CNN的设计结构,其中卷积层的卷积核尺寸为3x3的卷积核,卷积步长为2,卷积层的输出通道数分别为{4,8,16},全连接层的输入层神经元数量Neu为卷积层输出的特征值数量,隐藏层的神经元数量是Neu/2。损失函数选择公式3的交叉熵函数作为损失函数,其中fl为CNN网络的层数,x(i)为样本输入,y(i)样本标签,f(x(i))为卷积网络预测的结果值,Weight={we1,we2…wek}为卷积神经网络的参数矩阵集合,优化算法选择公式3的随机梯度优化算法SGD。
Figure BDA0002894551340000051
Figure BDA0002894551340000052
4.2)选择任务类wtypeu,构建与之对应的卷积神经网络CNNu
4.2.1)将该类所有任务wtijo作为样本数据,每次训练输入b个样本,wtijo的干扰分布矩阵Mijo和受干扰程度interijo作为模型的输入值和标签值,通过前向传播算法和随机梯度优化算法更新模型参数进行训练,重复输入直到该类任务全部训练完毕,1≤i≤Z,1≤j≤H,1≤o≤V,1≤u≤E。
4.3)重复4.2.1的过程β次,对模型进行多轮参数更新,在参数更新结束后该类任务训练完成,完成对应的卷积神经网络的构建。
4.4)重复步骤4.2,4.3,对所有任务类wtypeu都训练相对应的卷积神经网络CNNu
5.任务干扰预测。
5.1)对于任意任务wtijo,输入其任务类别wtypeu以及需要预测的干扰矩阵Mijo,选择wtypeu对应的卷积神经网络模型CNNu,进行预测,输出预测出的干扰程度interijo,代表wtypeu类型的任务在Mijo并行情况下受到的干扰。
5.2)改变输入的任务类别以及选择的卷积神经网络模型,重复步骤5.1,即可得到任务集合中所有任务的受干扰情况。
附图说明
图1为预测模型依附的集群平台。
图2为本发明的架构图。
图3为本发明的流程图。
图4为使用DBSCAN聚类方法对任务集合进行分类的流程图。
图5为任务干扰分布矩阵构建的流程图。
图6为任务干扰预测模型构建的流程图。
具体实施方式
下面结合附图和具体实施方式对本发明加以说明。
本发明所提出的任务间干扰预测方法搭建在多台相互连接的服务器上,通过编写相应的功能实现。图1是本方法搭建的平台的部署图。该平台由多个计算机服务器(平台节点)组成,服务器间通过网络连接,分布式的存储数据和执行任务。平台节点分为两类:包括一个管理节点和多个计算节点。本发明方法所搭建的平台包含三类核心软件模块:资源管理模块、数据接收模块、数据处理模块。其中,资源管理模块负责为数据接收模块分配所需的日志数据,并收集管理数据结果,仅在管理节点上部署;数据接收模块负责拉取所需的日志数据,需要在每个计算节点上部署;数据处理模块负责运行相应算法,将结果返回到资源管理模块,该模块在计算节点上部署。上述三类软件模块都在平台启动时部署运行。
图2为本发明方法的架构图,本发明以数据中心非侵入式日志为输入,首先对日志中记录的任务选取干扰相关的属性项并进行分类,对于分类后的每一个任务生成相对应的并行任务分布矩阵。基于生成的矩阵集合,对每一类任务构建卷积神经网络模型,通过对模型进行训练,最终得到每一类任务的干扰预测模型,将任意任务样本的任务类型以及其对应的干扰分布矩阵输入到对应任务类的干扰预测模型中,即可预测出该任务的受干扰程度。
下面结合图2发明内容总流程说明本发明方法的具体实施方法。在本实施方法中,基本参数设置如下:方差分析的属性选择边界标准差std=1.5,聚类方法的核心对象数量minp=10,聚类方法的邻域半径α=2.5,卷积神经网络的学习率step=0.01,卷积神经网络的训练批尺寸b=8,卷积神经网络的训练次数β=50。
具体实施方法可分为以下步骤:
1.初始化
本发明使用的日志中共有49个日志属性,包含的属性全集为A={a1,a1…a49},与任务相关的属性有23个,任务属性子集T={t1,t2…t23},日志中包含的负载共有4201014个,负载集合为W={w1,w2…w4201014};以负载w1为例,负载w1由12个任务集组成,w1={WT11,WT12…WT112},以任务集WT12为例,任务集WT12中有35个执行逻辑相同而执行环境可能不相同的任务,即WT12={wt121,wt122…wt1235,},每一个任务相对应的执行时间Time12={31,38...54},WT12任务集中任务的最短执行时间MinTime12=29,由发明内容步骤1中的干扰程度计算方法得到任务的受干扰程度集合{1,1.06...2.24}。
2.日志任务分类
2.1)遍历任务相关的属性子集T,选取任务的干扰特征属性,构建任务的干扰特征属性集合;
2.1.1)人工选择能表现任务受干扰程度的特征集合S={cpuavg,cpumax,memavg,memmax,exetime},其中cpuavg是任务执行期间的平均cpu使用情况,cpumax是任务执行期间的最大cpu使用情况,memavg是任务执行期间的平均内存使用情况,memmax是任务执行期间的最大内存使用情况,exetime是任务从开始执行到任务结束的持续时间。
2.1.2)对日志中每一个任务集WTij,计算其与任务干扰强相关的属性集WT_Sij。以WT12为例,通过发明内容2.1.2的方法构建其与任务干扰强相关的属性集WT_S12,通过方差分析,得到每一个属性的方差分别为2.325,3.431,0.213,0.256,1.618,由于方差分析的属性选择边界值std为1.5,故WT_S12={cpuavg,cpumax,exetime}。
2.1.3)对于所有WT_Sij集合取交集,得到特征属性集合C={cpuavg,cpumax,exetime}。
2.2)对于特征属性集合C={cpuavg,cpumax,exetime},定义属性值权重列向量P=[0.6,0.4,0.8]T,为每一个属性赋予权重。
2.3)基于DBSCAN聚类方法,对于任务集合进行分类。
2.3.1)对所有wtijo进行初始化,以wt122为例,选取wt122在干扰属性集合C上相对应的特征值列向量G122=[63,156,38]T作为聚类所需的特征值,使用权重列向量P作为G122中特征值的权重,定义任务类别总集合Type,初始化
Figure BDA0002894551340000071
定义存放待筛选任务的候选集合N,初始化
Figure BDA0002894551340000072
初始化wt122访问标签visited122为false,设置聚类核心对象数量为10,邻域半径为2.5,α邻域包含与任务wt122距离小于等于2.5的所有任务,以计算wt122,wt121两个任务间的距离为例,其中wt121在干扰属性集合C上相对应的特征值列向量G122=[51,142,31]T,按照发明内容步骤2.3.1的公式(2)计算两个任务wt122与wt121间的距离D(wt122,wt121)=2.009。
2.3.2)将负载集合中所有任务作为聚类对象,使用发明内容2.3.2~2.3.5的方法对全部任务进行分类,共得到15类任务,即分类后的任务总集合Type={WType1,WType2…WType15},任务总类别数E=15。
3.任务干扰分布矩阵构建
3.1)对于每一个wtijo,根据任务实际执行情况,完成干扰分布矩阵构建。以任务wt122为例,wt122所属的任务类中最长的任务执行时间为65秒,任务总类别数E=15,故wt122对应的干扰分布矩阵M122的行数L=65,列数Y=15。按照步骤3.1的方法定义其任务干扰分布矩阵形式如下:
Figure BDA0002894551340000081
3.2)对于每一个wtijo,根据任务实际执行情况,完成干扰分布矩阵构建。
3.2.1)选择一个未生成干扰分布矩阵的任务wtijo构建干扰分布矩阵,以任务wt122为例,通过发明内容步骤3.2.1的方法建立任务wt122的干扰分布矩阵
Figure BDA0002894551340000082
3.2.2)重复步骤3.2.1直到对所有任务建立干扰分布矩阵。
4.任务干扰预测模型构建
4.1)构建卷积神经网络基本结构,设置卷积神经网络的学习率为0.01,训练的批尺寸为8。卷积层的卷积核尺寸为3×3的卷积核,卷积步长为2,卷积层的输出通道数分别为{4,8,16},全连接层的输入层神经元数量为300,隐藏层的神经元数量是150。
4.2)选择任务类wtypeu,构建与之对应的卷积神经网络CNNu
4.2.1)以任务类wtype2为例,无放回的从任务类wtype2中抽取8个任务{wt213,wt215…wt649}作为一次训练的样本,样本的输入为8个40×15的干扰分布矩阵,样本标签值为8个任务的受干扰程度{1.12,1.05...2.11},通过发明内容4.2的步骤进行训练,重复输入直到wtype2中的任务全部训练完毕。
4.3)重复4.2.1的过程50次,对模型进行多轮参数更新,在参数更新结束后该类任务训练完成,完成CNN2的构建。
4.4)重复步骤4.2,4.3,对所有任务类训练出相对应的卷积神经网络。
5.任务干扰预测
根据本发明所提出的大规模日志的数据中心任务干扰预测方法,发明人进行了相关的性能测试。测试结果表明本发明方法可适用于具有数据体量庞大的非侵入型日志阿里巴巴数据中心日志。采用本方法可较准确地预测数据中心日志中的任务间的干扰程度。
性能测试将本方法与现存的机器学习预测方法:GBDT梯度提升树预测、多层感知机预测进行比较,以体现本发明提出的方法在干扰程度预测准确率上的优势。性能测试运行于由1台计算机,硬件配置包括:Intel E5-2660@2.20GHz的CPU、64GB DDR4 RAM。
准确率(ACC)常被用于评价一个预测模型是否有效,它的计算公式如公式(5)所示,其中TP为预测正确的数量,FP为预测错误的数量。
Figure BDA0002894551340000091
性能测试选择阿里巴巴日志中通过聚类方法分类后的五个任务类,分别为任务类集合中任务最长执行时间为10秒的TY10,任务最长执行时间为40秒的TY40任务最长执行时间为80秒的TY80,任务最长执行时间为100秒的TY100,任务最长执行时间为200秒的TY200。性能测试的结果如表1所示。
表1性能测试结果(ACC)
Figure BDA0002894551340000092
由表1的数据可以得出,在五组实验中,相对于五种对比方法,本发明方法的ACC平均提高了44.2%,ACC最大提高了78.3%。GBDT梯度提升树预测和多层感知机预测的在不同数据集上准确率差异较大,而本发明方法的准确率则保持稳定。性能测试结果证明相对于两种对比方法,本发明方法的干扰程度预测方法的准确率更高,且更为稳定。
最后应说明的是:以上示例仅用以说明本发明而并非限制本发明所描述的技术,而一切不脱离发明的精神和范围的技术方案及其改进,其均应涵盖在本发明的权利要求范围当中。

Claims (1)

1.一种基于海量日志的数据中心任务干扰预测方法,其特征在于:由五个步骤组成:初始化、日志任务分类、任务干扰分布矩阵构建、任务干扰预测模型构建、任务干扰预测;
方差分析的属性选择边界标准差std,聚类方法的核心对象数量minp,聚类方法的邻域半径α,卷积神经网络的学习率step,正则化系数λ,卷积神经网络的训练批尺寸b,卷积神经网络的训练次数β;std取1.5,minp取10,α取2.5,step取0.01,λ取0.03,b取8,β取50;
执行本方法前,将所需日志数据读入并转化为可处理的形式;
(1)初始化:
使用日志中的任务信息来进行数据的初始化,令日志中包含的属性全集为A={a1,a1…aF},与任务相关的属性子集为T={t1,t2…tS},
Figure FDA0002894551330000011
日志中包含的负载集合为W={w1,w2…wZ};W中的第i个负载wi由多个任务集组成,可表示为wi={WTi1,WTi2…WTiH},每一个任务集由多个执行逻辑相同的并行任务组成,第j个任务集可表示为WTij={wtij1,wtij2…wtijV,},1≤i≤Z,1≤j≤H,任务的执行时间集合Timeij={timeij1,timeij2…timeijV},其中timeijo为第o个任务wtijo的执行时间,1≤o≤V,Timeij中最短执行时间记为MinTimeij,定义interijo=timeijo/MinTimeij,1≤o≤V,代表任务wtijo的受干扰程度;
(2)日志任务分类:
2.1)遍历任务相关的属性子集T,选取任务的干扰特征属性,构建任务的干扰特征属性集合;
2.1.1)从资源使用特征,执行时间,资源申请规模,任务优先级四个方面选取可表示任务受干扰程度的属性子集S={s1,s1,...sN};
2.1.2)对日志中每一个任务集WTij,1≤i≤Z,1≤j≤H,计算其与任务干扰强相关的属性集WT_Sij;计算方法如下,遍历S中的每一个属性,记第u个属性为su,1≤u≤N,通过标准差分析,判断su在不同的混合运行环境下的稳定性;定义WTij在属性su上的标准差为qiju,使用公式(1)计算qiju,其中,vijou表示在WTij中第o个实例在属性su上的取值,
Figure FDA0002894551330000012
为WTij中所有vijou的平均值,1≤o≤V;若qiju大于std,说明该属性在不同环境下有明显波动,能够表现一定的干扰情况,故选择该属性,否则放弃选择该属性;
Figure FDA0002894551330000013
2.1.3)对于所有WT_Sij集合取交集,得到能够代表任务间干扰特征属性共性的属性集合C={c1,c2…cB};
2.2)对于C={c1,c2…cB},定义权重列向量P=[p1,p2…pB]T,为每一个属性赋予权重;
2.3)基于DBSCAN聚类方法,对于任务集合进行分类;
2.3.1)对日志中的所有任务wtijo,1≤i≤Z,1≤j≤H,1≤o≤V使用DBSCAN聚类算法进行分类,选取wtijo在干扰属性集合C上相对应的特征值列向量Gijo=[Gijo1,Gijo2…GijoB]T作为聚类所需的特征值,使用权重列向量P作为Gijo中特征值的权重,定义任务类别总集合Type,初始化
Figure FDA0002894551330000021
定义存放待筛选任务的候选集合N,初始化
Figure FDA0002894551330000022
对于所有wtijo初始化其访问标签visitedijo为false,设置聚类核心对象数量为minp,邻域半径为α,α邻域代表着与任务wtijo距离小于α的所有任务所在的域,按照公式(2)计算两个任务wtijo与wti′j′o′间的距离,其中,wti′j′o′为日志中另外一个任务,满足1≤i′≤Z,1≤j′≤H,1≤o′≤V.
Figure FDA0002894551330000023
2.3.2)选择一个visitedijo标签为false的任务wtijo,并检查wtijo的α邻域是否至少包含minp个对象;如果不是,则wtijo被标记为噪声点,否则为wtijo创建一个新的任务类集合WTypeu,初始化
Figure FDA0002894551330000024
将wtijo添加到N中;
2.3.3)对于N中的任务wtijo′,若wtijo′的visitedijo为false,则将其标记为true,并检查wtijo′的α邻域,如果wtijo′的α邻域中至少包含minp个任务,则将其α邻域中所有的任务都添加到N中,并将wtijo′添加到WTypeu中,最后将wtijo′从N中删除,若wtijo′的visitedijo为true,则直接将wtijo′从N中删除;
2.3.4)重复步骤2.3.3)直到N为空,将聚类完成的WTypeu添加到Type中;
2.3.5)重复步骤2.3.2)~2.3.4),直到所有任务都被访问;得到任务的总聚类数E=|Type|;
(3)任务干扰分布矩阵构建:
3.1)对于任意任务wtijo,1≤i≤Z,1≤j≤H,1≤o≤V,定义其任务干扰分布矩阵Mijo形式如下:
Figure FDA0002894551330000025
矩阵的行数为L,列数为Y,矩阵任意元素mua,1≤u≤L,1≤a≤Y,表示在任务运行的第u个单位时间内,与该任务混合运行的第a类任务的数量,其中以一秒作为一个单位时间;该矩阵的列数Y为日志中的任务类型总数E,每一列j对应一个不同的任务类WTypea;该矩阵的行数L为日志中该任务所属任务类中所有任务的最大运行时间的秒数;
3.2)对于每一个wtijo,根据wtijo所属任务类的任务最长运行时间秒数以及任务类型总数E初始化创建任务wtijo的干扰分布矩阵Miio;对于Mijo的每一个元素mua,若在任务执行的第u秒,存在并行的a类任务,则设置mua为任务执行到第u秒时并行的a类任务的数量,若不存在并行的a类任务,则设置mua为0;
(4)任务干扰预测模型构建:
4.1)使用由三层卷积层和三层全连接层组成的卷积神经网络CNN模型作为干扰预测模型的设计结构,模型的输入是大小为L×Y的任务干扰分布矩阵,输出为任务在该并行情况下的受干扰程度,设置卷积神经网络的学习率为step,训练的批尺寸为b;卷积层的卷积核尺寸为3x3的卷积核,卷积步长为2,卷积层的输出通道数分别为{4,8,16},全连接层由输入层,隐藏层,输出层组成,输入层的神经元数量Neu为卷积层输出的特征值数量,隐藏层的神经元数量是Neu/2,输出层接受前两层的参数输出干扰预测值;对于一个批尺寸大小为b的输入批中所有样本输入x和样本标签y训练时的损失值计算,选择公式3的交叉熵函数J作为损失值计算函数,其中fl=5为CNN网络的层数,x(j),y(j)为输入批中的第j个样本输入和样本标签,1≤j≤b,f(x(j))为卷积网络预测的结果值,Weight={we1,we2…wefl}为卷积神经网络的参数矩阵集合,||wek||2代表Weight中第k个参数矩阵的L2正则化,其含义是wek参数矩阵中每一个参数的平方和,1≤k≤fl,λ为正则化系数;每一个参数矩阵wek中的第o个参数weko的参数优化方法选择公式4的随机梯度优化算法,其中
Figure FDA0002894551330000031
代表参数weko对应的梯度,step为卷积神经网络的学习率,weko′代表更新后的梯度;
Figure FDA0002894551330000032
Figure FDA0002894551330000033
4.2)为每一类任务集WTypeu,构建相对应的卷积神经网络干扰预测模型CNNu,其中u代表第u类任务,1≤u≤E,E代表任务类总数;
4.2.1)训练构建好的卷积神经网络CNNu,将该类所有任务wtijo作为样本数据,其中wtijo代表日志中第i个负载中第j个任务集的第个o任务,每次训练输入b个样本,wtijo的干扰分布矩阵Mijo和受干扰程度interijo作为模型的输入值和标签值,通过前向传播算法和随机梯度优化算法更新模型参数进行训练,重复输入直到该类任务全部训练完毕;
4.3)重复4.2.1)的过程β次,对模型进行多轮参数更新,在参数更新结束后该类任务训练完成,完成对应的卷积神经网络的构建;
4.4)重复步骤4.2)~4.3),对所有任务类wtypeu都训练相对应的卷积神经网络CNNu
(5)任务干扰预测:
5.1)对于任意任务wtijo,输入其任务类别wtypeu以及需要预测的干扰矩阵Mijo,使用wtypeu对应的卷积神经网络模型CNNu进行预测,输出预测出的干扰程度interijo,即wtypeu类型的任务在Mijo并行情况下受到的干扰;
5.2)改变输入的任务类别,使用该类别任务对应的卷积神经网络模型作为干扰预测模型,重复步骤5.1),得到任务集合中所有任务的受干扰情况。
CN202110036506.8A 2021-01-12 2021-01-12 一种基于海量日志的数据中心任务干扰预测方法 Pending CN112667591A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110036506.8A CN112667591A (zh) 2021-01-12 2021-01-12 一种基于海量日志的数据中心任务干扰预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110036506.8A CN112667591A (zh) 2021-01-12 2021-01-12 一种基于海量日志的数据中心任务干扰预测方法

Publications (1)

Publication Number Publication Date
CN112667591A true CN112667591A (zh) 2021-04-16

Family

ID=75414499

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110036506.8A Pending CN112667591A (zh) 2021-01-12 2021-01-12 一种基于海量日志的数据中心任务干扰预测方法

Country Status (1)

Country Link
CN (1) CN112667591A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114462524A (zh) * 2022-01-19 2022-05-10 北京工业大学 一种面向数据中心批处理作业的聚类方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3506094A1 (fr) * 2017-12-30 2019-07-03 Bull Sas Procédé et système pour l'optimisation de l'ordonnancement de traitements par lot
CN111176817A (zh) * 2019-12-30 2020-05-19 哈尔滨工业大学 一种多核处理器上基于划分调度的dag实时任务间的干扰分析方法
CN111274036A (zh) * 2020-01-21 2020-06-12 南京大学 一种基于速度预测的深度学习任务的调度方法
CN111476367A (zh) * 2020-04-10 2020-07-31 电子科技大学 一种任务拆分式脉冲神经网络结构预测及网络抗干扰方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3506094A1 (fr) * 2017-12-30 2019-07-03 Bull Sas Procédé et système pour l'optimisation de l'ordonnancement de traitements par lot
CN111176817A (zh) * 2019-12-30 2020-05-19 哈尔滨工业大学 一种多核处理器上基于划分调度的dag实时任务间的干扰分析方法
CN111274036A (zh) * 2020-01-21 2020-06-12 南京大学 一种基于速度预测的深度学习任务的调度方法
CN111476367A (zh) * 2020-04-10 2020-07-31 电子科技大学 一种任务拆分式脉冲神经网络结构预测及网络抗干扰方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
潘逢山等: "基于混沌粒子群算法的项目调度干扰问题研究", 计算机应用研究, no. 09, pages 94 - 101 *
王济伟等: "混部数据中心负载特征及其任务调度优化分析", 计算机工程与科学, no. 01, pages 12 - 21 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114462524A (zh) * 2022-01-19 2022-05-10 北京工业大学 一种面向数据中心批处理作业的聚类方法

Similar Documents

Publication Publication Date Title
US11741361B2 (en) Machine learning-based network model building method and apparatus
Tran et al. A multivariate fuzzy time series resource forecast model for clouds using LSTM and data correlation analysis
US20220076150A1 (en) Method, apparatus and system for estimating causality among observed variables
US20190303762A1 (en) Methods of optimization of computational graphs of neural networks
WO2021190597A1 (zh) 一种神经网络模型的处理方法以及相关设备
US20200167659A1 (en) Device and method for training neural network
Edali et al. Exploring the behavior space of agent-based simulation models using random forest metamodels and sequential sampling
CN107908536B (zh) Cpu-gpu异构环境中对gpu应用的性能评估方法及系统
CN108345544A (zh) 一种基于复杂网络的软件缺陷分布影响因素分析方法
Kadkhodaei et al. Big data classification using heterogeneous ensemble classifiers in Apache Spark based on MapReduce paradigm
CN112420125A (zh) 分子属性预测方法、装置、智能设备和终端
CN116450486A (zh) 多元异构计算系统内节点的建模方法、装置、设备及介质
Li et al. Symbolic expression transformer: A computer vision approach for symbolic regression
Wen et al. MapReduce-based BP neural network classification of aquaculture water quality
CN112667591A (zh) 一种基于海量日志的数据中心任务干扰预测方法
Gothai et al. Map-Reduce based Distance Weighted k-Nearest Neighbor Machine Learning Algorithm for Big Data Applications
Martinez et al. Deep learning evolutionary optimization for regression of rotorcraft vibrational spectra
WO2022252694A1 (zh) 神经网络优化方法及其装置
CN115344386A (zh) 基于排序学习的云仿真计算资源预测方法、装置和设备
CN114780443A (zh) 微服务应用自动化测试方法、装置、电子设备及存储介质
Esteban et al. Parallel/distributed intelligent hyperparameters search for generative artificial neural networks
Kim et al. Cooperation between data modeling and simulation modeling for performance analysis of Hadoop
CN111949530A (zh) 测试结果的预测方法、装置、计算机设备及存储介质
CN112650770B (zh) 基于query workload分析的MySQL参数推荐方法
Kanagaraj et al. Methods for Predicting the Rise of the New Labels from a High-Dimensional Data Stream.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination