CN115859156A - 应用资源密集类型的分类方法、装置和计算机设备 - Google Patents

应用资源密集类型的分类方法、装置和计算机设备 Download PDF

Info

Publication number
CN115859156A
CN115859156A CN202211694877.6A CN202211694877A CN115859156A CN 115859156 A CN115859156 A CN 115859156A CN 202211694877 A CN202211694877 A CN 202211694877A CN 115859156 A CN115859156 A CN 115859156A
Authority
CN
China
Prior art keywords
target
resource
type
data
index
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211694877.6A
Other languages
English (en)
Inventor
彭博远
许振峰
李秀萍
沈震宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Industrial and Commercial Bank of China Ltd ICBC
Original Assignee
Industrial and Commercial Bank of China Ltd ICBC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Industrial and Commercial Bank of China Ltd ICBC filed Critical Industrial and Commercial Bank of China Ltd ICBC
Priority to CN202211694877.6A priority Critical patent/CN115859156A/zh
Publication of CN115859156A publication Critical patent/CN115859156A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及大数据技术领域,特别是涉及一种应用资源密集类型的分类方法、装置和计算机设备。所述方法包括:确定目标应用对应的至少一个目标节点,获取各所述目标节点的各资源类型指标对应的指标数据;根据各所述目标节点的各所述资源类型指标对应的所述指标数据,确定所述目标应用对应的数据向量;采用预训练的目标聚类模型对所述数据向量进行处理,得到所述目标应用对应的资源密集类型。采用本方法能够提高应用资源密集类型的分类速度和精度。

Description

应用资源密集类型的分类方法、装置和计算机设备
技术领域
本申请涉及大数据技术领域,特别是涉及一种应用资源密集类型的分类方法、装置和计算机设备。
背景技术
在大规模PAAS(Platform as a Service,平台级服务)管理平台集群部署架构下,应用按资源消耗情况往往可以划分为CPU(中央处理器,central processing unit)密集型,内存密集型,网络密集型、磁盘IO(Input Output,磁盘读写速率)密集型等资源密集型。
K8S(Kubernetes,一种开源平台)集群在对应用pod(部署单元)进行调度时,由于不考虑应用的资源密集型,可能会将同种资源密集型的应用pod同时调度到一个node(部署节点)上,导致出现资源瓶颈。为了避免上述情况发生,传统技术中一般是人工基于应用画像对每个应用的资源密集型进行分类,然后自定义调度器,实现pod调度时尽量均衡化。但应用画像与业务耦合性过高,缺乏普遍性,在每次对应用进行资源密集型分类时,都需要人为对训练数据、应用画像特征指标等进行干预,成本高,精度和速度低下。
可见,目前的分类方法由于需要人为干预,导致降低了应用的资源密集型分类的速度和精度。
发明内容
基于此,有必要针对上述技术问题,提供一种应用资源密集类型的分类方法、装置、计算机设备、计算机可读存储介质和计算机程序产品,以提高对应用进行资源密集类型分类的速度和精度。
第一方面,本申请提供了一种应用资源密集类型的分类方法。所述方法包括:
确定目标应用对应的至少一个目标节点,获取各所述目标节点的各资源类型指标对应的指标数据,所述各资源类型指标包括各资源密集类型对应的至少一个资源类型指标;
根据各所述目标节点的各所述资源类型指标对应的所述指标数据,确定所述目标应用对应的数据向量;
采用预训练的目标聚类模型对所述数据向量进行处理,得到所述目标应用对应的资源密集类型。
在其中一个实施例中,所述根据各所述目标节点的各所述资源类型指标对应的所述指标数据,确定所述目标应用对应的数据向量,包括:
针对任一所述目标节点,根据所述目标节点的各所述资源类型指标对应的所述指标数据,构建得到所述目标节点对应的资源类型指标向量;
对各所述目标节点对应的所述资源类型指标向量进行聚合处理,得到所述目标应用对应的数据向量。
在其中一个实施例中,所述对各所述目标节点对应的所述资源类型指标向量进行聚合处理,得到所述目标应用对应的数据向量,包括:
将各所述目标节点对应的所述资源类型指标向量聚合,得到所述目标应用对应的初始数据向量;
基于模型训练周期内预先采集的各应用的样本初始数据向量,对所述初始数据向量进行归一化处理,得到所述目标应用对应的数据向量。
在其中一个实施例中,所述采用预训练的目标聚类模型对所述数据向量进行处理,得到所述目标应用对应的资源密集类型,包括:
将所述数据向量输入预训练的目标聚类模型,得到所述目标应用对应的目标聚类簇标签;
根据所述目标聚类簇标签,以及各资源密集类型与各聚类簇标签的映射关系,确定所述目标应用对应的所述资源密集类型。
在其中一个实施例中,所述应用资源密集类型的分类方法还包括:
针对多个应用中的任一所述应用,确定所述应用对应的多个节点,获取各所述节点的各所述资源类型指标对应的样本指标数据;
根据各所述节点的各所述资源类型指标对应的所述样本指标数据,确定各所述应用对应的样本数据向量;
根据各所述应用对应的所述样本数据向量,对初始聚类算法进行训练,得到预训练的所述目标聚类模型,所述目标聚类模型用于预测所述应用对应的聚类簇标签。
在其中一个实施例中,所述应用资源密集类型的分类方法还包括:
获取各所述资源密集类型对应的标准类型向量,针对任一所述资源密集类型,在所述资源密集类型对应的标准类型向量中,所述资源密集类型对应的各所述资源类型指标对应的元素为1,其余元素为0;
将各所述标准类型向量输入所述目标聚类模型,得到各所述标准类型向量对应的聚类簇标签;
根据各所述标准类型向量对应的聚类簇标签及各所述标准类型向量对应的资源密集类型,建立各所述资源密集类型与各所述聚类簇标签的映射关系。
在其中一个实施例中,所述应用资源密集类型的分类方法还包括:
针对任一所述应用,根据预设采集周期,采集所述应用对应的各所述节点的各所述资源类型指标对应的指标数据,并将各所述指标数据存储至训练集中;
周期性采用所述训练集中的数据,对所述目标聚类模型进行迭代更新训练,得到训练后的目标聚类模型。
第二方面,本申请还提供了一种应用资源密集类型的分类装置。所述装置包括:
数据获取模块,用于确定目标应用对应的至少一个目标节点,获取各所述目标节点的各资源类型指标对应的指标数据,所述各资源类型指标包括各资源密集类型对应的至少一个资源类型指标;
向量确定模块,用于根据各所述目标节点的各所述资源类型指标对应的所述指标数据,确定所述目标应用对应的数据向量;
分类模块,用于采用预训练的目标聚类模型对所述数据向量进行处理,得到所述目标应用对应的资源密集类型。
在其中一个实施例中,所述向量确定模块,还用于针对任一所述目标节点,根据所述目标节点的各所述资源类型指标对应的所述指标数据,构建得到所述目标节点对应的资源类型指标向量;对各所述目标节点对应的所述资源类型指标向量进行聚合处理,得到所述目标应用对应的数据向量。
在其中一个实施例中,所述向量确定模块,还用于将各所述目标节点对应的所述资源类型指标向量聚合,得到所述目标应用对应的初始数据向量;基于模型训练周期内预先采集的各应用的样本初始数据向量,对所述初始数据向量进行归一化处理,得到所述目标应用对应的数据向量。
在其中一个实施例中,所述分类模块,还用于将所述数据向量输入预训练的目标聚类模型,得到所述目标应用对应的目标聚类簇标签;根据所述目标聚类簇标签,以及各资源密集类型与各聚类簇标签的映射关系,确定所述目标应用对应的所述资源密集类型。
在其中一个实施例中,所述应用资源密集类型的分类装置还包括模型训练模块,所述模型训练模块用于针对多个应用中的任一所述应用,确定所述应用对应的多个节点,获取各所述节点的各所述资源类型指标对应的样本指标数据;根据各所述节点的各所述资源类型指标对应的所述样本指标数据,确定各所述应用对应的样本数据向量;根据各所述应用对应的所述样本数据向量,对初始聚类算法进行训练,得到预训练的所述目标聚类模型,所述目标聚类模型用于预测所述应用对应的聚类簇标签。
在其中一个实施例中,所述应用资源密集类型的分类装置还包括映射模块,所述映射模块用于获取各所述资源密集类型对应的标准类型向量,针对任一所述资源密集类型,在所述资源密集类型对应的标准类型向量中,所述资源密集类型对应的各所述资源类型指标对应的元素为1,其余元素为0;将各所述标准类型向量输入所述目标聚类模型,得到各所述标准类型向量对应的聚类簇标签;根据各所述标准类型向量对应的聚类簇标签及各所述标准类型向量对应的资源密集类型,建立各所述资源密集类型与各所述聚类簇标签的映射关系。
在其中一个实施例中,所述应用资源密集类型的分类装置还包括迭代模块,所述迭代模块用于针对任一所述应用,根据预设采集周期,采集所述应用对应的各所述节点的各所述资源类型指标对应的指标数据,并将各所述指标数据存储至训练集中;周期性采用所述训练集中的数据,对所述目标聚类模型进行迭代更新训练,得到训练后的目标聚类模型。
第三方面,本申请还提供了一种计算机设备,所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述各方法实施例中的步骤。
第四方面,本申请还提供了一种计算机可读存储介质,所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述各方法实施例中的步骤。
第五方面,本申请还提供了一种计算机程序产品,所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
上述应用资源密集类型的分类方法、装置、计算机设备、存储介质和计算机程序产品,确定目标应用对应的至少一个目标节点,获取各所述目标节点的各资源类型指标对应的指标数据,所述各资源类型指标包括各资源密集类型对应的至少一个资源类型指标;根据各所述目标节点的各所述资源类型指标对应的所述指标数据,确定所述目标应用对应的数据向量;采用预训练的目标聚类模型对所述数据向量进行处理,得到所述目标应用对应的资源密集类型。本申请提供的应用资源密集类型的分类方法、装置、计算机设备、存储介质和计算机程序产品,自动采集目标应用的各目标节点的各资源类型指标对应的指标数据,并根据各目标节点的各资源类型指标对应的指标数据确定目标应用对应的数据向量,通过目标聚类模型对数据向量处理得到目标应用对应的资源密集类型,可以不需要人为对训练数据、应用画像特征指标等进行干预,有效减少人为数据标定成本,提高了应用资源密集类型的分类速度和精度。
附图说明
图1为一个实施例中应用资源密集类型的分类方法的流程示意图;
图2为一个实施例中步骤104的流程示意图;
图3为一个实施例中步骤204的流程示意图;
图4为一个实施例中步骤106的流程示意图;
图5为一个实施例中应用资源密集类型的分类方法的流程示意图;
图6为一个实施例中初始聚类算法的训练示意图;
图7为一个实施例中应用资源密集类型的分类方法的流程示意图;
图8为一个实施例中应用资源密集类型的分类方法的流程示意图;
图9为一个实施例中应用资源密集类型的分类装置的结构框图;
图10为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
原生的K8S集群在对应用pod进行调度时,不考虑应用的资源密集型,如果将同种资源密集型的应用pod同时调度到一个node上时,将会很容易出现资源瓶颈。基于应用画像可实现对每个应用的资源密集型进行分类,然后自定义调度器schedule,实现pod调度时尽量均衡化,避免将多个同种资源密集型的应用pod调度到一个node上,从而降低出现资源瓶颈的概率。然而,业界在基于K8S集群数据按应用(Deployment)维度构建应用画像(Application Portrait)模型时仍存在诸多不足:首先,是资源密集型细化指标的标定上,暂无规范化的定义方式,各类业务系统应用画像特征指标与业务耦合性过高,缺乏普适性;其次,在模型类别划分及分类模型选型上自适应能力不足,在进行训练数据集构建时往往需要较多的人为干预进行数据打标,模型迭代能力不足无法有效适应集群业务变化。综上可知,针对K8S针对资源混部(Mix of Resources)场景下的资源密集型分类问题,当前迫切需要解决的问题是如何标准化特征指标以及如果针对业务变化频繁的场景自适应更新分类模型,减少人为干预并实现数据集快速构建及模型的快速迭代。
基于此,本申请实施例提供了一种应用资源密集类型的分类方法,以解决上述问题,提高应用资源密集类型的分类速度和精度。
在一个实施例中,如图1所示,提供了一种应用资源密集类型的分类方法,本实施例以该方法应用于服务器进行举例说明,可以理解的是,该方法也可以应用于终端,还可以应用于包括终端和服务器的系统,并通过终端和服务器的交互实现。本实施例中,该方法包括以下步骤:
步骤102,确定目标应用对应的至少一个目标节点,获取各目标节点的各资源类型指标对应的指标数据,各资源类型指标包括各资源密集类型对应的至少一个资源类型指标。
本申请实施例中,目标应用为部署在K8S集群中欲进行资源密集类型分类的应用,目标应用可以部署在至少一个目标节点(node)上。各资源类型指标可以包括按4大类资源密集类型划分的16个资源类型指标。示例性的,4大类资源密集类型可以包括CPU、内存(Mem)、磁盘(Disk)、网络(Net),16个资源类型指标可以如表1所示,其中,CPU 3个资源类型指标、内存4个资源类型指标、磁盘6个资源类型指标、网络3个资源类型指标。一个目标节点node下可以有多个pod,可以直接采集单位时间内各pod内的各资源类型指标对应的指标数据,针对任一资源类型指标,将各pod内的该资源类型指标对应的指标数据累加即得到对应的目标节点node的该资源类型指标对应的指标数据。
表1资源类型指标
Figure BDA0004022988840000091
步骤104,根据各目标节点的各资源类型指标对应的指标数据,确定目标应用对应的数据向量。
本申请实施例中,可以将各目标节点的各资源类型指标对应的指标数据以向量形式表示,得到各目标节点对应的资源类型指标向量。示例性的,可以按应用维度对单位时间内的各目标节点的资源类型指标向量进行聚合,得到目标应用对应的初始数据向量。对目标应用对应的初始数据向量进行归一化处理,得到目标应用对应的数据向量。
步骤106,采用预训练的目标聚类模型对数据向量进行处理,得到目标应用对应的资源密集类型。
本申请实施例中,预训练的目标聚类模型可以为一种k-means++算法(K均值加聚类算法)模型。将数据向量输入预训练的目标聚类模型,可以得到数据向量对应的目标聚类簇标签,也即目标应用对应的目标聚类簇标签,再基于各资源密集类型与各聚类簇标签之间的映射关系,即可得到目标聚类簇标签对应的资源密集类型,该资源密集类型即为目标应用对应的资源密集类型。资源密集类型可以包括计算(CPU)密集型,内存密集型,网络密集型、磁盘读写(IO)密集型等。
上述应用资源密集类型的分类方法,确定目标应用对应的至少一个目标节点,获取各目标节点的各资源类型指标对应的指标数据,各资源类型指标包括各资源密集类型对应的至少一个资源类型指标;根据各目标节点的各资源类型指标对应的指标数据,确定目标应用对应的数据向量;采用预训练的目标聚类模型对数据向量进行处理,得到目标应用对应的资源密集类型。本申请实施例提供的应用资源密集类型的分类方法,自动采集目标应用的各目标节点的各资源类型指标对应的指标数据,并根据各目标节点的各资源类型指标对应的指标数据确定目标应用对应的数据向量,通过目标聚类模型对数据向量处理得到目标应用对应的资源密集类型,可以不需要人为对训练数据、应用画像特征指标等进行干预,有效减少人为数据标定成本,提高了应用资源密集类型的分类速度和精度。
在一个实施例中,如图2所示,在步骤104中,根据各目标节点的各资源类型指标对应的指标数据,确定目标应用对应的数据向量,可以包括:
步骤202,针对任一目标节点,根据目标节点的各资源类型指标对应的指标数据,构建得到目标节点对应的资源类型指标向量。
其中,针对任一目标节点,可以将单位时间内目标节点的各资源类型指标对应的指标数据,按照表1中从上到下各资源类型指标的顺序,用16维向量进行表示,得到目标节点对应的资源类型指标向量。示例性的,资源类型指标向量的形式可以如下表2所示。
表2资源类型指标向量
10 15 17 26.8 30 76 56 9 48 18 4 10 255 165 244 179
步骤204,对各目标节点对应的资源类型指标向量进行聚合处理,得到目标应用对应的数据向量。
其中,对各目标节点对应的资源类型指标向量进行聚合处理,即为将各目标节点对应的资源类型指标向量中的指标数据按向量列进行叠加,得到目标应用对应的初始数据向量,也即将对应同一资源类型指标的数据进行叠加。再对初始数据向量进行归一化处理,可以得到目标应用对应的数据向量。
本公开实施例,通过根据目标节点的各资源类型指标对应的指标数据,构建目标节点对应的资源类型指标向量,进而通过数据处理得到目标应用对应的数据向量,能够对集群内应用(Deployment)维度下单位时刻采集数据进行向量化表示,构建标准化数据,有效减少人为数据标定成本。
在一个实施例中,如图3所示,在步骤204中,对各目标节点对应的资源类型指标向量进行聚合处理,得到目标应用对应的数据向量,可以包括:
步骤302,将各目标节点对应的资源类型指标向量聚合,得到目标应用对应的初始数据向量。
其中,可以将各目标节点对应的资源类型指标向量中的指标数据按向量列进行叠加,得到目标应用对应的初始数据向量。示例性的,叠加过程可以如下:一个数据集由c1、c2、c3三个列指标构成,向量1的取值为c1=1,c2=3,c3=2,表示为[1,3,2];向量2的取值为c1=3,c2=5,c3=1,表示为[3,5,1],将这两个向量进行聚合处理,按列叠加的结果是[1+3,3+5,2+1],即[4,8,3]。
步骤304,基于模型训练周期内预先采集的各应用的样本初始数据向量,对初始数据向量进行归一化处理,得到目标应用对应的数据向量。
其中,模型训练周期即为更新一次目标聚类模型的连续采样时间,模型训练周期可以预先设定,示例性的,模型训练周期可以为3天。也即,每3天需重新使用3天内采集的各应用的样本初始数据向量,重新训练目标聚类模型。基于模型训练周期内预先采集的各应用的样本初始数据向量,以及目标应用对应的初始数据向量,按向量列进行最大最小值归一化处理,得到目标应用对应的数据向量。归一化处理可以满足下列公式(一)。
Figure BDA0004022988840000121
其中,针对任一向量列,x为目标应用对应的初始数据向量中该向量列维度上的值,xmin为在各应用的样本初始数据向量中在该向量列维度上的最小值,xmax为在各应用的样本初始数据向量中在该向量列维度上的最大值,xnormal为目标应用对应的数据向量中在该向量列维度上归一化后的值,取值范围为[0,1]。示例性的,归一化后的数据向量的形式可以如下表3所示。
表3数据向量
0.10 0.45 0.77 0.19 0.89 0.76 0.56 0.09 0.48 0.18 0.49 0.15 0.55 0.65 0.44 0.17
本公开实施例,通过聚合处理和归一化处理得到目标应用对应的数据向量,能够对集群内应用(Deployment)维度下单位时刻采集数据进行向量化表示,构建标准化数据,有效减少人为数据标定成本。
在一个实施例中,如图4所示,在步骤106中,采用预训练的目标聚类模型对数据向量进行处理,得到目标应用对应的资源密集类型,可以包括:
步骤402,将数据向量输入预训练的目标聚类模型,得到目标应用对应的目标聚类簇标签。
其中,预训练的目标聚类模型可以为一种K-Means++算法模型。示例性的,资源密集类型可以包括计算(CPU)密集型,内存密集型,网络密集型、磁盘读写(IO)密集型等4种资源密集类型,预训练的目标聚类模型即具有4个不同的聚类中心,每个聚类中心表征一种资源密集类型。将目标应用对应的数据向量输入预训练的目标聚类模型,可以通过计算数据向量到目标聚类模型的4个聚类中心的距离,将数据向量分到距离最小的聚类中心所对应的聚类簇中,该聚类簇的编号即为目标应用对应的目标聚类簇标签。
步骤404,根据目标聚类簇标签,以及各资源密集类型与各聚类簇标签的映射关系,确定目标应用对应的资源密集类型。
其中,各资源密集类型与各聚类簇标签的映射关系可以在预先训练目标聚类模型的过程中,根据各资源密集类型的标准类型向量得到。在确定目标应用对应的目标聚类簇标签后,可以通过各资源密集类型与各聚类簇标签的映射关系找到目标聚类簇标签映射的资源密集类型,即为目标应用对应的资源密集类型。
本公开实施例,通过目标聚类模型对目标应用进行预测分类,引入了K-Means++算法模型,可以有效减少人为数据标定成本,提高应用资源密集类型的分类速度和精度。
在一个实施例中,如图5所示,应用资源密集类型的分类方法还可以包括:
步骤502,针对多个应用中的任一应用,确定应用对应的多个节点,获取各节点的各资源类型指标对应的样本指标数据。
其中,可以基于应用监控指标采集器普罗米修斯(Prometheus)配置CRONJOB(crontable,定时任务,能基于linux操作系统内置crond进程控制自定义定时任务调度)。示例性的,定时任务可以确定模型训练周期为3天,采集间隔5分钟,每5分钟按node维度分CPU、内存、网络、磁盘I/O四类采集各应用对应的多个节点的16个资源类型指标的样本指标数据,并进行存储。
步骤504,根据各节点的各资源类型指标对应的样本指标数据,确定各应用对应的样本数据向量。
其中,可以将各节点的各资源类型指标对应的样本指标数据以向量形式表示,得到各节点对应的样本资源类型指标向量。按应用维度对单位时间内的各节点的样本资源类型指标向量进行聚合,得到各应用对应的样本初始数据向量。对各应用对应的样本初始数据向量进行归一化处理,得到各应用对应的样本数据向量。
步骤506,根据各应用对应的样本数据向量,对初始聚类算法进行训练,得到预训练的目标聚类模型,目标聚类模型用于预测应用对应的聚类簇标签。
其中,初始聚类算法可以为k-means++算法,可以根据各应用对应的样本数据向量,对k-means++算法进行模型参数训练,得到预训练的目标聚类模型。初始化的聚类中心的位置选择对最后的聚类结果和运行时间都有很大的影响,因此需要选择合适的k个聚类中心。如果仅仅是完全随机的选择,有可能导致算法收敛很慢。K-Means++算法是对K-Means随机初始化聚类中心的方法的优化,示例性的,如图6所示,对初始聚类算法进行训练的流程如下:
从各应用对应的样本数据向量中随机选取4个样本数据向量,作为初始的聚类中心{k1,k2,k3,k4}。针对各应用对应的任一样本数据向量xi,分别计算它到4个聚类中心的距离,并将其分到距离最小的聚类中心所对应的类中。与当前已有聚类中心之间的最短距离(即与最近的一个聚类中心的距离)用D(x)表示,本申请实施例不对D(x)的计算过程做具体限定,x为样本数据向量的标号。例如可以使用向量平均值计算距离。计算每个样本数据向量被选为一个聚类中心的概率,并将概率最大的样本数据向量作为下个聚类中心。样本数据向量被选为一个聚类中心的概率可以满足下列公式(二)。
Figure BDA0004022988840000151
其中,P(x)为第x个样本数据向量被选为一个聚类中心的概率。X为各应用对应的样本数据向量的集合。
重复上述步骤直至选出的4个聚类中心位置不再变化,也即前一轮选出的聚类中心和当前的聚类中心的差值小于预设阈值,即表示目标聚类模型训练完成。预设阈值可以根据实际需要设定。
本公开实施例,基于业界认可度较高的K8S集群应用监控指标采集器普罗米修斯(Prometheus)从CPU、内存、网络、磁盘I/O四个方案构建标准化16个细化特征指标,进而对集群内应用(Deployment)维度下单位时刻采集数据进行向量化表示,构建标准化分类模型训练数据集,引入K均值聚类算法K-means++定期的对采集到的数据进行聚类分析,构建分类模型,有效减少人为数据标定成本。
在一个实施例中,如图7所示,应用资源密集类型的分类方法还可以包括:
步骤702,获取各资源密集类型对应的标准类型向量,针对任一资源密集类型,在资源密集类型对应的标准类型向量中,资源密集类型对应的各资源类型指标对应的元素为1,其余元素为0。
示例性的,归一化后的数据向量,由于任意向量列维度上的数值越接近1,对应列的特征就越显著,因此可以将各资源密集类型对应的标准类型向量定位为以下表4所示:
表4各资源密集类型对应的标准类型向量
Figure BDA0004022988840000152
Figure BDA0004022988840000161
步骤704,将各标准类型向量输入目标聚类模型,得到各标准类型向量对应的聚类簇标签。
其中,目标聚类模型中每个聚类中心对应一个聚类簇标签,将各资源密集类型对应的标准类型向量输入目标聚类模型,计算各标准类型向量到4个聚类中心的距离,并将其分别分到距离最小的聚类中心所对应的类中,也即得到各标准类型向量对应的聚类簇标签。
步骤706,根据各标准类型向量对应的聚类簇标签及各标准类型向量对应的资源密集类型,建立各资源密集类型与各聚类簇标签的映射关系。
其中,根据各标准类型向量与各聚类簇标签的对应关系,以及各标准类型向量与各资源密集类型的对应关系,即可建立各资源密集类型与各聚类簇标签的映射关系。
本公开实施例,通过各资源密集类型对应的标准类型向量获取各资源密集类型与各聚类簇标签的映射关系,以实现使用目标聚类模型对目标应用进行资源密集型的分类,可以有效减少人为数据标定成本,提高应用的资源密集型分类的速度和精度。
在一个实施例中,如图8所示,应用资源密集类型的分类方法还可以包括:
步骤802,针对任一应用,根据预设采集周期,采集应用对应的各节点的各资源类型指标对应的指标数据,并将各指标数据存储至训练集中。
其中,可以基于应用监控指标采集器普罗米修斯(Prometheus)配置CRONJOB(crontable,定时任务,能基于linux操作系统内置crond进程控制自定义定时任务调度)。示例性的,定时任务可以确定模型训练周期为3天,预设采集周期为5分钟,即每5分钟按node维度分CPU、内存、网络、磁盘I/O四类采集各应用对应的多个节点的16个资源类型指标的指标数据,并存储至训练集中。
步骤804,周期性采用训练集中的数据,对目标聚类模型进行迭代更新训练,得到训练后的目标聚类模型。
示例性的,模型训练周期为3天,在训练得到目标聚类模型的3天后,可以采用这3天内训练集中存储的各应用对应的各节点的各资源类型指标对应的指标数据,确定各应用的数据向量,并根据各应用的数据向量重新对目标聚类模型进行迭代训练,得到训练后的目标聚类模型。
本公开实施例,通过周期性迭代训练目标聚类模型,能够在应用于场景差异变化大的业务场景时,模型自身能周期性迭代优化,具备较强的自适应能力。
为了便于本申请实施例的进一步理解,本申请在此提供一种最完整实施例。为了更好的指导PAAS管理平台集群部署架构下资源调度问题,本申请实施例针对资源混部场景下的资源密集型分类问题提出一种应用资源密集类型的分类方法,从特征定义及数据采集、量化分析、模型选型等方面进行组合优化:首先,基于应用监控指标采集器普罗米修斯(Prometheus)配置CRONJOB定时任务,对部署节点(node)的CPU、内存、网络、磁盘I/O等4类监控指标进行自动化采集;其次,对采集数据按deployment维度进行聚合及归一化处理,构造标准化向量数据集;最后,应用自适应聚类模型k-means++进行快速数据建模,实现混部场景下的资源密集型应用高效分类及展示。具体步骤如下:基于应用监控指标采集器普罗米修斯(Prometheus)配置CRONJOB定时任务,确定模测采集周期为3天,采集间隔5分钟,按node维度分CPU、内存、网络、磁盘I/O四类采集16个资源类型指标,并进行向量表示得到资源类型指标向量。按应用(Deployment)维度对单位时间内的node下资源类型指标向量数据进行聚合,按向量列进行叠加,得到应用下的单位时间向量表示,为初始数据向量。将初始数据向量按向量列进行最大最小值归一化处理,形成标准输入数据集,得到归一化应用向量,也即各应用对应的数据向量。定义标准资源密集型标签数据,将标准输入数据集与标准资源密集型标签数据一起输入到k-means++算法中进行模型参数训练,得到预训练的聚类模型。基于某个目标应用单位时间下新采集的数值数据,进行归一化处理后得到对应的数据向量,将对应的数据向量输入预训练的目标聚类模型,计算得到其对应的资源密集类型。当K8S集群满足单个运行周期时间(3天)后,自动按上述步骤更新目标聚类模型,及时响应业务场景变化。
本申请实施例针对当前资源混部应用画像场景下构建资源密集型分类模型时业界普遍存在特征指标定义标准模糊及分类场景下模型自适应能力较差的问题,提出一种应用资源密集类型的分类方法,基于业界认可度较高的K8S集群应用监控指标采集器普罗米修斯(Prometheus)从CPU、内存、网络、磁盘I/O四个方案构建应用画像特征表示,标准化16个细化特征指标,进而对集群内应用(Deployment)维度下单位时刻采集数据进行向量化表示,构建标准化分类模型训练数据集。其次,引入K均值聚类算法K-means++定期的对采集到的数据进行聚类分析,构建分类模型,有效减少人为数据标定成本。与此同时,在应用于场景差异变化大的业务场景时,模型自身能周期性迭代优化,具备较强的自适应能力。
应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的应用资源密集类型的分类方法的应用资源密集类型的分类装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个应用资源密集类型的分类装置实施例中的具体限定可以参见上文中对于应用资源密集类型的分类方法的限定,在此不再赘述。
在一个实施例中,如图9所示,提供了一种应用资源密集类型的分类装置900,包括:数据获取模块、向量确定模块和分类模块,其中:
数据获取模块902,用于确定目标应用对应的至少一个目标节点,获取各目标节点的各资源类型指标对应的指标数据,各资源类型指标包括各资源密集类型对应的至少一个资源类型指标。
向量确定模块904,用于根据各目标节点的各资源类型指标对应的指标数据,确定目标应用对应的数据向量。
分类模块906,用于采用预训练的目标聚类模型对数据向量进行处理,得到目标应用对应的资源密集类型。
上述应用资源密集类型的分类装置,确定目标应用对应的至少一个目标节点,获取各目标节点的各资源类型指标对应的指标数据;根据各目标节点的各资源类型指标对应的指标数据,确定目标应用对应的数据向量;采用预训练的目标聚类模型对数据向量进行处理,得到目标应用对应的资源密集类型。本申请实施例提供的应用资源密集类型的分类装置,自动采集目标应用的各目标节点的各资源类型指标对应的指标数据,并根据各目标节点的各资源类型指标对应的指标数据确定目标应用对应的数据向量,通过目标聚类模型对数据向量处理得到目标应用对应的资源密集类型,可以不需要人为对训练数据、应用画像特征指标等进行干预,有效减少人为数据标定成本,提高了应用资源密集类型的分类速度和精度。
在一个实施例中,向量确定模块904,还用于针对任一目标节点,根据目标节点的各资源类型指标对应的指标数据,构建得到目标节点对应的资源类型指标向量;对各目标节点对应的资源类型指标向量进行聚合处理,得到目标应用对应的数据向量。
在一个实施例中,向量确定模块904,还用于将各目标节点对应的资源类型指标向量聚合,得到目标应用对应的初始数据向量;基于模型训练周期内预先采集的各应用的样本初始数据向量,对初始数据向量进行归一化处理,得到目标应用对应的数据向量。
在一个实施例中,分类模块906,还用于将数据向量输入预训练的目标聚类模型,得到目标应用对应的目标聚类簇标签;根据目标聚类簇标签,以及各资源密集类型与各聚类簇标签的映射关系,确定目标应用对应的资源密集类型。
在一个实施例中,应用资源密集类型的分类装置900还包括模型训练模块。模型训练模块用于针对多个应用中的任一应用,确定应用对应的多个节点,获取各节点的各资源类型指标对应的样本指标数据;根据各节点的各资源类型指标对应的样本指标数据,确定各应用对应的样本数据向量;根据各应用对应的样本数据向量,对初始聚类算法进行训练,得到预训练的目标聚类模型,目标聚类模型用于预测应用对应的聚类簇标签。
在一个实施例中,应用资源密集类型的分类装置900还包括映射模块。映射模块用于获取各资源密集类型对应的标准类型向量,针对任一资源密集类型,在资源密集类型对应的标准类型向量中,资源密集类型对应的各资源类型指标对应的元素为1,其余元素为0;将各标准类型向量输入目标聚类模型,得到各标准类型向量对应的聚类簇标签;根据各标准类型向量对应的聚类簇标签及各标准类型向量对应的资源密集类型,建立各资源密集类型与各聚类簇标签的映射关系。
在一个实施例中,应用资源密集类型的分类装置900还包括迭代模块。迭代模块用于针对任一应用,根据预设采集周期,采集所述应用对应的各所述节点的各所述资源类型指标对应的指标数据,并将各所述指标数据存储至训练集中;周期性采用训练集中的数据,对目标聚类模型进行迭代更新训练,得到训练后的目标聚类模型。
上述应用资源密集类型的分类装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图10所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储各应用在各节点上的各资源类型指标对应的指标数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种应用资源密集类型的分类方法。
本领域技术人员可以理解,图10中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。

Claims (11)

1.一种应用资源密集类型的分类方法,其特征在于,所述方法包括:
确定目标应用对应的至少一个目标节点,获取各所述目标节点的各资源类型指标对应的指标数据,所述各资源类型指标包括各资源密集类型对应的至少一个资源类型指标;
根据各所述目标节点的各所述资源类型指标对应的所述指标数据,确定所述目标应用对应的数据向量;
采用预训练的目标聚类模型对所述数据向量进行处理,得到所述目标应用对应的资源密集类型。
2.根据权利要求1所述的方法,其特征在于,所述根据各所述目标节点的各所述资源类型指标对应的所述指标数据,确定所述目标应用对应的数据向量,包括:
针对任一所述目标节点,根据所述目标节点的各所述资源类型指标对应的所述指标数据,构建得到所述目标节点对应的资源类型指标向量;
对各所述目标节点对应的所述资源类型指标向量进行聚合处理,得到所述目标应用对应的数据向量。
3.根据权利要求2所述的方法,其特征在于,所述对各所述目标节点对应的所述资源类型指标向量进行聚合处理,得到所述目标应用对应的数据向量,包括:
将各所述目标节点对应的所述资源类型指标向量聚合,得到所述目标应用对应的初始数据向量;
基于模型训练周期内预先采集的各应用的样本初始数据向量,对所述初始数据向量进行归一化处理,得到所述目标应用对应的数据向量。
4.根据权利要求1所述的方法,其特征在于,所述采用预训练的目标聚类模型对所述数据向量进行处理,得到所述目标应用对应的资源密集类型,包括:
将所述数据向量输入预训练的目标聚类模型,得到所述目标应用对应的目标聚类簇标签;
根据所述目标聚类簇标签,以及各资源密集类型与各聚类簇标签的映射关系,确定所述目标应用对应的所述资源密集类型。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
针对多个应用中的任一所述应用,确定所述应用对应的多个节点,获取各所述节点的各所述资源类型指标对应的样本指标数据;
根据各所述节点的各所述资源类型指标对应的所述样本指标数据,确定各所述应用对应的样本数据向量;
根据各所述应用对应的所述样本数据向量,对初始聚类算法进行训练,得到预训练的所述目标聚类模型,所述目标聚类模型用于预测所述应用对应的聚类簇标签。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
获取各所述资源密集类型对应的标准类型向量,针对任一所述资源密集类型,在所述资源密集类型对应的标准类型向量中,所述资源密集类型对应的各所述资源类型指标对应的元素为1,其余元素为0;
将各所述标准类型向量输入所述目标聚类模型,得到各所述标准类型向量对应的聚类簇标签;
根据各所述标准类型向量对应的聚类簇标签及各所述标准类型向量对应的资源密集类型,建立各所述资源密集类型与各所述聚类簇标签的映射关系。
7.根据权利要求5所述的方法,其特征在于,所述方法还包括:
针对任一所述应用,根据预设采集周期,采集所述应用对应的各所述节点的各所述资源类型指标对应的指标数据,并将各所述指标数据存储至训练集中;
周期性采用所述训练集中的数据,对所述目标聚类模型进行迭代更新训练,得到训练后的目标聚类模型。
8.一种应用资源密集类型的分类装置,其特征在于,所述装置包括:
数据获取模块,用于确定目标应用对应的至少一个目标节点,获取各所述目标节点的各资源类型指标对应的指标数据,所述各资源类型指标包括各资源密集类型对应的至少一个资源类型指标;
向量确定模块,用于根据各所述目标节点的各所述资源类型指标对应的所述指标数据,确定所述目标应用对应的数据向量;
分类模块,用于采用预训练的目标聚类模型对所述数据向量进行处理,得到所述目标应用对应的资源密集类型。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
11.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
CN202211694877.6A 2022-12-28 2022-12-28 应用资源密集类型的分类方法、装置和计算机设备 Pending CN115859156A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211694877.6A CN115859156A (zh) 2022-12-28 2022-12-28 应用资源密集类型的分类方法、装置和计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211694877.6A CN115859156A (zh) 2022-12-28 2022-12-28 应用资源密集类型的分类方法、装置和计算机设备

Publications (1)

Publication Number Publication Date
CN115859156A true CN115859156A (zh) 2023-03-28

Family

ID=85655420

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211694877.6A Pending CN115859156A (zh) 2022-12-28 2022-12-28 应用资源密集类型的分类方法、装置和计算机设备

Country Status (1)

Country Link
CN (1) CN115859156A (zh)

Similar Documents

Publication Publication Date Title
US10176435B1 (en) Method and apparatus for combining techniques of calculus, statistics and data normalization in machine learning for analyzing large volumes of data
US9275353B2 (en) Event-processing operators
CN110686633B (zh) 一种滑坡位移预测方法、装置及电子设备
CN115394358B (zh) 基于深度学习的单细胞测序基因表达数据插补方法和系统
CN107622326B (zh) 用户分类、可用资源预测方法、装置及设备
US10445341B2 (en) Methods and systems for analyzing datasets
CN111400555B (zh) 图数据查询任务处理方法、装置、计算机设备和存储介质
CN112926570B (zh) 一种自适应比特网络量化方法、系统及图像处理方法
CN110826692B (zh) 一种自动化模型压缩方法、装置、设备及存储介质
CN112052081B (zh) 一种任务调度方法、装置及电子设备
CN112181659B (zh) 云仿真内存资源预测模型构建方法与内存资源预测方法
US20200050982A1 (en) Method and System for Predictive Modeling for Dynamically Scheduling Resource Allocation
US20240111807A1 (en) Embedding and Analyzing Multivariate Information in Graph Structures
CN117252307A (zh) 流量预测方法、装置、计算机设备和存储介质
CN116401238A (zh) 偏离度监测方法、装置、设备、存储介质和程序产品
CN116611678A (zh) 数据处理方法、装置、计算机设备和存储介质
CN115859156A (zh) 应用资源密集类型的分类方法、装置和计算机设备
CN116700955A (zh) 作业处理方法、装置、计算机设备及可读存储介质
CN115905654A (zh) 业务数据的处理方法、装置、设备、存储介质和程序产品
CN116227585B (zh) 集群任务的并行执行方法、装置、计算机设备和存储介质
CN117892166B (zh) 稀疏数据识别方法、智能计算子系统以及智能计算平台
CN110058812B (zh) 一种云环境下科学工作流数据放置方法
US20230351146A1 (en) Device and computer-implemented method for a neural architecture search
WO2022156743A1 (zh) 特征构建方法和装置、模型训练方法和装置、设备、介质
CN117077813A (zh) 一种机器学习模型的训练方法及训练系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination