CN111858332B - 一种分布式系统的计算资源弹性测试方法和装置 - Google Patents

一种分布式系统的计算资源弹性测试方法和装置 Download PDF

Info

Publication number
CN111858332B
CN111858332B CN202010689931.2A CN202010689931A CN111858332B CN 111858332 B CN111858332 B CN 111858332B CN 202010689931 A CN202010689931 A CN 202010689931A CN 111858332 B CN111858332 B CN 111858332B
Authority
CN
China
Prior art keywords
test
node
working
request
average
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010689931.2A
Other languages
English (en)
Other versions
CN111858332A (zh
Inventor
罗炘宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Inspur Intelligent Technology Co Ltd
Original Assignee
Suzhou Inspur Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Inspur Intelligent Technology Co Ltd filed Critical Suzhou Inspur Intelligent Technology Co Ltd
Priority to CN202010689931.2A priority Critical patent/CN111858332B/zh
Publication of CN111858332A publication Critical patent/CN111858332A/zh
Application granted granted Critical
Publication of CN111858332B publication Critical patent/CN111858332B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/36Preventing errors by testing or debugging software
    • G06F11/3668Software testing
    • G06F11/3672Test management
    • G06F11/3688Test management for test execution, e.g. scheduling of test suites
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5083Techniques for rebalancing the load in a distributed system
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computer Hardware Design (AREA)
  • Quality & Reliability (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种分布式系统的计算资源弹性测试方法和装置,方法包括:使用分布式系统的主结点向一个工作结点以单位测试频率发送推理请求以执行基准测试;采集和记录工作结点在处理推理请求时产生的性能参数作为基准测试的结果;使用主结点向数量变化的多个工作结点形成的工作组以对应数量变化的多倍单位测试频率发送推理请求以执行扩展性测试;采集和记录工作组在处理推理请求时产生的性能参数作为扩展性测试的结果;根据基准测试的结果和扩展性测试的结果在各性能参数的维度上执行加权平均耦合以确定归一化的计算资源弹性量化指标。本发明能够测试分布式系统的计算资源弹性,引导分布式系统高效的调度自身计算资源,节约功耗成本。

Description

一种分布式系统的计算资源弹性测试方法和装置
技术领域
本发明涉及人工智能领域,更具体地,特别是指一种分布式系统的计算资源弹性测试方法和装置。
背景技术
深度学习是机器学习研究中的一个新的比较热门的领域,它的出发点是建立、模拟人脑进行分析学习的神经网络,它模仿人脑的机制来解释数据,例如图像、声音和文本。通过深度学习,机器可以解决如图像分类、语音识别和自然语言处理等一些复杂的技术问题。
由于计算机的计算性能有限,提高性能的第一步是测量,测量计算机的不同硬件性能及训练过程的性能成为提升计算机性能的关键。评测不同硬件平台以及主流深度学习算法训练推理过程性能,称为基准测试(Benchmark),基准测试的提出有助于计算机性能的提升。Benchmark可以支持测试某一种基础操作的测试,比如某一层网络层的性能测试,也可以支持训练推理的全流程测试。基准测试有不同的应用场景,比如图像分类、目标检测、自然语言处理等,不同的应用领域有不同的模型和数据集,有不同的框架实现,这些都是基准测试需要考虑的问题。
在AI领域已有的基准评测系统中,MLPerf是典型代表之一。MLPerf是有训练和推理两个单独的基准测试系统:训练主要考察的指标是系统将模型训练到目标精度所需的时间;推理主要的考察指标是被测试系统处理请求的平均延时,或平均每秒处理请求数。MLPerf有两个分支,封闭分支和开放分支,其中封闭分支要求测试者使用与参考实例相同的预处理,模型,训练方法等。对于开放分支,允许测试者使用任意预处理,模型和训练方法等来进行。MLPerf的测试报告中只反馈被测试系统整体的计算效率,对于训练,考察训练总耗时;对于推理,考察单位时间处理的样本量。而在实际生产生活中,除去最大性能之外,也关心AI系统的计算资源弹性问题。
针对现有技术中分布式系统的计算资源弹性难以测试的问题,目前尚无有效的解决方案。
发明内容
有鉴于此,本发明实施例的目的在于提出一种分布式系统的计算资源弹性测试方法和装置,能够测试分布式系统的计算资源弹性,引导分布式系统高效的调度自身计算资源,节约功耗成本。
基于上述目的,本发明实施例的第一方面提供了一种分布式系统的计算资源弹性测试方法,包括执行以下步骤:
使用分布式系统的主结点向一个工作结点以单位测试频率发送推理请求以执行基准测试;
响应于工作结点处理推理请求而采集和记录工作结点在处理推理请求时产生的性能参数作为基准测试的结果;
使用主结点向数量变化的多个工作结点形成的工作组以对应数量变化的多倍单位测试频率发送推理请求以执行扩展性测试;
响应于工作组处理推理请求而采集和记录工作组在处理推理请求时产生的性能参数作为扩展性测试的结果;
根据基准测试的结果和扩展性测试的结果在各性能参数的维度上执行加权平均耦合以确定归一化的计算资源弹性量化指标。
在一些实施方式中,工作结点处理推理请求包括:工作结点独立地调用其全部计算资源来处理推理请求。
在一些实施方式中,采集和记录工作结点的性能参数包括:采集和记录工作结点的基准请求处理速率、基准处理延迟、基准启动时间、和基准功耗。
在一些实施方式中,使用主结点向数量变化的多个工作结点形成的工作组以对应数量变化的多倍单位测试频率发送推理请求以执行扩展性测试包括:
响应于扩展性测试开始,而使用主结点向至少一个工作结点形成的工作组以相应地至少一倍单位测试频率发送推理请求;
响应于扩展性测试进行到任意时间点,而使用主结点向工作组引入/从工作组移除至少一个工作结点,并相应地将发送推理请求的频率提升/降低至少一倍单位测试频率。
在一些实施方式中,响应于扩展性测试进行到任意时间点,而使用主结点向工作组引入/从工作组移除至少一个工作结点,并相应地将发送推理请求的频率提升/降低至少一倍单位测试频率包括:
响应于扩展性测试进行到预定的单位测试时间长度的整数倍时间点,而使用主结点向工作组引入一个工作结点,并相应地将发送推理请求的频率提升一倍单位测试频率。
在一些实施方式中,采集和记录工作组在处理推理请求时产生的性能参数包括:直接采集和记录工作组整体的请求处理速率、处理延迟、启动时间、和功耗;或分别采集和记录工作组中每一个工作结点的请求处理速率、处理延迟、启动时间、和功耗。
在一些实施方式中,根据基准测试的结果和扩展性测试的结果在各性能参数的维度上执行加权平均耦合以确定归一化的计算资源弹性量化指标包括:
根据扩展性测试的结果确定工作组中每一个工作结点的平均性能参数,包括平均请求处理速率、平均处理延迟、平均启动时间、和平均功耗;
将基准请求处理速率与平均请求处理速率之比和1二者中的较小值作为处理速率弹性;
将基准处理延迟与平均处理延迟之比和1二者中的较小值作为处理延迟弹性;
将基准启动时间与平均启动时间之比和1二者中的较小值作为启动时间弹性;
将基准功耗与平均功耗之比和1二者中的较小值作为功耗弹性;
对处理速率弹性、处理延迟弹性、启动时间弹性、和功耗弹性进行归一化的加权平均耦合以确定计算资源弹性量化指标。
本发明实施例的第二方面提供了一种分布式系统的计算资源弹性测试装置,包括:
处理器;和
存储器,存储有处理器可运行的程序代码,程序代码在被运行时依次执行以下步骤:
使用分布式系统的主结点向一个工作结点以单位测试频率发送推理请求以执行基准测试;
响应于工作结点处理推理请求而采集和记录工作结点在处理推理请求时产生的性能参数作为基准测试的结果;
使用主结点向数量变化的多个工作结点形成的工作组以对应数量变化的多倍单位测试频率发送推理请求以执行扩展性测试;
响应于工作组处理推理请求而采集和记录工作组在处理推理请求时产生的性能参数作为扩展性测试的结果;
根据基准测试的结果和扩展性测试的结果在各性能参数的维度上执行加权平均耦合以确定归一化的计算资源弹性量化指标。
在一些实施方式中,使用主结点向数量变化的多个工作结点形成的工作组以对应数量变化的多倍单位测试频率发送推理请求以执行扩展性测试包括:
响应于扩展性测试开始,而使用主结点向至少一个工作结点形成的工作组以相应地至少一倍单位测试频率发送推理请求;
响应于扩展性测试进行到预定的单位测试时间长度的整数倍时间点,而使用主结点向工作组引入一个工作结点,并相应地将发送推理请求的频率提升一倍单位测试频率;
并且,采集和记录工作组在处理推理请求时产生的性能参数包括:直接采集和记录工作组整体的请求处理速率、处理延迟、启动时间、和功耗;或分别采集和记录工作组中每一个工作结点的请求处理速率、处理延迟、启动时间、和功耗。
在一些实施方式中,根据基准测试的结果和扩展性测试的结果在各性能参数的维度上执行加权平均耦合以确定归一化的计算资源弹性量化指标包括:
根据扩展性测试的结果确定工作组中每一个工作结点的平均性能参数,包括平均请求处理速率、平均处理延迟、平均启动时间、和平均功耗;
将基准请求处理速率与平均请求处理速率之比和1二者中的较小值作为处理速率弹性;
将基准处理延迟与平均处理延迟之比和1二者中的较小值作为处理延迟弹性;
将基准启动时间与平均启动时间之比和1二者中的较小值作为启动时间弹性;
将基准功耗与平均功耗之比和1二者中的较小值作为功耗弹性;
对处理速率弹性、处理延迟弹性、启动时间弹性、和功耗弹性进行归一化的加权平均耦合以确定计算资源弹性量化指标。
本发明具有以下有益技术效果:本发明实施例提供的分布式系统的计算资源弹性测试方法和装置,通过使用分布式系统的主结点向一个工作结点以单位测试频率发送推理请求以执行基准测试;响应于工作结点处理推理请求而采集和记录工作结点在处理推理请求时产生的性能参数作为基准测试的结果;使用主结点向数量变化的多个工作结点形成的工作组以对应数量变化的多倍单位测试频率发送推理请求以执行扩展性测试;响应于工作组处理推理请求而采集和记录工作组在处理推理请求时产生的性能参数作为扩展性测试的结果;根据基准测试的结果和扩展性测试的结果在各性能参数的维度上执行加权平均耦合以确定归一化的计算资源弹性量化指标的技术方案,能够测试分布式系统的计算资源弹性,引导分布式系统高效的调度自身计算资源,节约功耗成本。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的分布式系统的计算资源弹性测试方法的流程示意图;
图2为本发明提供的分布式系统的计算资源弹性测试方法的整体结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明实施例进一步详细说明。
需要说明的是,本发明实施例中所有使用“第一”和“第二”的表述均是为了区分两个相同名称非相同的实体或者非相同的参量,可见“第一”“第二”仅为了表述的方便,不应理解为对本发明实施例的限定,后续实施例对此不再一一说明。
基于上述目的,本发明实施例的第一个方面,提出了一种能够测试分布式系统的计算资源弹性的方法的一个实施例。图1示出的是本发明提供的分布式系统的计算资源弹性测试方法的流程示意图。
所述的分布式系统的计算资源弹性测试方法,如图1所示,包括执行以下步骤:
步骤S101:使用分布式系统的主结点向一个工作结点以单位测试频率发送推理请求以执行基准测试;
步骤S103:响应于工作结点处理推理请求而采集和记录工作结点在处理推理请求时产生的性能参数作为基准测试的结果;
步骤S105:使用主结点向数量变化的多个工作结点形成的工作组以对应数量变化的多倍单位测试频率发送推理请求以执行扩展性测试;
步骤S107:响应于工作组处理推理请求而采集和记录工作组在处理推理请求时产生的性能参数作为扩展性测试的结果;
步骤S109:根据基准测试的结果和扩展性测试的结果在各性能参数的维度上执行加权平均耦合以确定归一化的计算资源弹性量化指标。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关硬件来完成,的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,的存储介质可为磁碟、光盘、只读存储记忆体(ROM)或随机存储记忆体(RAM)等。计算机程序的实施例,可以达到与之对应的前述任意方法实施例相同或者相类似的效果。
在一些实施方式中,工作结点处理推理请求包括:工作结点独立地调用其全部计算资源来处理推理请求。
在一些实施方式中,采集和记录工作结点的性能参数包括:采集和记录工作结点的基准请求处理速率、基准处理延迟、基准启动时间、和基准功耗。
在一些实施方式中,使用主结点向数量变化的多个工作结点形成的工作组以对应数量变化的多倍单位测试频率发送推理请求以执行扩展性测试包括:
响应于扩展性测试开始,而使用主结点向至少一个工作结点形成的工作组以相应地至少一倍单位测试频率发送推理请求;
响应于扩展性测试进行到任意时间点,而使用主结点向工作组引入/从工作组移除至少一个工作结点,并相应地将发送推理请求的频率提升/降低至少一倍单位测试频率。
在一些实施方式中,响应于扩展性测试进行到任意时间点,而使用主结点向工作组引入/从工作组移除至少一个工作结点,并相应地将发送推理请求的频率提升/降低至少一倍单位测试频率包括:
响应于扩展性测试进行到预定的单位测试时间长度的整数倍时间点,而使用主结点向工作组引入一个工作结点,并相应地将发送推理请求的频率提升一倍单位测试频率。
在一些实施方式中,采集和记录工作组在处理推理请求时产生的性能参数包括:直接采集和记录工作组整体的请求处理速率、处理延迟、启动时间、和功耗;或分别采集和记录工作组中每一个工作结点的请求处理速率、处理延迟、启动时间、和功耗。
在一些实施方式中,根据基准测试的结果和扩展性测试的结果在各性能参数的维度上执行加权平均耦合以确定归一化的计算资源弹性量化指标包括:
根据扩展性测试的结果确定工作组中每一个工作结点的平均性能参数,包括平均请求处理速率、平均处理延迟、平均启动时间、和平均功耗;
将基准请求处理速率与平均请求处理速率之比和1二者中的较小值作为处理速率弹性;
将基准处理延迟与平均处理延迟之比和1二者中的较小值作为处理延迟弹性;
将基准启动时间与平均启动时间之比和1二者中的较小值作为启动时间弹性;
将基准功耗与平均功耗之比和1二者中的较小值作为功耗弹性;
对处理速率弹性、处理延迟弹性、启动时间弹性、和功耗弹性进行归一化的加权平均耦合以确定计算资源弹性量化指标。
下面根据具体实施例进一步阐述本发明的具体实施方式。
弹性指标在深度学习推理系统中的意义:当工作负载强度发生变化时,考察系统对自身资源的调度和再分配能力,以适应变化的工作负载。具体举例来说,一个推理服务系统在白天高峰阶段通常会收到大量请求,此时系统应当工作在满载状态,发挥最大计算性能;在夜间,收到的请求量大幅下降,此时系统应停止部分计算单元,以达到节约功耗的目的。本发明针对AI推理系统的弹性设计一套评测方案和性能指标的量化方法,以测试出系统的弹性。选择推理任务而非训练是因为,根据弹性指标的性质,需要被测试系统在计算时重新调度计算资源,而在训练任务中,各个计算单元在每一次迭代都会共享参数和梯度,如果计算资源发生变化,会破坏训练进度影响最终模型精度。而推理任务使用已经完成训练的模型,且只进行前向计算,各个计算模块相对独立,所以可以规避上述问题。
弹性指标大多用来测试如图2所示的分布式系统,即包含主结点,负责资源调度环境部署,和工作结点,负责计算。每个结点是独立的物理服务器,包含计算单元如CPU,GPU。如果工作结点只有单台物理服务器但包含多个可调度的计算单元(多GPU),依然可以进行弹性测试。关于软件环境,各个结点部署有测试所需要的数据集,训练好的模型,测试软件和性能监测软件,以及AI框架,本发明主要使用TensorFlow框架。
引入弹性指标的意义在于当工作负载发生变化时,系统是否可以高效的调用更多的计算资源参与计算。
首先对单一工作结点做基准测试,以固定频率f向工作结点发送请求,工作结点使用已训练好的模型进行推理消化请求,考察工作结点的启动时间,处理速率QPS(请求的每秒处理次数),功耗,平均处理延迟等性能参数。
在扩展性测试中,以与基准测试相同的速率向工作结点发送请求,请求中包含待处理样本,每隔一段固定时间引入一个新的计算结点,同时向系统发送请求的频率加倍。假如当前正在工作的结点数是N,那么当前发送请求的总体频率是N*f,对系统整体采集相同的性能指标,对参与计算的总结点数求平均后可得到每个结点的平均性能。
最终的弹性扩展性是将扩展性测试中工作结点的性能平均值和基准测试性能值做加权平均耦合后得到。AI推理计算包含不同种类的任务,比如计算机视觉领域的图像分类,目标检测;自然语言处理中的机器翻译。不同的任务,其性能指标相互独立。下以图像分类任务(classification)为例,其弹性指标可表示为:
Figure BDA0002588975920000101
w1+w2+w3+w4=1
在测试中考虑了QPS,延迟(Latency),启动时间(ProvTime),功耗(Power)四种指标,baselineQPS是指基准测试中的QPS测量值,averageQPS是指扩展测试中所有参与计算的结点的平均QPS值,其它参数名称命名规则相同。w1-w4是四种指标对弹性的影响权重,w1-w4总和为1。参数具体分配可根据具体情况做调整。
从上述实施例可以看出,本发明实施例提供的分布式系统的计算资源弹性测试方法,通过使用分布式系统的主结点向一个工作结点以单位测试频率发送推理请求以执行基准测试;响应于工作结点处理推理请求而采集和记录工作结点在处理推理请求时产生的性能参数作为基准测试的结果;使用主结点向数量变化的多个工作结点形成的工作组以对应数量变化的多倍单位测试频率发送推理请求以执行扩展性测试;响应于工作组处理推理请求而采集和记录工作组在处理推理请求时产生的性能参数作为扩展性测试的结果;根据基准测试的结果和扩展性测试的结果在各性能参数的维度上执行加权平均耦合以确定归一化的计算资源弹性量化指标的技术方案,能够测试分布式系统的计算资源弹性,引导分布式系统高效的调度自身计算资源,节约功耗成本。
需要特别指出的是,上述分布式系统的计算资源弹性测试方法的各个实施例中的各个步骤均可以相互交叉、替换、增加、删减,因此,这些合理的排列组合变换之于分布式系统的计算资源弹性测试方法也应当属于本发明的保护范围,并且不应将本发明的保护范围局限在所述实施例之上。
基于上述目的,本发明实施例的第二个方面,提出了一种能够测试分布式系统的计算资源弹性的装置的一个实施例。分布式系统的计算资源弹性测试装置包括:
处理器;和
存储器,存储有处理器可运行的程序代码,程序代码在被运行时依次执行以下步骤:
使用分布式系统的主结点向一个工作结点以单位测试频率发送推理请求以执行基准测试;
响应于工作结点处理推理请求而采集和记录工作结点在处理推理请求时产生的性能参数作为基准测试的结果;
使用主结点向数量变化的多个工作结点形成的工作组以对应数量变化的多倍单位测试频率发送推理请求以执行扩展性测试;
响应于工作组处理推理请求而采集和记录工作组在处理推理请求时产生的性能参数作为扩展性测试的结果;
根据基准测试的结果和扩展性测试的结果在各性能参数的维度上执行加权平均耦合以确定归一化的计算资源弹性量化指标。
在一些实施方式中,使用主结点向数量变化的多个工作结点形成的工作组以对应数量变化的多倍单位测试频率发送推理请求以执行扩展性测试包括:
响应于扩展性测试开始,而使用主结点向至少一个工作结点形成的工作组以相应地至少一倍单位测试频率发送推理请求;
响应于扩展性测试进行到预定的单位测试时间长度的整数倍时间点,而使用主结点向工作组引入一个工作结点,并相应地将发送推理请求的频率提升一倍单位测试频率;
并且,采集和记录工作组在处理推理请求时产生的性能参数包括:直接采集和记录工作组整体的请求处理速率、处理延迟、启动时间、和功耗;或分别采集和记录工作组中每一个工作结点的请求处理速率、处理延迟、启动时间、和功耗。
在一些实施方式中,根据基准测试的结果和扩展性测试的结果在各性能参数的维度上执行加权平均耦合以确定归一化的计算资源弹性量化指标包括:
根据扩展性测试的结果确定工作组中每一个工作结点的平均性能参数,包括平均请求处理速率、平均处理延迟、平均启动时间、和平均功耗;
将基准请求处理速率与平均请求处理速率之比和1二者中的较小值作为处理速率弹性;
将基准处理延迟与平均处理延迟之比和1二者中的较小值作为处理延迟弹性;
将基准启动时间与平均启动时间之比和1二者中的较小值作为启动时间弹性;
将基准功耗与平均功耗之比和1二者中的较小值作为功耗弹性;
对处理速率弹性、处理延迟弹性、启动时间弹性、和功耗弹性进行归一化的加权平均耦合以确定计算资源弹性量化指标。
从上述实施例可以看出,本发明实施例提供的分布式系统的计算资源弹性测试装置,通过使用分布式系统的主结点向一个工作结点以单位测试频率发送推理请求以执行基准测试;响应于工作结点处理推理请求而采集和记录工作结点在处理推理请求时产生的性能参数作为基准测试的结果;使用主结点向数量变化的多个工作结点形成的工作组以对应数量变化的多倍单位测试频率发送推理请求以执行扩展性测试;响应于工作组处理推理请求而采集和记录工作组在处理推理请求时产生的性能参数作为扩展性测试的结果;根据基准测试的结果和扩展性测试的结果在各性能参数的维度上执行加权平均耦合以确定归一化的计算资源弹性量化指标的技术方案,能够测试分布式系统的计算资源弹性,引导分布式系统高效的调度自身计算资源,节约功耗成本。
需要特别指出的是,上述分布式系统的计算资源弹性测试装置的实施例采用了所述分布式系统的计算资源弹性测试方法的实施例来具体说明各模块的工作过程,本领域技术人员能够很容易想到,将这些模块应用到所述分布式系统的计算资源弹性测试方法的其他实施例中。当然,由于所述分布式系统的计算资源弹性测试方法实施例中的各个步骤均可以相互交叉、替换、增加、删减,因此,这些合理的排列组合变换之于所述分布式系统的计算资源弹性测试装置也应当属于本发明的保护范围,并且不应将本发明的保护范围局限在所述实施例之上。
以上是本发明公开的示例性实施例,但是应当注意,在不背离权利要求限定的本发明实施例公开的范围的前提下,可以进行多种改变和修改。根据这里描述的公开实施例的方法权利要求的功能、步骤和/或动作不需以任何特定顺序执行。此外,尽管本发明实施例公开的元素可以以个体形式描述或要求,但除非明确限制为单数,也可以理解为多个。
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本发明实施例公开的范围(包括权利要求)被限于这些例子;在本发明实施例的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,并存在如上所述的本发明实施例的不同方面的许多其它变化,为了简明它们没有在细节中提供。因此,凡在本发明实施例的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本发明实施例的保护范围之内。

Claims (7)

1.一种分布式系统的计算资源弹性测试方法,其特征在于,包括执行以下步骤:
使用分布式系统的主结点向一个工作结点以单位测试频率发送推理请求以执行基准测试;
响应于所述工作结点处理所述推理请求而采集和记录所述工作结点在处理所述推理请求时产生的性能参数作为所述基准测试的结果;
使用所述主结点向数量变化的多个工作结点形成的工作组以对应数量变化的多倍单位测试频率发送推理请求以执行扩展性测试;
响应于所述工作组处理所述推理请求而采集和记录所述工作组在处理所述推理请求时产生的性能参数作为所述扩展性测试的结果;
根据所述基准测试的结果和所述扩展性测试的结果在各性能参数的维度上执行加权平均耦合以确定归一化的计算资源弹性量化指标;
其中,所述采集和记录所述工作结点的所述性能参数包括:采集和记录所述工作结点的基准请求处理速率、基准处理延迟、基准启动时间、和基准功耗;
所述根据所述基准测试的结果和所述扩展性测试的结果在各性能参数的维度上执行加权平均耦合以确定归一化的计算资源弹性量化指标包括:
根据所述扩展性测试的结果确定所述工作组中每一个工作结点的平均性能参数,包括平均请求处理速率、平均处理延迟、平均启动时间、和平均功耗;
将所述基准请求处理速率与所述平均请求处理速率之比和1二者中的较小值作为处理速率弹性;
将所述基准处理延迟与所述平均处理延迟之比和1二者中的较小值作为处理延迟弹性;
将所述基准启动时间与所述平均启动时间之比和1二者中的较小值作为启动时间弹性;
将所述基准功耗与所述平均功耗之比和1二者中的较小值作为功耗弹性;
对所述处理速率弹性、所述处理延迟弹性、所述启动时间弹性、和所述功耗弹性进行归一化的加权平均耦合以确定所述计算资源弹性量化指标。
2.根据权利要求1所述的方法,其特征在于,所述工作结点处理所述推理请求包括:所述工作结点独立地调用其全部计算资源来处理所述推理请求。
3.根据权利要求1所述的方法,其特征在于,使用所述主结点向数量变化的多个工作结点形成的工作组以对应数量变化的多倍单位测试频率发送推理请求以执行扩展性测试包括:
响应于所述扩展性测试开始,而使用所述主结点向至少一个工作结点形成的工作组以相应地至少一倍单位测试频率发送推理请求;
响应于所述扩展性测试进行到任意时间点,而使用所述主结点向所述工作组引入/从所述工作组移除至少一个工作结点,并相应地将发送所述推理请求的频率提升/降低至少一倍单位测试频率。
4.根据权利要求3所述的方法,其特征在于,响应于所述扩展性测试进行到任意时间点,而使用所述主结点向所述工作组引入/从所述工作组移除至少一个工作结点,并相应地将发送所述推理请求的频率提升/降低至少一倍单位测试频率包括:
响应于所述扩展性测试进行到预定的单位测试时间长度的整数倍时间点,而使用所述主结点向所述工作组引入一个工作结点,并相应地将发送所述推理请求的频率提升一倍单位测试频率。
5.根据权利要求3所述的方法,其特征在于,采集和记录所述工作组在处理所述推理请求时产生的性能参数包括:直接采集和记录所述工作组整体的请求处理速率、处理延迟、启动时间、和功耗;或分别采集和记录所述工作组中每一个工作结点的请求处理速率、处理延迟、启动时间、和功耗。
6.一种分布式系统的计算资源弹性测试装置,其特征在于,包括:
处理器;和
存储器,存储有处理器可运行的程序代码,所述程序代码在被运行时依次执行以下步骤:
使用分布式系统的主结点向一个工作结点以单位测试频率发送推理请求以执行基准测试;
响应于所述工作结点处理所述推理请求而采集和记录所述工作结点在处理所述推理请求时产生的性能参数作为所述基准测试的结果;
使用所述主结点向数量变化的多个工作结点形成的工作组以对应数量变化的多倍单位测试频率发送推理请求以执行扩展性测试;
响应于所述工作组处理所述推理请求而采集和记录所述工作组在处理所述推理请求时产生的性能参数作为所述扩展性测试的结果;
根据所述基准测试的结果和所述扩展性测试的结果在各性能参数的维度上执行加权平均耦合以确定归一化的计算资源弹性量化指标;
其中,所述采集和记录所述工作结点的所述性能参数包括:采集和记录所述工作结点的基准请求处理速率、基准处理延迟、基准启动时间、和基准功耗;
所述根据所述基准测试的结果和所述扩展性测试的结果在各性能参数的维度上执行加权平均耦合以确定归一化的计算资源弹性量化指标包括:
根据所述扩展性测试的结果确定所述工作组中每一个工作结点的平均性能参数,包括平均请求处理速率、平均处理延迟、平均启动时间、和平均功耗;
将所述基准请求处理速率与所述平均请求处理速率之比和1二者中的较小值作为处理速率弹性;
将所述基准处理延迟与所述平均处理延迟之比和1二者中的较小值作为处理延迟弹性;
将所述基准启动时间与所述平均启动时间之比和1二者中的较小值作为启动时间弹性;
将所述基准功耗与所述平均功耗之比和1二者中的较小值作为功耗弹性;
对所述处理速率弹性、所述处理延迟弹性、所述启动时间弹性、和所述功耗弹性进行归一化的加权平均耦合以确定所述计算资源弹性量化指标。
7.根据权利要求6所述的装置,其特征在于,使用所述主结点向数量变化的多个工作结点形成的工作组以对应数量变化的多倍单位测试频率发送推理请求以执行扩展性测试包括:
响应于所述扩展性测试开始,而使用所述主结点向至少一个工作结点形成的工作组以相应地至少一倍单位测试频率发送推理请求;
响应于所述扩展性测试进行到预定的单位测试时间长度的整数倍时间点,而使用所述主结点向所述工作组引入一个工作结点,并相应地将发送所述推理请求的频率提升一倍单位测试频率。
CN202010689931.2A 2020-07-17 2020-07-17 一种分布式系统的计算资源弹性测试方法和装置 Active CN111858332B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010689931.2A CN111858332B (zh) 2020-07-17 2020-07-17 一种分布式系统的计算资源弹性测试方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010689931.2A CN111858332B (zh) 2020-07-17 2020-07-17 一种分布式系统的计算资源弹性测试方法和装置

Publications (2)

Publication Number Publication Date
CN111858332A CN111858332A (zh) 2020-10-30
CN111858332B true CN111858332B (zh) 2022-08-05

Family

ID=72983655

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010689931.2A Active CN111858332B (zh) 2020-07-17 2020-07-17 一种分布式系统的计算资源弹性测试方法和装置

Country Status (1)

Country Link
CN (1) CN111858332B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115357468B (zh) * 2022-10-19 2023-01-24 广东省科技基础条件平台中心 一种软件性能评估方法、装置、设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102646060A (zh) * 2012-02-23 2012-08-22 中国人民解放军国防科学技术大学 高性能计算机系统中不满足计算精度要求的结点检测方法
CN104683394A (zh) * 2013-11-27 2015-06-03 上海墨芋电子科技有限公司 新技术的云计算平台数据库基准测试系统及其方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102646060A (zh) * 2012-02-23 2012-08-22 中国人民解放军国防科学技术大学 高性能计算机系统中不满足计算精度要求的结点检测方法
CN104683394A (zh) * 2013-11-27 2015-06-03 上海墨芋电子科技有限公司 新技术的云计算平台数据库基准测试系统及其方法

Also Published As

Publication number Publication date
CN111858332A (zh) 2020-10-30

Similar Documents

Publication Publication Date Title
CN109144724A (zh) 一种微服务资源调度系统及方法
CN111638958B (zh) 云主机负载处理方法、装置、控制设备及存储介质
CN110515811A (zh) 终端人工智能性能基准测试方法及装置
CN110333991B (zh) 云平台任务最大资源使用率预测方法
CN111860867B (zh) 一种混合异构系统的模型训练方法、系统及相关装置
CN109933501A (zh) 一种应用系统的容量评估方法及装置
CN111858332B (zh) 一种分布式系统的计算资源弹性测试方法和装置
CN114638167A (zh) 基于多智能体强化学习的高性能集群资源公平分配方法
CN116700920A (zh) 云原生混合部署集群资源调度方法及装置
CN112764893B (zh) 数据处理方法和数据处理系统
CN117170848A (zh) 一种资源调度方法及装置
US10884909B1 (en) Code release with automatic callback
CN112947080B (zh) 一种基于场景参数变换的智能决策模型性能评估系统
CN104735063B (zh) 一种用于云基础设施的安全评测方法
CN109101395A (zh) 一种基于lstm的高性能计算集群应用监控方法及系统
CN117130888A (zh) 基于历史数据和机器学习的服务器自动调优方法及系统
CN109800975B (zh) 一种资源评估方法、装置、计算机设备和存储介质
CN114389953B (zh) 一种基于流量预测的Kubernetes容器动态扩缩容方法及系统
CN114254762A (zh) 可解释性机器学习模型构建方法、装置和计算机设备
Wang et al. Performance optimization for CPU-GPU heterogeneous parallel system
CN115146596B (zh) 召回文本的生成方法、装置、电子设备及存储介质
CN111221656A (zh) 一种基于机器学习技术的多线程应用程序动态调度方法
Guilloteau Simulating a Multi-Layered Grid Middleware
CN116991448B (zh) 服务器的运维时间窗检测方法、系统、存储介质和服务器
CN115249134B (zh) 一种用于无人机的资源分配方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant