CN114861781B - 自动调参优化方法、装置、电子设备 - Google Patents
自动调参优化方法、装置、电子设备 Download PDFInfo
- Publication number
- CN114861781B CN114861781B CN202210438163.2A CN202210438163A CN114861781B CN 114861781 B CN114861781 B CN 114861781B CN 202210438163 A CN202210438163 A CN 202210438163A CN 114861781 B CN114861781 B CN 114861781B
- Authority
- CN
- China
- Prior art keywords
- system parameters
- parameter
- resource consumption
- training
- prediction model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 69
- 238000005457 optimization Methods 0.000 title claims abstract description 25
- 238000012549 training Methods 0.000 claims abstract description 193
- 238000000605 extraction Methods 0.000 claims abstract description 22
- 238000012360 testing method Methods 0.000 claims description 62
- 230000001360 synchronised effect Effects 0.000 claims description 15
- 238000011156 evaluation Methods 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 5
- 238000005192 partition Methods 0.000 abstract 1
- 230000000694 effects Effects 0.000 description 11
- 238000012545 processing Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 230000001960 triggered effect Effects 0.000 description 3
- 230000003068 static effect Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/08—Configuration management of networks or network elements
- H04L41/0803—Configuration setting
- H04L41/0823—Configuration setting characterised by the purposes of a change of settings, e.g. optimising configuration for enhancing reliability
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请提供一种自动调参优化方法、装置、电子设备。其中,自动调参优化方法包括:根据调参指令,将历史系统参数和所述历史系统参数对应的资源消耗量,确定为训练样本;对所述训练样本进行特征提取;利用提取的特征,对参数预测模型进行训练;利用训练好的参数预测模型,对下一时段的系统参数进行预测,得到预测系统参数;根据所述预测系统参数,更新系统参数。本申请的方案预测了下一时段的资源消耗,因此可以提前自动修改参数,或者提前释放分区资源,解决参数需要频繁手动修改或者开辟空间不及时造成数据丢失的问题。
Description
技术领域
本申请涉及数据同步技术领域,尤其是涉及一种自动调参优化方法、装置、电子设备。
背景技术
随着科技的不断发展和进步,数据平台处理的数据量日益增大,任务量的波动也更大。结合合适的处理参数,可以保证平台数据处理、数据同步更快、更稳定。
现阶段各数据平台参数调优的主要技术手段是固定住参数,在重量级部署前,手动调整参数。
但是,固定住参数这种方法,只适合处理数据量无明显变化的任务,对于数据量变化较快的任务场景,可能需要在每次运行时都进行手动调参才能保证较高的处理效率。导致,数据量变化较快的任务场景下,数据处理效率较低。
发明内容
本申请提供一种自动调参优化方法、装置、电子设备。提供一种适用于平台数据同步场景下的数据处理方法,以提高数据同步的效率。
第一方面,本申请提供一种自动调参优化方法,用于数据同步数据时自动对系统参数进行调整,所述方法包括:
根据调参指令,将历史系统参数和所述历史系统参数对应的资源消耗量,确定为训练样本;
对所述训练样本进行特征提取;
利用提取的特征,对参数预测模型进行训练;
利用训练好的参数预测模型,对下一时段的系统参数进行预测,得到预测系统参数;
根据所述预测系统参数,更新系统参数。
本申请提供的一种自动调参优化方法,基于历史的资源消耗量对模型进行训练,使模型具备了对下一时刻资源消耗量进行预测的能力;同时,模型可以基于系统参数和资源消耗量的对应关系,对下一时刻的系统参数做出预测,得到预测系统参数,从而能够依据预测系统参数,更新系统参数,使系统参数尽可能适配下一时刻资源消耗量(数据量)。从而达到根据资源消耗量的不同而自动修改系统参数的效果,提高了数据处理效率。
可选的,所述根据调参指令,将历史系统参数和所述历史系统参数对应的资源消耗量,确定为训练样本,包括:
根据调参指令,将历史系统参数和所述历史系统参数对应的资源消耗量,确定为训练样本集;
基于自助法,根据所述训练样本集,生成若干组训练样本;
所述对所述训练样本进行特征提取,包括:
针对每一组训练样本,对所述训练样本进行特征提取;
所述利用提取的特征,对参数预测模型进行训练,包括:
针对每一组训练样本,利用所述训练样本对应的提取的特征,对参数预测模型进行训练,得到一组对应的模型参数;
从若干组所述模型参数中,选取最优模型参数,生成训练好的参数预测模型。
通过对多组样本进行特征提取,可以得到多组模型参数,在多组模型参数中找到最优模型参数,可以保证模型的优化程度更高。
可选的,所述从若干组所述模型参数中,选取最优模型参数,生成训练好的参数预测模型,包括:
获取测试任务;
基于所述测试任务对应的资源消耗量,利用若干组所述模型参数对应的模型,对系统参数进行预测,得到若干组测试系统参数;
针对每一组测试系统参数,将所述测试系统参数部署到系统中,执行所述测试任务,确定测试时长;
将最短测试时长对应的模型确定为训练好的参数预测模型。
通过部署测试任务对模型进行效果测试,可以更高效地找到最优的模型参数,从而确定参数预测模型。
可选的,所述利用训练好的参数预测模型,对下一时段的系统参数进行预测,得到预测系统参数,包括:
根据所述参数预测模型,对下一时段的资源消耗量和系统参数进行预测,得到预测的资源消耗量和对应的预测系统参数;
所述方法还包括:
将所述预测的资源消耗量和下一时段的实际的资源消耗量比较,得到本时段预测结果的准确率;
获取最新版本参数预测模型预测的资源消耗量的预测值和对应的资源消耗量的实际值,得到最新版本预测结果的准确率;
若本时段预测结果的准确率高于所述最新版本预测结果的准确率,则将本次系统参数和资源消耗的实际值写入下次训练的样本。
随着新样本的不断加入,样本量不断增大,样本的质量也不断提高,从而参数预测模型的训练效果也就更好,精度也就更高。
可选的,所述根据调参指令,将历史系统参数和所述历史系统参数对应的资源消耗量,确定为训练样本,包括:
根据调参指令,获取预设时长内每一时段对应的实际系统参数和实际资源消耗量;
将每一时段对应的实际系统参数和实际资源消耗量确定为一条训练样本。
可选的,所述方法还包括:
针对每一条训练样本,判断所述训练样本是否完整;
若所述训练样本不完整,则根据所述训练样本相关的历史数据,对所述训练样本进行补全。
可能会存在不完整的训练样本,但其可能仍具有训练价值,将其补全后,可以作为完整的训练样本进行模型训练,有利于充分利用历史样本数据,更准确地进行模型训练。
可选的,所述方法还包括:
接收同步任务指令;
基于所述同步任务指令,校验流程图依赖关系是否正常;
若所述流程图依赖关系正常,则生成调参指令。
提前判断依赖关系,有利于提前识别流程中存在的依赖关系的问题,避免触发调参指令后,因为依赖关系存在问题,而导致流程不能正常执行,从而导致资源浪费。
可选的,所述方法还包括:
对本时段参数预测模型进行整体性评估,得到本时段训练好的参数预测模型的评分;
对最新版本的参数预测模型进行整体性评估,得到最新版本的参数预测模型的评分;
比较两个模型的评分,若本时段训练好的参数预测模型的评分高于最新版本的参数预测模型的评分,则将本时段训练好的参数预测模型更新为最新版本的参数预测模型。
通过对两个时段的预测结果的准确率的比较,可以得到最优的参数预测模型,将最优的参数预测模型更新为最新版本的参数预测模型,从而保持参数预测模型一直在向准确率更高的方向迭代。
第二方面,本申请提供一种自动调参优化装置,包括:
训练样本确定模块,用于根据调参指令,将历史系统参数和所述历史系统参数对应的资源消耗量,确定为训练样本;
特征提取模块,用于对所述训练样本进行特征提取;
模型训练模块,用于利用提取的特征,对参数预测模型进行训练;
系统参数预测模块,用于利用训练好的参数预测模型,对下一时段的系统参数进行预测,得到预测系统参数;
系统参数更新模块,用于根据所述预测系统参数,更新系统参数。
可选的,所述训练样本确定模块,具体用于:
根据调参指令,将历史系统参数和所述历史系统参数对应的资源消耗量,确定为训练样本集;
基于自助法,根据所述训练样本集,生成若干组训练样本;
所述特征提取模块,具体用于:
针对每一组训练样本,对所述训练样本进行特征提取;
所述模型训练模块,具体用于:
针对每一组训练样本,利用所述训练样本对应的提取的特征,对参数预测模型进行训练,得到一组对应的模型参数;
从若干组所述模型参数中,选取最优模型参数,生成训练好的参数预测模型。
可选的,所述模型训练模块在从若干组所述模型参数中,选取最优模型参数,生成训练好的参数预测模型时,具体用于:
获取测试任务;
基于所述测试任务对应的资源消耗量,利用若干组所述模型参数对应的模型,对系统参数进行预测,得到若干组测试系统参数;
针对每一组测试系统参数,将所述测试系统参数部署到系统中,执行所述测试任务,确定测试时长;
将最短测试时长对应的模型确定为训练好的参数预测模型。
可选的,所述系统参数预测模块,具体用于:
根据所述参数预测模型,对下一时段的资源消耗量和系统参数进行预测,得到预测的资源消耗量和对应的预测系统参数;
所述装置还包括:训练样本优化模块,用于:
将所述预测的资源消耗量和下一时段的实际的资源消耗量比较,得到本时段预测结果的准确率;
获取最新版本参数预测模型预测的资源消耗量的预测值和对应的资源消耗量的实际值,得到最新版本预测结果的准确率;
若本时段预测结果的准确率高于所述最新版本预测结果的准确率,则将本次系统参数和资源消耗的实际值写入下次训练的样本。
可选的,所述训练样本确定模块,具体用于:
根据调参指令,获取预设时长内每一时段对应的实际系统参数和实际资源消耗量;
将每一时段对应的实际系统参数和实际资源消耗量确定为一条训练样本。
可选的,所述装置还包括:训练样本补全模块,用于:
针对每一条训练样本,判断所述训练样本是否完整;
若所述训练样本不完整,则根据所述训练样本相关的历史数据,对所述训练样本进行补全。
可选的,所述装置还包括:调参指令触发模块,用于:
接收同步任务指令;
基于所述同步任务指令,校验流程图依赖关系是否正常;
在所述流程图依赖关系正常时,生成调参指令。
可选的,所述装置还包括:模型迭代模块,用于:
对本时段参数预测模型进行整体性评估,得到本时段训练好的参数预测模型的评分;
对最新版本的参数预测模型进行整体性评估,得到最新版本的参数预测模型的评分;
比较两个模型的评分,若本时段训练好的参数预测模型的评分高于最新版本的参数预测模型的评分,则将本时段训练好的参数预测模型更新为最新版本的参数预测模型。
第三方面,本申请提供一种电子设备,包括:存储器和处理器,所述存储器上存储有能够被处理器加载并执行如第一方面任一种方法的计算机程序。
第四方面,本申请提供一种计算机可读存储介质,存储有能够被处理器加载并执行如第一方面任一种方法的计算机程序。
本申请提供了一种自动调参优化方法、装置、电子设备。其中,自动调参优化方法,基于历史的资源消耗量对模型进行训练,使模型具备了对下一时刻资源消耗量进行预测的能力;同时,模型可以基于系统参数和资源消耗量的对应关系,对下一时刻的系统参数做出预测,得到预测系统参数,从而能够依据预测系统参数,更新系统参数,使系统参数尽可能适配下一时刻资源消耗量(数据量)。从而达到根据资源消耗量的不同而自动修改系统参数的效果,提高了数据处理效率。
附图说明
图1是本申请提供的一种应用场景示意图;
图2为本申请一实施例提供的一种自动调参优化方法的流程图;
图3为本申请一实施例提供的一种自动调参优化装置的结构示意图;
图4为本申请一实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
另外,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,如无特殊说明,一般表示前后关联对象是一种“或”的关系。
下面结合说明书附图对本申请实施例作进一步详细描述。
图1为本申请提供的一种应用场景示意图,在本场景中需要对某个公司的某项业务进行数据同步。该项业务为在线业务,业务执行过程中会生成大量的在线数据,为了保障数据的可复现性,应用本申请提供的方法对业务数据进行同步。具体的,可以将本申请的自动调参优化方法部署在服务器中。当有数据同步需求时,服务器执行本申请的方法,对数据同步系统的系统参数进行优化,进而使得数据同步系统以优化后的系统参数对实时产生的在线数据进行同步。
服务器处具体的处理过程的实现方式可以参考以下实施例。
图2为本申请一实施例提供的一种自动调参优化方法的流程图。本实施例的方法用于同步数据时自动对系统参数进行调整,可以应用于上述场景中的服务器,也可应用于其它具有计算能力的电子设备。如图2所示的,本实施例的方法包括:
S201、根据调参指令,将历史系统参数和历史系统参数对应的资源消耗量,确定为训练样本。
其中,调参指令指的是,触发调参优化过程的指令;系统参数指的是,数据同步系统用于数据同步的参数,包括网络带宽、yarn队列等;历史系统参数则是过往使用过的系统参数;历史系统参数对应的资源消耗量指的是,利用历史系统参数执行某次数据同步任务所消耗的资源量,也相当于该次数据同步任务同步的数据量。
具体的,调参指令可以为时钟触发指令。例如,设定每个固定周期的开始时刻执行本实施例的方法进行调参优化,则时钟到达某个周期的开始时刻时即作为调参指令触发调参过程。
调参指令还可以为用户输入的触发指令。例如,设定接收到用户输入的某个特定指令后执行本实施例的方法进行调参优化,则当用户通过输入设备输入该特定指令,服务器接收到该特定指令时则将其作为调参指令触发调参过程。
在一些场景中,该特定指令可以为同步任务指令。首先,用户创建一个项目作为一个同步任务,服务器接收到用户创建的同步任务指令后,即触发调参过程。
在一些实施例中,为了验证用户创建的同步任务是否可以正常执行,还可以在接收到同步任务指令后,基于所述同步任务指令,校验流程图依赖关系是否正常;若所述流程图依赖关系正常,则生成调参指令。
其中,校验流程图依赖关系是否正常,可以通过校验以下内容实现:数据同步环节与其它环节是否存在依赖关系,同步任务指令中所包含的同步任务与其它任务是否存在依赖关系,同步任务指令中所包含的同步任务与上一时刻的同步任务是否存在依赖关系等。相对应的,如果数据同步环节与其它环节不存在依赖关系,同步任务指令中所包含的同步任务与其它任务不存在依赖关系,同步任务指令中所包含的同步任务与上一时刻的同步任务不存在依赖关系,则说明同步任务指令中所包含的同步任务的执行不依赖于其它环节或其它任务的执行结果,可以正常独立执行。此时,认为流程图依赖关系正常。即将同步任务指令作为调参指令触发调参过程。
在另一些场景中,并非对全部的数据同步任务都执行自动调参优化过程。例如,在某些场景中,不同任务之间的数据量变化较小,或者对于数据同步效率没有过高的要求,则可能不执行自动调参优化,而是直接基于原有的系统参数进行数据同步。在这种场景下,还可以在执行S201之前,基于所述同步任务指令,判断是否满足预设调参条件。相对应的,上述的若所述流程图依赖关系正常,则生成调参指令,包括:若所述流程图依赖关系正常,且满足预设调参条件,则生成调参指令。
其中,预设调参条件可以为预设的开启自动调参优化的条件。例如,同步任务指令中所包含的同步任务属于重量级部署任务,要求数据同步时长小于预设值等。如果同步任务指令满足预设调参条件,说明用户对此次数据同步的效率要求较高,则生成调参指令,触发自动调参过程,以便于自动调整系统参数,提高数据同步效率。
触发自动调参过程即开始执行本实施例的方法。首先确定训练样本,以进行后续的模型训练。训练样本可以为历史系统参数和所述历史系统参数对应的资源消耗量。例如,可以为上一时段及之前执行数据同步任务产生历史系统参数和所述历史系统参数对应的资源消耗量。具体的,根据调参指令,获取预设时长内每一时段对应的实际系统参数和实际资源消耗量;将每一时段对应的实际系统参数和实际资源消耗量确定为一条训练样本。最终得到多条训练样本。
在一些场景中,由于数据丢失或其它原因,可能造成样本数据的不完整。为了充分利用这些不完整的样本,还可以对其进行补全。具体的,针对每一条训练样本,判断所述训练样本是否完整;若所述训练样本不完整,则根据所述训练样本相关的历史数据,对所述训练样本进行补全。例如,某一时段对应的一条训练样本丢失了部分数据,可以通过查找该时段对应的相关的历史数据,对丢失的部分数据进行补全。相关的历史数据可以为日志数据,日志数据可以为每次数据同步任务执行完成后,根据任务执行过程生成。
S202、对训练样本进行特征提取。
其中,特征提取指的是,基于S201确定的训练样本进行特征提取,得到不同时段的资源消耗量之间的对应关系的相关特征及系统参数与资源消耗量的对应关系的相关特征。
使基于这些特征训练得到的参数预测模型可以具备相应的预测能力,包括根据提取得到的不同时段的资源消耗量之间的对应关系的相关特征,可以对下一时段的资源消耗量进行预测;根据预测得到的下一时段的资源消耗量,以及提取得到的系统参数与资源消耗量的对应关系的相关特征,可以对下一时段的系统参数进行预测。
在一些场景中,受到同步任务的相似度影响,不同时段处理的同步任务相似度较高,可能会使得这些时段对应的系统参数和资源消耗量等数据(部分训练样本)相似度较高;而不同时段处理的同步任务相似度较低,可能会使得这些时段对应的系统参数和资源消耗量等数据(部分训练样本)相似度较低。如此,可能会造成训练样本中部分样本数据重复度过高。可能导致提取到的特征出现偏差,从而影响模型精度。
因此,在另一些实施例中,还可以在执行S202进行特征提取之前,调整训练样本中的数据分布。具体的,针对每一个训练样本(某一时段的历史系统参数和对应的资源消耗量)的复现率,为该训练样本增加权重,以平衡各训练样本在全部训练样本之间的占比。例如,如果某一个训练样本在确定的全部训练样本中有较高的复现率(有多个训练样本与该训练样本的相似度高于预设值),可以为该训练样本增加一个较小的权重,从而与其它复现率较低的样本保持相似的占比。
S203、利用提取的特征,对参数预测模型进行训练。
在一些场景中,参数预测模型为新部署的模型,只有一些基础参数,需要基于部署环境的历史系统参数和所述历史系统参数对应的资源消耗量进行训练,使之适配于部署环境。
在另一些场景中,参数预测模型为应用了一段时间的模型(最新版本的模型),已经具备一定预测功能。仍需要基于部署环境新产生的历史系统参数和所述历史系统参数对应的资源消耗量进行训练,提高其对于部署环境的适配度。
在一些实现方式中,可以预先设置训练过程的训练参数,例如训练轮次、训练时长、学习率等。在训练过程中,基于训练样本中提取大的特征,依据这些训练参数对参数预测模型进行多轮次训练。
S204、利用训练好的参数预测模型,对下一时段的系统参数进行预测,得到预测系统参数。
如上所述的,可以利用训练好的参数预测模型可以首先对下一时段的资源消耗量进行预测;再根据预测得到的下一时段的资源消耗量对下一时段的系统参数进行预测。将预测得到的系统参数值称为“预测系统参数”。
S205、根据预测系统参数,更新系统参数。
将预测系统参数作为数据同步系统的新的系统参数。进而,可以基于更新后的数据同步系统的系统参数执行本时段的数据同步任务。
本实施例提供的一种自动调参优化方法,基于历史的资源消耗量对模型进行训练,使模型具备了对下一时刻资源消耗量进行预测的能力;同时,模型可以基于系统参数和资源消耗量的对应关系,对下一时刻的系统参数做出预测,得到预测系统参数,从而能够依据预测系统参数,更新系统参数,使系统参数尽可能适配下一时刻资源消耗量(数据量)。从而达到根据资源消耗量的不同而自动修改系统参数的效果,提高了数据处理效率。
在一些实施例中,为了提高模型的精度,可以先训练出多组模型参数,再从中选取最优模型参数。相对应的,上述的根据调参指令,将历史系统参数和所述历史系统参数对应的资源消耗量,确定为训练样本,包括:根据调参指令,将历史系统参数和所述历史系统参数对应的资源消耗量,确定为训练样本集;基于自助法,根据所述训练样本集,生成若干组训练样本;上述的对所述训练样本进行特征提取,包括:针对每一组训练样本,对所述训练样本进行特征提取;上述的利用提取的特征,对参数预测模型进行训练,包括:针对每一组训练样本,利用所述训练样本对应的提取的特征,对参数预测模型进行训练,得到一组对应的模型参数;从若干组所述模型参数中,选取最优模型参数,生成训练好的参数预测模型。
在本实施例中,首先将历史系统参数和所述历史系统参数对应的资源消耗量,确定为训练样本集。然后基于训练样本集,生成若干组训练样本。具体的方式是借助于自助法,多次、有放回地从训练样本集中抽取一定量的训练样本,组成若干组训练样本。分别利用每一组训练样本进行特征提取,并对参数预测模型进行训练,最终得到若干组模型参数。从中选择最优的一组模型参数,生成训练好的参数预测模型。
同时,还可以将训练样本集中从未抽取到过的训练样本组成验证集,对模型进行验证。
通过本实施例的这种方式,可以在样本量较小的情况下,以多种不同的样本组合对模型进行多次训练,保证取得较好的训练效果。
在一些实现方式中,可以通过单例测试的方式,从若干组所述模型参数中,选取最优模型参数。单例测试是指利用一个测试任务的实例来对若干组模型参数对应的模型的预测效果进行测试。具体的,可以获取测试任务;基于所述测试任务对应的资源消耗量,利用若干组所述模型参数对应的模型,对系统参数进行预测,得到若干组测试系统参数;针对每一组测试系统参数,将所述测试系统参数部署到数据同步系统中,执行所述测试任务,确定测试时长;将最短测试时长对应的模型确定为训练好的参数预测模型。
可以预先设置一个测试任务,至少明确该测试任务的数据量(资源消耗量)、数据输入源、数据输出源。获取测试任务后,可以分别利用每一组模型参数对应的模型,基于该测试任务的数据量,对系统参数进行预测。将预测得到的若干组系统参数(测试系统参数)分别部署到数据同步系统中,以使数据同步系统执行该测试任务,将该测试任务的数据从数据输入源同步到数据输出源。同时,分别统计执行该测试任务完成数据同步所用的时长(测试时长)。最短测试时长对应的一组测试系统参数是最优的测试系统参数,生成该测试系统参数的模型即为训练好的参数预测模型,该测试系统参数对应的模型参数即为最优模型参数。
在一些场景中,测试任务可以是根据过往执行过的同步任务自动生成的。这样,测试任务跟实际任务的相似度比较高,选取出的模型参数也会更适用于实际任务。
可以理解的是,在数据同步场景中,可能存在某一时段的数据同步任务较为特殊的情况。以这种特殊任务对应的历史系统参数及对应的资源消耗量作为样本对模型进行训练后,可能会导致新模型的效果相比于之前没有明显的优化。因此,在一些实施例中,还可以对当前时段确定好的参数预测模型进行评估,判断是否优于上一时段的模型,从而将特殊样本剔除。具体的,上述的利用训练好的参数预测模型,对下一时段的系统参数进行预测,得到预测系统参数,包括:根据所述参数预测模型,对下一时段的资源消耗量和系统参数进行预测,得到预测的资源消耗量和对应的预测系统参数;自动调参优化方法还包括:将所述预测的资源消耗量和下一时段的实际的资源消耗量比较,得到本时段预测结果的准确率;获取上一时段的模型对本时段的资源消耗量的预测值和本时段的资源消耗量的实际值,得到上一时段预测结果的准确率;若本时段预测结果的准确率高于所述上一时段预测结果的准确率,保留本时段应用的系统参数和本时段的实际的资源消耗量作为样本。
每个时段结束时,可以利用训练好的参数预测模型对下一时段的资源消耗量和系统参数进行预测。将预测系统参数部署到数据同步系统后,可以执行下一时段的同步任务。下一时段任务执行完成后,可以确定该时段的资源消耗量的实际值(即实际同步的数据量)。
对于每个时段,资源消耗量的预测值是上一时段训练得到的模型进行预测得到的,资源消耗量的预测值与资源消耗量的实际值之间的相似度,就代表了上一时段训练出的模型的预测效果(准确率)。而本时段训练出的模型与上一时段训练出的模型相比,新增的训练样本即为上一时段对本时段预测的预测系统参数(即本时段应用的系统参数)和本时段的实际资源消耗量。因此,如果本时段的预测结果的准确率高于上一时段的预测结果的准确率,则说明本时段新增的训练样本比较优质,可以保留作为下一时段的训练样本。相反的,如果本时段的预测结果的准确率低于上一时段的预测结果的准确率,则说明本时段新增的训练样本不太优质,则可以删除,不再作为下一时段的训练样本。
在另一些实施例中,还可以对当前时段确定好的参数预测模型进行评估,判断是否优于最新版本的模型,从而将特殊样本剔除。具体的,上述的利用训练好的参数预测模型,对下一时段的系统参数进行预测,得到预测系统参数,包括:根据所述参数预测模型,对下一时段的资源消耗量和系统参数进行预测,得到预测的资源消耗量和对应的预测系统参数;自动调参优化方法还包括:将所述预测的资源消耗量和下一时段的实际的资源消耗量比较,得到本时段预测结果的准确率;获取最新版本参数预测模型对本时段的资源消耗量的预测值和对应的资源消耗量的实际值,得到最新版本预测结果的准确率;若本时段预测结果的准确率高于所述最新版本预测结果的准确率,则将本时段系统参数和资源消耗的实际值写入下次训练的样本。
相对于上一实施例,针对本时段参数预测模型的预测结果的准确率,不再和上一时段的参数预测模型的准确率比较,而是跟上一版本(最新版本)的参数预测模型进行比较。当本时段的预测结果的准确率高于最新版本的预测结果的准确率时,则说明本时段新增的训练样本比较优质,可以作为下一时段的训练样本;反之,如果本时段的预测结果的准确率低于最新版本的预测结果的准确率,则说明本时段新增的训练样本不太优质,则可以删除,不再作为下一时段的训练样本。
这样一直和最新版本的参数预测模型的准确率进行比较,可以提高在本时段新增的训练样本加入下一时段的训练样本时的标准,促使训练样本的优化程度更高,参数预测模型的预测精度更好。
在另一些实施例中,还可以对训练好的参数预测模型进行评估,以实现模型的迭代。具体的。具体的,上述自动调参优化方法还包括:根据模型的稳定性、准确率、任务执行效率等因素,对本时段训练好的参数预测模型进行评分;根据模型的稳定性、准确率、任务执行效率等因素,对最新版本的参数预测模型进行评分;比较两个模型的评分,若本时段训练好的参数预测模型的评分高于最新版本的参数预测模型的评分,则将本时段训练好的参数预测模型更新为最新版本的参数预测模型。相对应的,每一时段模型训练的基础均为最新版本的参数预测模型。
如此,即可实现模型版本的迭代。同时,每一次模型训练都是基于最新版本的模型,因此,参数预测模型的评分一直都在提升,模型精度越来越高。
图3为本申请一实施例提供的一种自动调参优化装置的结构示意图,如图3所示的,本实施例的自动调参优化装置300包括:训练样本确定模块301、特征提取模块302、模型训练模块303、系统参数预测模块304、系统参数更新模块305。
训练样本确定模块301,用于根据调参指令,将历史系统参数和所述历史系统参数对应的资源消耗量,确定为训练样本;
特征提取模块302,用于对所述训练样本进行特征提取;
模型训练模块303,用于利用提取的特征,对参数预测模型进行训练;
系统参数预测模块304,用于利用训练好的参数预测模型,对下一时段的系统参数进行预测,得到预测系统参数;
系统参数更新模块305,用于根据所述预测系统参数,更新系统参数。
可选的,所述训练样本确定模块301,具体用于:
根据调参指令,将历史系统参数和所述历史系统参数对应的资源消耗量,确定为训练样本集;
基于自助法,根据所述训练样本集,生成若干组训练样本;
所述特征提取模块302,具体用于:
针对每一组训练样本,对所述训练样本进行特征提取;
所述模型训练模块303,具体用于:
针对每一组训练样本,利用所述训练样本对应的提取的特征,对参数预测模型进行训练,得到一组对应的模型参数;
从若干组所述模型参数中,选取最优模型参数,生成训练好的参数预测模型。
可选的,所述模型训练模块303在从若干组所述模型参数中,选取最优模型参数,生成训练好的参数预测模型时,具体用于:
获取测试任务;
基于所述测试任务对应的资源消耗量,利用若干组所述模型参数对应的模型,对系统参数进行预测,得到若干组测试系统参数;
针对每一组测试系统参数,将所述测试系统参数部署到系统中,执行所述测试任务,确定测试时长;
将最短测试时长对应的模型确定为训练好的参数预测模型。
可选的,所述系统参数预测模块304,具体用于:
根据所述参数预测模型,对下一时段的资源消耗量和系统参数进行预测,得到预测的资源消耗量和对应的预测系统参数;
所述装置还包括:训练样本优化模块306,用于:
将所述预测的资源消耗量和下一时段的实际的资源消耗量比较,得到本时段预测结果的准确率;
获取最新版本参数预测模型预测的资源消耗量的预测值和对应的资源消耗量的实际值,得到最新版本预测结果的准确率;
若本时段预测结果的准确率高于所述最新版本预测结果的准确率,则将本次系统参数和资源消耗的实际值写入下次训练的样本。
可选的,所述训练样本确定模块301,具体用于:
根据调参指令,获取预设时长内每一时段对应的实际系统参数和实际资源消耗量;
将每一时段对应的实际系统参数和实际资源消耗量确定为一条训练样本。
可选的,所述装置还包括:训练样本补全模块307,用于:
针对每一条训练样本,判断所述训练样本是否完整;
若所述训练样本不完整,则根据所述训练样本相关的历史数据,对所述训练样本进行补全。
可选的,所述装置还包括:调参指令触发模块308,用于:
接收同步任务指令;
基于所述同步任务指令,校验流程图依赖关系是否正常;
在所述流程图依赖关系正常时,生成调参指令。
可选的,所述装置还包括:模型迭代模块309,用于:
对本时段参数预测模型进行整体性评估,得到本时段训练好的参数预测模型的评分;
对最新版本的参数预测模型进行整体性评估,得到最新版本的参数预测模型的评分;
比较两个模型的评分,若本时段训练好的参数预测模型的评分高于最新版本的参数预测模型的评分,则将本时段训练好的参数预测模型更新为最新版本的参数预测模型。
本实施例的装置,可以用于执行上述任一实施例的方法,其实现原理和技术效果类似,此处不再赘述。
图4为本申请一实施例提供的一种电子设备的结构示意图,如图4所示,本实施例的电子设备400可以包括:存储器401和处理器402。
存储器401上存储有能够被处理器402加载并执行上述实施例中方法的计算机程序。
其中,处理器402和存储器401相连,如通过总线相连。
可选地,电子设备400还可以包括收发器。需要说明的是,实际应用中收发器不限于一个,该电子设备400的结构并不构成对本申请实施例的限定。
处理器402可以是CPU(Central Processing Unit,中央处理器),通用处理器,DSP(Digital Signal Processor,数据信号处理器),ASIC(Application SpecificIntegrated Circuit,专用集成电路),FPGA(Field Programmable Gate Array,现场可编程门阵列)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器402也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等。
总线可包括一通路,在上述组件之间传送信息。总线可以是PCI(PeripheralComponent Interconnect,外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture,扩展工业标准结构)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
存储器401可以是ROM(Read Only Memory,只读存储器)或可存储静态信息和指令的其他类型的静态存储设备,RAM(Random Access Memory,随机存取存储器)或者可存储信息和指令的其他类型的动态存储设备,也可以是EEPROM(Electrically ErasableProgrammable Read Only Memory,电可擦可编程只读存储器)、CD-ROM(Compact DiscRead Only Memory,只读光盘)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。
存储器401用于存储执行本申请方案的应用程序代码,并由处理器402来控制执行。处理器402用于执行存储器401中存储的应用程序代码,以实现前述方法实施例所示的内容。
其中,电子设备包括但不限于:移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。还可以为服务器等。图4示出的电子设备仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
本实施例的电子设备,可以用于执行上述任一实施例的方法,其实现原理和技术效果类似,此处不再赘述。
本实施例的电子设备具体可以为如上所述的服务器、其它具有计算能力的电子设备(例如计算机、智能手机、平板电脑等)。
本申请还提供一种计算机可读存储介质,存储有能够被处理器加载并执行如上实施例中的方法的计算机程序。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
Claims (9)
1.一种自动调参优化方法,其特征在于,包括:
根据调参指令,将历史系统参数和所述历史系统参数对应的资源消耗量,确定为训练样本;
对所述训练样本进行特征提取;
利用提取的特征,对参数预测模型进行训练;
利用训练好的参数预测模型,对下一时段的系统参数进行预测,得到预测系统参数;
根据所述预测系统参数,更新系统参数;
所述利用训练好的参数预测模型,对下一时段的系统参数进行预测,得到预测系统参数,包括:
根据所述参数预测模型,对下一时段的资源消耗量和系统参数进行预测,得到预测的资源消耗量和对应的预测系统参数;
所述方法还包括:
将所述预测的资源消耗量和下一时段的实际的资源消耗量比较,得到本时段预测结果的准确率;
获取最新版本参数预测模型预测的资源消耗量的预测值和对应的资源消耗量的实际值,得到最新版本预测结果的准确率;
若本时段预测结果的准确率高于所述最新版本预测结果的准确率,则将本时段系统参数和资源消耗的实际值写入下次训练的样本。
2.根据权利要求1所述的方法,其特征在于,所述根据调参指令,将历史系统参数和所述历史系统参数对应的资源消耗量,确定为训练样本,包括:
根据调参指令,将历史系统参数和所述历史系统参数对应的资源消耗量,确定为训练样本集;
基于自助法,根据所述训练样本集,生成若干组训练样本;
所述对所述训练样本进行特征提取,包括:
针对每一组训练样本,对所述训练样本进行特征提取;
所述利用提取的特征,对参数预测模型进行训练,包括:
针对每一组训练样本,利用所述训练样本对应的提取的特征,对参数预测模型进行训练,得到一组对应的模型参数;
从若干组所述模型参数中,选取最优模型参数,生成训练好的参数预测模型。
3.根据权利要求2所述的方法,其特征在于,所述从若干组所述模型参数中,选取最优模型参数,生成训练好的参数预测模型,包括:
获取测试任务;
基于所述测试任务对应的资源消耗量,利用若干组所述模型参数对应的模型,对系统参数进行预测,得到若干组测试系统参数;
针对每一组测试系统参数,将所述测试系统参数部署到系统中,执行所述测试任务,确定测试时长;
将最短测试时长对应的模型确定为训练好的参数预测模型。
4.根据权利要求1-3任一项所述的方法,其特征在于,所述根据调参指令,将历史系统参数和所述历史系统参数对应的资源消耗量,确定为训练样本,包括:
根据调参指令,获取预设时长内每一时段对应的实际系统参数和实际资源消耗量;
将每一时段对应的实际系统参数和实际资源消耗量确定为一条训练样本。
5.根据权利要求4所述的方法,其特征在于,还包括:
针对每一条训练样本,判断所述训练样本是否完整;
若所述训练样本不完整,则根据所述训练样本相关的历史数据,对所述训练样本进行补全。
6.根据权利要求1-3任一项所述的方法,其特征在于,还包括:
接收同步任务指令;
基于所述同步任务指令,校验流程图依赖关系是否正常;
若所述流程图依赖关系正常,则生成调参指令。
7.根据权利要求1-3任一项所述的方法,其特征在于,还包括:
对本时段参数预测模型进行整体性评估,得到本时段训练好的参数预测模型的评分;
对最新版本的参数预测模型进行整体性评估,得到最新版本的参数预测模型的评分;
比较两个模型的评分,若本时段训练好的参数预测模型的评分高于最新版本的参数预测模型的评分,则将本时段训练好的参数预测模型更新为最新版本的参数预测模型。
8.一种自动调参优化装置,其特征在于,包括:
训练样本确定模块,用于根据调参指令,将历史系统参数和所述历史系统参数对应的资源消耗量,确定为训练样本;
特征提取模块,用于对所述训练样本进行特征提取;
模型训练模块,用于利用提取的特征,对参数预测模型进行训练;
系统参数预测模块,用于利用训练好的参数预测模型,对下一时段的系统参数进行预测,得到预测系统参数;
系统参数更新模块,用于根据所述预测系统参数,更新系统参数;
所述系统参数预测模块,具体用于:
根据所述参数预测模型,对下一时段的资源消耗量和系统参数进行预测,得到预测的资源消耗量和对应的预测系统参数;
所述装置还包括:训练样本优化模块,用于:
将所述预测的资源消耗量和下一时段的实际的资源消耗量比较,得到本时段预测结果的准确率;
获取最新版本参数预测模型预测的资源消耗量的预测值和对应的资源消耗量的实际值,得到最新版本预测结果的准确率;
若本时段预测结果的准确率高于所述最新版本预测结果的准确率,则将本次系统参数和资源消耗的实际值写入下次训练的样本。
9.一种电子设备,其特征在于,包括:存储器和处理器,所述存储器上存储有能够被处理器加载并执行如权利要求1至7中任一种方法的计算机程序。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210438163.2A CN114861781B (zh) | 2022-04-25 | 2022-04-25 | 自动调参优化方法、装置、电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210438163.2A CN114861781B (zh) | 2022-04-25 | 2022-04-25 | 自动调参优化方法、装置、电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114861781A CN114861781A (zh) | 2022-08-05 |
CN114861781B true CN114861781B (zh) | 2023-03-24 |
Family
ID=82634042
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210438163.2A Active CN114861781B (zh) | 2022-04-25 | 2022-04-25 | 自动调参优化方法、装置、电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114861781B (zh) |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10318882B2 (en) * | 2014-09-11 | 2019-06-11 | Amazon Technologies, Inc. | Optimized training of linear machine learning models |
CN106202431B (zh) * | 2016-07-13 | 2019-06-28 | 华中科技大学 | 一种基于机器学习的Hadoop参数自动调优方法及系统 |
CN108093085A (zh) * | 2018-01-16 | 2018-05-29 | 成都寻道科技有限公司 | 一种大数据系统实时服务参数自适应调整方法 |
CN109088747A (zh) * | 2018-07-10 | 2018-12-25 | 郑州云海信息技术有限公司 | 云计算系统中资源的管理方法和装置 |
CN113254472B (zh) * | 2021-06-17 | 2021-11-16 | 浙江大华技术股份有限公司 | 一种参数配置方法、装置、设备及可读存储介质 |
-
2022
- 2022-04-25 CN CN202210438163.2A patent/CN114861781B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN114861781A (zh) | 2022-08-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20200035220A1 (en) | Method for generating style statement, method and apparatus for training model, and computer device | |
US20200265315A1 (en) | Neural architecture search | |
US11126463B2 (en) | System for providing function as a service (FaaS), and operating method of system | |
EP3848855A1 (en) | Learning method and apparatus for intention recognition model, and device | |
CA3070133A1 (en) | Interacting with a user device to provide automated testing of a customer service representative | |
CN111163072B (zh) | 机器学习模型中特征值的确定方法、装置及电子设备 | |
EP3602419A1 (en) | Neural network optimizer search | |
CN110704135B (zh) | 一种基于虚拟环境的竞赛数据处理系统和方法 | |
CN112650478B (zh) | 一种嵌入式软件开发平台动态构建方法、系统及设备 | |
CN111340220A (zh) | 用于训练预测模型的方法和装置 | |
KR20160118846A (ko) | 단어 학습을 제공하는 방법과 시스템 및 기록 매체 | |
CN115827253A (zh) | 一种芯片资源算力分配方法、装置、设备及存储介质 | |
CN112699046B (zh) | 应用程序测试方法及装置、电子设备和存储介质 | |
CN114861781B (zh) | 自动调参优化方法、装置、电子设备 | |
CN111612158A (zh) | 模型部署方法、装置、设备和存储介质 | |
CN111090401B (zh) | 存储设备性能预测方法及装置 | |
CN113032258A (zh) | 一种电子地图的测试方法、装置、电子设备及存储介质 | |
CN114924857A (zh) | 基于Redis的分布式定时调度方法、装置及存储介质 | |
CN112396466A (zh) | 电商平台流量预测方法、系统、存储介质及电子设备 | |
CN110647314B (zh) | 技能生成方法、装置及电子设备 | |
CN110852807A (zh) | 用户确定方法、装置、计算机设备及存储介质 | |
US11836025B2 (en) | Device and method for updating register transfer level power model | |
CN111581944B (zh) | 用于生成信息的方法、装置、设备和介质 | |
US20230267012A1 (en) | System and method for api resource prediction | |
CN114724639B (zh) | 预处理加速方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CB03 | Change of inventor or designer information |
Inventor after: Tan Jingcheng Inventor after: Gao Hailing Inventor after: Yu Yang Inventor after: Gao Jingjun Inventor before: Tan Jingcheng Inventor before: Yu Yang Inventor before: Gao Jingjun |
|
CB03 | Change of inventor or designer information |