CN111026549B - 一种电力信息通信设备自动化测试资源调度方法 - Google Patents
一种电力信息通信设备自动化测试资源调度方法 Download PDFInfo
- Publication number
- CN111026549B CN111026549B CN201911194721.XA CN201911194721A CN111026549B CN 111026549 B CN111026549 B CN 111026549B CN 201911194721 A CN201911194721 A CN 201911194721A CN 111026549 B CN111026549 B CN 111026549B
- Authority
- CN
- China
- Prior art keywords
- resource
- test
- strategy
- training
- communication equipment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012360 testing method Methods 0.000 title claims abstract description 131
- 238000004891 communication Methods 0.000 title claims abstract description 39
- 238000000034 method Methods 0.000 title claims abstract description 28
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 48
- 230000002787 reinforcement Effects 0.000 claims abstract description 34
- 230000006870 function Effects 0.000 claims description 39
- 238000012549 training Methods 0.000 claims description 36
- 230000009471 action Effects 0.000 claims description 32
- 238000013468 resource allocation Methods 0.000 claims description 20
- 230000005540 biological transmission Effects 0.000 claims description 11
- 238000013528 artificial neural network Methods 0.000 claims description 7
- 230000003993 interaction Effects 0.000 claims description 7
- 238000013209 evaluation strategy Methods 0.000 claims description 6
- 230000006399 behavior Effects 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 5
- 230000002452 interceptive effect Effects 0.000 claims description 5
- 238000007726 management method Methods 0.000 claims description 4
- 238000004458 analytical method Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 239000000284 extract Substances 0.000 claims description 2
- 238000010186 staining Methods 0.000 claims description 2
- 238000011160 research Methods 0.000 description 4
- 238000010276 construction Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 241000544061 Cuculus canorus Species 0.000 description 1
- 241000254158 Lampyridae Species 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 238000013031 physical testing Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000013515 script Methods 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5005—Allocation of resources, e.g. of the central processing unit [CPU] to service a request
- G06F9/5027—Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5061—Partitioning or combining of resources
- G06F9/5077—Logical partitioning of resources; Management or configuration of virtualized resources
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Business, Economics & Management (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Economics (AREA)
- Public Health (AREA)
- Water Supply & Treatment (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Supply And Distribution Of Alternating Current (AREA)
Abstract
本发明公开了一种基于深度强化学习A3C(Actor‑Critic Algorithm)的电力信息通信设备自动化测试资源调度方法。该方法首次采用深度强化学习A3C相关理论,分析了基于云计算的通信设备中自动化测试资源需求,综合考虑资源调度时间和测试执行时间,采用A3C算法框架,设计了一种电力信息通信设备自动化测试云计算资源动态调度方法,提高测试资源利用率。
Description
技术领域
本发明属于自动化测试领域,尤其涉及电力信息通信设备自动化测试资源调度方法。
背景技术
随着智能电网的发展,电力信息通信业务对数据传输网可靠性要求不断提高。电力信息通信设备作为数据网的关键节点,其功能和性能指标直接影响通信质量,部署前需对其进行严格测试。传统人工测试耗费巨大的人力物力资源,且部分测试任务无法完成。随后,传统自动化测试技术被采用,弥补了手工测试过于耗费人力的不足,但测试时需要按需搭建物理测试环境,资源利用率低。目前采用基于云计算的自动化测试方法,云计算的弹性服务能力能够提高供便捷的测试访问,资源按需分配。为进一步提高测试资源利用率和测试效率,需进一步研究资源调度策略。
目前针对云计算资源调度方案研究较多,但针对基于云计算的电力通信设备自动化测试资源调度研究很少。在现有研究中,云计算资源分配算法主要有蚁群算法、布谷鸟搜索算法、排队论算法、蛙跳算法、粒子群算法和萤火虫算法等传统资源调度方式。然而,在云计算分布式平台上安排多任务工作是一个NP难题,传统通过基于遍历的算法产生最佳策略非常耗时,算法本身执行也消耗较多的资源。
发明内容
(一)要解决的技术问题
为了提高电力信息通信设备自动化测试资源利用率,发明人考虑到,深度强化学习能够有效地优化资源调度策略,使代理能够根据自己的经验确定理想行为,获得最优动作策略。其中A3C(异步优势演员评论家算法,Asynchronous advantage actor-critic)采用异步梯度下降优化神经网络,通过多线程学习方式,降低执行算法资源和时间开销,且能够提高训练样本的多样性,降低关联性。因此,本发明公开了一种基于深度强化学习的电力信息通信设备自动化测试资源调度方法。
(二)技术方案
为解决上述技术问题,本发明公开了一种基于深度强化学习的电力信息通信设备自动化测试资源调度方法,包括如下步骤:
步骤A,分析基于云计算的电力信息通信设备自动化测试平台架构,构建测试平台资源模型。
步骤B,根据步骤A测试平台及其资源模型的分析,构建基于深度强化学习A3C的资源调度算法模型;
步骤C,综合分析电力信息通信设备自动化测试环境与资源调度算法方案,确定深度强化学习A3C网络与测试环境交互的状态、动作、奖励等值,以及智能体与全局网络神经网络交互更新策略;
步骤D,确定资源调度算法的优势函数评估策略和策略参数梯度下降更新函数,加快算法收敛;
步骤E,最后设计基于深度强化学习的资源分配算法具体流程,求解最优资源分配策略。
其中,步骤A具体包括:
A1,分析基于云计算的电力信息通信设备自动化测试平台结构,其可分为用户层、管理层和资源层三层结构,测试人员提交测试任务后,管理层资源调度模块为任务分配相应的测试资源,测试资源由物理资源虚拟化产生;
A2,将基于云计算的测试资源虚拟机表示为Vm={Vm1,Vm2,...Vmn},每个虚拟机占有资源为Vmi={stoi,cali,bani},其中stoi表示虚拟存储,cali表示虚拟计算资源,bani表示虚拟链路带宽;
A3,物理资源层所拥有的物理机表示为Pm={Pm1,Pm2,...Pmn},每个物理机对应的物理资源表为Pmi={STOi,CALi,BANi},其中STOi表示物理存储资源,CALi表示物理存储资源,BANi表示实际的物理链路带宽;
A4,将电力信息通信设备自动化测试任务表示为Tt={t1,t2,...tl},假设每个测试项目有l个测试任务。根据任务资源需求,建立测试任务与虚拟机分配模型为其中dln表示针对测试任务tn调度虚拟机Vmn,如果软件测试项目任务在此虚拟机上执行,则dln=1,否则为0。
其中,步骤B具体包括:
B1,将基于云计算的资源调度算法模型分为环境模块和A3C强化学习训练模块,环境模块包括测试任务、测试执行、测试资源和资源调度等状态,A3C训练模块采用多智能体与全局网络交互的训练模式;
B2,采用多个智能体进行多线程训练时,每个智能体分别与通信设备自动化测试环境进行状态、动作和奖励的交互训练,计算优化各自的策略函数和值函数,使策略表现更加准确,然后将每个智能体学习到的参数异步更新到全局网络;
B3,全局网络根据多个智能体提供的参数更新本体策略值函数,智能体下一次与环境交互学习时,再从全局网络获取更新参数,直到达到训练终止条件。
其中,步骤C具体包括:
C1,设置状态st,指具体测试任务资源配置情况等,例如虚拟机CPU和存储器的数量分配情况,将其表示为st={ti,Vmi,Pmi},即测试任务和资源使用状态的集合;
C2,设置动作at,将其表示为at={dln|π},即在动作选取概率策略π(s)下采取的资源映射行为。
C3,设置奖励r,指资源调度系统采取深度强化学习算法下发的动作后获得的回报,为降低复杂度,本发明只考虑计算、存储、带宽资源利用率和测试任务传输时延,将其可表示为线性组合的方法其中i代表物理机,j代表物理机上的存储、计算和网络带宽资源;λj表示资源权重因子;Pmij u表示第i台物理机上已经使用的第j类资源,Pmij t表示第i台物理机上第j类资源总量;delay表示测试业务传输时延。r越大表示资源利用率越高,时延越小,资源调度效果越好,训练模型获得奖励越高。
其中,步骤D具体包括:
D1,算法训练使用n步采样来加快收敛,采用优势函数评估策略,通过评论家网络产生,表示为:
A(s,t)=Rt++γRt+1+...γn-1Rt+n-1+γnV(s′)-V(s)
其中,γ表示衰减因子,取值(0,1);n表示状态特征维度;A表示动作集;c表示策略π的熵项熵系数;t表示时间序列;R表示每个动作总回报;V(s)表示输入状态价值函数。
D2,通过更新策略梯度函数,使总回报期望上升,寻找最优策略。
策略梯度函数为:
策略参数梯度下降更新函数为:
θ=θ+α▽θlogπθ(st,at)A(S,t)+c▽θH(π(St,θ))
其中,步骤E具体包括:
E1,测试人员将测试任务提交到基于云计算的软件自动化测试平台,资源调度系统提取测试任务需求ti,并感知资源状态;
E2,根据虚拟资源和测试任务等环境状态初始化深度强化学习模型,主要包括环境等状态st和训练参数。训练参数包括表示全局神经网络策略函数和状态值函数参数参数θ、θv,线程智能体网络策略函数和状态值函数参数θ′、θ′v,全局共享迭代次数T等;
E3,执行训练。多个线程智能体与分别与测试环境环境进行状态和动作交互,实施资源分配动作,获得奖励rt和新状态st+1,生成训练数据样本(s,a,r);
E4,根据奖励回馈,调整资源分配动作,累计n步梯度更新;
E5,异步更新全局网络参数θ←dθ、θv←dθv;
E6,循环迭代训练,直到最大迭代次数Tmax,获得最大奖励Rmax;
E7,获得最优资源分配策略。
(三)有益效果
为了提高电力信息通信设备自动化测试资源利用率,本发明提出了一种基于深度强化学习的电力信息通信设备自动化测试资源调度方法。在综合考虑自动化测试计算、存储、带宽资源利用率和测试任务传输时延指标条件下,最大化测试资源利用率,减少测试任务传输时延,提高自动化测试效率,降低自动化测试成本。
附图说明
图1本发明实施例的方法流程图;
图2本发明实施例的方法中测试资源模型构建流程图;
图3本发明实施例的方法中基于深度强化学习资源调度算法框架。
图4本发明实施例的方法中基于A3C的资源调度算法模型构建流程图;
图5本发明实施例的方法中调度算法状态、动作、奖励设定流程;
图6本发明实施例的方法中算法优势函数评估策略确定流程图;
图7本发明实施例的方法中资源分配具体算法流程。
具体实施方式
发明人考虑到,深度强化学习能够有效地优化资源调度策略,使代理能够根据自己的经验确定理想行为,获得最优动作策略。其中A3C(异步优势演员评论家算法,Asynchronous advantage actor-critic)采用异步梯度下降优化神经网络,通过多线程学习方式,降低执行算法资源和时间开销,且能够提高训练样本的多样性,降低关联性。
因此,为了提高电力信息通信设备自动化测试资源利用率,本发明提出了一种基于深度强化学习的电力信息通信设备自动化测试资源调度方法。在综合考虑自动化测试计算、存储、带宽资源利用率和测试任务传输时延指标条件下,最大化测试资源利用率,减少测试任务传输时延,提高自动化测试效率,降低自动化测试成本。
本发明在基于云计算的电力信息通信设备自动化测试平台进行实现。配置基于深度强化学习的资源调度算法,提交多个交换机测试任务,上传测试项目相应的测试脚本,执行多任务并行测试方式。
如图1所示,本发明公开了一种基于深度强化学习的电力信息通信设备自动化测试资源调度方法,包括如下步骤:
步骤A,分析基于云计算的电力信息通信设备自动化测试平台架构,构建测试平台资源模型。
步骤B,根据步骤A测试平台及其资源模型的分析,构建基于深度强化学习A3C的资源调度算法模型;
步骤C,综合分析电力信息通信设备自动化测试环境与资源调度算法方案,确定深度强化学习A3C网络与测试环境交互的状态、动作、奖励等值,以及智能体与全局网络神经网络交互更新策略;
步骤D,确定资源调度算法的优势函数评估策略和策略参数梯度下降更新函数,加快算法收敛;
步骤E,最后设计基于深度强化学习的资源分配算法具体流程,求解最优资源分配策略。
下面结合附图和具体实施方式,对本发明做进一步说明。
如图2所示,自动化测试平台资源模型建模具体步骤如下:
步骤A1,分析基于云计算的电力信息通信设备自动化测试平台结构;
步骤A2,确定基于云计算的测试资源虚拟机Vm={Vm1,Vm2,...Vmn},以及每个虚拟机占有资源Vmi={stoi,cali,bani};
步骤A3,确定物理资源层所拥有的物理机Pm={Pm1,Pm2,...Pmn},以及每个物理机对应的物理资源Pmi={STOi,CALi,BANi};
基于A3C的资源调度算法模型如图3所示,模型构建流程如图4所示,具体步骤如下:
步骤B1,构建基于云计算的资源调度算法模型,包括环境模块和A3C强化学习训练模块;
步骤B2,多个智能体进行多线程训练,分别与通信设备自动化测试环境进行状态、动作和奖励的交互训练,优化各自的策略函数和值函数,然后将每个智能体学习到的参数异步更新到全局网络;
步骤B3,全局网络根据多个智能体提供的参数更新本体策略值函数,智能体下一次与环境交互学习时,再从全局网络获取更新参数,直到达到训练终止条件。
确定深度强化学习A3C网络与测试环境交互的状态、动作、奖励值等,如图5所示,具体步骤如下:
步骤C1,设置状态st={ti,Vmi,Pmi},即测试任务和资源使用状态的集合;
步骤C2,设置动作at={dln|π},即在动作选取概率策略π(s)下采取的资源映射行为。
确定资源调度算法的优势函数评估策略和策略参数梯度下降更新函数,如图7所示,具体步骤如下:
步骤D1,算法训练使用n步采样来加快收敛,采用优势函数评估策略,通过评论家网络产生,表示为:
A(s,t)=Rt++γRt+1+...γn-1Rt+n-1+γnV(s′)-V(s)
步骤D2,通过更新策略梯度函数,使总回报期望上升,寻找最优策略。策略梯度函数为:
策略参数梯度下降更新函数为:
θ=θ+α▽θlogπθ(st,at)A(S,t)+c▽θH(π(St,θ))
设计基于深度强化学习的资源分配算法具体流程,如图6所示,具体步骤如下:
步骤E1,提交测试任务,资源调度系统提取测试任务需求ti,并感知资源状态;
步骤E2,初始化深度强化学习模型环境等状态st和训练参数;
步骤E3,执行训练,多个线程智能体与分别与测试环境环境进行状态和动作交互,实施资源分配动作,获得奖励rt和新状态st+1,生成训练数据样本(s,a,r);
步骤E4,根据奖励回馈,调整资源分配动作,累计n步梯度更新;
步骤E5,异步更新全局网络参数θ←dθ、θv←dθv;
步骤E6,循环迭代训练到最大迭代次数Tmax,获得最大奖励Rmax;
步骤E7,获得最优资源分配策略。
为了提高电力信息通信设备自动化测试资源利用率,本发明提出了一种基于深度强化学习的电力信息通信设备自动化测试资源调度方法。在综合考虑自动化测试计算、存储、带宽资源利用率和测试任务传输时延指标条件下,最大化测试资源利用率,减少测试任务传输时延,提高自动化测试效率,降低自动化测试成本。
以上实施方式仅用于说明本发明,而并非对本发明的限制,有关技术领域的普通技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变化和变型,因此所有等同的技术方案也属于本发明的范畴,本发明的专利保护范围应由权利要求限定。
Claims (1)
1.一种电力信息通信设备自动化测试资源调度方法,其特征在于,基于深度强化学习A3C的电力信息通信设备自动化测试资源调度方法能够改善测试资源利用率,提高自动化测试效率,所述方法具体包括如下步骤:
步骤A,分析基于云计算的电力信息通信设备自动化测试平台架构,构建测试平台资源模型;
步骤B,根据步骤A测试平台及其资源模型的分析,构建基于深度强化学习A3C的资源调度算法模型;
步骤C,综合分析电力信息通信设备自动化测试环境与资源调度算法方案,确定深度强化学习A3C网络与测试环境交互的状态、动作、奖励值,以及智能体与全局网络神经网络交互更新策略;
步骤D,确定资源调度算法的优势函数评估策略和策略参数梯度下降更新函数,加快算法收敛;
步骤E,最后设计基于深度强化学习的资源分配算法具体流程,求解最优资源分配策略;
其中,步骤A具体包括:
A1,分析基于云计算的电力信息通信设备自动化测试平台结构,其可分为用户层、管理层和资源层三层结构,测试人员提交测试任务后,管理层资源调度模块为任务分配相应的测试资源,测试资源由物理资源虚拟化产生;
A2,将基于云计算的测试资源虚拟机表示为Vm={Vm1,Vm2,...Vmn},每个虚拟机占有资源为Vmi={stoi,cali,bani},其中stoi表示虚拟存储,cali表示虚拟计算资源,bani表示虚拟链路带宽;
A3,物理资源层所拥有的物理机表示为Pm={Pm1,Pm2,...Pmn},每个物理机对应的物理资源表为Pmi={STOi,CALi,BANi},其中STOi表示物理存储资源,CALi表示物理存储资源,BANi表示实际的物理链路带宽;
A4,将电力信息通信设备自动化测试任务表示为Tt={t1,t2,...tl},假设每个测试项目有l个测试任务,根据任务资源需求,建立测试任务与虚拟机分配模型为其中dln表示针对测试任务tn调度虚拟机Vmn,如果软件测试项目任务在此虚拟机上执行,则dln=1,否则为0;
其中,步骤B具体包括:
B1,将基于云计算的资源调度算法模型分为环境模块和A3C强化学习训练模块,环境模块包括测试任务、测试执行、测试资源和资源调度状态,A3C训练模块采用多智能体与全局网络交互的训练模式;
B2,采用多个智能体进行多线程训练时,每个智能体分别与通信设备自动化测试环境进行状态、动作和奖励的交互训练,计算优化各自的策略函数和值函数,使策略表现更加准确,然后将每个智能体学习到的参数异步更新到全局网络;
B3,全局网络根据多个智能体提供的参数更新本体策略值函数,智能体下一次与环境交互学习时,再从全局网络获取更新参数,直到达到训练终止条件;
其中,步骤C具体包括:
C1,设置状态st,指具体测试任务资源配置情况,例如虚拟机CPU和存储器的数量分配情况,将其表示为st={ti,Vmi,Pmi},即测试任务和资源使用状态的集合;
C2,设置动作at,将其表示为at={dln|π},即在动作选取概率策略π(s)下采取的资源映射行为;
C3,设置奖励r,指资源调度系统采取深度强化学习算法下发的动作后获得的回报,为降低复杂度,只考虑计算、存储、带宽资源利用率和测试任务传输时延,将其可表示为线性组合的方法其中i代表物理机,j代表物理机上的存储、计算和网络带宽资源;λj表示资源权重因子;Pmij u表示第i台物理机上已经使用的第j类资源,Pmij t表示第i台物理机上第j类资源总量;delay表示测试业务传输时延,r越大表示资源利用率越高,时延越小,资源调度效果越好,训练模型获得奖励越高;
其中,步骤D具体包括:
D1,算法训练使用n步采样来加快收敛,采用优势函数评估策略,通过评论家网络产生,表示为:
A(s,t)=Rt+γRt+1+...γn-1Rt+n-1+γnV(s′)-V(s)
其中,γ表示衰减因子,取值(0,1);n表示状态特征维度;A表示动作集;t表示时间序列;R表示每个动作总回报;V(s)表示输入状态价值函数;
D2,通过更新策略梯度函数,使总回报期望上升,寻找最优策略,策略梯度函数为:
策略参数梯度下降更新函数为:
其中,c表示策略π的熵项熵系数;
其中,步骤E具体包括:
E1,测试人员将测试任务提交到基于云计算的软件自动化测试平台,资源调度系统提取测试任务需求ti,并感知资源状态;
E2,根据虚拟资源和测试任务环境状态初始化深度强化学习模型,主要包括环境状态st和训练参数,训练参数包括表示全局神经网络策略函数和状态值函数参数θ、θv,线程智能体网络策略函数和状态值函数参数θ′、θ′v,全局共享迭代次数T;
E3,执行训练;多个线程智能体与分别与测试环境进行状态和动作交互,实施资源分配动作,获得奖励rt和新状态st+1,生成训练数据样本(s,a,r);
E4,根据奖励回馈,调整资源分配动作,累计n步梯度更新;
E5,异步更新全局网络参数θ←dθ、θv←dθv;
E6,循环迭代训练,直到最大迭代次数Tmax,获得最大奖励Rmax;
E7,获得最优资源分配策略。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911194721.XA CN111026549B (zh) | 2019-11-28 | 2019-11-28 | 一种电力信息通信设备自动化测试资源调度方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911194721.XA CN111026549B (zh) | 2019-11-28 | 2019-11-28 | 一种电力信息通信设备自动化测试资源调度方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111026549A CN111026549A (zh) | 2020-04-17 |
CN111026549B true CN111026549B (zh) | 2022-06-10 |
Family
ID=70203271
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911194721.XA Active CN111026549B (zh) | 2019-11-28 | 2019-11-28 | 一种电力信息通信设备自动化测试资源调度方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111026549B (zh) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111767991B (zh) * | 2020-06-29 | 2023-08-15 | 重庆大学 | 一种基于深度q学习的测控资源调度方法 |
CN111738627B (zh) * | 2020-08-07 | 2020-11-27 | 中国空气动力研究与发展中心低速空气动力研究所 | 一种基于深度强化学习的风洞试验调度方法及系统 |
CN112488542B (zh) * | 2020-12-04 | 2024-02-02 | 深圳市中科数建科技有限公司 | 基于机器学习的智慧工地智能物料调度方法及系统 |
CN113377651A (zh) * | 2021-06-10 | 2021-09-10 | 中国矿业大学 | 一种基于强化学习的类集成测试序列生成方法 |
CN114139354B (zh) * | 2021-11-12 | 2024-05-21 | 山东浪潮科学研究院有限公司 | 基于强化学习的电力系统仿真调度方法及系统 |
CN114691363A (zh) * | 2022-03-28 | 2022-07-01 | 福州大学 | 基于深度强化学习的云数据中心自适应高效资源分配方法 |
CN115033343B (zh) * | 2022-05-27 | 2024-03-01 | 河南大学 | 一种云环境下遥感数据流程调度模型的建立方法 |
CN114780441B (zh) * | 2022-06-21 | 2022-10-04 | 南京争锋信息科技有限公司 | 一种真实用户智能感知系统中用例的智能策略抓取方法 |
CN115499899B (zh) * | 2022-11-21 | 2023-05-26 | 国网天津市电力公司电力科学研究院 | 边缘物联代理装置的通信时延测试方法、装置及存储介质 |
CN116367223B (zh) * | 2023-03-30 | 2024-01-02 | 广州爱浦路网络技术有限公司 | 基于强化学习的xr服务优化方法、装置、电子设备和存储介质 |
CN117648174B (zh) * | 2024-01-29 | 2024-04-05 | 华北电力大学 | 基于人工智能的云计算异构任务调度和容器管理方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109063978A (zh) * | 2018-07-12 | 2018-12-21 | 南京邮电大学 | 能源互联网资源调度方法及系统、可读存储介质和终端 |
CN109388484A (zh) * | 2018-08-16 | 2019-02-26 | 广东石油化工学院 | 一种基于Deep Q-network算法的多资源云作业调度方法 |
CN109831808A (zh) * | 2019-02-25 | 2019-05-31 | 重庆邮电大学 | 一种基于机器学习的混合供电c-ran的资源分配方法 |
CN109947567A (zh) * | 2019-03-14 | 2019-06-28 | 深圳先进技术研究院 | 一种多智能体强化学习调度方法、系统及电子设备 |
CN110299947A (zh) * | 2018-03-21 | 2019-10-01 | 中兴通讯股份有限公司 | 一种系统资源的调度方法、装置、设备及存储介质 |
CN110493826A (zh) * | 2019-08-28 | 2019-11-22 | 重庆邮电大学 | 一种基于深度强化学习的异构云无线接入网资源分配方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10579494B2 (en) * | 2018-01-05 | 2020-03-03 | Nec Corporation | Methods and systems for machine-learning-based resource prediction for resource allocation and anomaly detection |
CN109729528B (zh) * | 2018-12-21 | 2020-08-18 | 北京邮电大学 | 一种基于多智能体深度强化学习的d2d资源分配方法 |
-
2019
- 2019-11-28 CN CN201911194721.XA patent/CN111026549B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110299947A (zh) * | 2018-03-21 | 2019-10-01 | 中兴通讯股份有限公司 | 一种系统资源的调度方法、装置、设备及存储介质 |
CN109063978A (zh) * | 2018-07-12 | 2018-12-21 | 南京邮电大学 | 能源互联网资源调度方法及系统、可读存储介质和终端 |
CN109388484A (zh) * | 2018-08-16 | 2019-02-26 | 广东石油化工学院 | 一种基于Deep Q-network算法的多资源云作业调度方法 |
CN109831808A (zh) * | 2019-02-25 | 2019-05-31 | 重庆邮电大学 | 一种基于机器学习的混合供电c-ran的资源分配方法 |
CN109947567A (zh) * | 2019-03-14 | 2019-06-28 | 深圳先进技术研究院 | 一种多智能体强化学习调度方法、系统及电子设备 |
CN110493826A (zh) * | 2019-08-28 | 2019-11-22 | 重庆邮电大学 | 一种基于深度强化学习的异构云无线接入网资源分配方法 |
Non-Patent Citations (4)
Title |
---|
【强化学习】Actor-Critic算法详解;shura_R;《https://blog.csdn.net/qq_30615903/article/details/80774384》;20180622;第1-10页 * |
User Scheduling and Resource Allocation in HetNets With Hybrid Energy Supply: An Actor-Critic Reinforcement Learning Approach;Yifei Wei等;《IEEE Transactions on Wireless Communications》;20171109;第17卷(第1期);第680-692页 * |
基于云计算的软件自动化测试方法;高丽娜等;《电子制作》;20190813;第56-58页 * |
基于值函数和策略梯度的深度强化学习综述;刘建伟等;《计算机学报》;20190630;第42卷(第6期);第1406-1423页 * |
Also Published As
Publication number | Publication date |
---|---|
CN111026549A (zh) | 2020-04-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111026549B (zh) | 一种电力信息通信设备自动化测试资源调度方法 | |
Guo et al. | Cloud resource scheduling with deep reinforcement learning and imitation learning | |
Yi et al. | Task optimization and scheduling of distributed cyber–physical system based on improved ant colony algorithm | |
CN110737529B (zh) | 一种面向短时多变大数据作业集群调度自适应性配置方法 | |
CN109388484B (zh) | 一种基于Deep Q-network算法的多资源云作业调度方法 | |
CN111064633B (zh) | 一种云边协同电力信息通信设备自动化测试资源分配方法 | |
CN110389820B (zh) | 一种基于v-TGRU模型进行资源预测的私有云任务调度方法 | |
Song et al. | Offloading dependent tasks in multi-access edge computing: A multi-objective reinforcement learning approach | |
CN110096349A (zh) | 一种基于集群节点负载状态预测的作业调度方法 | |
CN111274036B (zh) | 一种基于速度预测的深度学习任务的调度方法 | |
CN111026548B (zh) | 一种逆向深度强化学习的电力通信设备测试资源调度方法 | |
CN109710404B (zh) | 分布式系统中的任务调度方法 | |
CN103631657A (zh) | 一种基于MapReduce的任务调度算法 | |
CN110351348B (zh) | 一种基于dqn的云计算资源调度优化方法 | |
CN115168027B (zh) | 一种基于深度强化学习的算力资源度量方法 | |
CN109491761A (zh) | 基于eda-ga混合算法的云计算多目标任务调度方法 | |
Tong et al. | DDQN-TS: A novel bi-objective intelligent scheduling algorithm in the cloud environment | |
CN113822456A (zh) | 一种云雾混构环境下基于深度强化学习的服务组合优化部署方法 | |
Kumar T et al. | Hybrid approach for resource allocation in cloud infrastructure using random forest and genetic algorithm | |
CN113971089A (zh) | 联邦学习系统设备节点选择的方法及装置 | |
CN111176784A (zh) | 一种基于极限学习机和蚁群系统的虚拟机整合方法 | |
Fan et al. | Dras: Deep reinforcement learning for cluster scheduling in high performance computing | |
CN113094159A (zh) | 一种数据中心作业调度方法、系统、存储介质及计算设备 | |
CN115543626A (zh) | 采用异构计算资源负载均衡调度的电力缺陷图像仿真方法 | |
Chai | Task scheduling based on swarm intelligence algorithms in high performance computing environment |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |