CN111738627A - 一种基于深度强化学习的风洞试验调度方法及系统 - Google Patents

一种基于深度强化学习的风洞试验调度方法及系统 Download PDF

Info

Publication number
CN111738627A
CN111738627A CN202010786322.9A CN202010786322A CN111738627A CN 111738627 A CN111738627 A CN 111738627A CN 202010786322 A CN202010786322 A CN 202010786322A CN 111738627 A CN111738627 A CN 111738627A
Authority
CN
China
Prior art keywords
branch
pipeline
time
wind tunnel
matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010786322.9A
Other languages
English (en)
Other versions
CN111738627B (zh
Inventor
明丽洪
熊建军
王桂芝
罗昌俊
王小飞
何福
袁海文
侯昱珂
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Low Speed Aerodynamics Institute of China Aerodynamics Research and Development Center
Original Assignee
Low Speed Aerodynamics Institute of China Aerodynamics Research and Development Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Low Speed Aerodynamics Institute of China Aerodynamics Research and Development Center filed Critical Low Speed Aerodynamics Institute of China Aerodynamics Research and Development Center
Priority to CN202010786322.9A priority Critical patent/CN111738627B/zh
Publication of CN111738627A publication Critical patent/CN111738627A/zh
Application granted granted Critical
Publication of CN111738627B publication Critical patent/CN111738627B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0631Resource planning, allocation, distributing or scheduling for enterprises or organisations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/067Enterprise or organisation modelling

Landscapes

  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Engineering & Computer Science (AREA)
  • Strategic Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • Educational Administration (AREA)
  • Development Economics (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明适用于风洞试验技术领域,提供了一种基于深度强化学习的风洞试验调度方法及系统,该风洞试验调度方法及系统中,同时考虑了分支管线的利用率和分支管线开启阀门延迟时间,其中,目标函数的一个变量为分支管线的利用率,因而能够全局地考虑到风洞试验调度管线的分配,且这种分配中,对于下一步执行动作的选取,以通过最大化目标函数来获得,本发明的调度方法因而具有预测性,同时,能够实现最大化动力资源的使用率和最小化分支管线的开启/关闭次数,减少了动力设备的损耗;目标函数的另一变量为分支管线开启阀门延迟时间,因而能够提高预测的准确性,也能够保证实验的顺畅。

Description

一种基于深度强化学习的风洞试验调度方法及系统
技术领域
本发明属于风洞试验技术领域,尤其涉及一种基于深度强化学习的风洞试验调度方法及系统。
背景技术
风洞试验是将飞行器模型或实物固定在一种管道状地面人工环境中(即风洞),依据运动的相对性原理,通过人为制造气流流过,来模拟飞行器或其他物体在空中各种复杂的飞行状态,从而获取试验数据,以了解实际飞行器或其他物体的空气动力学特性的一种空气动力实验方法。
调度问题通常定义为:在一段时间内,为完成一组工作而相应地分配一套资源的问题,它广泛存在于能源、交通、生产、计算、紧急医疗、安全等领域,是一个复杂的组合优化问题。它可以是动态的,也可以是静态的。动态调度是以当前运行环境状态来决定作业或任务的顺序;静态调度通常是预先安排,是从给定的工作流中分配作业或任务。
风洞试验调度则是围绕风洞试验这一特定场景展开的资源保障计划,属于动态调度的范畴,是风洞试验顺利开展的前提,也是复杂的多目标优化问题。在满足约束的条件下,如何最大化动力资源的使用率和最小化设备启停次数,减少对动力设备的损耗,以及按照时序给出最优的试验任务队列,一直以来都是风洞试验调度面临的首要问题。
现有技术中,通常采用人工调度的方法来实现风洞试验调度,因缺乏全局性、预测性、仅凭个人经验所带来的弊端,特别是在试验任务量骤然增加、动力资源集中供应保障、多用户争抢资源等复杂环境的情况下,这个问题日益凸显,传统的人工调度方式已力不从心。
现有技术中也出现了包括基于启发式算法、遗传算法、Q-Learning学习算法、DRL学习算法的调度方法等。
但这些非人工调度的方法,要么利用了事件之间的转换概率,而且这种转换概率均是通过人为设定的。因此,转换概率的大小设定将极大地影响调度的效果,其相对于人工调度而言,并没有明显的进步;要么就是机械地套用,不考虑风洞试验的动力消耗、预测性等问题。
发明内容
本发明的目的在于提供一种基于深度强化学习的风洞试验调度方法和系统,旨在解决现有技术中的风洞试验调度缺乏预测性、不能最小化动力消耗的技术问题。
本发明提供了一种基于深度强化学习的风洞试验调度方法,包括如下步骤:
步骤S10:构建管线连通网络模型;
步骤S20:根据所述管线连通网络模型,构建主管线与分支管线的连通矩阵C;
步骤S30:根据当前时间步内风洞试验调度管线分配情况,构建状态矩阵S,状态矩阵S用于表示主管线与分支管线的连通关系与开闭状态;
步骤S40:根据时间周期T内的风洞试验需求情况,构建需求矩阵F,需求矩阵F用于表示时间周期T内的主管线与分支管线的连通关系、开闭状态及试验计划开始时间;
步骤S50:构建动作矩阵A,用于表示是否开启分支管线的阀门;
步骤S60:至少将分支管线的利用率、分支管线开启阀门延迟时间作为变量来构建目标函数,将需求矩阵F和状态矩阵S输入DDPG模型中进行训练,获得输出动作。
进一步地,所述管线连通网络包括风洞试验动力资源、汇聚节点、风洞试验主体,其中,风洞试验动力资源、汇聚节点之间通过主管线连接,汇聚节点与风洞试验主体之间通过分支管线连接。
进一步地,所述连通矩阵C的元素
Figure 141918DEST_PATH_IMAGE001
,其中,c ij 表示第i条主管线下是否存在第j条分支管线,c ij =1时,表示存在第i条主管线下的第j条分支管线;c ij =0时,表示不存在第i条主管线下的第j条分支管线。
进一步地,所述状态矩阵S的元素
Figure 996742DEST_PATH_IMAGE002
,其中,当s ij =1时,表示第i条主管线下存在第j条分支管线,且第i条主管线下的第j条分支管线处于开启状态;当时s ij =-1时,第i条主管线下存在第j条分支管线,且第i条主管线下的第j条分支管线处于关闭状态;s ij =0时,表示第i条主管线下不存在第j条分支管线。
进一步地,所述动作矩阵A的元素
Figure 776479DEST_PATH_IMAGE003
,其中,当a ij =1时,将第i条主管线下存在的第j条分支管线的阀门开启;当a ij =-1时,将第i条主管线下存在的第j条分支管线的阀门关闭。
进一步地,所述步骤S60中,目标函数为
Figure 171688DEST_PATH_IMAGE004
Figure 671546DEST_PATH_IMAGE005
;
其中,θ μ 表示对确定性策略函数μ进行模拟的神经网络参数;
Figure 494009DEST_PATH_IMAGE006
θ μ 的期望函数;时 刻t+k属于时间周期T内的时刻点,R t+k 表示t+k时刻点的管线的平均利用率和试验总延迟, 将R t+k 作为t+k时刻的回报,k表示设定的时刻点的个数,γ是远期回报的折扣率。
进一步地,所述R t+k 以下公式计算:
Figure 698725DEST_PATH_IMAGE007
;
Figure 897625DEST_PATH_IMAGE008
;
Figure 566504DEST_PATH_IMAGE009
其中,w 1 表示利用率权重因子,w 2 表示延迟权重因子,取值[0,1];u ij 表示t+k时刻点第i条主管线下存在的第j条分支管线的利用率,s ij 即为上述的状态矩阵S的元素,d ij 表示t+k时刻点第i条主管线下存在的第j条分支管线的试验任务动力资源需求量,up ij 表示t+k时刻点第i条主管线下存在的第j条分支管线的容量上限,n表示主管线的总条数,m表示第i条主管线下存在的分支管线的数量,num表示分支管线的总条数;
delay ij 表示t时刻点第i条主管线下存在的第j条分支管线开启阀门延迟时间;s ij (start_time)表示t时刻点第i条主管线下存在的第j条分支管线实际开启阀门时间,即试验开始时间;d ij (start_time)表示t时刻点第i条主管线下存在的第j条分支管线计划开启试验任务的时间。
进一步地,步骤S60中,在DDPG中使用Q网络来拟合动作状态值函数Q:
Figure 746819DEST_PATH_IMAGE010
其中,s t 表示t时刻的状态,s t =s ij (t),s t+1 表示t+1时刻的状态,s t+1 =s ij (t+1);a t 表示t时刻的动作,a t+1 表示t+1时刻的动作;μ表示确定性行为策略函数;Q μ (s t (s t ))表示在t时刻使用μ策略在s t 状态选取动作a t 所获取的回报期望值,Q μ (s t+1 (s t+1 ))表示在t+1时刻使用μ策略在s t+1 状态选取动作a t+1 所获取的回报期望值;E为期望函数。
进一步地,步骤S60中,使用以下衡量函数J β (μ)来表示策略μ的好坏:
Figure 501148DEST_PATH_IMAGE011
;
其中,ρ β (s t )为分布函数。
本发明还提供了一种基于深度强化学习的风洞试验调度系统,包括:
模型构建模块:用于构建管线连通网络模型;
连通矩阵构建模块:用于根据所述管线连通网络模型,构建主管线与分支管线的连通矩阵C;
状态矩阵构建模块:用于根据当前时间步内风洞试验调度管线分配情况,构建状态矩阵S,状态矩阵S用于表示主管线与分支管线的连通关系与状态;
需求矩阵构建模块:根据时间周期T内的风洞试验需求情况,构建需求矩阵F,需求矩阵F用于表示时间周期T内的主管线与分支管线的连通关系、开闭状态及试验计划开始时间;
动作矩阵构建模块:用于构建动作矩阵A,以表示下一时刻是否开启分支管线的阀门;
动作输出模块:至少将分支管线的利用率、分支管线开启阀门延迟时间作为变量来构建目标函数J(θ μ ),将需求矩阵F和状态矩阵S输入DDPG模型中进行训练,获得输出动作。
本发明相对于现有技术的技术效果是:
1.本发明的调度方法和系统中,同时考虑了分支管线的利用率和分支管线开启阀门延迟时间,其中,目标函数的一个变量为分支管线的利用率,因而能够全局地考虑到风洞试验调度管线的分配,且这种分配中,对于下一步执行动作的选取,以通过最大化目标函数来获得,本发明的调度方法因而具有预测性,同时,能够实现最大化动力资源的使用率和最小化分支管线的开启/关闭次数,减少了动力设备的损耗;目标函数的另一变量为分支管线开启阀门延迟时间,因而能够提高预测的准确性,也能够保证实验的顺畅。
2.本发明的调度方法和系统中,通过DDPG获得利用率权重因子、延迟权重因子,因而,能够在预测性和准确性之间获得较好的平衡。
3.本发明的调度方法和系统中,核心创新点之一在于利用了分支管线的利用率和分支管线开启阀门延迟时间来构建回报,并建立了相应的回报模型,再以此回报模型构建了目标函数,目前现有技术中还尚未出现类似回报模型,而本发明中的回报模型能同时解决风洞试验调度缺乏预测性、不能最小化动力消耗的技术问题,还能够保证实验的顺畅,且因此而不需要状态转移概率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面所描述的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种基于深度强化学习的风洞试验调度方法流程图;
图2是本发明实施例提供的管线连通网络模型示意图;
图3是本发明实施例提供的连通矩阵示意图;
图4是本发明实施例提供的状态矩阵示意图;
图5是本发明实施例提供的一种基于深度强化学习的风洞试验调度系统示意图。
具体实施方式
在下文中将参考附图对本发明的各方面进行更充分的描述。然而,本发明可以具体化成许多不同形式且不应解释为局限于贯穿本发明所呈现的任何特定结构或功能。相反地,提供这些方面将使得本发明周全且完整,并且本发明将给本领域技术人员充分地传达本发明的范围。基于本文所教导的内容,本领域的技术人员应意识到,无论是单独还是结合本发明的任何其它方面实现本文所公开的任何方面,本发明的范围旨在涵盖本文中所公开的任何方面。例如,可以使用本文所提出任意数量的装置或者执行方法来实现。另外,除了本文所提出本发明的多个方面之外,本发明的范围更旨在涵盖使用其它结构、功能或结构和功能来实现的装置或方法。应可理解,其可通过权利要求的一或多个元件具体化本文所公开的任何方面。
在此使用的术语仅仅是为了描述具体实施例,而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在,但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。
在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义,除非另外定义。应注意,这里使用的术语应解释为具有与本说明书的上下文相一致的含义,而不应以理想化或过于刻板的方式来解释。
对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。
如图1所示,本发明实施例提供了一种基于深度强化学习的风洞试验调度方法,其包括如下步骤:
步骤S10:构建管线连通网络模型;
步骤S20:根据所述管线连通网络模型,构建主管线与分支管线的连通矩阵C;
步骤S30:根据当前时间步内风洞试验调度管线分配情况,构建状态矩阵S,状态矩阵S用于表示主管线与分支管线的连通关系与开闭状态;
步骤S40:根据时间周期T内的风洞试验需求情况,构建需求矩阵F,需求矩阵F用于表示时间周期T内的主管线与分支管线的连通关系、开闭状态及试验计划开始时间;
步骤S50:构建动作矩阵A,用于表示是否开启分支管线的阀门;
步骤S60:至少将分支管线的利用率、分支管线开启阀门延迟时间作为变量来构建目标函数,将需求矩阵F和状态矩阵S输入DDPG模型中进行训练,获得输出动作。
构建的管线连通网络模型如图2所示,所述管线连通网络包括风洞试验动力资源D、汇聚节点D1~D12、风洞试验主体wt-01~wt-26,其中,风洞试验动力资源D、汇聚节点D1~D12之间通过主管线1#~12#连接,汇聚节点D1~D12与风洞试验主体wt-01~wt-26之间通过分支管线1*~26*连接。
其中,风洞试验动力资源用于生产并储备动力资源,用于为风洞试验提供气流。
具体地,有的主管线接有分支管线,而有的主管线则没有接分支管线,以图2中所示,主管线1#、4#、5#、7#、8#、9#、10#、12#上接有分支管线,主管线2#、3#、6#、11#上没有接分支管线;另外,主管线接的分支管线的数量也可以不同,以图2中所示,主管线1#上接有3条分支管线,而主管线5#上则接有8条分支管线。
为了方便描述管线连通网络模型中的主管线和分支管线,本发明实施例中的下标ij表示第i条主管线下存在的第j条分支管线,以图2所示,当i=5j=2时,表示第5条主管线下存在的第2条分支管线,也就是主管线5#下的分支管线7*。
为了将管线连通网络模型数学化,构建连通矩阵C,所述连通矩阵C的元素
Figure 175843DEST_PATH_IMAGE001
,其中,c ij 表示第i条主管线下是否存在第j条分支管线,c ij =1时,表示存在第i条主管线下的第j条分支管线;c ij =0时,表示不存在第i条主管线下的第j条分支管线。
因此,图2中所示管线连通网络模型的连通矩阵C即为如图3所示。
例如,c 81 ~c 88 均等于1,即表示第8条主管线下存在第1~8条分支管线;类似地,c 31 ~c 38 均为0,则表示第3条主管线下不存在第1~8条分支管线。
通过所述连通矩阵C,将管线连通网络模型的连通关系进行了数学化特征描述。
在步骤S30中,根据当前时间步内的风洞试验调度管线分配情况,构建状态矩阵S,状态矩阵S用于表示主管线与分支管线的连通关系、开闭状态;
其中,所述状态矩阵S的元素
Figure 699228DEST_PATH_IMAGE002
其中,当s ij =1时,表示第i条主管线下存在第j条分支管线,且第i条主管线下的第j条分支管线处于开启状态;当时s ij =-1时,第i条主管线下存在第j条分支管线,且第i条主管线下的第j条分支管线处于关闭状态;s ij =0时,表示第i条主管线下不存在第j条分支管线。
需求矩阵F和状态矩阵S类似,不同的是,状态矩阵S表示某一时刻t的实时状态,而需求矩阵F表示时间周期T内的需求。
为了避免一条主管线下同时开启多条分支管线而造成汇聚节点供给质量下降与供给保障冲突问题,设定如下约束条件:某个时刻内,一条主管线下,仅有一条分支管线被开启;图4反应了某时刻的状态矩阵S。
例如,s 11 =1,则表示第1条主管线下存在第1条分支管线,且第1条主管线下的第1条分支管线处于开启状态;s 12 =-1和s 13 =-1,则表示第1条主管线下存在第1、2条分支管线,且第1条主管线下的第1条和第2条分支管线处于关闭状态;而s 14 ~s 18 均等于0,则表示第1条主管线下不存在第4~8条分支管线。同时,基于上述的约束条件,第1条主管线下仅有1条分支管线开启,在本例中,即为第1条主管线下,只有第1条分支管线处于开启状态,第2、3条分支管线处于关闭状态。
进一步地,为了将分支管线的开启和关闭动作数学化,设定动作矩阵A,动作矩阵A的元素
Figure 129073DEST_PATH_IMAGE003
其中,当a ij =1时,将第i条主管线下存在的第j条分支管线的阀门开启;当a ij =-1时,将第i条主管线下存在的第j条分支管线的阀门关闭。
在所述步骤S60中,DDPG使用了4个神经网络来进行近似逼近,分别是Actor网络、Critic网络、Actor网络的拷贝、Critic网络的拷贝。
其中,Actor网络,为策略网络,对策略函数μ(s|θ μ )进行模拟;
Critic网络,为Q网络,用于对动作值函数Q(s,a|θ Q )进行模拟;
然后分别对这两个网络参数θ μ θ Q 进行拷贝形成两个Target目标网络;Target网络的设定是为了使训练易于收敛。
训练策略网络的过程,就是寻找策略网络参数θ μ 的最优解的过程,训练Q网络的过程,就是寻找Q网络参数θ Q 的最优解的过程。其中:
s t :表示t时刻的状态;
a t :表示t时刻的动作;
a t =μ(s t |θ μ )
μ:表示确定性行为策略函数;
θ μ :表示对确定性策略函数μ进行模拟的神经网络参数;
Q:动作状态值函数,用于评估动作的价值;
θ Q :表示对动作状态值函数Q进行模拟的神经网络参数。
在所述步骤S60中,构建DDPG的目标函数为J(θ μ ):
Figure 59114DEST_PATH_IMAGE012
其中,时刻t+k属于时间周期T内的时刻点,R t+k 表示t+k时刻点的管线的平均利用率和 试验总延迟,将R t+k 作为t+k时刻的回报,k表示设定的时刻点的个数,γ是远期回报的折扣 率,当γ=0时,表示只关心即时的回报;当γ=1时,表示远期回报没有折扣,所有管线的平均 利用率按相同比重计算,
Figure 334237DEST_PATH_IMAGE006
θ μ 的期望函数。
从上述公式可以看出,当前时刻的累积回报与下一时刻执行动作后获得的回报及未来获得的回报有关,因此,对于下一步执行动作的选取,即哪些分支管线的阀门设置为开启还是关闭,可以通过最大化目标函数为J(θ μ )来获得,而不是通过对状态转移概率求解获得,因此,避免了人为设定概率造成影响。
所述R t+k 通过以下公式计算:
Figure 915391DEST_PATH_IMAGE007
;
Figure 250558DEST_PATH_IMAGE008
;
Figure 979479DEST_PATH_IMAGE013
;
其中,w 1 表示利用率权重因子,w 2 表示延迟权重因子,取值[0,1];u ij 表示t+k时刻点第i条主管线下存在的第j条分支管线的利用率,s ij 即为上述的状态矩阵S的元素,d ij 表示t+k时刻点第i条主管线下存在的第j条分支管线的试验任务动力资源需求量,up ij 表示t+k时刻点第i条主管线下存在的第j条分支管线的容量上限,n表示主管线的总条数,m表示第i条主管线下存在的分支管线的数量,以如图2中所示,第5条主管线下存在的分支管线的数量为8,num表示分支管线的总条数;
delay ij 表示t时刻点第i条主管线下存在的第j条分支管线开启阀门延迟时间;s ij (start_time)表示t时刻点第i条主管线下存在的第j条分支管线实际开启阀门时间,即试验开始时间;d ij (start_time)表示t时刻点第i条主管线下存在的第j条分支管线计划开启试验任务的时间。
本发明的核心创新点之一在于利用了分支管线的利用率和分支管线开启阀门延迟时间来构建回报R t+k ,并建立了相应的回报模型,再以此回报模型构建了目标函数,目前现有技术中还尚未出现类似回报模型,而本发明中的回报模型能同时解决风洞试验调度缺乏预测性、不能最小化动力消耗的技术问题,还能够保证实验的顺畅,且因此而不需要状态转移概率。
具体地,本发明的调度方法中,首先是考虑了分支管线的利用率,且将以最大化管线的平均利用率为目标构建目标函数,因而能够全局地考虑到风洞试验调度管线的分配,且这种分配中,对于下一步执行动作的选取,以通过最大化目标函数来获得,本发明的调度方法因而具有预测性;
同时,本发明的调度中,还考虑了分支管线开启阀门延迟时间,以期望最小化试验延迟时间,因而能够提高预测的准确性,也能够保证实验的顺畅;
再者,通过DDPG获得利用率权重因子w 1 、延迟权重因子w 2 ,因而,能够在预测性和准确性之间获得较好的平衡。
通过上述设定之后,动作状态值函数Q表示为在确定性策略下选择动作的回报期望值,在DDPG中使用Q网络来拟合动作状态值函数Q:
Figure 245244DEST_PATH_IMAGE010
其中,s t 表示t时刻的状态,s t =s ij (t),s t+1 表示t+1时刻的状态,s t+1 =s ij (t+1);a t 表示t时刻的动作,a t+1 表示t+1时刻的动作;μ表示确定性行为策略函数;Q μ (s t (s t ))表示在t时刻使用μ策略在s t 状态选取动作a t 所获取的回报期望值,Q μ (s t+1 (s t+1 ))表示在t+1时刻使用μ策略在s t+1 状态选取动作a t+1 所获取的回报期望值。
由于在连续空间内,所以期望可以通过积分来求,使用以下衡量函数J β (μ)来表示策略μ的好坏:
Figure 743222DEST_PATH_IMAGE011
其中,ρ β (s t )为分布函数。
至于DDPG的算法,在现有技术则较为常见,不为本发明的保护重点,本发明的保护重点在于同时考虑了分支管线的利用率、分支管线开启阀门延迟时间,并建立了相应的模型,同时考虑了两者的平衡。
为了充分说明本发明,也对DDPG的算法进行如下说明:
第一阶段:初始化
第一步:初始化Actor和Critic神经网络参数θ μ θ Q
第二步:将Actor和Critic神经网络参数θ μ θ Q 拷贝给对应的Target网络参数:
Figure 452552DEST_PATH_IMAGE014
第三步:初始化一个记忆回放缓存R;
第二阶段:交互
第四步:对于每一个episode,为了能在环境中进行充分的探索,在Actor的策略μ函数上增加了一个噪声N,如以下公式,表示在当前状态s t 下直接获得的行为a t ,是通过策略函数μ使用神经网络参数θ μ 加上一个噪声N获得的。
Figure 403190DEST_PATH_IMAGE015
第五步:把获得的数据(s t ,a t ,r t ,s t+1 )存入记忆回放缓存里。其中,s t 表示当前的状态;a t 表示s t 状态下执行的动作;r t 表示s t 状态下执行动作a t 获得的回报;s t+1 表示下一个状态。
第三阶段:更新,需要从记忆回放缓存中采样N个mini-batch。
第六步:更新Critic网络,采用最小化损失函数Loss,详见如下公式:
Figure 971181DEST_PATH_IMAGE016
Figure 323665DEST_PATH_IMAGE017
第七步:更新Actor策略,使用样本梯度下降,详见如下公式:
Figure 266214DEST_PATH_IMAGE018
第八步:更新Target网络,详见如下公式:
Figure 641831DEST_PATH_IMAGE019
Figure 62448DEST_PATH_IMAGE020
通过DDPG的算法后,时间周期T任务完成,最终获得分支管道开启与关闭动作,然后通过分支管线与试验主体之间的映射关系,得出时间周期T内的试验调度队列。
本发明中通过对风洞试验的各管线的使用情况进行分析,使下一个时刻的风洞试验调度管线的分配情况仅与当前时刻的风洞试验调度管线的分配情况有关,可以实现风洞试验调度,能够按照时序给出最优的试验任务队列,而且,本发明的风洞试验调度并没有采用人工调度的方式,也没有采用人为设定的转换概率,因而,避免了人为设定造成缺陷。
另外,本发明的调度方法中,以最大化管线的平均利用率为目标构建目标函数,因而,能够实现最大化动力资源的使用率和最小化分支管线的开启/关闭次数,减少了动力设备的损耗;而且还考虑了分支管线开启阀门延迟时间,因而能够提高预测的准确性,尤其是在试验任务量骤然增加、动力资源集中供应保障、多用户争抢资源等复杂环境的情况下,能够保证实验的顺畅。
如图5所示,本发明还提供了一种基于深度强化学习的风洞试验调度系统100,包括:
模型构建模块:用于构建管线连通网络模型;
连通矩阵构建模块:用于根据所述管线连通网络模型,构建主管线与分支管线的连通矩阵C;
状态矩阵构建模块:用于根据当前时间步内风洞试验调度管线分配情况,构建状态矩阵S,状态矩阵S用于表示主管线与分支管线的连通关系与状态;
需求矩阵构建模块:根据时间周期T内的风洞试验需求情况,构建需求矩阵F,需求矩阵F用于表示时间周期T内的主管线与分支管线的连通关系、开闭状态及试验计划开始时间;
动作矩阵构建模块:用于构建动作矩阵A,以表示下一时刻是否开启分支管线的阀门;
动作输出模块:至少将分支管线的利用率、分支管线开启阀门延迟时间作为变量来构建目标函数J(θ μ ),将需求矩阵F和状态矩阵S输入DDPG模型中进行训练,获得输出动作。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于深度强化学习的风洞试验调度方法,其特征在于,包括如下步骤:
步骤S10:构建管线连通网络模型;
步骤S20:根据所述管线连通网络模型,构建主管线与分支管线的连通矩阵C;
步骤S30:根据当前时间步内风洞试验调度管线分配情况,构建状态矩阵S,状态矩阵S用于表示主管线与分支管线的连通关系与开闭状态;
步骤S40:根据时间周期T内的风洞试验需求情况,构建需求矩阵F,需求矩阵F用于表示时间周期T内的主管线与分支管线的连通关系、开闭状态及试验计划开始时间;
步骤S50:构建动作矩阵A,用于表示是否开启分支管线的阀门;
步骤S60:至少将分支管线的利用率、分支管线开启阀门延迟时间作为变量来构建目标函数,将需求矩阵F和状态矩阵S输入DDPG模型中进行训练,获得输出动作。
2.如权利要求1所述的一种基于深度强化学习的风洞试验调度方法,其特征在于,所述管线连通网络包括风洞试验动力资源、汇聚节点、风洞试验主体,其中,风洞试验动力资源、汇聚节点之间通过主管线连接,汇聚节点与风洞试验主体之间通过分支管线连接。
3.如权利要求2所述的一种基于深度强化学习的风洞试验调度方法,其特征在于,所述 连通矩阵C的元素
Figure DEST_PATH_IMAGE001
,其中,c ij 表示第i条主管线下是否存在第j条分支管线,c ij =1时,表示存在第i条主管线下的第j条分支管线;c ij =0时,表示不存在第i条主管线下的第j 条分支管线。
4.如权利要求3所述的一种基于深度强化学习的风洞试验调度方法,其特征在于,所述 状态矩阵S的元素
Figure DEST_PATH_IMAGE002
,其中,当s ij =1时,表示第i条主管线下存在第j条 分支管线,且第i条主管线下的第j条分支管线处于开启状态;当时s ij =-1时,第i条主管线下 存在第j条分支管线,且第i条主管线下的第j条分支管线处于关闭状态;s ij =0时,表示第i条 主管线下不存在第j条分支管线。
5.如权利要求4所述的一种基于深度强化学习的风洞试验调度方法,其特征在于,所述 动作矩阵A的元素
Figure DEST_PATH_IMAGE003
,其中,当a ij =1时,将第i条主管线下存在的第j条分支 管线的阀门开启;当a ij =-1时,将第i条主管线下存在的第j条分支管线的阀门关闭。
6.如权利要求5所述的一种基于深度强化学习的风洞试验调度方法,其特征在于,所述步骤S60中,其中,目标函数为J(θ μ ),
Figure DEST_PATH_IMAGE004
;
其中,θ μ 表示对确定性策略函数μ进行模拟的神经网络参数;
Figure DEST_PATH_IMAGE006
θ μ 的期望函数;时 刻t+k属于时间周期T内的时刻点,R t+k 表示t+k时刻点的管线的平均利用率和试验总延迟, 将R t+k 作为t+k时刻的回报,k表示设定的时刻点的个数,γ是远期回报的折扣率。
7.如权利要求6所述的一种基于深度强化学习的风洞试验调度方法,其特征在于,所述R t+k 通过以下公式计算:
Figure DEST_PATH_IMAGE007
;
Figure DEST_PATH_IMAGE008
;
Figure DEST_PATH_IMAGE009
;
其中,w 1 表示利用率权重因子,w 2 表示延迟权重因子,取值[0,1];u ij 表示t+k时刻点第i条主管线下存在的第j条分支管线的利用率,s ij 即为上述的状态矩阵S的元素,d ij 表示t+k时刻点第i条主管线下存在的第j条分支管线的试验任务动力资源需求量,up ij 表示t+k时刻点第i条主管线下存在的第j条分支管线的容量上限,n表示主管线的总条数,m表示第i条主管线下存在的分支管线的数量,num表示分支管线的总条数;
delay ij 表示t时刻点第i条主管线下存在的第j条分支管线开启阀门延迟时间;s ij (start_time)表示t时刻点第i条主管线下存在的第j条分支管线实际开启阀门时间,即试验开始时间;d ij (start_time)表示t时刻点第i条主管线下存在的第j条分支管线计划开启试验任务的时间。
8.如权利要求7所述的一种基于深度强化学习的风洞试验调度方法,其特征在于,步骤S60中,在DDPG中使用Q网络来拟合动作状态值函数Q:
Figure DEST_PATH_IMAGE010
;
其中,s t 表示t时刻的状态,s t =s ij (t)s t+1 表示t+1时刻的状态,s t+1 =s ij (t+1)a t 表示t时刻的动作,a t+1 表示t+1时刻的动作;μ表示确定性行为策略函数;Q μ (s t (s t ))表示在t时刻使用μ策略在s t 状态选取动作a t 所获取的回报期望值,Q μ (s t+1 (s t+1 ))表示在t+1时刻使用μ策略在s t+1 状态选取动作a t+1 所获取的回报期望值,E是期望函数。
9.如权利要求8所述的一种基于深度强化学习的风洞试验调度方法,其特征在于,步骤S60中,使用以下衡量函数J β (μ)来表示策略μ的好坏:
Figure DEST_PATH_IMAGE011
其中,ρ β (s t )为分布函数。
10.一种基于深度强化学习的风洞试验调度系统,其特征在于,包括:
模型构建模块:用于构建管线连通网络模型;
连通矩阵构建模块:用于根据所述管线连通网络模型,构建主管线与分支管线的连通矩阵C;
状态矩阵构建模块:用于根据当前时间步内风洞试验调度管线分配情况,构建状态矩阵S,状态矩阵S用于表示主管线与分支管线的连通关系与状态;
需求矩阵构建模块:根据时间周期T内的风洞试验需求情况,构建需求矩阵F,需求矩阵F用于表示时间周期T内的主管线与分支管线的连通关系、开闭状态及试验计划开始时间;
动作矩阵构建模块:用于构建动作矩阵A,以表示下一时刻是否开启分支管线的阀门;
动作输出模块:至少将分支管线的利用率、分支管线开启阀门延迟时间作为变量来构建目标函数J(θ μ ),将需求矩阵F和状态矩阵S输入DDPG模型中进行训练,获得输出动作。
CN202010786322.9A 2020-08-07 2020-08-07 一种基于深度强化学习的风洞试验调度方法及系统 Active CN111738627B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010786322.9A CN111738627B (zh) 2020-08-07 2020-08-07 一种基于深度强化学习的风洞试验调度方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010786322.9A CN111738627B (zh) 2020-08-07 2020-08-07 一种基于深度强化学习的风洞试验调度方法及系统

Publications (2)

Publication Number Publication Date
CN111738627A true CN111738627A (zh) 2020-10-02
CN111738627B CN111738627B (zh) 2020-11-27

Family

ID=72658149

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010786322.9A Active CN111738627B (zh) 2020-08-07 2020-08-07 一种基于深度强化学习的风洞试验调度方法及系统

Country Status (1)

Country Link
CN (1) CN111738627B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114692524A (zh) * 2022-03-31 2022-07-01 中国空气动力研究与发展中心计算空气动力研究所 风洞群高压空气资源动态拓扑结构建模方法、系统及空气消耗量计算
CN116108603A (zh) * 2023-04-12 2023-05-12 中国空气动力研究与发展中心计算空气动力研究所 风洞供气阀门单元级信息物理系统的构建方法

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10160618A (ja) * 1996-12-02 1998-06-19 Mitsubishi Heavy Ind Ltd 地形模型風洞試験方法および装置
CN101859494A (zh) * 2009-04-06 2010-10-13 通用汽车环球科技运作公司 车队车辆管理
CN108572054A (zh) * 2017-03-13 2018-09-25 中国空气动力研究与发展中心高速空气动力研究所 一种暂冲式风洞模拟试验方法及装置
CN108760217A (zh) * 2018-04-28 2018-11-06 北京航天长征飞行器研究所 一种基于分布式架构的风洞运行控制系统
CN108847037A (zh) * 2018-06-27 2018-11-20 华中师范大学 一种面向非全局信息的城市路网路径规划方法
CN109388484A (zh) * 2018-08-16 2019-02-26 广东石油化工学院 一种基于Deep Q-network算法的多资源云作业调度方法
CN109710404A (zh) * 2018-12-20 2019-05-03 上海交通大学 分布式系统中的任务调度方法
WO2020040763A1 (en) * 2018-08-23 2020-02-27 Siemens Aktiengesellschaft Real-time production scheduling with deep reinforcement learning and monte carlo tree search
CN111026549A (zh) * 2019-11-28 2020-04-17 国网甘肃省电力公司电力科学研究院 一种电力信息通信设备自动化测试资源调度方法
WO2020086214A1 (en) * 2018-10-26 2020-04-30 Dow Global Technologies Llc Deep reinforcement learning for production scheduling
CN111105141A (zh) * 2019-11-23 2020-05-05 同济大学 一种需求响应型公交调度方法
CN111242443A (zh) * 2020-01-06 2020-06-05 国网黑龙江省电力有限公司 基于深度强化学习的能源互联网中虚拟电厂经济调度方法

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10160618A (ja) * 1996-12-02 1998-06-19 Mitsubishi Heavy Ind Ltd 地形模型風洞試験方法および装置
CN101859494A (zh) * 2009-04-06 2010-10-13 通用汽车环球科技运作公司 车队车辆管理
CN108572054A (zh) * 2017-03-13 2018-09-25 中国空气动力研究与发展中心高速空气动力研究所 一种暂冲式风洞模拟试验方法及装置
CN108760217A (zh) * 2018-04-28 2018-11-06 北京航天长征飞行器研究所 一种基于分布式架构的风洞运行控制系统
CN108847037A (zh) * 2018-06-27 2018-11-20 华中师范大学 一种面向非全局信息的城市路网路径规划方法
CN109388484A (zh) * 2018-08-16 2019-02-26 广东石油化工学院 一种基于Deep Q-network算法的多资源云作业调度方法
WO2020040763A1 (en) * 2018-08-23 2020-02-27 Siemens Aktiengesellschaft Real-time production scheduling with deep reinforcement learning and monte carlo tree search
WO2020086214A1 (en) * 2018-10-26 2020-04-30 Dow Global Technologies Llc Deep reinforcement learning for production scheduling
CN109710404A (zh) * 2018-12-20 2019-05-03 上海交通大学 分布式系统中的任务调度方法
CN111105141A (zh) * 2019-11-23 2020-05-05 同济大学 一种需求响应型公交调度方法
CN111026549A (zh) * 2019-11-28 2020-04-17 国网甘肃省电力公司电力科学研究院 一种电力信息通信设备自动化测试资源调度方法
CN111242443A (zh) * 2020-01-06 2020-06-05 国网黑龙江省电力有限公司 基于深度强化学习的能源互联网中虚拟电厂经济调度方法

Non-Patent Citations (10)

* Cited by examiner, † Cited by third party
Title
JIANJUN XIONG 等: "The Multi Task Measuring and Controlling System Based on Distributed LAN", 《2013 INTERNATIONAL CONFERENCE ON INFORMATION TECHNOLOGY AND APPLICATIONS》 *
SACHIN TEJWANT NAVALKAR 等: "Wind Tunnel Testing of Subspace Predictive Repetitive Control for Variable Pitch Wind Turbines", 《IEEE TRANSACTIONS ON CONTROL SYSTEMS TECHNOLOGY》 *
WOLF R. KRÜGER 等: "Design and wind tunnel test of an actively controlled flexible wing", 《INTERNATIONAL FORUM ON AEROELASTICITY AND STRUCTURAL DYNAMICS》 *
张虹 等: "基于Multi-Agent异步深度强化学习的居民住宅能耗在线优化调度研究", 《中国电机工程学报》 *
张鹏 等: "基于Matlab的风洞信号延迟时间计算方法", 《兵工自动化》 *
李春彦 等: "高速风洞自动化试验调度系统研制", 《测控技术》 *
熊建军 等: "基于立式风洞的低风速控制与测量应用研究", 《面向航空试验测试技术——2013年航空试验测试技术峰会暨学术交流会论文集》 *
肖鹏飞: "基于深度时序差分强化学习的非置换流水车间调度问题研究", 《中国优秀硕士学位论文全文数据库 基础科学辑》 *
邓志龙 等: "一种基于深度强化学习的调度优化方法", 《西北工业大学学报》 *
韩博: "某列车气候风洞试验台能耗特征分析及控制策略研究", 《中国优秀硕士学位论文全文数据库 工程科技Ⅱ辑》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114692524A (zh) * 2022-03-31 2022-07-01 中国空气动力研究与发展中心计算空气动力研究所 风洞群高压空气资源动态拓扑结构建模方法、系统及空气消耗量计算
CN114692524B (zh) * 2022-03-31 2023-05-05 中国空气动力研究与发展中心计算空气动力研究所 风洞群高压空气资源动态拓扑结构建模方法、系统及空气消耗量计算
CN116108603A (zh) * 2023-04-12 2023-05-12 中国空气动力研究与发展中心计算空气动力研究所 风洞供气阀门单元级信息物理系统的构建方法
CN116108603B (zh) * 2023-04-12 2023-06-27 中国空气动力研究与发展中心计算空气动力研究所 风洞供气阀门单元级信息物理系统的构建方法

Also Published As

Publication number Publication date
CN111738627B (zh) 2020-11-27

Similar Documents

Publication Publication Date Title
CN109102126B (zh) 一种基于深度迁移学习的理论线损率预测模型
CN111737886B (zh) 一种风洞试验调度方法及系统
Li et al. Building's electricity consumption prediction using optimized artificial neural networks and principal component analysis
CN112614009B (zh) 一种基于深度期望q-学习的电网能量管理方法及系统
CN111738627B (zh) 一种基于深度强化学习的风洞试验调度方法及系统
CN110489223A (zh) 一种异构集群中任务调度方法、装置及电子设备
CN111064633B (zh) 一种云边协同电力信息通信设备自动化测试资源分配方法
CN109710404B (zh) 分布式系统中的任务调度方法
CN110570034B (zh) 一种基于多XGBoost模型融合的母线负荷预测方法
Norgaard et al. Neural network prediction of new aircraft design coefficients
CN108182490A (zh) 一种大数据环境下的短期负荷预测方法
CN107194460A (zh) 金融时间序列预测的量子粒子群优化递归神经网络方法
CN109214565A (zh) 一种适用于大电网分区调度的子区域系统负荷预测方法
CN115951989B (zh) 一种基于严格优先级的协同流量调度数值模拟方法与系统
CN106156413B (zh) 一种面向大规模分布式综合模块化航电系统dima的多层次建模设计方法
Zhao et al. Construction cost prediction based on genetic algorithm and BIM
CN114896899A (zh) 一种基于信息交互的多智能体分散式决策方法及系统
CN107239850A (zh) 一种基于系统动力学模型的中长期电力负荷预测方法
CN114498649A (zh) 主动配电网建筑热负荷控制方法、装置、电子设备和存储介质
CN114065646B (zh) 基于混合优化算法的能耗预测方法、云计算平台及系统
CN113361912B (zh) 一种基于强化学习的服务任务调度方法
Xue et al. Research on joint scheduling method of heterogeneous TT&C network resources based on improved DQN algorithm
CN114154768A (zh) 天然气需求预测方法、装置、电子设备及介质
Xing Building load control and optimization
Grzesiak-Kopeć et al. Specification-driven evolution of floor plan design

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant