CN111738627A

CN111738627A - 一种基于深度强化学习的风洞试验调度方法及系统

Info

Publication number: CN111738627A
Application number: CN202010786322.9A
Authority: CN
Inventors: 明丽洪; 熊建军; 王桂芝; 罗昌俊; 王小飞; 何福; 袁海文; 侯昱珂
Original assignee: Low Speed Aerodynamics Institute of China Aerodynamics Research and Development Center
Current assignee: Low Speed Aerodynamics Institute of China Aerodynamics Research and Development Center
Priority date: 2020-08-07
Filing date: 2020-08-07
Publication date: 2020-10-02
Anticipated expiration: 2040-08-07
Also published as: CN111738627B

Abstract

本发明适用于风洞试验技术领域，提供了一种基于深度强化学习的风洞试验调度方法及系统，该风洞试验调度方法及系统中，同时考虑了分支管线的利用率和分支管线开启阀门延迟时间，其中，目标函数的一个变量为分支管线的利用率，因而能够全局地考虑到风洞试验调度管线的分配，且这种分配中，对于下一步执行动作的选取，以通过最大化目标函数来获得，本发明的调度方法因而具有预测性，同时，能够实现最大化动力资源的使用率和最小化分支管线的开启/关闭次数，减少了动力设备的损耗；目标函数的另一变量为分支管线开启阀门延迟时间，因而能够提高预测的准确性，也能够保证实验的顺畅。

Description

一种基于深度强化学习的风洞试验调度方法及系统

技术领域

本发明属于风洞试验技术领域，尤其涉及一种基于深度强化学习的风洞试验调度方法及系统。

背景技术

风洞试验是将飞行器模型或实物固定在一种管道状地面人工环境中（即风洞），依据运动的相对性原理，通过人为制造气流流过，来模拟飞行器或其他物体在空中各种复杂的飞行状态，从而获取试验数据，以了解实际飞行器或其他物体的空气动力学特性的一种空气动力实验方法。

调度问题通常定义为：在一段时间内，为完成一组工作而相应地分配一套资源的问题，它广泛存在于能源、交通、生产、计算、紧急医疗、安全等领域，是一个复杂的组合优化问题。它可以是动态的，也可以是静态的。动态调度是以当前运行环境状态来决定作业或任务的顺序；静态调度通常是预先安排，是从给定的工作流中分配作业或任务。

风洞试验调度则是围绕风洞试验这一特定场景展开的资源保障计划，属于动态调度的范畴，是风洞试验顺利开展的前提，也是复杂的多目标优化问题。在满足约束的条件下，如何最大化动力资源的使用率和最小化设备启停次数，减少对动力设备的损耗，以及按照时序给出最优的试验任务队列，一直以来都是风洞试验调度面临的首要问题。

现有技术中，通常采用人工调度的方法来实现风洞试验调度，因缺乏全局性、预测性、仅凭个人经验所带来的弊端，特别是在试验任务量骤然增加、动力资源集中供应保障、多用户争抢资源等复杂环境的情况下，这个问题日益凸显，传统的人工调度方式已力不从心。

现有技术中也出现了包括基于启发式算法、遗传算法、Q-Learning学习算法、DRL学习算法的调度方法等。

但这些非人工调度的方法，要么利用了事件之间的转换概率，而且这种转换概率均是通过人为设定的。因此，转换概率的大小设定将极大地影响调度的效果，其相对于人工调度而言，并没有明显的进步；要么就是机械地套用，不考虑风洞试验的动力消耗、预测性等问题。

发明内容

本发明的目的在于提供一种基于深度强化学习的风洞试验调度方法和系统，旨在解决现有技术中的风洞试验调度缺乏预测性、不能最小化动力消耗的技术问题。

本发明提供了一种基于深度强化学习的风洞试验调度方法，包括如下步骤：

步骤S10:构建管线连通网络模型；

步骤S20:根据所述管线连通网络模型，构建主管线与分支管线的连通矩阵C；

步骤S30:根据当前时间步内风洞试验调度管线分配情况，构建状态矩阵S，状态矩阵S用于表示主管线与分支管线的连通关系与开闭状态；

步骤S40:根据时间周期T内的风洞试验需求情况，构建需求矩阵F，需求矩阵F用于表示时间周期T内的主管线与分支管线的连通关系、开闭状态及试验计划开始时间；

步骤S50:构建动作矩阵A，用于表示是否开启分支管线的阀门；

步骤S60:至少将分支管线的利用率、分支管线开启阀门延迟时间作为变量来构建目标函数，将需求矩阵F和状态矩阵S输入DDPG模型中进行训练，获得输出动作。

进一步地，所述管线连通网络包括风洞试验动力资源、汇聚节点、风洞试验主体，其中，风洞试验动力资源、汇聚节点之间通过主管线连接，汇聚节点与风洞试验主体之间通过分支管线连接。

进一步地，所述连通矩阵C的元素

，其中，c _ij表示第i条主管线下是否存在第j条分支管线，c _ij=1时，表示存在第i条主管线下的第j条分支管线；c _ij=0时，表示不存在第i条主管线下的第j条分支管线。

进一步地，所述状态矩阵S的元素

，其中，当s _ij=1时，表示第i条主管线下存在第j条分支管线，且第i条主管线下的第j条分支管线处于开启状态；当时s _ij=-1时，第i条主管线下存在第j条分支管线，且第i条主管线下的第j条分支管线处于关闭状态；s _ij=0时，表示第i条主管线下不存在第j条分支管线。

进一步地，所述动作矩阵A的元素

，其中，当a _ij=1时，将第i条主管线下存在的第j条分支管线的阀门开启；当a _ij=-1时，将第i条主管线下存在的第j条分支管线的阀门关闭。

进一步地，所述步骤S60中，目标函数为

，

;

其中，θ ^μ表示对确定性策略函数μ进行模拟的神经网络参数；

是θ ^μ的期望函数；时刻t+k属于时间周期T内的时刻点，R _t+k表示t+k时刻点的管线的平均利用率和试验总延迟，将R _t+k作为t+k时刻的回报，k表示设定的时刻点的个数，γ是远期回报的折扣率。

进一步地，所述R _t+k以下公式计算：

;

;

其中，w ₁表示利用率权重因子，w ₂表示延迟权重因子，取值[0,1]；u _ij表示t+k时刻点第i条主管线下存在的第j条分支管线的利用率，s _ij即为上述的状态矩阵S的元素，d _ij表示t+k时刻点第i条主管线下存在的第j条分支管线的试验任务动力资源需求量，up _ij表示t+k时刻点第i条主管线下存在的第j条分支管线的容量上限，n表示主管线的总条数，m表示第i条主管线下存在的分支管线的数量，num表示分支管线的总条数；

delay _ij表示t时刻点第i条主管线下存在的第j条分支管线开启阀门延迟时间；s _ij(start_time)表示t时刻点第i条主管线下存在的第j条分支管线实际开启阀门时间，即试验开始时间；d _ij(start_time)表示t时刻点第i条主管线下存在的第j条分支管线计划开启试验任务的时间。

进一步地，步骤S60中，在DDPG中使用Q网络来拟合动作状态值函数Q：

其中，s _t表示t时刻的状态，s _t =s _ij(t)，s _t+1表示t+1时刻的状态，s _t+1 =s _ij(t+1)；a _t表示t时刻的动作，a _t+1表示t+1时刻的动作；μ表示确定性行为策略函数；Q ^μ(s _t ,μ(s _t))表示在t时刻使用μ策略在s _t状态选取动作a _t所获取的回报期望值，Q ^μ(s _t+1 ,μ(s _t+1))表示在t+1时刻使用μ策略在s _t+1状态选取动作a _t+1所获取的回报期望值；E为期望函数。

进一步地，步骤S60中，使用以下衡量函数J _β(μ)来表示策略μ的好坏：

;

其中，ρ ^β(s _t)为分布函数。

本发明还提供了一种基于深度强化学习的风洞试验调度系统，包括：

模型构建模块:用于构建管线连通网络模型；

连通矩阵构建模块:用于根据所述管线连通网络模型，构建主管线与分支管线的连通矩阵C；

状态矩阵构建模块:用于根据当前时间步内风洞试验调度管线分配情况，构建状态矩阵S，状态矩阵S用于表示主管线与分支管线的连通关系与状态；

需求矩阵构建模块:根据时间周期T内的风洞试验需求情况，构建需求矩阵F，需求矩阵F用于表示时间周期T内的主管线与分支管线的连通关系、开闭状态及试验计划开始时间；

动作矩阵构建模块：用于构建动作矩阵A，以表示下一时刻是否开启分支管线的阀门；

动作输出模块:至少将分支管线的利用率、分支管线开启阀门延迟时间作为变量来构建目标函数J(θ ^μ)，将需求矩阵F和状态矩阵S输入DDPG模型中进行训练，获得输出动作。

本发明相对于现有技术的技术效果是：

1.本发明的调度方法和系统中，同时考虑了分支管线的利用率和分支管线开启阀门延迟时间，其中，目标函数的一个变量为分支管线的利用率，因而能够全局地考虑到风洞试验调度管线的分配，且这种分配中，对于下一步执行动作的选取，以通过最大化目标函数来获得，本发明的调度方法因而具有预测性，同时，能够实现最大化动力资源的使用率和最小化分支管线的开启/关闭次数，减少了动力设备的损耗；目标函数的另一变量为分支管线开启阀门延迟时间，因而能够提高预测的准确性，也能够保证实验的顺畅。

2.本发明的调度方法和系统中，通过DDPG获得利用率权重因子、延迟权重因子，因而，能够在预测性和准确性之间获得较好的平衡。

3.本发明的调度方法和系统中，核心创新点之一在于利用了分支管线的利用率和分支管线开启阀门延迟时间来构建回报，并建立了相应的回报模型，再以此回报模型构建了目标函数，目前现有技术中还尚未出现类似回报模型，而本发明中的回报模型能同时解决风洞试验调度缺乏预测性、不能最小化动力消耗的技术问题，还能够保证实验的顺畅，且因此而不需要状态转移概率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面所描述的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种基于深度强化学习的风洞试验调度方法流程图；

图2是本发明实施例提供的管线连通网络模型示意图；

图3是本发明实施例提供的连通矩阵示意图；

图4是本发明实施例提供的状态矩阵示意图；

图5是本发明实施例提供的一种基于深度强化学习的风洞试验调度系统示意图。

具体实施方式

在下文中将参考附图对本发明的各方面进行更充分的描述。然而，本发明可以具体化成许多不同形式且不应解释为局限于贯穿本发明所呈现的任何特定结构或功能。相反地，提供这些方面将使得本发明周全且完整，并且本发明将给本领域技术人员充分地传达本发明的范围。基于本文所教导的内容，本领域的技术人员应意识到，无论是单独还是结合本发明的任何其它方面实现本文所公开的任何方面，本发明的范围旨在涵盖本文中所公开的任何方面。例如，可以使用本文所提出任意数量的装置或者执行方法来实现。另外，除了本文所提出本发明的多个方面之外，本发明的范围更旨在涵盖使用其它结构、功能或结构和功能来实现的装置或方法。应可理解，其可通过权利要求的一或多个元件具体化本文所公开的任何方面。

在此使用的术语仅仅是为了描述具体实施例，而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在，但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。

在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义，除非另外定义。应注意，这里使用的术语应解释为具有与本说明书的上下文相一致的含义，而不应以理想化或过于刻板的方式来解释。

对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。

如图1所示，本发明实施例提供了一种基于深度强化学习的风洞试验调度方法，其包括如下步骤：

步骤S10:构建管线连通网络模型；

构建的管线连通网络模型如图2所示，所述管线连通网络包括风洞试验动力资源D、汇聚节点D1~D12、风洞试验主体wt-01~wt-26，其中，风洞试验动力资源D、汇聚节点D1~D12之间通过主管线1＃~12＃连接，汇聚节点D1~D12与风洞试验主体wt-01~wt-26之间通过分支管线1＊~26＊连接。

其中，风洞试验动力资源用于生产并储备动力资源，用于为风洞试验提供气流。

具体地，有的主管线接有分支管线，而有的主管线则没有接分支管线，以图2中所示，主管线1＃、4＃、5＃、7＃、8＃、9＃、10＃、12＃上接有分支管线，主管线2＃、3＃、6＃、11＃上没有接分支管线；另外，主管线接的分支管线的数量也可以不同，以图2中所示，主管线1＃上接有3条分支管线，而主管线5＃上则接有8条分支管线。

为了方便描述管线连通网络模型中的主管线和分支管线，本发明实施例中的下标ij表示第i条主管线下存在的第j条分支管线，以图2所示，当i=5，j=2时，表示第5条主管线下存在的第2条分支管线，也就是主管线5＃下的分支管线7＊。

为了将管线连通网络模型数学化，构建连通矩阵C，所述连通矩阵C的元素

因此，图2中所示管线连通网络模型的连通矩阵C即为如图3所示。

例如，c ₈₁~c ₈₈均等于1，即表示第8条主管线下存在第1~8条分支管线；类似地，c ₃₁~c ₃₈均为0，则表示第3条主管线下不存在第1~8条分支管线。

通过所述连通矩阵C，将管线连通网络模型的连通关系进行了数学化特征描述。

在步骤S30中，根据当前时间步内的风洞试验调度管线分配情况，构建状态矩阵S，状态矩阵S用于表示主管线与分支管线的连通关系、开闭状态；

其中，所述状态矩阵S的元素

。

其中，当s _ij=1时，表示第i条主管线下存在第j条分支管线，且第i条主管线下的第j条分支管线处于开启状态；当时s _ij=-1时，第i条主管线下存在第j条分支管线，且第i条主管线下的第j条分支管线处于关闭状态；s _ij=0时，表示第i条主管线下不存在第j条分支管线。

需求矩阵F和状态矩阵S类似，不同的是，状态矩阵S表示某一时刻t的实时状态，而需求矩阵F表示时间周期T内的需求。

为了避免一条主管线下同时开启多条分支管线而造成汇聚节点供给质量下降与供给保障冲突问题，设定如下约束条件：某个时刻内，一条主管线下，仅有一条分支管线被开启；图4反应了某时刻的状态矩阵S。

例如，s ₁₁=1，则表示第1条主管线下存在第1条分支管线，且第1条主管线下的第1条分支管线处于开启状态；s ₁₂=-1和s ₁₃=-1，则表示第1条主管线下存在第1、2条分支管线，且第1条主管线下的第1条和第2条分支管线处于关闭状态；而s ₁₄ ~s ₁₈均等于0，则表示第1条主管线下不存在第4~8条分支管线。同时，基于上述的约束条件，第1条主管线下仅有1条分支管线开启，在本例中，即为第1条主管线下，只有第1条分支管线处于开启状态，第2、3条分支管线处于关闭状态。

进一步地，为了将分支管线的开启和关闭动作数学化，设定动作矩阵A，动作矩阵A的元素

。

其中，当a _ij=1时，将第i条主管线下存在的第j条分支管线的阀门开启；当a _ij=-1时，将第i条主管线下存在的第j条分支管线的阀门关闭。

在所述步骤S60中，DDPG使用了4个神经网络来进行近似逼近，分别是Actor网络、Critic网络、Actor网络的拷贝、Critic网络的拷贝。

其中，Actor网络，为策略网络，对策略函数μ(s|θ ^μ)进行模拟；

Critic网络，为Q网络，用于对动作值函数Q(s,a|θ ^Q)进行模拟；

然后分别对这两个网络参数θ ^μ、θ ^Q进行拷贝形成两个Target目标网络；Target网络的设定是为了使训练易于收敛。

训练策略网络的过程，就是寻找策略网络参数θ ^μ的最优解的过程，训练Q网络的过程，就是寻找Q网络参数θ ^Q的最优解的过程。其中：

s _t：表示t时刻的状态；

a _t：表示t时刻的动作；

a _t=μ(s _t|θ ^μ)

μ：表示确定性行为策略函数；

θ ^μ：表示对确定性策略函数μ进行模拟的神经网络参数；

Q：动作状态值函数，用于评估动作的价值；

θ ^Q：表示对动作状态值函数Q进行模拟的神经网络参数。

在所述步骤S60中，构建DDPG的目标函数为J(θ ^μ)：

；

其中，时刻t+k属于时间周期T内的时刻点，R _t+k表示t+k时刻点的管线的平均利用率和试验总延迟，将R _t+k作为t+k时刻的回报，k表示设定的时刻点的个数，γ是远期回报的折扣率，当γ=0时，表示只关心即时的回报；当γ=1时，表示远期回报没有折扣，所有管线的平均利用率按相同比重计算，

是θ ^μ的期望函数。

从上述公式可以看出，当前时刻的累积回报与下一时刻执行动作后获得的回报及未来获得的回报有关，因此，对于下一步执行动作的选取，即哪些分支管线的阀门设置为开启还是关闭，可以通过最大化目标函数为J(θ ^μ)来获得，而不是通过对状态转移概率求解获得，因此，避免了人为设定概率造成影响。

所述R _t+k通过以下公式计算：

;

;

;

其中，w ₁表示利用率权重因子，w ₂表示延迟权重因子，取值[0,1]；u _ij表示t+k时刻点第i条主管线下存在的第j条分支管线的利用率，s _ij即为上述的状态矩阵S的元素，d _ij表示t+k时刻点第i条主管线下存在的第j条分支管线的试验任务动力资源需求量，up _ij表示t+k时刻点第i条主管线下存在的第j条分支管线的容量上限，n表示主管线的总条数，m表示第i条主管线下存在的分支管线的数量，以如图2中所示，第5条主管线下存在的分支管线的数量为8，num表示分支管线的总条数；

本发明的核心创新点之一在于利用了分支管线的利用率和分支管线开启阀门延迟时间来构建回报R _t+k，并建立了相应的回报模型，再以此回报模型构建了目标函数，目前现有技术中还尚未出现类似回报模型，而本发明中的回报模型能同时解决风洞试验调度缺乏预测性、不能最小化动力消耗的技术问题，还能够保证实验的顺畅，且因此而不需要状态转移概率。

具体地，本发明的调度方法中，首先是考虑了分支管线的利用率，且将以最大化管线的平均利用率为目标构建目标函数，因而能够全局地考虑到风洞试验调度管线的分配，且这种分配中，对于下一步执行动作的选取，以通过最大化目标函数来获得，本发明的调度方法因而具有预测性；

同时，本发明的调度中，还考虑了分支管线开启阀门延迟时间，以期望最小化试验延迟时间，因而能够提高预测的准确性，也能够保证实验的顺畅；

再者，通过DDPG获得利用率权重因子w ₁、延迟权重因子w ₂，因而，能够在预测性和准确性之间获得较好的平衡。

通过上述设定之后，动作状态值函数Q表示为在确定性策略下选择动作的回报期望值，在DDPG中使用Q网络来拟合动作状态值函数Q：

；

其中，s _t表示t时刻的状态，s _t =s _ij(t)，s _t+1表示t+1时刻的状态，s _t+1 =s _ij(t+1)；a _t表示t时刻的动作，a _t+1表示t+1时刻的动作；μ表示确定性行为策略函数；Q ^μ(s _t ,μ(s _t))表示在t时刻使用μ策略在s _t状态选取动作a _t所获取的回报期望值，Q ^μ(s _t+1 ,μ(s _t+1))表示在t+1时刻使用μ策略在s _t+1状态选取动作a _t+1所获取的回报期望值。

由于在连续空间内，所以期望可以通过积分来求，使用以下衡量函数J _β(μ)来表示策略μ的好坏：

；

其中，ρ ^β(s _t)为分布函数。

至于DDPG的算法，在现有技术则较为常见，不为本发明的保护重点，本发明的保护重点在于同时考虑了分支管线的利用率、分支管线开启阀门延迟时间，并建立了相应的模型，同时考虑了两者的平衡。

为了充分说明本发明，也对DDPG的算法进行如下说明：

第一阶段：初始化

第一步：初始化Actor和Critic神经网络参数θ ^μ和θ ^Q；

第二步：将Actor和Critic神经网络参数θ ^μ和θ ^Q拷贝给对应的Target网络参数：

；

第三步：初始化一个记忆回放缓存R；

第二阶段：交互

第四步：对于每一个episode，为了能在环境中进行充分的探索，在Actor的策略μ函数上增加了一个噪声N，如以下公式，表示在当前状态s _t下直接获得的行为a _t，是通过策略函数μ使用神经网络参数θ ^μ加上一个噪声N获得的。

；

第五步：把获得的数据(s _t,a _t,r _t,s _t+1)存入记忆回放缓存里。其中，s _t表示当前的状态；a _t表示s _t状态下执行的动作；r _t表示s _t状态下执行动作a _t获得的回报；s _t+1表示下一个状态。

第三阶段：更新，需要从记忆回放缓存中采样N个mini-batch。

第六步：更新Critic网络，采用最小化损失函数Loss，详见如下公式：

第七步：更新Actor策略，使用样本梯度下降，详见如下公式：

；

第八步：更新Target网络，详见如下公式：

通过DDPG的算法后，时间周期T任务完成，最终获得分支管道开启与关闭动作，然后通过分支管线与试验主体之间的映射关系，得出时间周期T内的试验调度队列。

本发明中通过对风洞试验的各管线的使用情况进行分析，使下一个时刻的风洞试验调度管线的分配情况仅与当前时刻的风洞试验调度管线的分配情况有关，可以实现风洞试验调度，能够按照时序给出最优的试验任务队列，而且，本发明的风洞试验调度并没有采用人工调度的方式，也没有采用人为设定的转换概率，因而，避免了人为设定造成缺陷。

另外，本发明的调度方法中，以最大化管线的平均利用率为目标构建目标函数，因而，能够实现最大化动力资源的使用率和最小化分支管线的开启/关闭次数，减少了动力设备的损耗；而且还考虑了分支管线开启阀门延迟时间，因而能够提高预测的准确性，尤其是在试验任务量骤然增加、动力资源集中供应保障、多用户争抢资源等复杂环境的情况下，能够保证实验的顺畅。

如图5所示，本发明还提供了一种基于深度强化学习的风洞试验调度系统100，包括：

模型构建模块:用于构建管线连通网络模型；

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于深度强化学习的风洞试验调度方法，其特征在于，包括如下步骤：

步骤S10:构建管线连通网络模型；

2.如权利要求1所述的一种基于深度强化学习的风洞试验调度方法，其特征在于，所述管线连通网络包括风洞试验动力资源、汇聚节点、风洞试验主体，其中，风洞试验动力资源、汇聚节点之间通过主管线连接，汇聚节点与风洞试验主体之间通过分支管线连接。

3.如权利要求2所述的一种基于深度强化学习的风洞试验调度方法，其特征在于，所述连通矩阵C的元素

，其中，c _ij表示第i条主管线下是否存在第j条分支管线，c _ij =1时，表示存在第i条主管线下的第j条分支管线；c _ij=0时，表示不存在第i条主管线下的第j 条分支管线。

4.如权利要求3所述的一种基于深度强化学习的风洞试验调度方法，其特征在于，所述状态矩阵S的元素

5.如权利要求4所述的一种基于深度强化学习的风洞试验调度方法，其特征在于，所述动作矩阵A的元素

6.如权利要求5所述的一种基于深度强化学习的风洞试验调度方法，其特征在于，所述步骤S60中，其中，目标函数为J(θ ^μ)，

;

7.如权利要求6所述的一种基于深度强化学习的风洞试验调度方法，其特征在于，所述R _t+k通过以下公式计算：

;

;

;

delay _ij表示t时刻点第i条主管线下存在的第j条分支管线开启阀门延迟时间；s _ij (start_time)表示t时刻点第i条主管线下存在的第j条分支管线实际开启阀门时间，即试验开始时间；d _ij (start_time)表示t时刻点第i条主管线下存在的第j条分支管线计划开启试验任务的时间。

8.如权利要求7所述的一种基于深度强化学习的风洞试验调度方法，其特征在于，步骤S60中，在DDPG中使用Q网络来拟合动作状态值函数Q：

;

其中，s _t表示t时刻的状态，s _t =s _ij (t)，s _t+1表示t+1时刻的状态，s _t+1 =s _ij (t+1)；a _t表示t时刻的动作，a _t+1表示t+1时刻的动作；μ表示确定性行为策略函数；Q ^μ(s _t ,μ(s _t))表示在t时刻使用μ策略在s _t状态选取动作a _t所获取的回报期望值，Q ^μ(s _t+1 ,μ(s _t+1))表示在t+1时刻使用μ策略在s _t+1状态选取动作a _t+1所获取的回报期望值，E是期望函数。

9.如权利要求8所述的一种基于深度强化学习的风洞试验调度方法，其特征在于，步骤S60中，使用以下衡量函数J _β(μ)来表示策略μ的好坏：

其中，ρ ^β(s _t)为分布函数。

10.一种基于深度强化学习的风洞试验调度系统，其特征在于，包括：

模型构建模块:用于构建管线连通网络模型；