CN114139254A

CN114139254A - 基于强化学习的设施布局优化方法

Info

Publication number: CN114139254A
Application number: CN202111405874.1A
Authority: CN
Inventors: 刘畅; 汪润中; 严骏驰
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2021-11-24
Filing date: 2021-11-24
Publication date: 2022-03-04

Abstract

一种基于强化学习的设施布局优化方法，通过针对伴随图的图神经网络并与深度双层优势Q神经网络相结合，利用强化学习进行优化。本发明尝试使用强化学习模型来设计设施布局方法，采用无需标签的训练方式，即在训练过程中无需使用当前设施布局场景的最优解或次优解作为标签，从而在精度和效率中做出平衡。

Description

基于强化学习的设施布局优化方法

技术领域

本发明涉及的是一种机器学习领域的技术，具体是一种基于强化学习的设施布局优化方法。

背景技术

设施布局指的是在给定的设施范围内，对多个经济活动单元进行位置安排，过去几十年己激发许多学者对其理论，应用和优化技术的研究。但现有的近似方法耗时短但求解精度较差，精确方法虽然精度较高但是耗时过长，较小规模的设施布局场景都可能需要花费数个小时甚至数天求解。现有的基于机器学习的求解方法是将设施布局中的二阶目标转化为一阶目标，然而这一范式明显具有瓶颈，因为一阶目标很难完整的代表二阶目标。因此，这种做法的上升空间也十分有限。现有的基于机器学习的求解方法，大多采用监督学习和模仿学习，需要设施布局的最优解或者较优解作为标签进行训练。但是，这样的做法训练出的模型，其性能很难超过其作为标签的最优解或者较优解。

发明内容

本发明针对现有技术存在的上述不足，提出一种基于强化学习的设施布局优化方法，尝试使用强化学习模型来设计设施布局方法，采用无需标签的训练方式，即在训练过程中无需使用当前设施布局场景的已知最优解作为标签，从而在精度和效率中做出平衡。

本发明是通过以下技术方案实现的：

本发明涉及一种基于强化学习的设施布局优化方法，包括：离线阶段和在线阶段，其中：

离线阶段包括：

步骤1)从已有数据集中选择若干设施布局场景进行建模，将其抽象为在伴随图上选择节点。

所述的设施布局场景包括但不限于校园建筑物的布局、医院科室的安排等场景。

所述的建模，具体过程为：将房间与候选位置作为节点，利用三角剖分建立房间拓扑图和候选位置拓扑图，然后将两张拓扑图融合为伴随图，图上的每个节点表示将一个房间与一个候选位置匹配，从而将设施布局问题建模为在伴随图上选择若干节点的问题。

步骤2)创建智能体与对应的神经网络，并设定训练轮数。

步骤3)构建伴随图G，每个点均标为可行。

步骤4)利用神经网络对伴随图G进行特征抽取，对每个节点进行一个评估，在此基础上选择下一个可行点，作为动作；

所述的特征提取，通过针对伴随图特征抽取设计的神经网络实现，即根据相邻特征提取顶点特征，并在每次迭代中不断地融合每个节点的自身特征与邻居特征，使得每个点的特征会融合自身特征，邻居特征，与图几何结构信息，具体为：E^t+1＝ReLU(h₁+h₂+h₃+h₄)，其中：h₁＝X′·θ₁，

E^t为在每次迭代中对伴随图的嵌入为，h₁，h₂，h₃，h₄为的四个隐藏层，分别为节点自身特征，节点邻居特征，图结构中的点权与边权；X′为目前选择的点的矩阵为，即当前的排列阵；F为伴随图中的点权矩阵，W为伴随图中的边权矩阵，θ为神经网络中待学习的参数，n₁，n₂分别为原图中的点数；图神经网络在每次迭代中，先计算出h₁，h₂，h₃，h₄四个隐藏层，然后将其融合，作为新的图嵌入为；这样的迭代会重复若干次，最终使得图嵌入为能将图中所有的信息尽可能全面的融合；伴随图的初始嵌入为E⁰规定为0，同时使用ReLU作为神经网络的激活函数；在计算的过程中除以(n₁-1)(n₂-1)是为计算所有节点的平均值。

步骤5)根据步骤4中选择的动作点，更新伴随图，标注已选择的动作点和由于限制无法选择的点，具体为：通过神经网络估计选择每个动作可能获得的奖励，以选择可能获得的奖励值最高的动作。而当每选择一个动作后，我们可以得到确定的奖励值；通过与神经网络估计的Q值进行对比，以更新神经网络。

步骤6)当还有点可选时回到步骤4，否则进入步骤7；

步骤7)计算本次得到的奖励值的估计，即Q值，更新选择智能体动作的策略并通过实际获得的奖励值训练神经网络，从而实现强化学习，当训练未结束回到步骤3，训练到达设定的轮数则进入步骤8；

步骤8)预训练完成，保存模型参数，离线阶段结束。

在线阶段包括：

步骤a)对待优化的设施布局场景进行建模，将其抽象成在伴随图上选择节点。

步骤b)创建智能体与对应的神经网络，并加载离线阶段保存的模型参数。

步骤c)构建伴随图G，每个点均标为可行。

步骤d)通过对伴随图G的观察与特征抽取，利用强化学习方法选择合适的可行点，作为动作；

步骤e)根据步骤d中选择的点，更新伴随图，标注已选择的点，和由于限制无法选择的点(虚节点)；

步骤f)当还有点可选时回到步骤d，否则进入步骤g；

步骤g)将所有已经选择的点整合，即得到针对输入场景的布局方法。

本发明涉及一种实现上述方法的系统，包括：包括离线预训练模块和在线设施布局模块，其中：离线预训练模块根据已有的数据集信息，对智能体的神经网络进行训练；在线设施布局模块根据实际的应用场景，利用训练好的神经网络，利用强化学习智能体输出一套设施布局方案。

技术效果

本发明将设施布局问题建模为基于伴随图的匹配问题，通过针对伴随图的图神经网络并与深度双层优势Q神经网络相结合，利用强化学习进行优化。本发明相比于现有算法更能考虑每一次匹配对最终结果产生的影响；通过自行设计改进的图神经网络更好地利用图中的结构信息，以实现全局信息和局部信息的充分挖掘，做到一步步地输出求解过程，更好地与先验知识交互并与人工辅助相结合。

附图说明

图1为本发明流程图；

图中：a为建模过程中将两个图融合为伴随图的示意；b为强化学习示意；

图2为实施例示意图。

具体实施方式

本实施例涉及一种基于强化学习的设施布局优化方法，以图1中设施布局中的医院科室布局场景为例，

本实施例有1，2，3三个科室，与a，b，c三个候选位置，目的是要将三个科室分别安排在三个候选位置中，目标为：

1.不同的科室对每个位置有不同的期望的得分，比如病患较多的科室对楼层较低的位置的得分就较高；

2.每两个科室间对二者所在的位置关系有不同的期望得分，比如，当科室1与科室2的人员流动较多，那么他们当然希望二者的位置较为接近，即他们的位置a与位置b越靠近则得分越高。

这两部分得分本实施例分别称为一阶目标得分与二阶目标得分。因为需要考虑同时考虑一阶与二阶目标得分，本实施例将设施布局建模为二次指派问题，即最大化：

其中：X是对设施布局求解得到的排列阵，这个排列阵每一行每一列有且仅有1，其余为0，表示将某设施安排到1对应的位置。vec(X)是将矩阵按列向量化的列向量，K是包含一阶和二阶在内的目标得分。本实施例的任务是在满足限制的情况下，求解出排列阵X来尽量最大化得分J(X)。

如图1所示，本实施例针对所有的设施1，2，3和所有的位置a，b，c，本实施例先构建伴随图，该伴随图的节点表示将设施安排到某位置，如图1a所示，将设施1安排到位置a上。本实施例将原先的设施布局场景转化为在伴随图中选择若干节点。比如，本实施例可以通过选择1a，2b，3c节点来表示将设施1，2，3分别放置在位置a，b，c上。当然，本实施例在选点是会有限制，不能选择有冲突的节点，如选择1a之后就不能选择1b，1c，2a，3a，因为设施1和位置a已经确定，不能重复。

在图1中，深色表示可以选择的节点，浅色表示本实施例已经选择的点，虚节点表示因为限制无法选择的点。在伴随图的基础上，本实施例构建强化学习模型。对于强化学习智能体来说，每个时刻的状态就是当前伴随图中点的特征与颜色，动作则是在深色的节点中选择下节点，奖励则是最终的得分，即定义完整的强化学习环境以供训练，具体的步骤包括：

步骤1.通过设施布局场景构建伴随图G，每个点均标为可行(深色)；

步骤2.通过对伴随图G的观察，选择合适的深色点，作为智能体的动作；

步骤3.根据步骤2中选择的点，更新伴随图，标注已选择的点(浅色)，和由于限制无法选择的点(虚节点)；

步骤4.当还有点可以选，回到步骤2，否则进入步骤5；

步骤5.计算本次得到的奖励值，适当更新选择动作的策略，当训练未结束回到步骤1，训练结束则实施例终止。

所述的奖励值，通过深度双层优势Q神经网络根据智能体的状态作为输入后估计得到，具体为：

其中：

E^T是伴随图特征抽取神经网络的最终输出，h_v为状态价值函数的隐藏层，h_a为优势价值函数的隐藏层，Q是最终输出的预测值，即神经网络在当前状态下对每个动作的价值的估计值；状态函数和优势函数的设计目的是将状态和动作的值分开；具体地，状态函数预测不同状态的价值，而优势函数预测给定特定状态的每个动作带来的额外价值；先前的工作表明，这种架构(Dueling DQN)可以更好地解不同动作的影响；此外，通过优势函数减去的其均值的方式，来强制优势函数的输出矢量之和为零，这使得状态价值和优势价值的分离更加容易，使能更好的区分状态的价值和动作带来的额外价值的作用。

所述的智能体在大部分情况下会选择Q值最高的动作。在少部分情况下，智能体会随机选择动作，即对环境随机探索。智能体由当前的状态选择合适的动作，环境会给智能体奖励作为反馈，同时环境会转移到下一状态。这一过程会被不断重复，在重复的过程中，智能体会积累经验，该经验为(s，a，r，s′)，其中：s为当前状态，a为智能体选择的动作，r为智能体得到的奖励，s′为环境转移之后的新状态；将这些经验存储到经验池

中；随着训练过程的进行，会不断将新的经验存入

同时删除一些旧的经验来保证

中的经验总数维持在定值；智能体会定期从经验池

中进行采样，并使用采样到的经验来更新其深度双层优势Q神经网络f_θ。

智能体在环境中探索的同时，将每隔一段时间更新一次深度双层优势Q神经网络，依据的数据就是从经验池

中进行采样得到的样本，本实施例具体使用梯度下降算法实现，具体为：

损失函数

其中：γ是折扣因子，用于反映未来的不确定性；(s，a，r，s′)为之前提到的由状态，动作，奖励和下一步的状态构成的智能体的经验；这里的损失函数

事实上就是残差模型，计算真实值与预测值之间的差的平方，与机器学习中常用的损失函数平均平方差(Mean Square Error)类似；关于预测值与真实值的定义，预测值自然是当前神经网络f_θ的输出，而真实值的定义则有些复杂；DQN设计目标Q网络f_θ-，这个目标神经网络f_θ-与f_θ的结构完全一模一样，唯一的区别是当前Q网络f_θ每一步都会进行更新，而目标神经网络f_θ-是每隔一段时间才会更新；这样做的目的是，当不借助这个目标神经网络f_θ-，而是直接在当前Q网络f_θ的基础上估计真实值的话，因为真实值和测试值都是由相同参数的神经网络生成的，它们之间难免存在一定的关联性；这个关联性所造成的问题很可能导致模型训练不稳定甚至无法收敛。

优选地，本实施例遵循双层深度Q网络(Double DQN)的想法来修改损失函数，即通过当前的Q值估算网络f_θ选择下动作a′，但是使用目标Q网络f_θ-来预测这个动作对应的Q值。进行此修改的动机是：网络中被高估的Q值将在另一网络中在一定程度上得到缓解，两个网络同时对同动作产生过高估计的概率会更小，修改后的损失函数为：

损失函数

经过具体实际实验，本实施例在QAPLIB数据集的设置下，以下表中的参数启动本实施例方法，能够得到的实验数据如下所示：

表1网络参数

超参数	数值
		γ	0.9
目标神经网络更新频率	40
		学习率α	0.00005
隐藏层大小	64
		图神经网络层数T	3

表2实验测试结果

表2中

[1]记载于M.Leordeanu and M.Hebert，“A spectral technique forcorrespondence problems using pairwise constraints，”in Proceedings of theIEEE International Conference on Computer Vision，2005，vol.II，pp.1482-1489，doi：10.1109/ICCV.2005.20.

[2]记载于M.Cho，J.Lee，and K.M.Lee，“Reweighted random walks for graphmatching，”Lect.Notes Comput.Sci.(including Subser.Lect.NotesArtif.Intell.Lect.Notes Bioinformatics)，vol.6315 LNCS，no.PART 5，pp.492-505，2010，doi：10.1007/978-3-642-15555-0_36.

[3]记载于Y.Kushinsky，H.Maron，N.Dym，and Y.Lipman，“Sinkhorn algorithmfor lifted assignment problems，”SIAM J.Imaging Sci.，vol.12，no.2，pp.716-735，2019，doi：10.1137/18M1196480.

[4]记载于R.Wang，J.Yan，and X.Yang，“Neural Graph Matching Network：Learning Lawler’s Quadratic Assignment Problem with Extension to Hypergraphand Multiple-graph Matching，”IEEE Trans.Pattern Anal.Mach.Intell.，vol.14，no.8，pp.1-1，2021，doi：10.1109/tpami.2021.3078053.

上述实验采用的QAPLIB数据集是设施布局领域常用的公开数据集，其数据涵盖多个领域的上百条真实数据，包括医院科室布局，键盘的按键布局，集成电路布局，城市规划布局等15个的领域。

在表格中本实施例采用的评价方法为：求解得到的目标得分与理论最优解的差距，越小越好，本实施例在表格中汇报了所有数据中的平均差距。本实施例选择了目前最优秀的传统方法(SK-JA)与最优秀的深度学习方法(NGM)进行对比。可以看到，本实施例提出的RGM方法，可以达到与最优解最小的差距，并显著超过了其他方法。在运行时间方面，本实施例的方法虽然耗时略长，但是相比SK-JA方法消耗的时间，本实施例的方法的耗时仍然是可接受的。本实施例认为消耗额外的时间来换取突出的设施布局性能是合理的。

与现有技术相比，本发明将最新最高效的深度神经网络用于设施布局，给予用更多的计算能力来提升设施布局求解效率的可能性。无需依赖给定的标签(最优解)，解放机器学习方法的依赖，并给予超越现有设施布局方法的可能。

上述具体实施可由本领域技术人员在不背离本发明原理和宗旨的前提下以不同的方式对其进行局部调整，本发明的保护范围以权利要求书为准且不由上述具体实施所限，在其范围内的各个实现方案均受本发明之约束。

Claims

1.一种基于强化学习的设施布局优化方法，其特征在于，包括：离线阶段和在线阶段，其中：

离线阶段包括：

步骤1)从已有数据集中选择若干设施布局场景进行建模，将其抽象为在伴随图上选择节点；

步骤2)创建智能体与对应的神经网络，并设定训练轮数；

步骤3)构建伴随图G，每个点均标为可行；

步骤5)根据步骤4中选择的动作点，更新伴随图，标注已选择的动作点和由于限制无法选择的点，具体为：通过神经网络估计选择每个动作可能获得的奖励，以选择可能获得的奖励值最高的动作，当每选择一个动作后得到确定的奖励值；通过与神经网络估计的Q值进行对比，以更新神经网络；

步骤6)当还有点可选时回到步骤4，否则进入步骤7；

步骤8)预训练完成，保存模型参数，离线阶段结束；

在线阶段包括：

步骤a)对待优化的设施布局场景进行建模，将其抽象成在伴随图上选择节点；

步骤b)创建智能体与对应的神经网络，并加载离线阶段保存的模型参数；

步骤c)构建伴随图G，每个点均标为可行；

步骤e)根据步骤d中选择的点，更新伴随图，标注已选择的点，和由于限制无法选择的点；

步骤f)当还有点可选时回到步骤d，否则进入步骤g；

步骤g)将所有已经选择的点整合，即得到针对输入场景的布局方法；

2.根据权利要求1所述的基于强化学习的设施布局优化方法，其特征是，所述的更新选择是指：通过神经网络估计选择每个动作可能获得的奖励，以选择可能获得的奖励值最高的动作，当每选择一个动作后，得到确定的奖励值；通过与神经网络估计的Q值进行对比，以更新神经网络。

3.根据权利要求1所述的基于强化学习的设施布局优化方法，其特征是，所述的特征提取，通过伴随图特征抽取神经网络实现，即根据相邻特征提取顶点特征，并在每次迭代中不断地融合每个节点的自身特征与邻居特征，使得每个点的特征会融合自身特征，邻居特征，与图几何结构信息，具体为：E^t+1＝ReLU(h₁+h₂+h₃+h₄)，其中：h₁＝X′·θ₁，

4.根据权利要求1所述的基于强化学习的设施布局优化方法，其特征是，所述的奖励值，通过深度双层优势Q神经网络根据智能体的状态作为输入后估计得到，具体为：

其中：h₅＝ReLU(E^T·θ₆+b₁)，

h_a＝h₅·θ₈+b₃，E^T是伴随图特征抽取神经网络的最终输出，h_v为状态价值函数的隐藏层，h_a为优势价值函数的隐藏层，Q是最终输出的预测值，即神经网络在当前状态下对每个动作的价值的估计值。

5.根据权利要求1所述的基于强化学习的设施布局优化方法，其特征是，所述的训练，智能体由当前的状态选择合适的动作，环境会给智能体奖励作为反馈，同时环境会转移到下一状态；这一过程会被不断重复，在重复的过程中，智能体会积累经验，该经验为(s,a,r,s’)，其中：s为当前状态，a为智能体选择的动作，r为智能体得到的奖励，s’为环境转移之后的新状态；将这些经验存储到经验池

中；随着训练过程的进行，会不断将新的经验存入

同时删除一些旧的经验来保证

中的经验总数维持在定值；智能体会定期从经验池

6.根据权利要求1或5所述的基于强化学习的设施布局优化方法，其特征是，所述的训练，使用梯度下降算法实现，具体为：

损失函数

其中：γ是折扣因子，用于反映未来的不确定性；(s,a,r,s’)为之前提到的由状态，动作，奖励和下一步的状态构成的智能体的经验。

7.根据权利要求6所述的基于强化学习的设施布局优化方法，其特征是，所述的损失函数，通过当前的Q值估算网络f_θ选择下动作a′，但是使用目标Q网络f_θ-来预测这个动作对应的Q值，即当网络中被高估的Q值将在另一网络中在一定程度上得到缓解，两个网络同时对同动作产生过高估计的概率会更小，修改后的损失函数为：

损失函数

8.一种实现权利要求1～7中任一所述方法的基于强化学习的设施布局优化系统，其特征在于，包括：离线预训练模块和在线设施布局模块，其中：离线预训练模块根据已有的数据集信息，对智能体的神经网络进行训练；在线设施布局模块根据实际的应用场景，利用训练好的神经网络，利用强化学习智能体输出一套设施布局方案。