CN111353260B

CN111353260B - 一种基于强化学习的计算网格并行区域划分方法和装置

Info

Publication number: CN111353260B
Application number: CN202010154775.XA
Authority: CN
Inventors: 李龙翔; 刘羽; 崔坤磊; 张敏
Original assignee: Suzhou Inspur Intelligent Technology Co Ltd
Current assignee: Suzhou Inspur Intelligent Technology Co Ltd
Priority date: 2020-03-08
Filing date: 2020-03-08
Publication date: 2023-01-10
Anticipated expiration: 2040-03-08
Also published as: CN111353260A

Abstract

本发明提供一种基于强化学习的计算网格并行区域划分方法和装置，该方法包括以下步骤：对计算网格进行初始区域划分并将所述划分结果作为初始状态，将改变所述计算网格中的每个单元所属区域作为动作以根据强化学习算法构建动作价值函数；将求解器在集群上单步运行速度作为奖励，根据所述奖励对所述动作价值函数进行迭代计算，以得到收敛函数值；根据所述迭代后的状态、动作和收敛函数值实现所述并行区域网格划分。本发明通过强化学习训练对计算网格并行区域进行划分，有效提高程序运行过程中负载平衡情况，并减小区域间消息通信所用时间。

Description

一种基于强化学习的计算网格并行区域划分方法和装置

技术领域

本发明涉及计算机领域，并且更具体地，涉及一种基于强化学习的计算网格并行区域划分方法和装置。

背景技术

CFD(Computational Fluid Dynamics)是指采用数学方法在计算机中对设计流体的流动、热传递和化学反应等相关现象进行模拟的一种技术手段。CFD的基本特征是数值模拟和计算机实验，它从基本物理定律出发，在很大程度上替代了耗资巨大的流体动力学实验设备，在科学研究和工程技术中产生了巨大的影响。随着科技的发展，特别是计算机硬件技术和产业的飞速发展，为CFD技术的发展和推广打下坚实的基础。目前CFD技术已被应用到航空航天、海洋、气象等领域，同时也是现代工业设计中一个重要的组成部分。

到了最近二十年，CFD的发展进入了高峰期，出现了了一大批用于数值模拟的商业和开源软件。随着计算机运行性能提高，CFD软件模拟的问题的规模也越来越大。为了充分利用高性能集群的运算性能，大部分CFD软件都通过数据并行方法，即通过一定算法将计算区域划分后，通过MPI(信息传递接口)消息传递实现多节点并行计算。在附图1中，绘制了CFD模型实际计算时使用的计算网格和并行区域划分结果。在求解过程中，多个进程分别对划分好的不同区域网格进行计算，在计算过程中根据划分好网格的拓扑关系进行效率传递。在计算过程中，进程上计算负载平衡以及消息数据传递大小会影响计算迭代过程，因此并行区域划分对于CFD软件运行效率具有重大影响。

在并行区域划分过程中，可以使用人工或算法进行划分。由于人工方法的局限性，当模拟问题较为复杂时无法得到较好的计算结果。依据不同的图形分割算法，也有专门用于并行区域划分的软件，如Metis、Scotch、Kahip等。这些软件依据不同的算法，如DualRecursive Bi-partitioning和Multilevel k-way Partitioning Paradigm等，将计算网格内顶点与单元按照给定的权重划分为不同的区域，在负载平衡的同时，尽量减小并行计算时通信的大小。

尽管使用并行区域划分软件可以对复杂问题的计算网格进行划分，但是这些软件得到的结果并不适合所有CFD软件，并行划分结果也不是最优的。在众多CFD软件中，应用了包括FDM(Finite difference methods，有限差分法)、FVM(Finite volume methods，有限体积法)、FEM(Finite element methods，有限元法)等不同数值离散方法。对于不同数值方法，其计算时会依据不同几何单元进行迭代计算，如顶点、单元和交界面等，因此在计算时计算量也和几何单元的个数有关。在划分并行区域时，理论上应依据计算几何单元的数量划分，保证各个区域在计算时负载的平衡。但是由于并行划分软件依据特定算法实现，并且主要依据计算网格内顶点或单元进行划分，因此无法针对不同CFD软件使用进行修正，划分的结果常常无法保证负载平衡的要求。此外，在现代集群中越来越多使用GPU等异构计算设备，或硬件配置不同的CPU节点实现并行计算。在实际情形中，由于不同节点的硬件设备运算能力不同，在使用并行区域划分软件时，针对不同区域对应的几何元素需要人工给定权重系数进行不均匀划分，而不恰当的权重系数会大幅增加运行时负载不平衡情况，导致无法充分利用所用设备的计算能力，导致计算时间大幅增加。

发明内容

鉴于此，本发明实施例的目的在于提出一种基于强化学习的计算网格并行区域划分方法和装置，以实现根据CFD软件采用算法以及所使用的计算设备的实际性能，通过强化学习训练获得对应的划分结果，有效提高程序运行过程中负载平衡情况。

基于上述目的，本发明实施例的一方面提供了一种基于强化学习的计算网格并行区域划分方法，包括以下步骤：

对计算网格进行初始区域划分并将所述划分结果作为初始状态，将改变所述计算网格中的每个单元所属区域作为动作以根据强化学习算法构建动作价值函数；

将求解器在集群上单步运行速度作为奖励，根据所述奖励对所述动作价值函数进行迭代计算，以得到收敛函数值；

根据所述迭代后的状态、动作和收敛函数值实现所述并行区域网格划分。

在一些实施方式中，对计算网格进行初始区域划分并将所述划分结果作为初始状态，将改变所述计算网格中的每个单元所属区域作为动作以根据强化学习算法构建动作价值函数包括：

基于已有的并行区域划分软件对所述计算网格进行并行区域划分，将所述划分的各单元所属区域的向量作为所述初始状态。

根据P＝N/M进行计算网格单元划分，其中N表示所述单元总数，M表示进程总数，P向下取整所得整数值为前M-1个进程中每一个进程包含的单元数，并且剩余所有单元分配给第M个进程，从而得到所述初始状态。

在一些实施方式中，所述强化学习算法为Q-Learning算法，动作价值函数为所述Q-Learning算法中的Q(s,a)函数，其中Q(s,a)函数表示当前状态s执行动作a所获得的收敛函数值。

在一些实施方式中，将求解器在集群上单步运行速度作为奖励，根据所述奖励对所述动作价值函数进行迭代计算，以得到收敛函数值包括：

所有的所述单元所属区域变化构成动作集，根据所述初始状态和策略，依次从所述动作集中选择一个动作，所述动作价值函数根据所述奖励执行所述选择的动作以得到下一个状态，重复迭代直到所述得到的状态符合用户的负载和通信要求。

在一些实施方式中，将求解器在集群上单步运行速度作为奖励，根据所述奖励对所述动作价值函数进行迭代计算，以得到收敛函数值还包括：

在执行完一个动作后，收集所述求解器的单步运行速度以作为当前奖励，所述动作价值函数根据所述当前奖励执行选择的下一个动作以得到下一个状态。

在一些实施方式中，所述策略包括ξ贪婪策略。

在一些实施方式中，所述方法用于CFD求解过程中的并行区域划分。

在一些实施方式中，所述已有的并行区域划分软件包括Metis、Scotch、Kahip。

本发明实施例的另一方面提供了一种基于强化学习的计算网格并行区域划分装置，包括：

至少一个处理器；和

存储器，所述存储器存储有处理器可运行的程序代码，所述程序代码在被处理器运行时实施上述任一项所述的方法。

本发明具有以下有益技术效果：本发明实施例提供的一种基于强化学习的计算网格并行区域划分方法和装置能够根据相应计算软件采用算法以及所使用的计算设备的实际性能，通过强化学习训练获得对应的划分结果，有效提高程序运行过程中负载平衡情况，并减小区域间消息通信所用时间，最终实现有效提高计算软件的运行效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的实施例。

图1是CFD软件并行计算时计算网格并行区域划分的示意图；

图2是根据本发明的一种基于强化学习的计算网格并行区域划分方法的流程图；

图3是Q-Learning算法中使用动作价值函数对动作集和状态集的迭代过程示意图；

图4是根据本发明的基于强化学习的并行区域划分原理示意图；

图5是根据本发明的一种基于强化学习的计算网格并行区域划分装置的硬件结构示意图。

具体实施方式

以下描述了本发明的实施例。然而，应该理解，所公开的实施例仅仅是示例，并且其他实施例可以采取各种替代形式。附图不一定按比例绘制；某些功能可能被夸大或最小化以显示特定部件的细节。因此，本文公开的具体结构和功能细节不应被解释为限制性的，而仅仅是作为用于教导本领域技术人员以各种方式使用本发明的代表性基础。如本领域普通技术人员将理解的，参考任何一个附图所示出和描述的各种特征可以与一个或多个其他附图中所示的特征组合以产生没有明确示出或描述的实施例。所示特征的组合为典型应用提供了代表性实施例。然而，与本发明的教导相一致的特征的各种组合和修改对于某些特定应用或实施方式可能是期望的。

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明实施例进一步详细说明。

在近二十年，随着计算机性能提高和信息量呈爆炸式增加，人工智能方法也得到了极大的发展，其中机器学习方法是从人工智能中产生的一个重要学科分支。自从1952年ArthurSamuel提出“机器学习”概念至今，已过去了将近70年。机器学习的主要目标是研究计算机如何模拟人或实现人类自身的学习行为，以获取新知识或技能，重新组织已有知识结构使之不断改善自身的性能。机器学习算法可以分为三类，分别是监督学习、无监督学习和强化学习。强化学习是一种如何将状态映射到动作，以获得最大奖励的学习机制，从而实现理解和自动化目标导向学习和制定决策。它与其他计算方法的区别在于其强调个体通过与环境的直接交互来学习，而不需要示范监督或完整的环境模型。

基于上述目的，本发明的实施例一方面提出了一种基于强化学习的计算网格并行区域划分方法，如图2所示，包括以下步骤：

步骤S201：对计算网格进行初始区域划分并将所述划分结果作为初始状态，将改变所述计算网格中的每个单元所属区域作为动作以根据强化学习算法构建动作价值函数；

步骤S202：将求解器在集群上单步运行速度作为奖励，根据所述奖励对所述动作价值函数进行迭代计算，以得到收敛函数值；

步骤S203：根据所述迭代后的状态、动作和收敛函数值实现所述并行区域网格划分。

在一些实施例中，所述方法用于CFD求解过程中的并行区域划分。但是，应当理解，对于其他数据并行问题也可采用本发明方法，因此本发明可以延伸至任意数据并行问题、最优数据划分方式的决策问题。

在一些实施例中，所述强化学习算法为Q-Learning算法，动作价值函数为所述Q-Learning算法中的Q(s,a)函数，其中Q(s,a)函数表示当前状态s执行动作a所获得的收敛函数值。强化学习算法使用Q-Learning算法，所有单元所属区域向量组合构成状态集，并使用保存每个单元所属进程的向量p_s作为状态：p_s＝[p₁,p₂,…,p_N]，其中p_i为单元i所属进程。

在一些实施例中，将求解器在集群上单步运行速度作为奖励，根据所述奖励对所述动作价值函数进行迭代计算，以得到收敛函数值包括：所有的所述单元所属区域变化构成动作集，根据所述初始状态和策略，依次从所述动作集中选择一个动作，所述动作价值函数根据所述奖励执行所述选择的动作以得到下一个状态，重复迭代直到所述得到的状态符合用户的负载和通信要求。

在一些实施例中，将求解器在集群上单步运行速度作为奖励，根据所述奖励对所述动作价值函数进行迭代计算，以得到收敛函数值还包括：在执行完一个动作后，收集所述求解器的单步运行速度以作为当前奖励，所述动作价值函数根据所述当前奖励执行选择的下一个动作以得到下一个状态。

在一些实施例中，所有单元所属区域变化构成动作集A；当根据所述奖励采用Q-Learning算法对所述动作价值函数进行迭代计算时，包括：初始化所述动作值函数，即根据所述初始状态设置所述动作价值函数的当前状态；根据所述当前状态和策略，从所述动作集中选择一个动作，执行所述动作得到奖励和下一个状态；根据所述奖励和所述下一个状态，对动作价值函数进行更新；随后将下一个所述状态作为当前状态，重复迭代直到符合用户的负载和通信要求的状态为止。

在使用所述奖励和所述下一个状态，对动作价值函数进行更新时，更新后的动作价值函数的计算公式为：

Q(s,a)＝(1-α)·Q(s,a)+α[R+γmax_αQ(s′,a)]

其中，s为当前状态，a为动作，Q(s,a)为动作价值函数，表示当前状态s执行动作a所获得的收敛函数值，α为学习率，R为奖励，γ为折扣因子，s’为下一状态所采用动作的最大收敛函数值。

在附图3中示出了在Q-Learning算法中使用动作价值函数的迭代过程，其中环境包含了CFD求解器和实际运行环境，对于每次区域划分操作返回求解器单步运行效率作为奖励，从而使模型根据不同CFD求解器和硬件设备的运行进行训练，最终得到适用于特定CFD求解器和硬件设备的并行区域划分体系。

在一些实施例中，在达到所述状态集的终止状态的范围内进行迭代。在迭代过程中，得到符合用户的负载和通信要求的状态后停止迭代，否则重复迭代直到达到所述状态集的终止状态，如图4所示。

在一些实施例中，所述已有的并行区域划分软件包括Metis、Scotch、Kahip。

在一些实施例中，本发明所述实施过程也可配合其他并行区域划分软件，对划分完成后的计算网格进行优化。此时，将使用例如Metis等软件的划分结果作为初始状态进行迭代计算，重复迭代直到达到所述状态集的终止状态。

在一些实施例中，对计算网格进行初始区域划分并将所述划分结果作为初始状态，将改变所述计算网格中的每个单元所属区域作为动作以根据强化学习算法构建动作价值函数包括：基于已有的并行区域划分软件对所述计算网格进行并行区域划分，将所述划分的各单元所属区域的向量作为所述初始状态。例如，基于已有的并行区域划分软件结果，将划分好的各单元所属进程向量p_s作为初始状态S₀。

在一些实施例中，对计算网格进行初始区域划分并将所述划分结果作为初始状态，将改变所述计算网格中的每个单元所属区域作为动作以根据强化学习算法构建动作价值函数包括：根据P＝N/M进行计算网格单元划分，其中N表示所述单元总数，M表示进程总数，P向下取整所得整数值为前M-1个进程中每一个进程包含的单元数，并且剩余所有单元分配给第M个进程，从而得到所述初始状态。即，将所有单元按照总单元数和进程总数进行划分，设N为单元总数，M为进程总数，[P]＝N/M为前M-1个进程每个进程均包含的单元数，其中符号[]代表去掉小数的向下取整，将单元按照编号分配给前M-1个进程后，剩余所有单元分配给第M个进程，最终组成初始状态S₀。

在一些实施例中，将CFD求解器在集群中单步运行速度作为奖励R，该奖励R可以通过求解器单步运行平均时间ΔT进行计算：R＝1/ΔT。根据所述奖励采用强化学习算法对动作价值函数进行迭代计算，以得到收敛函数值。在执行一个动作后，可以收集CFD求解器单步运行速度，将此作为从环境中获得的奖励R。根据当前状态和策略执行动作，同时检测奖励和下一个状态，然后根据下一个状态的最大收敛函数值和奖励对状态和收敛函数值进行更新。

在一些实施例中，所述策略包括ξ贪婪策略。为保证并行区域划分体系可以搜索所有可能的动作，可以使用ξ贪婪策略进行搜索。

在一些实施例中，根据所述最终获得的状态、动作和收敛函数值进行网格并行区域划分，一个状态和一个动作与收敛函数值对应。通过上述方式，可以针对CFD求解器运行特点和使用平台的硬件特征对计算网格内的并行区域进行划分，从而提高运行时负载平衡并减小通信造成的延迟现象，进而提高CFD求解器运行速度。

在技术上可行的情况下，以上针对不同实施例所列举的技术特征可以相互组合，或者改变、添加以及省略等等，从而形成本发明范围内的另外实施例。

从上述实施例可以看出，本发明实施例提供的一种基于强化学习的计算网格并行区域划分方法，通过引入强化学习算法，将计算网格并行区域划分过程抽象为一种强化学习训练过程，使用单元所在进程号作为状态集，将CFD求解器单步运行速度作为奖励，使用Q-Learning动作价值函数模型进行训练，使得并行区域划分结果能够在使用不同CFD求解器和硬件设备时，都得到较高的负载平衡与较少的网络通信延迟，有效提高了CFD求解器并行计算速度。

基于上述目的，本发明实施例的另一个方面，提出了基于强化学习的计算网格并行区域划分装置的一个实施例。

所述基于强化学习的计算网格并行区域划分装置包括存储器、和至少一个处理器，存储器存储有可在处理器上运行的计算机程序，处理器执行程序时执行上述任意一种方法。

如图5所示，为本发明提供的基于强化学习的计算网格并行区域划分装置的一个实施例的硬件结构示意图。

以如图5所示的计算机装置为例，在该计算机装置中包括处理器501以及存储器502，并还可以包括：输入装置503和输出装置504。

处理器501、存储器502、输入装置503和输出装置504可以通过总线或者其他方式连接，图5中以通过总线连接为例。

存储器502作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本申请实施例中的所述基于强化学习的计算网格并行区域划分方法对应的程序指令/模块。处理器501通过运行存储在存储器502中的非易失性软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例的基于强化学习的计算网格并行区域划分方法。

存储器502可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据基于强化学习的计算网格并行区域划分方法所创建的数据等。此外，存储器502可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，存储器502可选包括相对于处理器501远程设置的存储器，这些远程存储器可以通过网络连接至本地模块。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置503可接收输入的数字或字符信息，以及产生与基于强化学习的计算网格并行区域划分方法的计算机设备的用户设置以及功能控制有关的键信号输入。输出装置504可包括显示屏等显示设备。

所述一个或者多个基于强化学习的计算网格并行区域划分方法对应的程序指令/模块存储在所述存储器502中，当被所述处理器501执行时，执行上述任意方法实施例中的基于强化学习的计算网格并行区域划分方法。

所述执行所述基于强化学习的计算网格并行区域划分方法的计算机设备的任何一个实施例，可以达到与之对应的前述任意方法实施例相同或者相类似的效果。

最后需要说明的是，本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，可以通过计算机程序来指令相关硬件来完成，所述的程序可存储于计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(ROM)或随机存储记忆体(RAM)等。

此外，典型地，本发明实施例公开所述的装置、设备等可为各种电子终端设备，例如手机、个人数字助理(PDA)、平板电脑(PAD)、智能电视等，也可以是大型终端设备，如服务器等，因此本发明实施例公开的保护范围不应限定为某种特定类型的装置、设备。本发明实施例公开所述的客户端可以是以电子硬件、计算机软件或两者的组合形式应用于上述任意一种电子终端设备中。

此外，根据本发明实施例公开的方法还可以被实现为由CPU执行的计算机程序，该计算机程序可以存储在计算机可读存储介质中。在该计算机程序被CPU执行时，执行本发明实施例公开的方法中限定的上述功能。

此外，上述方法步骤以及系统单元也可以利用控制器以及用于存储使得控制器实现上述步骤或单元功能的计算机程序的计算机可读存储介质实现。

此外，应该明白的是，本文所述的计算机可读存储介质(例如，存储器)可以是易失性存储器或非易失性存储器，或者可以包括易失性存储器和非易失性存储器两者。作为例子而非限制性的，非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦写可编程ROM(EEPROM)或快闪存储器。易失性存储器可以包括随机存取存储器(RAM)，该RAM可以充当外部高速缓存存储器。作为例子而非限制性的，RAM可以以多种形式获得，比如同步RAM(DRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据速率SDRAM(DDR SDRAM)、增强SDRAM(ESDRAM)、同步链路DRAM(SLDRAM)、以及直接Rambus RAM(DRRAM)。所公开的方面的存储设备意在包括但不限于这些和其它合适类型的存储器。

本领域技术人员还将明白的是，结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。为了清楚地说明硬件和软件的这种可互换性，已经就各种示意性组件、方块、模块、电路和步骤的功能对其进行了一般性的描述。这种功能是被实现为软件还是被实现为硬件取决于具体应用以及施加给整个系统的设计约束。本领域技术人员可以针对每种具体应用以各种方式来实现所述的功能，但是这种实现决定不应被解释为导致脱离本发明实施例公开的范围。

结合这里的公开所描述的各种示例性逻辑块、模块和电路可以利用被设计成用于执行这里所述功能的下列部件来实现或执行：通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑器件、分立门或晶体管逻辑、分立的硬件组件或者这些部件的任何组合。通用处理器可以是微处理器，但是可替换地，处理器可以是任何传统处理器、控制器、微控制器或状态机。处理器也可以被实现为计算设备的组合，例如，DSP和微处理器的组合、多个微处理器、一个或多个微处理器结合DSP和/或任何其它这种配置。

结合这里的公开所描述的方法或算法的步骤可以直接包含在硬件中、由处理器执行的软件模块中或这两者的组合中。软件模块可以驻留在RAM存储器、快闪存储器、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动盘、CD-ROM、或本领域已知的任何其它形式的存储介质中。示例性的存储介质被耦合到处理器，使得处理器能够从该存储介质中读取信息或向该存储介质写入信息。在一个替换方案中，所述存储介质可以与处理器集成在一起。处理器和存储介质可以驻留在ASIC中。ASIC可以驻留在用户终端中。在一个替换方案中，处理器和存储介质可以作为分立组件驻留在用户终端中。

在一个或多个示例性设计中，所述功能可以在硬件、软件、固件或其任意组合中实现。如果在软件中实现，则可以将所述功能作为一个或多个指令或代码存储在计算机可读介质上或通过计算机可读介质来传送。计算机可读介质包括计算机存储介质和通信介质，该通信介质包括有助于将计算机程序从一个位置传送到另一个位置的任何介质。存储介质可以是能够被通用或专用计算机访问的任何可用介质。作为例子而非限制性的，该计算机可读介质可以包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储设备、磁盘存储设备或其它磁性存储设备，或者是可以用于携带或存储形式为指令或数据结构的所需程序代码并且能够被通用或专用计算机或者通用或专用处理器访问的任何其它介质。此外，任何连接都可以适当地称为计算机可读介质。例如，如果使用同轴线缆、光纤线缆、双绞线、数字用户线路(DSL)或诸如红外线、无线电和微波的无线技术来从网站、服务器或其它远程源发送软件，则上述同轴线缆、光纤线缆、双绞线、DSL或诸如红外线、无线电和微波的无线技术均包括在介质的定义。如这里所使用的，磁盘和光盘包括压缩盘(CD)、激光盘、光盘、数字多功能盘(DVD)、软盘、蓝光盘，其中磁盘通常磁性地再现数据，而光盘利用激光光学地再现数据。上述内容的组合也应当包括在计算机可读介质的范围内。

应当理解的是，在本文中使用的，除非上下文清楚地支持例外情况，单数形式“一个”旨在也包括复数形式。还应当理解的是，在本文中使用的“和/或”是指包括一个或者一个以上相关联地列出的项目的任意和所有可能组合。

上述本发明实施例公开实施例序号仅仅为了描述，不代表实施例的优劣。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器、磁盘或光盘等。

上述实施例是实施方式的可能示例，并且仅仅为了清楚理解本发明的原理而提出。所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本发明实施例公开的范围(包括权利要求)被限于这些例子；在本发明实施例的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，并存在如上所述的本发明实施例的不同方面的许多其它变化，为了简明它们没有在细节中提供。因此，凡在本发明实施例的精神和原则之内，所做的任何省略、修改、等同替换、改进等，均应包含在本发明实施例的保护范围之内。

Claims

1.一种基于强化学习的计算网格并行区域划分方法，其特征在于，包括以下步骤：

对计算网格进行初始区域划分并将划分结果作为初始状态，将改变所述计算网格中的每个单元所属区域作为动作以根据强化学习算法构建动作价值函数；

将求解器在集群上的单步运行速度作为奖励，根据所述奖励对所述动作价值函数进行迭代计算，以得到收敛函数值；

根据迭代后的状态、动作和收敛函数值实现并行区域网格划分；

所述强化学习算法为Q-Learning算法，所述动作价值函数为所述Q-Learning 算法中的Q(s,a)函数，其中Q(s,a)函数表示当前状态s执行动作a所获得的收敛函数值；

所述将求解器在集群的上单步运行速度作为奖励，根据所述奖励对所述动作价值函数进行迭代计算，以得到收敛函数值包括：

所有的所述单元所属区域变化构成动作集，根据所述初始状态和策略，依次从所述动作集中选择一个动作，所述动作价值函数根据所述奖励执行所述选择的动作以得到下一个状态，重复迭代直到所述得到的状态符合用户的负载和通信要求；

2.根据权利要求1所述的方法，其特征在于，对计算网格进行初始区域划分并将划分结果作为初始状态，将改变所述计算网格中的每个单元所属区域作为动作以根据强化学习算法构建动作价值函数包括：

3.根据权利要求1所述的方法，其特征在于，对计算网格进行初始区域划分并将所述划分结果作为初始状态，将改变所述计算网格中的每个单元所属区域作为动作以根据强化学习算法构建动作价值函数包括：

根据

进行计算网格单元划分，其中N表示单元总数，M表示进程总数，P向下取整所得整数值为前

个进程中每一个进程包含的单元数，并且剩余所有单元分配给第 M个进程，从而得到所述初始状态。

4.根据权利要求1所述的方法，其特征在于，所述策略包括ξ贪婪策略。

5.根据权利要求1所述的方法，其特征在于，所述方法用于CFD求解过程中的并行区域划分。

6.根据权利要求2所述的方法，其特征在于，所述已有的并行区域划分软件包括Metis、Scotch、 Kahip。

7.一种基于强化学习的计算网格并行区域划分装置，其特征在于，包括：

至少一个处理器；和

存储器，所述存储器存储有处理器可运行的程序代码，所述程序代码在被处理器运行时实施如权利要求1-6中任一项所述的方法。