CN113641407B

CN113641407B - 一种基于cpu和gpu的混合并行智能优化方法

Info

Publication number: CN113641407B
Application number: CN202110678637.6A
Authority: CN
Inventors: 赖李媛君; 叶飞; 张霖
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2021-06-18
Filing date: 2021-06-18
Publication date: 2024-03-01
Anticipated expiration: 2041-06-18
Also published as: CN113641407A

Abstract

一种基于CPU和GPU的混合并行智能优化方法，通过将进化操作算子分别在CPU和GPU中并行，形成模块化组件，在不同阶段调用不同模块，并通过显存与内存的数据传递实现流程间松散耦合的过程，考虑到GPU与CPU混合计算过程中，在内存空间和显存之间的数据传输带宽有限的因素，于配置过程中减小了GPU与CPU运算之间的数据拷贝，降低整体通信负载，提高优化效率。

Description

一种基于CPU和GPU的混合并行智能优化方法

技术领域

本发明涉及一种基于CPU和GPU的混合并行智能优化方法，属于多领域复杂系统领域。

背景技术

如今，随着科学技术的发展，在许多普通计算机中配置并搭载了多核CPU以及性能较高的GPU显卡。工程决策优化在多数情况仅应用了CPU的计算性能，针对GPU计算能力的挖掘和对优化求解的加速仍然较少，一方面是因为基于GPU的算法并行化探索仍处于初期阶段，另一方面则是因为在GPU中的算法CUDA编程实现需要算法相关领域专家来设计，且多针对于具体问题，算法程序不易扩展应用。目前，针对GPU与CPU混合并行化方面，研究者们仅在多GPU环境下研究了以CPU线程或进程对多个GPU的控制实现方法，采用GPU承担所有运算求解，实现多级并行化。然而这种方法局限性非常强，仅适用于一台计算节点上配备多个GPU的情况或在GPU计算集群中使用，当移植到普通多核单GPU节点上时，算法是不可用的。

发明内容

本发明解决的技术问题是：针对目前现有技术中，缺少混合多GPU环境下运算求解任务优化方法的问题，提出了一种基于CPU和GPU的混合并行智能优化方法。

本发明解决上述技术问题是通过如下技术方案予以实现的：

一种基于CPU和GPU的混合并行智能优化方法，步骤如下：

(1)根据当前计算资源进行定义，确定当前计算任务求解方式；

其中，计算任务求解方式包括：使用GPU进行智能优化计算、使用CPU进行智能优化计算、使用GPU配合CPU进行混合并行智能优化计算；

(2)根据选定的计算任务求解方式进行混合并行智能优化计算。

所述步骤(1)中，GPU配合CPU进行混合并行智能优化计算包括级联混合并行化计算、条件混合并行化计算。

所述级联混合并行化计算的具体步骤如下：

(1)于GPU中基于CUDA生成智能优化算子，将计算资源中部分种群初始化生成子种群I₁、I₂、I₃、……I_n，并进行初始迭代寻优；

(2)当初始迭代寻优达到指定次数后，与CPU进行数据交互，将使目标函数达当前最优的帕累托前沿个体拷贝至CPU中任意一个进程中作为该子种群的初始分布；

(3)根据步骤(2)中所生成的帕累托前沿个体与CPU中随机初始化生成的种群EA₁、EA₂、……、EA_m交互后进行基于MPI的并行迭代寻优；

(4)于子种群满足迭代次数后，根据组间交互条件判断是否能进行组间交互通信，若能则进行组间交互通信，继续进行迭代进化，并进入步骤(5)；若不能则直接进入步骤(5)；

(5)于迭代进化次数达到指定次数后判断是否满足停止迭代条件，若满足停止迭代条件则停止子种群迭代进化并输出当前最优结果，将不满足停止迭代条件的子种群于CPU中继续进行迭代进化。

所述条件混合并行化计算的具体步骤如下：

(1)于GPU中基于MPI进行子种群初始化，生成EA₁、EA₂、……、EA_m，并进行初始优化迭代，达到指定迭代次数后，判断是否满足种群交流条件，若满足则进行子种群交流，若不满足种群交流条件，则判断是否满足停止迭代条件；

(2)对满足种群交流条件的子种群计算各自子种群最大方差，对所得各自子种群最大方差进行判断，若低于方差临界值，则选取最小方差的子种群进入GPU进行基于CUDA的迭代进化操作，并进入步骤(3)；若不低于方差临界值，则直接判断是否满足停止条件，如果满足停止条件则输出最终结果，如果不满足停止条件，则返回步骤(1)，重复步骤(1)的操作；

(3)生成子种群I₁、I₂、I₃、……I_n，当迭代进化次数达到指定次数后，判断初始迭代寻优是否完成，若初始迭代寻优未完成，继续进行迭代进化；若初始迭代寻优完成，则将子种群返回至CPU判断是否满足停止迭代条件，若满足停止迭代条件则停止子种群迭代进化并输出当前最优结果，将不满足停止迭代条件的子种群于CPU中继续进行迭代进化。

所述级联混合并行化计算及条件混合并行化计算中，迭代进化的指定次数均根据当前计算资源、当前计算任务需求确定。

所述级联混合并行化计算中，当GPU计算资源高于CPU计算资源时，降低GPU中基于MPI的指定迭代次数及并行计算进程数量，并增加CPU中基于CUDA的指定迭代次数及并行计算进程数量；当GPU计算资源低于CPU计算资源时，将CUDA的指定迭代次数及并行计算进程数量减少或取消。

所述条件混合并行化计算中，当GPU计算资源高于CPU计算资源时，降低GPU中基于MPI的指定迭代次数及并行计算进程数量，并增加CPU中基于CUDA的指定迭代次数及并行计算进程数量；当GPU计算资源低于CPU计算资源时，将CUDA的指定迭代次数及并行计算进程数量减少或取消。

本发明与现有技术相比的优点在于：

(1)本发明提供的一种基于CPU和GPU的混合并行智能优化方法，级联混合并行化以此增强种群整体的多样性，并同时利用GPU优化得到的较优个体位置进行搜索，降低智能优化算子迭代运算时间，同时通过条件混合并行化，根据CUDA算子能够在大种群少迭代基础上产生多样性较高的个体分布，在基于MPI的并行迭代过程中有条件地调用基于CUDA的算子来扩展种群并增强寻优多样性。

(2)本发明采用子种群的划分使得问题分解优化更为灵活，且为智能优化算法的混合设计与求解提供了更多的空间，通过显存与内存的数据传递实现流程间松散耦合的过程，于配置过程中减小了GPU与CPU运算之间的数据拷贝，降低整体通信负载，提高优化效率。

附图说明

图1为发明提供的级联混合并行化原理图；

图2为发明提供的条件混合并行化原理图；

具体实施方式

一种基于CPU和GPU的混合并行智能优化方法，通过将进化操作算子分别在CPU和GPU中并行，在不同阶段调用计算方法，通过显存与内存的数据传递实现流程间松散耦合的过程，并且考虑到GPU与CPU混合计算过程中，在内存空间和显存之间的数据传输带宽有限，于配置过程中减小了GPU与CPU运算之间的数据拷贝，降低整体通信负载，提高优化效率。

CPU和GPU的混合并行智能优化方法，在配置中根据当前计算资源灵活地定义当前计算求解使用GPU还是CPU，若二者均采用时，尽量使两种并行化互相辅助且使二者通信量达到最小，故构建了两种混合并行化配置方法，级联混合并行化和条件混合并行化，于实现混合并行智能优化后进行计算。

如图1所示，级联混合并行化的具体流程具体为：

(2)当初始迭代寻优达到指定次数后，与CPU进行数据交互，将使目标函数达到当前最优的帕累托前沿个体拷贝至CPU中任意一个进程中作为该子种群的初始分布；

其中，级联混合并行化计算及条件混合并行化计算中，迭代进化的指定次数均根据当前计算资源、当前计算任务需求确定。

级联混合并行化计算中，当GPU计算资源高于CPU计算资源时，降低GPU中基于MPI的指定迭代次数及并行计算进程数量，并增加CPU中基于CUDA的指定迭代次数及并行计算进程数量；当GPU计算资源低于CPU计算资源时，将CUDA的指定迭代次数及并行计算进程数量减少或取消。

如图2所示，条件混合并行化计算的具体步骤如下：

(2)对满足种群交流条件的子种群计算各自子种群最大方差，对所得各自子种群最大方差进行判断，若低于方差临界值，则选取最小方差的子种群进入GPU进行基于CUDA的迭代进化操作，并进入步骤(3)；若不低于方差临界值，则直接判断是否满足停止条件，如果满足停止条件则输出最终结果，如果不满足停止条件，则返回步骤(1)，重复步骤(1)的操作。

(3)生成子种群I₁、I₂、I₃、……I_n，当迭代进化次数达到指定次数后，判断初始迭代寻优是否完成，若初始迭代寻优未完成，继续进行迭代进化；若初始迭代寻优完成，则将子种群返回至CPU判断是否满足停止迭代条件，若满足停止迭代条件则停止子种群迭代进化并输出当前最优结果，将不满足停止迭代条件的子种群于CPU中继续进行迭代进化；

条件混合并行化计算中，当GPU计算资源高于CPU计算资源时，降低GPU中基于MPI的指定迭代次数及并行计算进程数量，并增加CPU中基于CUDA的指定迭代次数及并行计算进程数量；当GPU计算资源低于CPU计算资源时，将CUDA的指定迭代次数及并行计算进程数量减少或取消。

下面结合具体实施例进行进一步说明：

在本实施例中，公开了一种基于CPU和GPU的混合并行智能优化方法，在配置中根据当前计算资源灵活地定义当前计算求解使用GPU还是CPU，若二者均采用时，尽量使两种并行化互相辅助且使二者通信量达到最小，故构建了两种混合并行化配置方法，级联混合并行化和条件混合并行化。

级联混合并行化的具体流程分为两个阶段：

(1)第一个阶段在GPU中基于CUDA生成智能优化算子，将一部分种群初始化生成子种群I₁、I₂、I₃、……I_n，并进行初始迭代寻优，满足迭代次数后与CPU进行数据交互，将其中较优的个体拷贝到CPU任意一个进程中作为该子种群的初始分布。

(2)第二阶段利用上一步骤在GPU中生成的较优的种群与在CPU中随机初始化生成的种群EA₁、EA₂、……、EA_m交互后进行基于MPI的并行迭代寻优，满足迭代次数后，判断是否可以进行组间交互，满足条件后，进行组间交互通信，继续迭代进化操作，迭代次数达到后判断是否满足停止迭代条件。对于不满足种群组间通信条件的子种群直接进行判断是否满足迭代停止条件。上述子种群满足迭代停止条件后输出最优结果，停止迭代，不满足迭代停止条件的子种群返回上述步骤，在CPU中继续进行迭代操作。

的级联混合并行化中基于CUDA的算子迭代次数和基于MPI的算子迭代次数均由人为决定。当运算环境的GPU资源较强而CPU资源较弱时，我们可尽量减少基于MPI的算子迭代次数和基于MPI的并行进程数量，同时以大规模种群运算的基于CUDA的算子作为主体迭代进化。反之当运算环境的GPU资源较弱时，可将基于CUDA的算子迭代次数调至最小或取消，使算法主要进行基于MPI的并行化迭代。

的条件混合并行化具体步骤为：

(1)首先在CPU中基于MPI进行子种群初始化，生成EA₁、EA₂、……、EA_m，达到迭代次数后，判断是否满足各自交换条件，满足交换条件后进行种群交流，而不满足各自交换条件的子种群进入判断是否满足迭代停止条件。

(2)对于满足种群交流条件的子种群计算各自子种群的最大方差，方差大及代表多样性强，如果全部个体的多样性低于一个临界值，选择持有最小方差的子种群进入GPU进行基于CUDA的迭代进化操作，生成子种群I₁、I₂、I₃、……I_n，达到迭代次数后进行判断初始迭代寻优是否完成，如初始迭代寻优没有完成，继续进行迭代，如初始迭代寻优完成，将子种群返回到CPU判断是否满足停止条件，满足停止条件后，输出最终结果，如果不满足停止条件，继续返回CPU中作为子种群EA₁、EA₂、……、EA_m进行迭代优化。

的条件混合并行化在迭代进化寻优过程中，仅在需要时调用CUDA函数作为增加种群多样性和增强搜索能力的辅助工具。当优化环境GPU计算能力较强时，可尽量减少MPI进程数量，并调高CUDA函数调用阈值，利用在GPU中增加个体和迭代次数等手段将运算重心转向CUDA算子。反之，则可尽量调低CUDA函数调用阈值，使算法变回一般化的基于MPI的并行智能优化流程。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

本发明说明书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。

Claims

1.一种基于CPU和GPU的混合并行智能优化方法，其特征在于步骤如下：

(2)根据选定的计算任务求解方式进行混合并行智能优化计算；

所述步骤(1)中，GPU配合CPU进行混合并行智能优化计算包括级联混合并行化计算、条件混合并行化计算；

所述级联混合并行化计算的具体步骤如下：

(1)于GPU中基于CUDA生成智能优化算子，将计算资源中部分种群初始化生成子种群I₁、I₂、I₃、……I_n，并进行迭代寻优；

(3)根据级联混合并行化计算的步骤(2)中所生成的帕累托前沿个体与CPU中随机初始化生成的种群EA₁、EA₂、……、EA_m交互后进行基于MPI的并行迭代寻优；

(4)于子种群满足级联混合并行化计算的步骤(3)中的并行迭代寻优次数后，根据组间交互条件判断是否能进行组间交互通信，若能则进行组间交互通信，继续进行并行迭代寻优进化，并进入步骤(5)；若不能则直接进入步骤(5)；

(5)于迭代进化次数达到指定次数后判断是否满足停止迭代条件，若满足停止迭代条件则停止子种群迭代进化并输出当前最优结果，将不满足停止迭代条件的子种群于CPU中继续进行迭代进化；

所述条件混合并行化计算的具体步骤如下：

(2)对满足种群交流条件的子种群计算各自子种群最大方差，对所得各自子种群最大方差进行判断，若低于方差临界值，则选取最小方差的子种群进入GPU进行基于CUDA的迭代进化操作，并进入步骤(3)；若不低于方差临界值，则直接判断是否满足停止条件，如果满足停止条件则输出最终结果，如果不满足停止条件，则返回条件混合并行化计算的步骤(1)；

(3)生成子种群I₁、I₂、I₃、……I_n，当基于CUDA的迭代进化次数达到指定次数后，判断初始迭代寻优是否完成，若初始迭代寻优未完成，继续进行迭代进化；若初始迭代寻优完成，则将子种群返回至CPU判断是否满足停止迭代条件，若满足停止基于CUDA的迭代进化条件则停止子种群迭代进化并输出当前最优结果，将不满足停止迭代条件的子种群于CPU中继续进行迭代进化。

2.根据权利要求1所述的基于CPU和GPU的混合并行智能优化方法，其特征在于：

3.根据权利要求2所述的基于CPU和GPU的混合并行智能优化方法，其特征在于：

4.根据权利要求3所述的基于CPU和GPU的混合并行智能优化方法，其特征在于：