CN111177874B

CN111177874B - 一种利用gpu快速设计航路网络拓扑结构的方法

Info

Publication number: CN111177874B
Application number: CN201911302661.9A
Authority: CN
Inventors: 金晨; 罗喜伶; 曾杰; 张昌明
Original assignee: Hangzhou Innovation Research Institute of Beihang University
Current assignee: Hangzhou Innovation Research Institute of Beihang University
Priority date: 2019-12-17
Filing date: 2019-12-17
Publication date: 2023-06-09
Anticipated expiration: 2039-12-17
Also published as: CN111177874A

Abstract

本发明公开了一种利用GPU快速设计航路网络拓扑结构的方法。针对现有方法需要非常长的时间才能获得可行解，以及目前的进化算法在解决航路网络问题上还只能串行执行的问题。本发明将进化算法设计航路网络中最耗时的四个主要操作进行了并行化设计，在四个耗时操作已经完全并行化的前提下，将运算量较少的操作和GPU的主控任务交于CPU完成，4个对应耗时GPU内核函数(EA，FLOW，TAC和TFCC)和1个初始化内核函数(INIT)部署至GPU运行，本发明可以在不需要大幅度修改算法的实际流程的前提下，显著减少算法每次迭代所需要的时间，可以适用于设计新的进化算法更好地解决规模更大的下一代航路网络，也可以在显著加速已有的串行算法在解决现有航路网络的速度。

Description

一种利用GPU快速设计航路网络拓扑结构的方法

技术领域

本发明涉及一种利用GPU快速设计航路网络拓扑结构的方法，涉及航路网络设计领域。

背景技术

随着我国空中交通流量的持续增长,设计于五、六十年代的航路网络逐渐暴露出诸多缺陷，严重影响了运行效率和航空安全。因此，越来越多的研究人员开始尝试改进现有的航路网络结构，使之能够适应飞速增长的空中交通流量需求。但是由于航路网络结构优化具有不可导、约束条件多、计算量非常大等难点，常规基于数学或者图形学的方法往往无法取得较好的结果。近年来，随着计算智能技术的快速发展，人工智能方法展现了其在解决航路网络优化方面的优势。然而，这类方法往往需求大量的运算时间，这无疑制约了其在航路网络设计优化这一领域的应用。

航路网络设计包括航路汇聚点位置布局和航路网络拓扑连接关系设计。航路汇聚点(图1中的空心圆点)是指航路网络中两条以上的航路由于飞行流量汇聚而形成的航路定位点；而航路网络拓扑连接关系(图1中空心圆点连接机场和其他空心圆点的线段)是连接航路汇聚点的通道。航路汇聚点的数量及其空间位置和航路网络拓扑连接关系共同决定了航路网络的拓扑结构和特性，即航路网络的运行性能。航路网络设计本质上是建立一个多目标优化模型，其优化问题的目的是最小化航路网络运行成本(Total Airline Cost,TAC)和最小化航路汇聚点飞行冲突系数(Total Flight Conflict Coefficients,TFCC)。其中TAC表征了航班在该航路网络运行中所需要付出的时间、燃油等成本，而TFCC则表征了航班在该航路网络中飞行时产生的飞行冲突。

目前，航路网络设计方法主要分为两种：航路汇聚点位置优化，即优化航路汇聚点的位置而不改变航段的连接关系；全拓扑优化，即同时优化航路汇聚点位置和航路网络拓扑连接关系。现有的航路汇聚点位置优化方法主要是通过逐步移动初始航路网络中的网络结点位置，同时利用演化计算技术(进化算法)对航路网络进行优化，直至找到网络性能较优的设计方案。现有的全拓扑优化主要是在优化航路网络汇聚点位置的基础上，同时调节航路汇聚点连接关系，实现了航路网络的全拓扑优化。可以看出，这两种模式都需要依赖于进化算法来进行航路网络汇聚点位置的优化，而这些算法普遍应用迭代式演化的方式逐步优化航路网络的拓扑结构。由于串行计算的设计和实现较为直接和简单，目前所有的航路网路优化方法直接用单线程串行的方式在单PC上运行。

图2是一种常规而通用的串行进化算法优化航路网络汇聚点位置的流程。算法在每一次迭代中依次对每个种群个体(从种群个体1到种群个体NP)进行运算。而任意一个种群个体i都需要经过交叉变异(具体方式基于所用的进化算法)，航班流量分配(基于Floyd-Warshall最短路径算法)，TAC和TFCC目标函数的适应度评估。其中的每个操作的具体介绍如下：

i.进化算法从当前种群中选择一对父代

和/>

并生成新的子代c_i:该操作以某种方式(比如随机或精英选择)从航路网络种群中选择两个种群个体/>

和/>

并通过进化算法的交叉和变异算子，生成新的种群个体c_i(代表新的航路网络拓扑结构)，c_i具有其父代/>

和/>

的部分特性但也有与两者都不同的特性。

ii.基于种群个体c_i所代表的航路网络和机场之间的航班需求分配对应的航班流量：调用Floyd-Warshall最短路径算法将机场对之间的航班需求分配至相应的各个航段。

iii.计算种群个体c_i所代表的航路网络的目标函数TAC的适应度值：根据TAC的适应度函数

计算c_i的TAC适应度值。其中m为机场数目，n为航路汇聚点的数目，f_ij为从i到j的航班流量，d_ij为i和j之间的距离。

iv.计算种群个体c_i所代表的航路网络的目标函数TFCC的适应度值：根据TFCC的适应度函数

计算c_i的TFCC适应度值。其中S为航班之间的水平安全间隔(千米)，V为航班平均巡航飞行速度(千米每小时)，f_ij为从i到j的航班流量，d_ij为从i到j的距离。

对于任意一个种群个体c_i,1<i<NP,以上四个核心操作将被依次执行。之后再从c₁到c_NP依次处理每一个种群个体从而生成NP个新种群子代。之后，算法调用非支配排序从NP个新种群子代和上一代NP种群个体中选择最好的NP个体作为新的种群，用以生成下一代种群。优化算法一直重复迭代这个过程直到停止条件的满足(如算法收敛，最大运行时间和迭代次数等)。

算法的几个核心操作本身都需要消耗大量的时间来计算，比如航班流量分配的复杂度是Ο(n³)、计算TAC的复杂度是Ο(n²)、计算TFCC的复杂度是Ο(n³),其中n是航路网络汇聚点的数目。由于现有优化方法往往大量重复调用上述操作来逼近全局最优解，算法往往需要非常长的时间才能获得可行解。以种群大小为50的粒子群算法为例，迭代1000次需要调用以上耗时的操作各50000次。随着航班流量需求的增长，未来航路网络规模必将快速增大，这会导致现有的解决方案越来越捉襟见肘。另一个方面，当前计算设备(多核CPU，GPU和FPGA等)已经向着支持高度并行运算的方向快速发展，而目前的进化算法在解决航路网络问题上还只能串行执行，这会严重制约其发展。综上所述，现有的运行在单设备、单进程、单线程的串行算法已经无法胜任当前乃至未来繁重的航路网络设计的重担，而速度更快，效率更高的并行解决方案必将在未来取而代之。

发明内容

为了加速航路网络设计这一耗时过程，提高人工智能算法在航路网络设计中的效率。本发明提供了一种利用GPU加速航路网络拓扑结构设计的方法，该方法可以利用GPU巨大的并行计算能力显著提高设计速度。

本发明的利用GPU快速设计航路网络拓扑结构的方法：包括如下步骤：

1)初始化航路网络种群和进化算法初始参数；

2)创建和分配GPU全局内存和静态内存；

3)CPU调用GPU内核函数INIT将初始数据写入到GPU全局内存和静态内存；

4)判断迭代是否结束，如果不结束则进入步骤5)，如果结束则将数据从GPU全局内存传输至系统内存并打印输出；

5)CPU调用GPU内核函数EA，GPU开始生成新的子种群，即新的航路网络结构，而CPU则等待GPU内核函数EA运行直至其结束；

6)CPU调用GPU内核函数FLOW，为GPU内核函数EA生成的子种群的每个个体分配航班流量；

7)CPU分别启动GPU内核函数TAC和GPU内核函数TFCC，得到相应的目标函数值；

8)CPU同步数据；

9)CPU结束数据同步以后，航路网络子种群数据被转移至系统内存，CPU调用非支配排序，将新生成的子种群和当前种群合并生成新一代的种群；

10)进入步骤4)。

作为本发明的优选方案，所述的GPU内核函数INIT用于将系统内存中的相关数据转移至GPU的全局或静态内存中。更加优选的，所述的GPU内核函数INIT将所有可变的可读写数据存储至全局内存，将不可变的只读数据存储至静态内存。

作为本发明的优选方案，所述的GPU内核函数EA用于读取现有的NP个种群个体数据并使用交叉和变异操作生成新的NP个子种群个体。所述的GPU内核函数EA总共有NP个线程块，每个线程块内共有n个线程，n为航路汇聚点数目，即每个线程块对应一个种群个体，每个线程对应一个种群个体中的一个航路汇聚点经纬度坐标，GPU内核函数EA同时处理NP个种群个体的n个航路汇聚点。

作为本发明的优选方案，所述的GPU内核函数TAC计算种群个体的TAC适应度值，

其中，m为机场数目，n为航路汇聚点的数目，f_ij为从i到j的航班流量，d_ij为i和j之间的距离；

所述的GPU内核函数TFCC计算种群个体的TFCC适应度值，

其中，S为航班之间的水平安全间隔，V为航班平均巡航飞行速度，fi_ij为从i到j的航班流量。

所述的GPU内核函数TAC和TFCC均各自有NP个线程块，每个线程块内共有n个线程，n为航路汇聚点数目，即每个线程块对应一个种群个体，每个线程对应一个种群个体中的一个航路汇聚点经纬度坐标，GPU内核函数TAC和TFCC均同时处理NP个种群个体的n个航路汇聚点。

作为本发明的优选方案，所述的步骤7)通过调用两个CUDA stream实现，在两个stream上分别启动GPU内核函数TAC和GPU内核函数TFCC，两个GPU内核函数可以同时并行执行。

作为本发明的优选方案，所述步骤4)判断迭代的条件为迭代过程收敛、或达到最大运行时间，或达到设定的最大迭代次数。

作为本发明的优选方案，本发明将计算量大的进化算法步骤和航路网络拓扑评估部分部署在GPU上；而将非支配排序，GPU内核函数主控放于CPU上，CPU和GPU通过数据同步进行信息交互。

本发明所具有的的有益效果是：

本发明将进化算法设计航路网络这一课题中最耗时的四个主要操作进行了并行化设计：1)交叉变异算子生成新种群，2)最短路径法分配航班流量，3)计算TAC适应度值和4)计算TFCC适应度值。与串行算法序列化处理NP个个体不同，并行算法只需要一步就能处理NP个种群个体。通过对比串行算法，进化算法每次迭代所需的序列化操作从4*NP次下降到3次。

在四个耗时操作已经完全并行化的前提下，本发明将其部署至GPU。在GPU通用计算领域，运行于GPU上的操作可以称为GPU内核函数。内核函数的设计决定了其在GPU上的运行效率，即同一个并行算法的不同内核函数设计会带来显著不同的运行速度。本发明将运算量较少的操作和GPU的主控任务交于CPU完成，4个对应上述算子的GPU内核函数(EA，FLOW，TAC和TFCC)和1个初始化内核函数(INIT)部署至GPU运行。

本发明针对航路汇聚点位置优化，可以在不需要大幅度修改算法的实际流程的前提下，显著减少算法每次迭代所需要的时间。所以本发明不仅可以适用于设计新的进化算法更好地解决规模更大的下一代航路网络，也可以在显著加速已有的串行算法在解决现有航路网络的速度。

附图说明

图1为航路网络示意图；

图2为常规串行进化算法优化航路网络拓扑结构的算法流程图；

图3为本发明的并行算法流程图；

图4为本发明利用GPU快速设计航路网络拓扑结构方法的架构图。

图5为仿真结果示意图。

具体实施方式

下面结合具体实施方式对本发明做进一步阐述和说明。本发明中各个实施方式的技术特征在没有相互冲突的前提下，均可进行相应组合。

如图3所示，为本发明的并行算法流程图，由于进化算法的种群个体之间的大部分运算相对独立，所以种群的可并行化程度很高。本发明的核心之一是基于种群个体之间的并行化，将进化算法设计航路网络这一课题中最耗时的四个主要操作进行了并行化设计：1)交叉变异算子生成新种群，2)最短路径法分配航班流量，3)计算TAC适应度值和4)计算TFCC适应度值。图3展示了本发明将这四个算子完全并行化，与串行算法序列化处理NP个个体不同，并行算法只需要一步就能处理NP个种群个体。总结来说，通过对比串行算法，进化算法每次迭代所需的序列化操作从4*NP次下降到3次。

本发明将运算量较少的操作和GPU的主控任务交于CPU完成，4个对应上述算子的GPU内核函数(EA，FLOW，TAC和TFCC)和1个初始化内核函数(INIT)部署至GPU运行。5个GPU内核函数的功能和具体设计如下：

GPU内核函数(INIT)：该内核函数主要负责数据的预处理以及将系统内存(RAM)中的相关数据转移至GPU的全局(Global Memory)或静态(Constant Memory)内存中。具体来说，所有可变的可读写数据(航路网络汇聚点坐标和航段流量等)存储至全局内存；不可变的只读数据(机场地理数据、航段连接关系和航班起降机场数据等)存储至静态内存。

GPU内核函数(EA)：该内核函数主要负责读取现有的NP个种群个体数据并使用交叉和变异操作生成新的NP个子种群个体。该内核函数总共设计有NP个线程块，每个线程块内共有n个线程(n为航路汇聚点数目)。即每个线程块对应一个种群个体。每个线程对应一个种群个体中的一个航路汇聚点经纬度坐标。由于GPU内有数千个线程并行工作，该内核函数可以同时处理NP个种群个体的n个航路汇聚点，这将原本串行算法需要n*NP个步骤简化为1个步骤，进一步提高了运行的速度。

GPU内核函数(FLOW)：该内核主要负责为内核函数EA生成的子种群的每个个体分配航班流量。该内核函数调用Nvidia提供的最短路径求解的库函数(nvGRAPH)。通过该库函数得到两两机场对的最短路径以后存储至GPU全局内存中，FLOW内核函数设计有f个线程(f为总的航班数目)，其中每个线程对应一个航班，即f个航班并行更新航路网络的流量分布。具体来说每个线程读取其对应航班的起飞降落机场的最短路径，航段连接数据和汇聚点位置数据等，然后以对该航班所经过的航段进行流量叠加的方式更新航路网络流量矩阵。

GPU内核函数(TAC和TFCC)：基于航班流量、汇聚点位置和航段连接关系，两内核函数分别计算子种群中每个个体的两个目标函数值。由于评估两个目标函数是完全独立的行为，我们调用了两个CUDA stream，这两个GPU内核函数可以同时执行而不必排队等待。这两个内核函数的线程设计与内核函数(EA)完全一致。由于这两个内核函数的运行时间可能不同，因此CPU主控端会一直等待数据同步，即只有两个内核函数都运行结束，CPU才进行数据传输和与非支配排序算子。

本发明的具体实现可见图4，其具体描述如下：

1.初始化航路网络种群和进化算法初始参数。航路网络种群的初始化应该包含两个方式：第一是使用当前的正在实际使用的航路网络，第二使用是通过随机移动当前航路网络汇聚点所产生的航路网络。两种网络的总数量应该是NP。进化算法初始参数则应该根据所选用的算法相应设定和调整，本发明不做规定。

2.创建和分配GPU全局内存和静态内存。GPU计算时用的全局内存需要被CPU创建和分配。具体来说调用CUDA的API函数cudaMemAlloc()和cudaMemset()。

3.CPU调用GPU内核函数(INIT)：将初始数据写入到GPU全局内存和静态内存。

4.判断算法是否结束：如果不结束则进入算法的主循环，如果结束则将数据从GPU全局内存传输至系统内存并打印输出。

5.CPU调用GPU内核函数(EA)：GPU开始生成新的航路网络结构，而CPU则等待该内核函数运行直至其结束。

6.CPU调用GPU内核函数(FLOW)：当内核函数(EA)结束后，调用Nvidia的库函数nvGRAPH生成最短路径，然后根据最短路径和航班起降机场生成航段流量。

7.CPU分别启动GPU内核函数(TAC)和(TFCC)：并当内核函数(FLOW)结束后，CPU主控端开启两个CUDA stream分别为stream1和stream2，在两个stream上分别启动两个内核函数

8.CPU同步数据：CPU一直等待直到TAC和TFCC都结束以后

9.CPU调用非支配排序：CPU结束数据同步以后，航路网络子种群数据被转移至系统内存(RAM)，CPU调用非支配排序，将新生成的子种群和当前种群合并生成新一代的种群。

10.进入步骤4直至终止。

本发明对上述设计进行了算法仿真。仿真实验首先随机初始化了100个不可移动的机场和不同数目的汇聚点(n＝100，200和500)，然后使用差分进化算法使用不同的种群大小(NP＝50,100,500和1000)分别部署在CPU和GPU上进行了实验分析。如图5实验结果表明，随着航路网络规模上升，无论CPU还是GPU，其运算时间都逐步上升，但CPU明显增加得更快。对给定的航路网络规模，随着种群大小NP的上升，CPU的运算时间略有上升，而GPU的运算时间显著下降。因此可以看出基于GPU的航路网络拓扑结构设计是有效的，即针对大规模的航路网络设计问题有更快的运算速度。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种利用GPU快速设计航路网络拓扑结构的方法，其特征在于：包括如下步骤：

1)初始化航路网络种群和进化算法初始参数；

2)创建和分配GPU全局内存和静态内存；

5)CPU调用GPU内核函数EA，GPU开始生成新的子种群，即新的航路网络结构，而CPU则等待GPU内核函数EA运行直至其结束；所述的GPU内核函数EA用于读取NP个种群个体数据并使用交叉和变异操作生成新的NP个子种群个体；所述的GPU内核函数EA总共有NP个线程块，每个线程块内共有n个线程，n为航路汇聚点数目，即每个线程块对应一个种群个体，每个线程对应一个种群个体中的一个航路汇聚点经纬度坐标，GPU内核函数EA同时处理NP个种群个体的n个航路汇聚点；

6)CPU调用GPU内核函数FLOW，为GPU内核函数EA生成的子种群的每个个体分配航班流量；GPU内核函数FLOW主要负责为内核函数EA生成的子种群的每个个体分配航班流量；该内核函数调用Nvidia提供的最短路径求解的库函数nvGRAPH；通过该库函数得到两两机场对的最短路径以后存储至GPU全局内存中，FLOW内核函数设计有f个线程，其中每个线程对应一个航班，即f个航班并行更新航路网络的流量分布；具体来说每个线程读取其对应航班的起飞降落机场的最短路径，航段连接数据和汇聚点位置数据，然后以对该航班所经过的航段进行流量叠加的方式更新航路网络流量矩阵；

7)CPU分别启动GPU内核函数最小化航路网络运行成本TAC和GPU内核函数最小化航路汇聚点飞行冲突系数TFCC，得到相应的目标函数值；

所述的GPU内核函数TAC和TFCC均各自有NP个线程块，每个线程块内共有n个线程，n为航路汇聚点数目，即每个线程块对应一个种群个体，每个线程对应一个种群个体中的一个航路汇聚点经纬度坐标，GPU内核函数TAC和TFCC均同时处理NP个种群个体的n个航路汇聚点；

所述的步骤7)通过调用两个CUDAstream实现，在两个stream上分别启动GPU内核函数TAC和GPU内核函数TFCC，两个GPU内核函数可以同时并行执行；8)CPU同步数据；

10)进入步骤4)。

2.根据权利要求1所述的利用GPU快速设计航路网络拓扑结构的方法，其特征在于：所述的GPU内核函数INIT用于将系统内存中的相关数据转移至GPU的全局或静态内存中。

3.根据权利要求1或2所述的利用GPU快速设计航路网络拓扑结构的方法，其特征在于：所述的GPU内核函数INIT将所有可变的可读写数据存储至全局内存，将不可变的只读数据存储至静态内存。

4.根据权利要求1所述的利用GPU快速设计航路网络拓扑结构的方法，其特征在于：将计算量大的进化算法步骤和航路网络拓扑评估部分部署在GPU上；而将非支配排序，GPU内核函数主控放于CPU上，CPU和GPU通过数据同步进行信息交互。