CN113434459B

CN113434459B - 基于生成对抗网络的片上网络任务映射方法

Info

Publication number: CN113434459B
Application number: CN202110738562.6A
Authority: CN
Inventors: 陈亦欧; 何秋璇; 余霞; 胡剑浩; 朱会柱; 董亚宁
Original assignee: University of Electronic Science and Technology of China; China Aeronautical Radio Electronics Research Institute
Current assignee: University of Electronic Science and Technology of China; China Aeronautical Radio Electronics Research Institute
Priority date: 2021-06-30
Filing date: 2021-06-30
Publication date: 2022-09-02
Anticipated expiration: 2041-06-30
Also published as: CN113434459A

Abstract

本发明属于通信技术领域，具体涉及一种基于生成对抗网络的片上网络任务映射方法。该方法包括如下步骤：本方法通过遗传算法得到该任务流图向资源流图的映射方案，作为待优化映射；并通过待优化映射训练生成对抗网络的鉴别器和生成器，并通过评价函数比较生成样本和训练样本二者在多目标优化问题下的优越性，并取性能优越者，对生成对抗网络的生成器和鉴别器进行反复迭代训练，当迭代次数达到预设次数时输出映射结果。本发明通过遗传算法得到的待优化映射对生成对抗网络进行训练，并在训练结束后输出映射结果；得到的映射结果改善了遗传算法中存在的解过早收敛且局部最优的问题，因而可以很大程度上接近全局最优解。

Description

基于生成对抗网络的片上网络任务映射方法

技术领域

本发明属于通信技术领域，具体涉及一种基于生成对抗网络的片上网络任务映射方法。

背景技术

随着半导体工艺技术和集成电路的迅速发展，片上系统(System-on-Chip,SoC)的集成度越来越高，同时由于IP核之间的通信量急剧增加，总线负载量增加，传统的总线结构暴露出同步困难、传输效率低、可扩展性差等问题，将使其无法满足数十个乃至上百个IP核的通信需求。作为新一代的片上互连通信模式，片上网络(Network-on-Chip,NoC)将互联网思想移植到片上系统中，通过分离通信和计算两部分，很好地解决了传统总线结构存在的问题，从而实现IP核之间的数据通信。

由于大部分大型网络的设计目标是尽可能地达到网络的最佳性能(如：吞吐量、平均包延时等)，其网络计算延时和功耗会受到一定的限制。而NoC映射技术决定了任务与NoC中的IP核之间的关联，即映射方案确定了任务在NoC平台的位置，不同的映射结果往往造成NoC系统在实时性、计算时间和功耗等多方面的差异，因此对映射算法进行优化是实现NoC低功耗和低延时的重要手段，对系统性能具有十分重要的影响。

在NoC映射问题中，随着网络尺寸的增长，其映射解可搜索空间呈阶乘式递增，属于NP难问题(on-Deterministic Polynomial-Hard,NP)即多项式复杂程度的非确定性难问题。目前，研究人员针对NoC映射问题已经设计出诸多的优化算法,其中遗传算法(GeneticsAlgorithm,GA)相较其他启发式算法而言，具有收敛性好的优点，能够解决NoC映射解空间的NP难问题。在多目标映射问题下，由于大型网络任务流图节点数过于庞大，利用遗传算法进行映射后的解搜索空间过大，计算复杂度高，比较容易陷入局部最优解中。

现有技术为解决遗传算法容易陷入局部最优解这一问题，大都对遗传算法进行改进。如学术文献“张保岗,韩国栋,汤先拓.基于改进量子遗传算法的片上网络多目标映射技术[J].计算机应用与软件,2020,37(08):115-121.”其通过改进的量子遗传算法来解决片上网络映射问题；又如申请号为201110283124.1的中国专利文献，其公开了一种基于蚁群混沌遗传算法的片上网络映射方法；其通过引入混沌模型的方法加大遗传算法的突变概率，从而避免遗传算法停滞于局部最优解的问题；这些现有技术仅从改进遗传算法配置参数的角度出发，从而改善遗传算法得到的映射结果停滞于局部最优解的问题。

发明内容

本发明的目的在于克服现有技术中所存在的上述不足，提供一种基于生成对抗网络的片上网络任务映射方法。

为了实现上述发明目的，本发明提供了以下技术方案：

一种基于生成对抗网络的片上网络任务映射方法，所述方法包括如下步骤：

A.获取任务流图和资源流图，并通过遗传算法得到该任务流图向资源流图的映射，作为待优化映射；对所述待优化映射进行标准化处理，得到训练样本；

B.建立生成对抗网络，将所述训练样本输入至所述生成对抗网络；

C.通过所述生成对抗网络的生成器生成与训练样本格式相同的生成样本，并输出生成样本；固定生成器，将所述训练样本和所述生成样本输入鉴别器，用于对鉴别器进行训练，当鉴别器的判别结果满足第一目标函数时，鉴别器训练结束；

D.固定鉴别器，使用所述生成对抗网络的生成器重新生成与训练样本格式相同的生成结果，将并所述生成结果和所述训练样本输入鉴别器鉴别，用于对生成器进行训练，当鉴别器的判别结果满足第二目标函数时，生成器训练结束；

E.通过评价函数，评价所述生成样本和所述训练样本二者的性能；并选择多目标优化性能优异者作为下次迭代的训练样本返回步骤C，重复步骤C～E；

F迭代达到预设次数后，使用生成器生成映射结果。

所述评价函数用于评价在多目标优化问题下评价对象的功耗性能和延时性能。

进一步的是，所述步骤E中，将所述训练样本随机匹配一生成样本，通过所述评价函数，评价所述训练样本和所述生成样本二者的功耗和延时，取优者作为下一次迭代的训练样本。

进一步的是，所述评价函数对功耗和延时加权求和，用于表征所述生成结果或所述训练样本二者在多目标优化问题上的性能；所述功耗通过功耗模型得到，所述延时通过延时模型得到；

进一步的是，所述第一目标函数为：

所述第二目标函数为：

其中，z～f_z(z)是由生成器随机生成的限定范围内的噪声，即生成器生成的生成样本或生成结果，x～f_r(x)是真实样本数据即训练样本；

为在输入服从分布为f_r(x)的训练样本后，判别器将其判定为真的概率的数学期望；

为在输入服从分布为f_z(z)的噪声后，判别器将其判定为真的概率的负对数的数学期望。

进一步的是，所述功耗模型的表达式为：

P＝P_P+P_R+P_L

其中P_P,P_R,P_L分别表示由PE、路由器和NoC链路三者产生的功耗；

所述延时模型的表达式为：

其中第一项表示的是PE的处理延时总和；直连边e(i,j)的两端节点i,j分别映射到PEm，PEn上，Pem到PEn经过的跳数为h_m,n，映射后的链路传输延时T_e(i,j)，单跳路由平均交换延时为T_A，第二项表示的是链路传输延时和路由交换延时的总和；

所述评价函数的表达式为：

y＝α_dD(M)+α_eP(M)

其中M∈MAP，MAP为所有映射方案的集合，D(M)和P(M)分别表示当前映射方案产生的延时和功耗，α_d和α_e为权重系数。

进一步的是，所述生成对抗网络的生成器为四层全连接网络，第一层为标准化层，中间两层使用Leaky ReLu层，最后一层使用Sigmoid激活函数，所述生成器的损失函数为BSE函数；

所述鉴别器为三层全连接网络，第一层为标准化层，第二层为Leak ReLu层、最后一层使用Sigmoid激活函数。

同时本发明还提供一种可读存储介质，其上存储有计算机程序，所述程序被计算机执行以实现上述映射方法。

同时本发明还提供一种基于生成对抗网络的片上网络任务映射装置，包括至少一个处理器，以及与所述至少一个处理器通信连接的至少一个存储器；所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述的映射方法。

与现有技术相比，本发明的有益效果为：本发明将生成对抗网络与遗传算法结合，通过遗传算法得到的待优化映射作为初始训练对生成对抗网络进行训练，同时使用评价函数来控制训练样本的迭代更新；很好的解决了利用遗传算法进行映射优化，会陷入局部最优解的问题，使用本发明提出的映射方法得到的映射结果可以改善遗传算法中存在的解过早收敛且局部最优的问题，因而可以很大程度上接近全局最优解。

附图说明：

图1为本发明示例性实施例提供的基于生成对抗网络的片上网络映射方法的整体流程图；

图2为本发明示例性实施例提出的4X4 2D-Mesh NoC结构图；

图3为本发明示例性实施例提出的NoC映射示意图；

图4为本发明示例性实施例提出的基于生成对抗网络的片上网络映射方法处理MMSE-IRC算法时和处理SVD算法时与传统遗传算法、Pareto前沿的最优解集对比图；

图5为本发明示例性实施例提出的基于生成对抗网络的片上网络映射方法在处理MMSE-IRC算法时和处理SVD算法时与遗传算法的多目标优化性能对比图。

具体实施方式

下面结合试验例及具体实施方式对本发明作进一步的详细描述。但不应将此理解为本发明上述主题的范围仅限于以下的实施例，凡基于本发明内容所实现的技术均属于本发明的范围。

实施例1

图1示出了本实施例提供的基于生成对抗网络的片上网络映射方法的整体流程图，如图1所示，本方法包括如下步骤：

F迭代达到预设次数后，使用生成器生成映射结果。

其中，在步骤B中可以将遗传算法得到的所有映射方案全部作为待优化映射也可以从中随机选取部分作为待优化映射经，也可以通过本实施例提出的评价函数，选取多目标性能相对优异者作为待优化映射；是否对遗传算法得到的映射方案进行选取，以及如何选取，可以依据实际使用情况灵活选择。

需要说明的是，所述步骤E中，将所述训练样本随机匹配一生成样本，通过所述评价函数，评价所述训练样本和所述生成样本二者的功耗和延时，取优者作为下一次迭代的训练样本。通过给每一个训练样本随机匹配一个生成样本进行比较可以保证每次迭代的训练样本其总数一致，有利于节省计算量。

同时，在迭代的初期，生成样本与训练样本二者的多目标优化性能差距不大，即生成样本的多目标优化性能不明显优于训练样本，此时下一轮迭代的训练样本中，来自初始遗传算法得到的映射依旧占大多数，只有少量来自生成器的生成样本；随着迭代次数的进行，生成对抗网络不断向遗传算法中多目标性能优异的方案和生成器自身上一次迭代生成的多目标性能优异方案学习，其生成样本的多目标性能会明显优于训练样本，此时下一轮迭代的训练样本中生成器生成的生成样本会占大多数，只有少量来自初始遗传算法得到的映射；此时我们认为这一部分来自初始遗传算法得到的映射在一定程度上接近了全局最优解，此时生成对抗网络向这一小部分全局最优解和之前迭代生成的多目标性能优异方案学习；迭代预设次数后，生成对抗网络生成的生成样本可以很大程度上接近全局最优解，使用生成样本进行映射可以即节约能耗又能减少延时。

其中，所述评价函数对功耗和延时加权求和，用于表征所述生成结果或所述训练样本二者在多目标优化问题上的性能；所述功耗通过功耗模型得到，所述延时通过延时模型得到；

片上网络中的延时主要来自于IP核处理数据时的耗时以及数据在片上网络传输过程中的耗时。其中对于单个IP核在处理任务时的时间消耗，只与核的类型相关；数据传输中的延时主要是来自于连接线上的物理延时以及数据包解析时的延时。在不同的NoC平台中，链路传输延时始终受传输的数据量、数据传输速率和并行线路总数的影响；路由节点的交换延时通过M/G/1排队论相关内容获取，学术界已有研究表明M/G/1应用在任务映射问题上的有效性。因此本实施例所采用的延时模型包括三个方面：PE处理延时、片上网络Tile间的链路传输延时和路由节点交换延时，本实施例所采用的延时模型的表达式为：

其中第一项表示的是PE的处理延时总和；直连边e(i,j)的两端节点i,j分别映射到PEm，PEn上，PEm到PEn经过的跳数为h_m,n，映射后的链路传输延时T_e(i,j)，单跳路由平均交换延时为T_A，第二项表示的是链路传输延时和路由交换延时的总和。

片上网络中消耗的总能量由IP核在处理任务中的耗能及数据通信过程中的耗能两部分组成。目前业内提出了很多NoC通信功耗模型，如：T.T.Ye等人在学术文献Ye T T,Micheli G D,Benini L.Analysis of Power Consumption on Switch Fabricsin[J].2002.中针对路由交换结构提出了位功耗的概念，提出了一种功耗模型，而Hu等人于学术文献Hu J,Marculescu R.Energy-and performance-aware mapping for regular NoCarchitectures[J].IEEE Transactions on Computer Aided Design of IntegratedCircuits&Systems,2005,24(4):551-562.。提出了面向NoC映射问题的平均功耗并构建相应的功耗模型。

然而上面提到的两种功耗模型是针对NoC的网络部分建立的，并没有考虑到PE内部可能产生的功耗。因此考虑到NoC和PE的功耗在模型参数、计算方式甚至单位等方面都存在差异，本实施例采用以某一个功耗值为单位，通过一定的比例表示、衡量两者的功耗，以合并求解NoC和PE两者产生的整体功耗，该功耗模型的表达式为：

P＝P_P+P_R+P_L

其中P_P,P_R,P_L分别表示由PE、路由器和NoC链路三者产生的功耗；具体使用时可以以单个系统时钟周期且PE满负载时的峰值功耗值e_p为基本功耗单位，则静态功耗、路由器的峰值功耗以及链路传输的峰值功耗均可表示成e_p的倍数。

在单目标优化的NoC映射问题范畴，往往只考虑单个性能指标，然而在多目标优化问题中，多个目标之间通常是相互制约的，因此无法使全部指标都得到优化，从而需要在优化指标之间进行妥协。而目标函数的设计决定了映射算法优化的方向，因此实施例确立了以延时和功耗为多目标的片上网络映射优化方向，采用线性加权求和法作为多目标映射优化求解问题的评价函数。

在单目标优化的NoC映射问题范畴，往往只考虑单个性能指标，然而在多目标优化问题中，多个目标之间通常是相互制约的，因此无法使全部指标都得到优化，从而需要在优化指标之间进行妥协。而目标函数的设计决定了映射算法优化的方向；本实施例在确立了以延时和功耗为多目标的片上网络映射优化方向上，采用线性加权求和法提出了一种用于多目标映射优化求解问题的评价函数。所述评价函数的表达式为：

y＝α_dD(M)+α_eP(M)

其中M∈MAP，MAP为所有映射方案的集合，D(M)和P(M)分别表示当前映射方案产生的延时和功耗。

具体使用时，可以根据延时和功耗的重要程度确定权值α_d和α_e，二者需满足α_d≥0,α_e≥0,α_d+α_e＝1。当α_d＝1时只做延时优化；当α_e＝1时只做功耗优化；当0＜α_d＜1,0＜α_e＜1时，折中优化延时和功耗。

进一步的是，所述第一目标函数为：

所述第二目标函数为：

其中鉴别器网络D的优化通过max_D V(D,G)实现，V(D,G)为D的目标函数，该函数表达式的第一部分

代表着，在输入服从分布为f_r(x)的样本数据后，D将其判定为真的概率的数学期望；该表达式的第二部分

代表着，在输入服从分布为f_z(z)的噪声后，D将其判定为真的概率的负对数的数学期望，D(G(z))越小，该期望值越大，也意味着鉴别器越好。而生成器网络G的设计目标是min_G max_D V(D,G)，即实现鉴别器目标函数最大值的最小化，从而不断缩小真实数据与生成数据之间的差距。

同时，本实施例还提供一种可读存储介质，其上存储有计算机程序，所述程序被计算机执行以实现上述优化方法。

同时，本实施例还提供一种基于生成对抗网络的片上网络任务映射装置，包括至少一个处理器，以及与所述至少一个处理器通信连接的至少一个存储器；所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述的映射方法。

实施例2

在实施例1的基础上，采用Pytorch构建生成对抗网络模型，在Windows系统下，使用Matlab R2016b进行仿真，并对本发明示例性实施例提出的一种基于生成对抗网络的片上网络任务映射方法进行仿真验证。

本实施例使用的生成对抗网络的生成器结构采用Pytorch构建，其结构如下：

生成器为四层全连接网络，第一层为标准化层，中间两层使用Leaky ReLu层，最后一层使用Sigmoid激活函数，所述生成器的损失函数为BSE函数；初始学习率可以设置为0.00008。

鉴别器为三层全连接网络，第一层为标准化层，第二层为Leak ReLu层、最后一层使用Sigmoid激活函数，鉴别器的损失函数为BSE函数；初始学习率可以设置为0.00005。

本实施例中使用的遗传算法参数设置如下：种群规模为20，遗传解求解次数为50。选择算子概率为50％、代沟为100％；交叉算子选择单点交叉，其概率为50％；变异算子选择基因位变异，其概率为10％。并将遗传算法得到的全部遗传解作为待优化映射输入至生成对抗网络，作为第一次迭代的训练样本。预设迭代次数为250次

本实施例里采取Adam优化器对学习率进行优化，损失值函数采用二元交叉熵(BSE)损失函数，同时采用小批量随机梯度下降(SGD)算法分别针对无线网络通信系统的接收机设计中的经典算法：MMSE-IRC和SVD算法进行训练。

本实施例中使用的评价函数，其α_d可以设置为0.5，α_e可以设置为0.5。

图2示出了一种4X4 2D-Mesh Noc结构图，其NoC系统参数设置如下：采用4×4 2D-Mesh NoC结构，系统时钟频率为250MHz，数据传输速率为50Mbps，并行传输线路数为32，路由器平均交换时延为1e^-8秒，单处理器满负载功耗e_p＝1，单通道满数据位传输功耗、单交换节点工作功耗和分别是e_L＝e_R＝e_p，静态功耗e_f＝8％e_p。该结构的约束条件设置如下：所有数据节点的运算时间和阈值为0.05秒，同一时刻经过同一条传输链路的所有路径的传输延时阈值为0.1秒。

图3示出了一种NoC映射示意图，本实施例针对无线通信系统的接收机设计中的经典算法：MMSE-IRC和SVD算例使用本发明实施例提供的优化方法进行求解。通过本发明示例性实施例提出的功耗模型和延时模型分别求得gan网络处理后的、传统遗传算法的和暴力搜索得到的映射方案。其中暴力搜索得到的映射方案在本实施例中可视为全局最优解，但因其计算量庞大，在实际的使用中仅将其作为参考映射方案，并不会使用。

图4(a)中示出了采用本发明提出的映射方法在处理MMSE-IRC算法时的功耗与延时与传统遗传算法和暴力搜索得到的映射方案对比图；图4(b)中示出了采用本发明提出的映射方法在处理SVD算例时的功耗与延时与传统遗传算法和暴力搜索得到的映射方案对比图；从图中可以得到在延时和功耗的双目标上，两个算例的整体解比原遗传解更加逼近利用暴力搜索得到的Pareto前沿。在MMSE-IRC算例中，通过GAN后处理优化取得的最优解集与单纯使用遗传最优解集相比，至少能够在功耗上降低24.49％，延时减少10.89％；在SVD中，能够在功耗上降低17.54％，延时减少8.77％，显示出通过GAN后处理作用于双目标优化上的良好性能。

在多目标优化问题中，本示例性实施例采用反世代距离值(InVertedGenerational Distance,IGD)这一指标去评价不同算法在多目标优化问题上的综合性能。其中IGD的计算公式为：

其中，P是在根据所选算法获取的点集，|P|是点集规模大小；v是点集P中的点，Q是Pareto前沿上的最优解，在求解规模较大的问题中，可以使用暴力搜索法获取，可以先选取几个分布比较均匀的解作为Pareto前沿。d(v，Q)代表点集P中的每个点v到Q的距离，该距离通过目标值直接的差距计算而成。IGD的整个表达式即计算算法所求的点集到Pareto前沿上的最小距离的平均值。

当算法的收敛性和分布性都好时，

的值偏小，当收敛性较差、分布性较好时，则意味着d(v,Q)的值大小不一，其总和偏大；而当分布性较差时、收敛性较好时，d(v,Q)基本都偏大，其总和偏大；因此，IGD的值越小，算法的综合性能，即算法的收敛性、分布性能越好。

图5(a)中示出了采用本发明示例性实施例提出的映射方法和传统遗传算法处理MMSE-IRC算法时二者的IGD值对比图；图5(b)中示出采用本发明示例性实施例提出的映射方法和传统遗传算法处理SVD算法时二者的IGD值对比图；从图中可以得到随着迭代次数的增加，遗传算法最优解适应度逐渐变大；随着遗传解的优化，意味着其提供给生成对抗网络训练样本也更加优化，因此，生成对抗网络的的生成样本最优解适应度也逐渐变大，且始终优于遗传最优解的适应度。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于生成对抗网络的片上网络任务映射方法，其特征在于，所述方法包括如下步骤：

D.固定鉴别器，使用所述生成对抗网络的生成器重新生成与训练样本格式相同的生成结果，并输出生成结果；将并所述生成结果和所述训练样本输入鉴别器鉴别，用于对生成器进行训练，当鉴别器的判别结果满足第二目标函数时，生成器训练结束；

F迭代达到预设次数后，使用生成器生成映射结果；

所述步骤E中，将所述训练样本随机匹配一生成样本，通过所述评价函数，评价所述训练样本和所述生成样本二者的功耗和延时，取优者作为下一次迭代的训练样本；其中，所述功耗通过功耗模型得到，所述延时通过延时模型得到；所述功耗模型的表达式为：

P＝P_P+P_R+P_L

其中，P_P,P_R,P_L分别表示由PE、路由器和NoC链路三者产生的功耗；其中，在求解时，采用以PE、路由器或NoC链路的功耗值为单位，通过一定的比例表示另外两者的功耗；以合并求解NoC和PE两者产生的整体功耗。

2.如权利要求1所述的一种映射方法，其特征在于，所述评价函数对功耗和延时加权求和，用于表征所述生成结果或所述训练样本二者在多目标优化问题上功耗和延时整体的性能。

3.如权利要求1所述的一种映射方法，其特征在于，所述第一目标函数为：

所述第二目标函数为：

4.如权利要求1所述的一种映射方法，其特征在于，

所述延时模型的表达式为：

其中第一项表示的是PE的处理延时总和；直连边e(i,j)的两端节点i,j分别映射到PEm，PEn上，Pem到PEn经过的跳数为h_m,n，映射后的链路传输延时为T_e(i,j)，单跳路由平均交换延时为T_A，第二项表示的是链路传输延时和路由交换延时的总和；

所述评价函数的表达式为：

y＝α_dD(M)+α_eP(M)

5.如权利要求1-4任意一项所述的一种映射方法，其特征在于，所述生成对抗网络的生成器为四层全连接网络，第一层为标准化层，中间两层使用LeakyReLu层，最后一层使用Sigmoid激活函数，所述生成器的损失函数为BSE函数；

6.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机可读指令，当计算机读取并执行所述计算机可读指令时，使得计算机执行如权利要求1-5任意一项所述的映射方法。

7.一种基于生成对抗网络的片上网络任务映射装置，其特征在于，包括至少一个处理器，以及与所述至少一个处理器通信连接的至少一个存储器；所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-5中任一项所述的映射方法。