CN109962867A

CN109962867A - 一种片上网络分支界定任务映射方法

Info

Publication number: CN109962867A
Application number: CN201910208957.8A
Authority: CN
Inventors: 庞科; 张磊
Original assignee: Tianjin Sino German Vocational Technical College
Current assignee: Tianjin Sino German University of Applied Sciences; Tianjin Sino German Vocational Technical College
Priority date: 2019-03-19
Filing date: 2019-03-19
Publication date: 2019-07-02

Abstract

本发明公开一种片上网络分支界定任务映射方法，包括确定需要设计的应用的任务图、基于传输带宽要求所定义的两个任务节点连接边的延迟限制值以及所选定的NoC拓扑结构；从根节点开始，对每一个树形搜索的分支进行路径遍历,对未映射的子任务节点的任务节点映射到NoC阵列中没有被占用的路由结点上，直到任务图中的所有任务节点都被一一对应地映射到路由结点上，完成映射，形成任务映射方案。本发明采用任务节点间的数据传输量作为限制来约束分支轮询，减少映射方案开发的CPU时间，并平衡系统网络负载，可大大改善基于异构NoC的应用系统的性能。

Description

一种片上网络分支界定任务映射方法

技术领域

本发明涉及片上网络设计技术领域，特别是涉及一种片上网络分支界定任务映射方法。

背景技术

随着片上系统SoC技术的发展，越来越多的IP和处理器被集成在一个芯片上来实现越来越复杂的功能。传统的总线互连和点对点互连都已经无法满足SoC 对于数据传输带宽和功耗的需求。片上网络NoC是一种网络架构式的片上通信方式。它利用路由器阵列将各个IP和处理器连接在一起，从而可以高效低耗地实现全局异步局部同步的复杂SoC设计。

在针对于某一特定应用的片上网络的设计过程中，将构成应用的不同任务一一对应地映射到不同的路由器上是十分关键的一步。不同的映射方案所带来的传输效率和所消耗的动态功耗都是截然不同的。目前，上百种片上网络任务映射算法已经被报道。但绝大多数这些算法都致力于解决同构NoC的任务映射问题。随着片上系统上所实现的应用复杂度的日渐增加，集成在NoC上的具有不同尺寸的异构IP核变得越来越普遍，而在异构NoC系统中，严格的传输延迟应该被重视以避免在数据传输中的传输拥堵。具有不同尺寸的异构IP核为整个系统性能增加了新的约束层面。具有不同处理事件的不同IP核(即不同任务节点的不同执行时间)对整个片上网络系统的执行效率有着重要的影响，因此在任务映射过程中应该充分考虑这一影响。直到今天，只有少量的研究被报道来处理这种非一致性的任务映射问题。

发明内容

本发明的目的是针对现有技术中存在的技术缺陷，而提供一种针对异构片上网络应用系统的片上网络分支界定任务快速映射方法，以快速有效的对同构或异构片上网络应用系统进行任务映射，能实现根据所需映射的某个特定应用的具体特性和所选定的片上网络拓扑结构，将应用的任务节点按照映射算法逐一映射到片上网络拓扑阵列上，从而快速找出最适合该应用的任务映射方案。

为实现本发明的目的所采用的技术方案是：

一种片上网络分支界定任务映射方法，包括以下步骤：

确定需要设计的应用的任务图、基于传输带宽要求所定义的两个任务节点连接边的延迟限制值以及所选定的NoC拓扑结构；

对任务节点降序排序，选择根节点映射后，从根节点开始，对每一个树形搜索的分支进行路径遍历，选择热节点，对未映射的子任务节点的任务节点映射到NoC阵列中没有被占用的路由结点上，直到所有热节点映射完成，任务图中的所有任务节点都被一一对应地映射到路由结点上，完成映射，形成任务映射方案；

其中，任务节点映射时，每完成一个当前任务节点的映射尝试，判断当前已完成的映射路径的系统动态功耗是否满足相应的功耗要求，以及当前节点所对应的路由结点与邻居节点所对应的路由结点之间的数据延迟是否在对应的延迟限制值内，若系统动态功耗或路由结点之间的数据延迟不能满足要求，则剔除当前任务节点的映射方案。

所述两个任务节点连接边的延迟限制值，是根据一幅任务图中各个任务节点之间的数据传输量差值的平均或非平均分割进行定义和赋值的，所述传输数据量的差值是指连接边的最大传输量与连接边的最小传输量的差值。

所述系统动态功耗采用下式计算：

其中，DE代表系统动态功耗，packSize(d)、packNum(d)和Ebit(d)分别表示在拓扑网络中进行传输的数据包的尺寸、数量以及单bit数据在两个路由器之间的数据通路上传输的动态功耗；其中，两个路由节点之间的传输数据量等于数据信息中数据包的数量乘以数据包的尺寸。

与现有技术相比，本发明的有益效果是：

本发明是基于带宽延迟限制的分支界定映射方法，在现有分支界定算法的基础上，采用任务节点间的数据传输量(即传输带宽要求)作为限制来约束分支轮询，从而减少映射方案开发的CPU时间，并平衡系统网络负载，因此可大大改善基于异构NoC的应用系统的性能。本发明适用于任何具有对称结构的片上网络拓扑结构，且由于拓扑结构具有对称性，因此，本发明可产生超过一种最优或次最优的映射方案以获取最佳的系统性能。

附图说明

图1所示为本发明的片上网络分支界定任务映射方法的流程图；

图2所示为任务图与NoC阵列的映射关系示意图；

图3所示为随机任务图示例；

图4所示为4×4mesh拓扑架构图示例；

图5A-5D所示为基于传输带宽要求的延迟限制定义的四种情况示例；

图6A-6D所示为本发明的映射方法的映射实例。

具体实施方式

以下结合附图和具体实施例对本发明作进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

参见1所示，一种片上网络分支界定任务映射方法，包括以下步骤：

下面结合任务图与NoC阵列进行说明。

对于一个给定的应用，映射问题就是要解决如何将所选择的IP核(任务节点)一一对应地映射到NoC拓扑阵列的路由节点上，如同图2所示。其中，图2 中左侧的任务图G(T_i,T_j,D_ij)(0≤i,j≤Num_G,i,j∈N，N为正整数，Num_G为该任务图的任务节点个数)是一个描述特定应用的定向无循环的图集，T_i,T_j为图集中任意两个任务节点，D_ij为图集中两个任务节点T_i和T_j的通讯数据量；右侧的NoC 拓扑结构图R(R_i,R_j,D_ij)(0≤i,j≤Num_G,i,j∈N，N为正整数，Num_R为该拓扑结构图的路由器结点个数)是一个描述NoC阵列的定向图集，R_i,R_j为图集中任意两个路由器结点，D_ij为图集中映射到两个路由器结点R_i和R_j的任务节点所需传输的数据量。片上网络任务映射技术最理想的效果是获得一个具有最优的时序延迟或最小的系统功耗的系统映射方案。

与传统的分支界定算法相似，本发明方法在特定限制条件下，遍历所有可能的映射方案，最终定位出一个最优的映射方案，它循环地执行两个步骤：分支和界定。

从根节点开始，算法对每一个树形搜索的分支进行路径遍历，将每一个尚未映射的任务节点一一对应地映射到NoC阵列中没有被占用的路由结点上。其次，对于每一个已经映射完毕的任务节点及其尚未映射的子节点(与该节点有连接关系的任务节点)，分支步骤试图将当前子节点分配到任何一个未被占用的路由结点上。以此类推，一个新的合理的路径分配将产生一个新的合理的映射方案，同时计算出该映射方案的当前功耗，并将当前功耗与系统的最小功耗进行对比。在这里，这个全新的合理的路径分配必须避免死锁现象的发生。

该算法的界定步骤采用了三种界定条件来约束和评估每一条搜索路径并及时剔除不合理的路径，使CPU不再做多余的无效尝试。这三种界定条件分别是带宽要求、延迟限制和功耗最小化。任意两个任务节点所映射的路由结点之间的步长必须小于等于它们之间的延迟限制。映射方案的传输动态功耗也应该小于等于系统最小功耗。在探索当前路径的尝试中，一旦以上两个界定条件中的任何一个被违反，那么当前的尝试就会被立即终止。与此同时，映射方案中所有传输路径的实际带宽必须满足应用传输带宽的需求，否则，该方案也被视为不合理方案而被剔除。由此可知，这些界定条件在树形搜索的过程中，可以提前剔除那些不合理的映射方案。通过这种方式，可以加速映射实现的过程，减少CPU的执行时间及对内存的使用，从而提高任务映射实现的效率。

该发明中，NoC映射的延迟限制被定义为对应于任务节点的两个通讯路由结点之间的最大步长。它标志着这两个任务节点之间可以被映射的最大距离。在实际的NoC设计应用中，不同应用的特性和结构各不相同，在这样的前提下，它们对于延迟限制的要求也会有很大的不同。定义延迟限制主要包含两个步骤：第一步是确定延迟限制的最大值和最小值；第二步是为特定应用的任务节点连接边的延迟限制赋值。

实验表明，延迟限制的最大值Latency_MAX和最小值Latency_MIN的确定主要取决于两个因素：NoC拓扑结构的尺寸和应用的任务节点个数。对于不同的NoC拓扑结构和不同的任务节点个数，延迟限制的最大值和最小值的选择也是截然不同的。例如，对于M×N meshNoC，两个路由结点之间的最大距离为(M+N-2)，最小距离为1。对于如图3的随机任务图而言，两个任务节点之间的最大距离在 4×4mesh结构上映射时为2，在2×7mesh结构上映射时为3。因此，延迟限制的最大值Latency_MAX和最小值Latency_MIN的确定取决于所选择NoC的拓扑结构以及任务图的特定结构。

一旦延迟限制的最大值和最小值被确定，任务图中，每条任务连接边的延迟限制值就应该取在两者之间。通过观察和实验发现，在任务图中，每一条任务连接边的延迟限制值的确定很大程度上取决于任务节点连接边的传输数据量。这个因素可以对映射方案开发时间以及映射质量产生最直接的影响。

应用中，任务连接边的延迟限制函数被定义为

Latency(e_i,j)＝f(E_dNum,X,Y,Num_G) (1)

其中，

Latency_MIN≤Latency(e_i,j)≤Latency_MAX (2)

这里，Latency(ei,j)表示两个任务节点连接边的延迟限制值，E_dNum代表两个任务节点之间数据传输量(例如，对于图3中的随机任务图，E_dNum(e2,4)＝165， E_dNum(e0,4)＝234)。X,Y表示了拓扑结构图的尺寸，Num_G表征任务图中的任务节点个数，这三个参数共同界定了所定义的延迟限制的范围。

基于传输带宽要求的延迟限制定义的方法是将系统数据传输所需的带宽要求考虑到延迟限制的定义中。它根据一幅任务图中各个任务节点之间的数据传输量来定义它们之间的延迟限制。

在本发明中，采用路由器之间的数据延迟来表征系统的传输性能。两个路由器之间的数据传输延迟通常表示为

Latency＝(∑n_ixR_i)+P*2+T_LINK (3)

在这里，n表示的是源路由器和目的路由器之间的步长(hop number)，R 表示的是在每个路由器上执行路由算法所需要的时间。经试验测试，在二维NoC 上R等于7个时钟周期，在三维NoC上R为11个时钟周期。这是因为与二维路由相比，三维路由算法需要额外的指令来对比Z方向的数据包地址。P表示数据包(packet)的尺寸，T_LINK是FPGA之间多维连接的延迟。对单个FPGA板的内部数据传输而言，T_LINK等于0。

在这里，假设每bit数据的单位动态功耗是不变的，因此根据实验分析可以给出用来评估特定应用的不同设计策略下系统动态功耗的相对统计值。

这里，DE代表整个应用的数据传输的动态功耗，packSize(d)、packNum(d) 和Ebit(d)分别表示在拓扑网络中进行传输的数据包的尺寸和数量以及单bit数据在两个路由器之间的数据通路上传输的动态功耗。其中，两个路由节点之间的传输数据量等于数据信息中数据包的数量乘以数据包的尺寸.

根据公式(3)和公式(4)可知，系统的传输延迟以及动态功耗在很大程度上取决于数据传输量的大小。该种定义方法的原则是：数据的传输量越大，其传输的距离就应该越小，这样其所消耗的传输延迟和动态功耗就越少。

任务节点连接边的数据传输量从最小值到最大值之间分为若干段。其中，数据传输量大的延迟限制就紧(小)，相反，数据传输量小的延迟限制就大一些。根据传输最大值和最小值之差，可以平均地或不平均地将任务节点划分成组，这些分割区域可能是均匀的也可以是不均匀的。每一条边的延迟限制是根据它的传输数据量落在哪一个区域内来进行赋值的。

基于4×4mesh NoC，图5A-5D给出了将图3中任务图映射到图4中的4× 4mesh NoC拓扑结构上时的基于带宽要求的延迟限制定义的例子，分别是根据传输数据量的差值(Δ＝连接边的最大传输量–连接边的最小传输量)的平均或非平均分割来进行定义和赋值的。图5A-5D中，D、D_Max和D_Min分别表示某一条边的数据传输量、最大数据传输量和最小数据传输量。

以1/3平均分割为例，在图5A-5D中，所有的任务连接线按照数据传输的平均量分为三个等分的组。其延迟限制的最大值和最小值分别设定为4和2。凡是传输数据量D小于D_Min+Δ/3的任务节点连接边，其延迟限制值设定为4；传输数据量D小于D_Min+2Δ/3且大于D_Min+Δ/3的任务节点连接边，其延迟限制值设为3；而传输数据量大于D_Min+2Δ/3的任务连接边，其延迟限制值赋值为2。

根据以上所描述的定义方法，图3所示的任务图的每一条任务节点连接边在不同定义方法下的延迟限制值就可以被确定了，如表1所示，表1示出了根据不同定义方法的基于带宽要求的图2所示任务图的延迟限制。

连接边	5A	5B	5C	5D
					(n0,n1)	3	4	3	4
(n1,n2)	1	1	1	1
					(n1,n3)	2	3	2	3
(n0,n4)	3	4	3	3
					(n2,n4)	3	4	3	3
(n4,n5)	2	3	2	3
					(n4,n6)	3	3	2	3
(n4,n7)	3	3	2	3
					(n4,n8)	3	4	3	3

表1

在这里，图3中的任务图是被映射到了一个4×4mesh NoC的拓扑阵列架构上。根据NoC的拓扑尺寸和任务节点的总数，选择的最大和最小延迟限制的值分别为4和1。

本发明中所提出的NoC任务映射方法流程，如图1所示包括三个输入，分别为：所需设计的特定应用的任务图、根据传输带宽要求所定义的延迟限制以及所选定的NoC拓扑结构。根据这三个输入，按照图1中所描述的进程，最终可以获得一个或多个针对该特定应用的最优或次优的任务映射方案。

以图3中的随机任务图为例，根据图5A中所示的延迟限制定义方法，本发明方法被采用，将任务节点一一对应地映射到4×4mesh拓扑架构上，如图6A-6D 所示：任务节点n4因具有最多的输入输出连接而被选为根节点，被映射到NoC 拓扑阵列的中心位置。这是因为中心的路由器结点具有最大数量的相邻结点，从而可以为根节点的子节点提供更多的映射选择，如图6A所示。

从任务根节点开始，算法选择根节点或者一个已经被映射的任务节点作为热节点(hot node)，然后将该热节点的子节点依次映射到未被占用的路由结点上。例如，根节点n4就是第一个热节点。围绕着映射了任务节点n4的结点R5， n4的子节点根据约束被逐一映射。其中，在热节点未被映射的子节点中，具有最大输入输出连接数目的子节点具有最大优先权而被选为当前节点，进行映射尝试，如图6B所示。以此类推，在当前热节点的所有子节点都被一一映射到路由结点上之后，具有最大传输指数TI的已被映射的子节点就会成为当前热节点，而它的子节点也会被逐一映射。例如，图6C中，任务节点n0作为第二个热节点，而它未被映射的子节点被逐一映射到满足约束的路由器结点上。接着，任务节点n1作为第三个热节点，其唯一未被映射的子节点n3被映射到满足系统约束的结点位置上，如图6D所示。

通过这种辐射式的选择方式，当任务图中的所有任务节点都被一一对应地映射到路由结点上之后，一个可能合理的映射方案就产生了。在以上描述的搜索尝试的过程中，每完成一个当前任务节点的映射尝试，当前已完成的映射路径的系统动态功耗就会被计算出来作为当前功耗与系统最小功耗进行对比。如果当前功耗大于系统最小功耗，则基于当前映射结果的进一步的映射搜索就会被立即停止。同时，在映射开发的过程中，根据系统带宽所定义的每一条任务连接边的延迟限制也要被考虑进去。一旦当前节点所对应的路由结点与它的邻居节点所对应的路由结点之间的步长超过它们之间的延迟限制，当前节点的此次映射就会被认为是无效的。

针对任何一个特定应用，根据不同的系统带宽要求，本发明可以大大减少片上网络任务映射方案开发的CPU时间，并平衡系统网络负载，因此可以大大改善基于异构NoC的应用系统的性能，从而为下一步的NoC设计提供高效低功耗的解决方案。本发明也具有极好的可扩展性和适用性，可应用于各种非数据循环和数据循环的应用以及所有具有对称拓扑结构的同构及异构片上网络架构。

以上所述仅是本发明的优选实施方式，应当指出的是，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种片上网络分支界定任务映射方法，其特征在于，包括以下步骤：

其中，任务节点映射时，每完成一个当前任务节点的映射尝试，判断当前已完成的映射路径的系统动态功耗是否满足功耗要求，以及当前节点所对应的路由结点与邻居节点所对应的路由结点之间的数据延迟是否在对应的延迟限制值内，若系统动态功耗或路由结点之间的数据延迟不能满足要求，则剔除当前任务节点的映射方案。

2.如权利要求1所述片上网络分支界定任务映射方法，其特征在于，所述根据传输带宽要求所定义的两个任务节点连接边的延迟限制值在延迟限制的最大值Latency_MAX和最小值Latency_MIN之间，所述的延迟限制的最大值Latency_MAX和最小值Latency_MIN的确定取决于所选择NoC的拓扑结构以及任务图的特定结构。

3.如权利要求2所述片上网络分支界定任务映射方法，其特征在于，所述两个任务节点连接边的延迟限制值，是根据一幅任务图中各个任务节点之间的数据传输量差值的平均或非平均分割进行定义和赋值的，所述传输数据量的差值是指连接边的最大传输量与连接边的最小传输量的差值。

4.如权利要求1所述片上网络分支界定任务映射方法，其特征在于，所述系统动态功耗采用下式计算：