CN105808358B

CN105808358B - 一种用于众核系统的数据相关性线程分组映射方法

Info

Publication number: CN105808358B
Application number: CN201610188032.8A
Authority: CN
Inventors: 董小社; 巨涛; 张兴军; 陈衡; 党博超; 吴树森
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2016-03-29
Filing date: 2016-03-29
Publication date: 2019-10-18
Anticipated expiration: 2036-03-29
Also published as: CN105808358A

Abstract

本发明公开了一种用于众核系统的线程数据相关性分组映射方法，该方法通过计算数据重用距离分析应用程序线程内部数据局部性，用线程相关性矩阵度量不同线程间的数据相关性；根据应用程序的数据相关性及众核处理器架构特点，利用最小生成树将应用线程分为能反映不同线程数据相关性逻辑组。最终实现线程到具体处理器不同处理核硬件线程的合理映射，降低线程间共享存储访问冲突，减少额外传输开销，为充分利用众核系统计算资源，提升程序计算性能提供了一个有效的解决方法。

Description

一种用于众核系统的数据相关性线程分组映射方法

【技术领域】

本发明属于计算机系统结构领域，涉及一种线程分组映射方法，尤其涉及一种用于众核系统的基于数据相关性的线程分组映射方法。

【背景技术】

如何充分利用众核处理器高计算能力，降低系统能耗是众核系统面临的关键问题。随着多核/众核技术的发展，众核处理器片内集成的处理器核数越来越多，进一步加剧了多个处理核对片上共享计算资源(如共享cache,共享带宽)的争用。同时由于众核处理器采用多级层次化的存储结构，导致其存储访问更加复杂。如果在程序运行过程中任务分配不合理，将具有频繁信息交互的线程分配到不同处理核的硬件线程之上，会引入较高的存储访问延迟，造成高的数据传输开销；如果将无数据相关性的多个线程分配到同一处理核上，会因不同线程访问不同数据，导致共享cache数据的频繁换入换出，造成高的共享存储访问冲突，增加额外传输开销。在将应用线程映射到众核处理器时，只有将应用程序数据局部性和处理器存储架构特点有效的结合起来，实现应用程序到处理核的合理映射，才能降低不同线程之间共享存储访问冲突、减少额外传输开销，提高计算资源利用率，提升应用程序的计算性能，降低异构系统整体能耗。

已有的根据程序局部性特点静态进行任务分配的研究工作，通过对反映程序数据及存储访问相关性的信息进行剖分、离线分析，然后划分任务。不考虑运行平台物理架构特点，直接将线程映射到处理核上，不能客观反映不同线程在具体运行平台上运行时的数据相关性特点。已有的根据程序运行时的局部性特点动态线程映射的研究工作，主要通过动剖分及迁移实现线程到处理核的映射，但动态剖分及迁移线程都会引入额外的运行时开销，有的还需特定的硬件支持，限制了其通用性。在处理核数目众多且存储结构复杂的众核系统上，由于同时要考虑计算性能和系统的整体能耗，以上线程映射方法不能满足众核系统高效能的计算需求。

针对以上存在的问题，目前还没有一种能够将众核系统架构特征和应用线程间固有的数据相关性特点结合、通过应用线程分组、实现线程到处理核的映射，以提高众核系统整体计算效能的有效方法。

【发明内容】

本发明的目的在于克服上述现有技术中的问题，提供一种用于众核系统的数据相关性线程分组映射方法，该线程分组映射方法以线程间的数据相关性为基础，实现应用线程数据局部性和处理核空间局部性的较好匹配，以最大化核内数据共享，最小化核间信息交互，可以在不引入额外运行时开销的情况下提升众核系统的整体计算效能。

为达到上述目的，本发明采用以下技术方案予以实现：

一种用于众核系统的线程数据相关性分组映射方法，包括如下步骤：

1)根据运行平台所支持的最大硬件线程数，采用均匀分配的方法将应用程序划分为相应数量的应用线程；

2)并行统计每个线程的存储访问数据，采用将访问数据插入平衡二叉树的方式，在插入数据结点的同时计算数据重用距离，并将相应数据重用信息记录在对应的数据结点内；

3)遍历生成的平衡二叉树，计算反映整个线程数据局部性的线程平均数据重用距离；

4)根据线程平均数据重用距离，标识出不同线程的局部性模式，不同的局部性模式反映不同线程内部数据局部性特点；

5)以线程数据局部性模式为依据，将线程归并为不同的模式类；统计同一模式类内不同线程间相同数据的访问量，用线程相关性矩阵Affinity Matrix度量不同线程之间的数据相关性；

6)将相关性矩阵转化成能直观反映线程之间局部性的相关性图Affinity Graph；

7)将线程相关性图和具体的硬件运行平台存储层次架构图相结合，将线程相关性图分解成K棵子树，实现将具有高数据共享的线程划分到同一个线程组内，将具有较强数据访问争用关系的线程划分到不同的线程组内；

8)根据众核处理器架构特点，通过静态绑定线程组到处理核的方法，实现应用线程到众核处理器处理核不同硬件线程的映射。

本发明进一步的改进在于：

所述步骤2)中，线程数据重用距离指相同访问数据最近两次访问间隔内不同访问数据的个数。

所述步骤4)中，数据局部性模式定义如下：

DSP：RD_j<D_min，该模式为数据共享模式，数据重用距离RD_j小于阈值D_min线程所访问数据的时间局部性好；

DIP：RD_j>D_max，该模式为数据无关模式，数据重用距离RD_j大于阈值D_max,线程所访问数据的时间局部性差，数据之间相互独立，无数据相关性；

DDP：D_min≤RD_j≤D_max，该模式为数据相关模式，数据重用距离RD_j介于阈值D_min与D_max之间，线程所访问数据之间存在数据依赖关系；

其中D_min及D_max为反映不同数据访存特点的数据重用距离阈值。

所述步骤5)中，线程相关性矩阵反映了不同线程间的数据共享特性，矩阵行和列标分别代表不同的线程ID，矩阵中的每个元素值代表对应行列所指线程间的数据共享量。

所述步骤8)中，具体映射方法为：

8-1)将同一线程组中的应用线程尽量分配到同一个处理核的不同硬件线程之上；如果该处理核线程已经全部分配，则将应用线程分配到相邻处理核的硬件线程之上；

8-2)将不同线程组中的应用线程分配到不同处理核的硬件线程之上，使无共享数据的线程分散到具有独立cache空间的不同处理核。

与现有技术相比，本发明具有以下有益效果：

本发明针对众核系统下线程到处理核的映射问题，通过计算不同线程数据重用距离来分析应用程序本身的数据相关性，根据不同应用线程内部和不同线程之间的数据相关性进行线程分组，以实现应用线程数据局部性和处理核空间局部性的较好匹配，最大化处理核内部线程间的数据局部性，最小化处理核之间的数据相关性，合理利用处理器片上cache层次，减少共享存储访问冲突，降低不必要的数据传输开销，在不增加程序运行时额外开销和无需特殊硬件支持的情况下提高程序的计算性能，降低系统能耗。

【附图说明】

图1为本发明的总体框架：

图2为具体的数据相关性线程分组映射实现框架。

【具体实施方式】

下面结合附图对本发明做进一步详细描述：

参见图1，本发明包括以下步骤：

1)根据众核处理器所支持的最大硬件线程数，将应用程序划分成相应数量的逻辑线程；

2)使用Intel Pin API编写Pin工具，并行统计每个线程的存储访问数据；

3)线程数据访问信息的统计通过在二叉树中插入结点的方式实现。数据结点的插入采用以数据时间戳(时间戳代表数据被访问的次序)为主键的平衡二叉树中序插入算法。

4)每插入一个结点的同时将相关数据项信息记录在该结点的数据结构中，节点数据结构定义如下：Node(TS；Element；Frequency；Weight；RD)。每个数据项存储以下信息：

TS(Time stamp)：时间戳，记录数据被访问的先后次序；Element：所访问的数据元素；Frequency：频度，记录数据被访问的次数，用于统计整个线程的数据访问量；Weight：权重，记录当前结点所包含的子结点个数，用于计算重用距离；RD(Reuse Distance)：数据重用距离。

5)整个计算线程数据重用距离是一个在平衡二叉树中插入结点、删除结点和遍历结点的过程。当依次扫描完线程所访问的数据后，随即生成一棵记录了线程数据重用距离信息的平衡二叉树；

6)遍历每个线程对对应的平衡二叉树，计算出每个线程的平均数据重用距离，以此量化线程内数据局部性。

设线程总数为K，每个线程的平均数据重用距离为RD_j(j＝1,2,…,K)，线程内部每个数据的重用距离为rd_i，线程访问的不同数据总数为M(平衡二叉树结点个数)，则线程平均数据重用距离为：

7)根据数据存储访问特点，设置反映不同数据访存特点的数据重用距离阈值D_min及D_max，以重用距离阈值为基准，将数据重用距离划分为三个不同的区间，分别对应三种不同的局部性模式。将不同线程平均数据重用距离和重用距离阈值比较后，标识出线程所属的局部性模式。数据局部性模式定义如下：

DSP(Data Sharing Pattern)：RD_j<D_min，该模式下，线程所访问的数据有很强的时间局部性，数据间有较强的数据相关性；DIP(Data Isolation Pattern)：RD_j>D_max，该模式下，线程所访问数据的时间局部性差，数据之间相互独立，无数据相关性；DDP(DataDependency Pattern)：D_min≤RD_j≤D_max，该模式下，线程所访问数据有一定的时间局部性，数据之间存在数据依赖关系，有一定的数据相关性。其中D_min及D_max为反映不同数据访存特点的数据重用距离阈值。

8)将线程归并为不同的模式类；

9)比较同一个模式类内不同线程之间所访问的相同数据个数，并记入线程相关性矩阵(Affinity Matrix)中。线程相关性矩阵反映了不同线程间的数据共享特性，矩阵行标和列标分别代表不同的线程ID，矩阵中的每个元素值代表对应行列所指线程间的数据共享量，矩阵元素值越大表明对应线程之间数据共享性越好，线程间的相关性越强；

10)将线程相关性矩阵转换成能直观反映线程间数据相关性的相关性图(Affinity Graph)。相关性图是一个顶点代表不同线程ID，边代表对应两线程间数据共享量的无向图；

11)线程逻辑分组。在线程相关性图的基础上，将线程相关性图分解为K棵子树，实现将具有高数据共享的线程划分到同一个线程组内，将具有较强数据访问争用关系的线程划分到不同的线程组内，从而降低因不同线程之间相互竞争共享计算资源引起的高存储访问冲突。

12)线程组到处理核的映射。以线程相关性子图和硬件架构存储层次图为基础，通过线程到处理核的静态绑定，实现线程到处理核硬件线程的映射。

本发明能够对应用程序不同线程的数据相关性进行度量，根据线程数据相关性进行应用线程的逻辑分组后实现线程到处理核的映射执行，从而在不引入额外运行时开销的情况下提升众核系统整体计算效能。具体的数据相关性线程分组映射过程如图2所示。

本发明针对众核系统下线程到处理核的映射问题，利用不同线程内部数据局部性及不同线程间的数据相关性特点，结合具体硬件架构特征，对线程进行逻辑分组；在线程逻辑分组的基础上，将线程映射到能充分利用数据局部性的不同处理核的不同硬件线程之上。本发明可以根据应用线程间的数据相关性特点，实现应用线程数据局部性和处理核空间局部性的较好匹配，减少共享存储访问冲突，降低不必要的数据传输开销，在不增加程序运行时额外开销和无需特殊硬件支持的情况下提高程序的计算性能，降低系统能耗，为众核系统提供了一种有效的线程到处理核的映射方法。

以上内容仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明权利要求书的保护范围之内。

Claims

1.一种用于众核系统的线程数据相关性分组映射方法，其特征在于，包括如下步骤：

2)并行统计每个线程的存储访问数据，采用将访问数据插入平衡二叉树的方式，在插入数据结点的同时计算数据重用距离，并将相应数据重用信息记录在对应的数据结点内；线程数据重用距离指相同访问数据最近两次访问间隔内不同访问数据的个数；

4)根据线程平均数据重用距离，标识出不同线程的局部性模式，不同的局部性模式反映不同线程内部数据局部性特点；数据局部性模式定义如下：

其中D_min及D_max为反映不同数据访存特点的数据重用距离阈值；

线程相关性矩阵反映了不同线程间的数据共享特性，矩阵行和列标分别代表不同的线程ID，矩阵中的每个元素值代表对应行列所指线程间的数据共享量；

6)将相关性矩阵转化成能直观反映线程之间局部性的相关性图AffinityGraph；

8)根据众核处理器架构特点，通过静态绑定线程组到处理核的方法，实现应用线程到众核处理器处理核不同硬件线程的映射；具体映射方法为：