CN105975434B

CN105975434B - 面向异构系统的数据传输优化方法

Info

Publication number: CN105975434B
Application number: CN201610283304.2A
Authority: CN
Inventors: 甘新标; 刘杰; 杨灿群; 胡庆丰; 徐涵; 迟利华; 晏益慧; 龚春叶; 李胜国; 孙建政; 祁宝鑫; 季小聪
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2016-04-29
Filing date: 2016-04-29
Publication date: 2018-10-02
Anticipated expiration: 2036-04-29
Also published as: CN105975434A

Abstract

本发明公开了一种面向异构系统的数据传输优化方法，目的是减少数据传输量，提高异构系统数据传输效率和提升异构计算系统效率。技术方案是先定义工作流中的处理器集合C和整个工作流中的任务集T，然后收集工作流中任务处理需要的原始数据集合D，统计工作流中各任务与数据之间的关系，接着在任务运行过程生成中间数据集，最后确认任务运行需要传入的最小数据集。采用本发明可以将处理器之间需要传输的数据集最小化，缓解异构系统数据传输压力，提高异构系统的带宽利用率，提升异构计算系统效率。

Description

面向异构系统的数据传输优化方法

技术领域

本发明涉及数据传输优化方法，尤指面向异构计算系统的数据传输优化方法。

背景技术

异构计算系统是由主处理器和加速器两种不同体系结构处理器搭建的计算机系统。目前，主流的异构计算系统有CPU+GPU(Graphics Processing Units)和CPU+MIC(ManyIntegrated Core)组成异构计算系统。

通常，异构计算系统中主处理器与加速器之间通过PCIE(Peripheral ComponentInterface Express，外围器件扩展接口)通道以数据报文的形式完成数据传输和通信，加速器内部的全局通信必须在加速器全局存储空间中进行，基本通信模式如图1所示。

随着异构计算系统计算能力的不断攀升，相对滞后的数据通信能力逐渐成为异构计算系统性能进一步提升的瓶颈。如何避免主处理器和加速器之间频繁的数据通信、提高PCIE数据传输效率是异构计算系统高效协同及性能优化的关键。

目前，异构计算系统中主处理器与加速器之间的数据传输优化方法主要有以下几种：

(1)零拷贝。该方法指加速器端独立完成待处理数据集的生成和存储，避免数据在主处理器和加速器之间的来回传输。但是，该方法对加速器端的存储层次和存储空间容量要求高，并且加速器端支持的数据结构类型有限。因此，零拷贝方法虽然能够最小化主处理器与加速器之间的数据传输，但是适用范围受限。

(2)数据传输与数据计算重叠。该方法的核心思想为将主处理器与加速器之间的数据传输延迟隐藏于数据计算之中，可以显著提升异构计算系统的效率。该方法通常要求数据计算时间远大于数据传输时间，只有这样才能将数据传输时间很好的重叠与数据计算之中，才能提升异构计算系统效率。但是，该方法对数据传输操作并无优化，对于数据传输时间接近甚至超过数据计算时间的情形，该方法很难将数据传输重叠于数据计算之中。

上述两类异构计算系统中主处理器与加速器之间的数据传输优化方法在一定程度上，面向具体的大规模应用加速都可以提高异构计算的执行效率。但是，零拷贝方法应用范围十分有限；传输与数据计算重叠方法并没有减少数据传输量，甚至会造成不必要的数据传输，严重影响了异构系统的数据传输访问性能。

如何确认最小数据集的传输，解决异构系统数据传输效率低下的难题是本领域技术人员关注的重要技术问题。

发明内容

本发明要解决的技术问题在于：针对异构系统数据传输效率低下的问题，提出一种面向异构系统的数据传输优化方法，避免冗余数据传输，保证最小数据集的传输，减少数据传输量，以提高异构系统数据传输效率和提升异构计算系统效率。

为了解决上述技术问题，本发明的具体技术方案为：

第一步、定义工作流中的处理器集合C：C＝{c₁,c₂,…c_j,…c_N}，其中，c_j为第j个处理器，c_j的属性cpt_j＝core×f×simd，其中j＝1,2,…,N，N为异构系统中处理器和加速器的总数，cpt_j表示处理器c_j的处理能力大小，core为c_j的核数，f为c_j的主频，simd为c_j的向量处理单元宽度。由于在工作流中的任务数量很多，任务被分派到处理器后，完成每个任务需要的处理时间与处理器的性能有关，该性能取决于参数cpt_j。由于用户可以根据自己需要申请数据的存储空间，所以不考虑处理器本地存储容量限制问题。

第二步、定义整个工作流中的任务集T＝{t₁,t₂,…t_i,…,t_M}，其中，第i个任务t_i＝<runtime_i,task_id>，runtime_i为任务t_i运行时间，task_id为执行任务t_i所需的数据集，其中i＝1,2,…M，M为工作流中任务的个数；

第三步、收集工作流中任务处理需要的原始数据集合D，具体步骤如下：

3.1初始化原始数据集合

3.2定义变量k＝1，

3.3初始化任务t_k的数据集

3.4通过IntelVtune性能分析工具收集t_k运行所需要的数据，收集的数据d为四元组d＝<size,T,c,link>，其中，size表示数据的大小，T为引用数据d的任务集合，c为d所在的处理器，link表示数据d相对于T中对应任务的传输方向，有两个值，若link为in，表示该数据为对应任务的输入数据，若link为out，表示该数据为对应任务的输出数据，将数据d加到集合D_k中；

3.5更新数据集D＝D∪D_k，将D_k的元素添加到D；

3.6更新k＝k+1；

3.7如果k≤M，转3.3，否则，原始数据收集完毕，得到原始数据集合D，转第四步；

第四步、统计工作流中各任务与数据之间的关系。具体方法如下：

4.1令第一任务集合变量S_T＝T，即将工作流中的任务集T＝{t₁,t₂,…t_i,…,t_M}赋值给S_T；

4.2令数据集合S_D＝D，将数据集合D赋值给集合S_D；

4.3定义变量i＝1；

4.4任取S_T中的一个元素，该任务用t_i表示；

4.5定义任务t_i所需的数据集

4.6定义变量j＝0；

4.7任取S_D中任意一个数据，该数据用d_j表示；

4.8若任务t_i需要引用数据d_j,将数据d_j加入任务t_i所需的数据集daskt_i，即转4.9；否则，直接转4.9；

4.9更新S_D＝S_D-{d_j}，从集合中删除元素d_j；

4.10若j＝j+1，转4.7，否则，数据集合遍历完毕，转4.11；

4.11更新S_T＝S_T-{t_i}；

4.12若i＝i+1，转4.4，否则，任务集合遍历完毕，转第五步；

第五步、在任务运行过程中生成中间数据集。具体步骤如下：

5.1定义第二任务集合变量T_T，令T_T＝T，即将工作流中的任务集T＝{t₁,t₂,…t_i,…,t_M}赋值给T_T；

5.2令变量p＝1；

5.3任取T_T中的一个元素，该任务用t_p表示；

5.4定义任务t_p生成的中间数据集

5.5采用Intel Vtune性能分析工具统计任务t_p运行生成的中间数据，将中间数据放到集合

5.6更新数据集即令

5.7更新T_T＝T_T-{t_p}；

5.8若p＝p+1，转5.4，否则，任务集合遍历完毕，转第六步；

第六步、确认任务运行需要传入的最小数据集。具体步骤如下：

6.1定义第三任务集合变量TD_T，令TD_T＝T，即将工作流中的任务集T＝{t₁,t₂,…t_i,…,t_M}赋值给TD_T；

6.2令变量q＝1；

6.3任取任务集合TD_T中的一个元素，该任务用t_q表示；

6.4确认任务t_q需要且已经位于t_q所在处理器的数据集合和t_q需要的数据集合具体方法如下：

6.4.1定义任务t_q需要的数据

6.4.2定义任务t_q需要且已经位于任务t_q所在处理器的数据集合

6.4.3定义集合ST_D＝D，将数据集合D赋值给集合ST_D；

6.4.4令r＝0；

6.4.5任取数据集合ST_D中一个数据，该数据用d_r表示；

6.4.6若任务t_q需要引用数据d_r，进一步核查d_r相对于任务t_q的传输方向，转6.4.7，否则，任务t_q不需要引用d_r，转6.4.10；

6.4.7若数据d_r相对于任务t_q的传输方向为out，也就是说数据d_r已经位于t_q所在处理器，转6.4.8，否则，数据d_r相对于任务t_q的传输方向为in，仅将数据加入任务需要的数据集合，转6.4.9；

6.4.8将数据d_r加入t_q需要且已经位于t_q所在处理器的数据集合

6.4.9将该数据加入t_q需要的数据集合

6.4.10ST_D＝ST_D-{d_r}；

6.4.11若r＝r+1，转6.4.5，否则，t_q需要且已经位于t_q所在处理器的数据核实遍历完毕，得到t_q需要且已经位于t_q所在处理器的数据集合和t_q需要的数据集合转6.5；

6.5确认由除t_q之外的任务产生但位于t_q所在处理器的中间数据集具体方法如下：

6.5.1令由除t_q之外任务产生但位于t_q所在处理器的中间数据集

6.5.2定义第四集合变量TDO_T，TDO_T＝T，即将工作流中的任务集T＝{t₁,t₂,…t_i,…,t_M}赋值给TDO_T；

6.5.3令s＝1；

6.5.4任取任务集合TDO_T中的一个元素，该任务用t_s表示；

6.5.5若t_s≠t_q，即任取的任务不是t_q，转6.5.6，否则，转6.5.8；

6.5.6定义由t_s生成的中间数据集合

6.5.7将t_s生成的中间数据集加入

6.5.8TDO_T＝TDO_T-{t_s}，从TDO_T中删除t_s；

6.5.9选出由除t_q之外任务产生但位于任务t_q所在处理器的中间数据集合；

6.5.10若s＝s+1，转6.5.4，否则，转6.6；

6.6计算t_q需要传入的最小数据集具体方法如下：

6.6.1定义t_q需要传入的最小数据集合

6.6.2即t_q最小传输数据集为t_q需要的数据集减去t_q需要并且已经位于t_q所在处理器的数据集再减去t_q需要但由除t_q之外任务产生且位于t_q所在处理器的中间数据集合

6.6.3 TD_T＝TD_T-{t_q}，从任务集合中删除t_q；

6.6.4若q＝q+1，转6.3；否则，转第七步；

第七步、结束。

采用本发明可以达到以下技术效果：

1.第六步将处理器之间需要传输的数据集最小化，缓解了异构系统数据传输压力，提高了面向异构系统的数据传输效率；

2.由于数据传输效率的提高，提高了异构系统的带宽利用率，并且加快了面向异构系统的应用程序运行速度，提升了异构计算系统效率。

附图说明

图1为基于PCIE通信模式的异构计算系统体系结构。

图2为本发明面向异构计算系统的数据传输优化方法总体流程图。

具体实施方式

图1为基于PCIE通信模式的由主处理器CPU和加速器(如DSP、GPU、MIC)组成的异构计算系统体系结构示意图，其中，主处理器端拥有内存，加速器端拥有全局存储空间；主处理器与加速器之间通过PCIE总线进行通信和数据传输。

图2为本发明的总体流程图，其具体实施步骤如下：

第一步、定义工作流中的处理器集合C：C＝{c₁,c₂,…c_j,…c_N}，其中，c_j为第j个处理器，c_j的属性cpt_j＝core×f×simd，其中j＝1,2,…,N，N为异构系统中处理器和加速器的总数，cpt_j表示处理器c_j的处理能力大小，core为c_j的核数，f为c_j的主频，simd为c_j的向量处理单元宽度。

3.1初始化原始数据集合

3.2定义变量k＝1，

3.3初始化任务t_k的数据集

3.4通过IntelVtune性能分析工具收集t_k运行所需要的数据，收集的数据d为四元组d＝<size,T,c,link>，其中，size表示数据的大小，T为引用数据d的任务集合，c为d所在的处理器，link表示数据d相对于T中对应任务的传输方向，有两个值，若link为in，表示该数据为对应任务的输入数据,若link为out，表示该数据为对应任务的输出数据，将数据d加到集合D_k中；

3.5更新数据集D＝D∪D_k，将D_k的元素添加到D；

3.6更新k＝k+1；

4.2令数据集合S_D＝D，将数据集合D赋值给集合S_D；

4.3定义变量i＝1；

4.4任取S_T中的一个元素，该任务用t_i表示；

4.5定义任务t_i所需的数据集

4.6定义变量j＝0；

4.7任取S_D中任意一个数据，该数据用d_j表示；

4.8若任务t_i需要引用数据d_j,将数据d_j加入任务t_i所需的数据集即转4.9；否则，直接转4.9；

4.9更新S_D＝S_D-{d_j}，从集合中删除元素d_j；

4.10若j＝j+1，转4.7，否则，数据集合遍历完毕，转4.11；

4.11更新S_T＝S_T-{t_i}；

4.12若i＝i+1，转4.4，否则，任务集合遍历完毕，转第五步；

5.2令变量p＝1；

5.3任取T_T中的一个元素，该任务用t_p表示；

5.4定义任务t_p生成的中间数据集

5.6更新数据集即令

5.7更新T_T＝T_T-{t_p}；

5.8若p＝p+1，转5.4，否则，任务集合遍历完毕，转第六步；

6.2令变量q＝1；

6.3任取任务集合TD_T中的一个元素，该任务用t_q表示；

6.4.1定义任务t_q需要的数据

6.4.2定义任务t_q需要且已经位于任务t_q所在处理器的数据集合6.4.3定义集合ST_D＝D，将数据集合D赋值给集合ST_D；

6.4.4令r＝0；

6.4.5任取数据集合ST_D中一个数据，该数据用d_r表示；

6.4.9将该数据加入t_q需要的数据集合

6.4.10 ST_D＝ST_D-{d_r}；

6.5.3令s＝1；

6.5.4任取任务集合TDO_T中的一个元素，该任务用t_s表示；

6.5.6定义由t_s生成的中间数据集合

6.5.7将t_s生成的中间数据集加入

6.5.8TDO_T＝TDO_T-{t_s}，从TDO_T中删除t_s；

6.5.10若s＝s+1，转6.5.4，否则，转6.6；

6.6计算t_q需要传入的最小数据集具体方法如下：

6.6.1定义t_q需要传入的最小数据集合

6.6.3 TD_T＝TD_T-{t_q}，从任务集合中删除t_q；

6.6.4若q＝q+1，转6.3；否则，转第七步；

第七步、结束。

Claims

1.一种面向异构系统的数据传输优化方法，其特征在于包括以下步骤：

第一步、定义工作流中的处理器集合C：C＝{c₁,c₂,…c_j,…c_N}，其中，c_j为第j个处理器，c_j的属性cpt_j＝core×f×simd，其中j＝1,2,…,N，N为异构系统中处理器和加速器的总数，cpt_j表示处理器c_j的处理能力大小，core为c_j的核数，f为c_j的主频，simd为c_j的向量处理单元宽度；

第三步、收集工作流中任务处理需要的原始数据集合D，D中存放的数据d为四元组，d＝<size,T,c,link>，其中，size表示数据的大小，T为引用数据d的任务集合，c为d所在的处理器，link表示数据d相对于T中对应任务的传输方向，有两个值，若link为in，表示该数据为对应任务的输入数据,若link为out，表示该数据为对应任务的输出数据；

第四步、统计工作流中各任务与数据之间的关系，具体方法如下：

4.1 令第一任务集合变量S_T＝T；

4.2 令数据集合S_D＝D；

4.3 定义变量i＝1；

4.4 任取S_T中的一个元素，该任务用t_i表示；

4.5 定义任务t_i所需的数据集

4.6 定义变量j＝0；

4.7 任取S_D中任意一个数据，该数据用d_j表示；

4.8 若任务t_i需要引用数据d_j,将数据d_j加入任务t_i所需的数据集即转4.9；否则，直接转4.9；

4.9 更新S_D＝S_D-{d_j}，从集合中删除元素d_j；

4.10 若j＝j+1，转4.7，否则，数据集合遍历完毕，转4.11；

4.11 更新S_T＝S_T-{t_i}；

4.12 若i＝i+1，转4.4，否则，任务集合遍历完毕，转第五步；

第五步、在任务运行过程中生成中间数据集，具体步骤如下：

5.1 定义第二任务集合变量T_T，令T_T＝T；

5.2 令变量p＝1；

5.3 任取T_T中的一个元素，该任务用t_p表示；

5.4 定义任务t_p生成的中间数据集

5.5 采用Intel Vtune性能分析工具统计任务t_p运行生成的中间数据，将中间数据放到集合

5.6 更新数据集即令

5.7 更新T_T＝T_T-{t_p}；

5.8 若p＝p+1，转5.4，否则，任务集合遍历完毕，转第六步；

第六步、确认任务运行需要传入的最小数据集，具体步骤如下：

6.1 定义第三任务集合变量TD_T，令TD_T＝T；

6.2 令变量q＝1；

6.3 任取任务集合TD_T中的一个元素，该任务用t_q表示；

6.4 确认任务t_q需要且已经位于t_q所在处理器的数据集合和t_q需要的数据集合具体方法如下：

6.4.1 定义任务t_q需要的数据

6.4.2 定义任务t_q需要且已经位于任务t_q所在处理器的数据集合

6.4.3 定义集合ST_D＝D，将数据集合D赋值给集合ST_D；

6.4.4 令r＝0；

6.4.5 任取数据集合ST_D中一个数据，该数据用d_r表示；

6.4.6 若任务t_q需要引用数据d_r，进一步核查d_r相对于任务t_q的传输方向，转6.4.7，否则，任务t_q不需要引用d_r，转6.4.10；

6.4.7 若数据d_r相对于任务t_q的传输方向为out，也就是说数据d_r已经位于t_q所在处理器，转6.4.8，否则，数据d_r相对于任务t_q的传输方向为in，仅将数据加入任务需要的数据集合，转6.4.9；

6.4.8 将数据d_r加入t_q需要且已经位于t_q所在处理器的数据集合

6.4.9 将该数据加入t_q需要的数据集合

6.4.10 ST_D＝ST_D-{d_r}；

6.4.11 若r＝r+1，转6.4.5，否则，t_q需要且已经位于t_q所在处理器的数据核实遍历完毕，得到t_q需要且已经位于t_q所在处理器的数据集合和t_q需要的数据集合转6.5；

6.5 确认由除t_q之外的任务产生但位于t_q所在处理器的中间数据集

6.6 计算t_q需要传输的最小数据集具体方法如下：

6.6.1 定义t_q需要传输的最小数据集合

6.6.2 即t_q最小传输数据集为t_q需要的数据集减去t_q需要并且已经位于t_q所在处理器的数据集再减去t_q需要但由除t_q之外任务产生且位于t_q所在处理器的中间数据集合

6.6.3 TD_T＝TD_T-{t_q}，从任务集合中删除t_q；

6.6.4 若q＝q+1，转6.3；否则，转第七步；

第七步、结束。

2.如权利要求1所述的一种面向异构系统的数据传输优化方法，其特征在于第三步所述收集工作流中任务处理需要的原始数据集合D的具体步骤如下：

3.1 初始化原始数据集合

3.2 定义变量k＝1，

3.3 初始化任务t_k的数据集

3.4 通过Intel Vtune性能分析工具收集t_k运行所需要的数据d，将数据d加到集合D_k中；

3.5 更新数据集D＝D∪D_k，将D_k的元素添加到D；

3.6 更新k＝k+1；

3.7 如果k≤M，转3.3，否则，原始数据收集完毕，得到原始数据集合D。

3.如权利要求1所述的一种面向异构系统的数据传输优化方法，其特征在于第6.5步所述确认由除t_q之外的任务产生但位于t_q所在处理器的中间数据集的方法是：

6.5.1 令由除t_q之外任务产生但位于t_q所在处理器的中间数据集

6.5.2 定义第三集合变量TDO_T，TDO_T＝T，即将工作流中的任务集T＝{t₁,t₂,…t_i,…,t_M}赋值给TDO_T；

6.5.3 令s＝1；

6.5.4 任取任务集合TDO_T中的一个元素，该任务用t_s表示；

6.5.5 若t_s≠t_q，转6.5.6，否则，转6.5.8；

6.5.6 定义由t_s生成的中间数据集合

6.5.7 将t_s生成的中间数据集加入

6.5.8 TDO_T＝TDO_T-{t_s}，从TDO_T中删除t_s；

6.5.9 选出由除t_q之外任务产生但位于任务t_q所在处理器的中间数据集合；

6.5.10 若s＝s+1，转6.5.4，否则，得到