CN104317754A

CN104317754A - 面向异构计算系统的跨步数据传输优化方法

Info

Publication number: CN104317754A
Application number: CN201410544688.XA
Authority: CN
Inventors: 甘新标; 刘杰; 迟利华; 晏益慧; 徐涵; 胡庆丰; 蒋杰; 李胜国; 苏博; 周怀哲; 王庆林; 皇甫永硕; 崔显涛; 周陈
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2014-10-15
Filing date: 2014-10-15
Publication date: 2015-01-28
Anticipated expiration: 2034-10-15
Also published as: CN104317754B

Abstract

本发明公开了一种面向异构计算系统的跨步数据传输优化方法，目的是解决跨步数据结构传输严重影响异构计算系统效率的问题。技术方案是先创建内存缓冲区1^st，将整个画布map数据读入内存缓冲区1^st，依据跨步数据大小创建内存缓冲区2^nd，将跨步数据内各连续分量依次拷贝至2^nd内重组为一片连续存储的数据区域；将2^nd中连续存储的跨步数据以数据报文的形式传输至加速器端内存；最后释放内存缓冲区2^nd和内存缓冲区1^st。采用本发明可以提高异构系统数据传输带宽并提升异构计算系统效率。

Description

面向异构计算系统的跨步数据传输优化方法

技术领域

本发明涉及跨步数据传输优化方法，尤指面向异构计算系统的跨步数据传输优化方法。

背景技术

异构计算系统是由主处理器和加速器两种不同体系结构处理器搭建的计算机系统。目前，主流的异构计算系统有CPU+GPU(Graphics Processing Units)和CPU+MIC(ManyIntegrated Core)组成异构计算系统。

通常，异构计算系统中主处理器与加速器之间通过PCIE通道以数据报文的形式完成数据传输和通信，加速器内部的全局通信必须在加速器全局存储空间中进行，部分局部通信借助加速器内的共享存储空间完成，基本通信模式如图1所示。

随着异构计算系统计算能力的不断攀升，相对滞后的数据通信能力逐渐成为异构计算系统性能进一步提升的瓶颈。如何避免主处理器和加速器之间频繁的数据通信、提高PCIE数据传输效率是异构计算系统高效协同及性能优化的关键。

跨步数据(Strided data)是一种特殊的向量数据结构，跨步数据本身属于非连续的数据结构，但是其内部各分量(一段连续存储的数据片段)却是连续的，如选取数组A[128][128]的第1列、第3列、…、和第127列所组成的数据结构StridedA[128][1:3:…(2n″+1):…127]{n″∈N,0≤n″≤63}就是一种典型跨步数据类型，如图2所示。

目前，异构计算系统中主处理器与加速器之间的数据传输优化方法主要有以下几种：

(1)零拷贝。该方法指加速器端独立完成待处理数据集的生成和存储，避免数据在主处理器和加速器之间的来回传输。但是，该方法对加速器端的存储层次和存储空间容量要求高，并且加速器端支持的数据结构类型有限。因此，零拷贝方法虽然能够最小化主处理器与加速器之间的数据传输，但是适用范围受限。

(2)数据传输与数据计算重叠。该方法的核心思想为将主处理器与加速器之间的数据传输延迟隐藏于数据计算之中，可以显著提升异构计算系统的效率。该方法通常要求数据计算时间远大于数据传输时间，只有这样才能将数据传输时间很好的重叠与数据计算之中，才能提升异构计算系统效率。但是，该方法对数据传输操作并无优化，对于数据传输时间接近甚至超过数据计算时间的情形，该方法很难将数据传输重叠于数据计算之中。

上述两类异构计算系统中主处理器与加速器之间的数据传输优化方法在一定程度上，面向具体的大规模应用加速都可以提高异构计算的执行效率。但是，上述两类优化方法以通用数据结构传输为出发点，忽略了跨步数据数据结构的特殊性和实用性，跨步数据已经广泛应用于图像渲染和大规模存储系统中，对跨步数据的操作会严重影响系统的传输访问性能。

异构系统中主处理器与加速器之间的数据传输必须以数据报文的形式一次只能传输一段连续存储的数据，整体非连续的跨步数据传输必须以报文碎片的形式启动多个数据报文完成传输，因此，跨步数据传输将严重影响异构计算系统的传输访问性能，面向异构计算系统的跨步数据传输优化是提高异构系统数据传输效率的有效途径。

如何从跨步数据结构的具体特征出发，解决因为跨步数据传输导致的数据传输效率低的难题是本领域技术人员关注的重要技术问题。

发明内容

本发明要解决的技术问题在于：针对跨步数据结构传输严重影响异构计算系统效率的问题，提出一种面向异构计算系统的跨步数据传输优化方法，以提高异构系统数据传输带宽和提升异构计算系统效率。

为了解决上述技术问题，本发明的具体技术方案为：

第一步、依据待缓存数据大小创建内存缓冲区1^st，具体步骤如下：

1.1 定义跨步数据画布map，即包围跨步数据的最小数据结构体，如数组A[128][128]就是Strided A[128][1:3:…(2n″+1):…127]的画布，n″为自然数,0≤n″≤63；

1.2 获取map内的基本数据类型Tm₀，Tm₁，…，Tm_i，…，Tm_n表示Tm_i第i种基本数据类型(基本数据类型指整型、单精度浮点或双精度型、字符型和布尔型中的任何一种数据类型)。

1.3 统计map内对应的基本数据类型的元素数目m₀,m₁,…,m_i,…,m_n，其中m_i为map内基本数据类型Tm_i的数目，0≤i≤n,n为自然数；

1.4 定义缓冲区1^st的大小为size₁；

1.5 sizeof(Tm_i)表示基本数据类型Tm_i的存储长度，单位为字节；

1.6 调用内存分配函数(如Malloc)创建大小为size₁的内存缓冲区1^st；

第二步、利用数据读写函数(如Read)将整个画布map数据读入内存缓冲区1^st。

第三步、依据跨步数据大小创建内存缓冲区2^nd，将跨步数据内各连续分量依次拷贝至内存缓冲区2^nd内重组为一片连续存储的数据区域，具体方法如下：

3.1 创建内存缓冲区2^nd，具体步骤如下：

3.1.1 获取map内跨步数据包含的基本数据类型Ts₀，Ts₁，…，Ts_i′，…，Ts_p，Ts_i″表示第i'种基本数据类型；

3.1.2 统计map内对应的基本数据类型的元素数目s₀,s₁,…,s_i',…,s_p，其中s_i'为跨步数据内基本数据类型Ts_i'的数目，1≤i'≤p,p∈N；

3.1.3 定义缓冲区2^nd的大小为size₂；

3.1.4 sizeof(Ts_i')表示基本数据类型Ts_i'的存储长度，单位为字节；

3.1.5 调用内存分配函数(如Malloc)创建大小为size₂的内存缓冲区2^nd；

3.2 将跨步数据内各连续分量依次拷贝至2^nd内重组为一片连续存储的数据区域，具体步骤如下：

3.2.1 获取内存缓冲区2^nd的首地址H₂，即，内存缓冲区创建函数的返回值；

3.2.2 获取跨步数据的首地址head和尾地址tail，方法如下：

3.2.2.1 定义map的首地址Hm；

3.2.2.2 定义跨步数据第一个元素与跨步数据画布首地址的偏移为offset-f；head＝Hm+offset-f；

3.2.2.3 定义跨步数据最后一个元素与跨步数据画布首地址的偏移为offset-l；

3.2.2.4 tail＝Hm+offset-l；

3.2.3 定义跨步数据当前分量的首地址为cur＝NULL；

3.2.4 cur＝head，当前分量地址指向将跨步数据第一段连续存储的分量首地址；

3.2.5 获取当前分量与下一分量之间的步长strided(即当前分量与下一分量之间的地址偏移量)，方法如下：

3.2.2.5.1 获取分量首地址与跨步数据画布首地址的偏移为offset_cur；

3.2.2.5.2 获取下一分量首地址与跨步数据画布首地址的偏移为offset_next；

3.2.2.5.3 strided＝offset_next-offset_cur；

3.2.2.5.4 获取当前分量内的基本数据类型Tss₀,Tss₁,…,…,Tss_r；表示第i₀种基本数据类型；

3.2.6 统计当前分量内基本数据类型的元素数目ss₀,ss₁,…,…,ss_r，其中为跨步数据内基本数据类型的数目，1≤i0≤r,r∈N；

3.2.7 计算当前分量的存储长度

len = Σ_{i_{0} = 0}^{r} {ss}_{i_{0}} \times sizeof ({Tss}_{i_{0}}),

表示基本数据类型的存储长度，单位为字节；

3.2.8 利用内存拷贝函数(如Memcpy)将缓冲区1^st内首地址为cur，长度为len个字节的数据区域缓存至缓冲区2^nd中以地址H₂开始的一片连续区域；

3.2.9 H₂＝H₂+len；

3.2.10 当前分量指针移动到下一分量，即，cur＝cur+strided；

3.2.11 如果(cur+len)≤tail，转3.2.5，继续完成跨步数据片段连续化重组，否则，重组完毕，转第四步。

第四步、将缓冲区2^nd中连续存储的跨步数据以数据报文的形式经PCIE(Peripheral Component Interface Express，外围器件扩展接口)通道传输至加速器端内存，方法是：利用异构系统中提供的数据传输函数(如CPU+GPU异构系统中提供的cudaMemcpy)将首地址为H₂，长度为size₂个字节的数据区域一次性传输至加速器段存储空间。

第五步、利用内存释放函数(如free)释放内存缓冲区2^nd和内存缓冲区1^st。

第六步、结束。

采用本发明可以达到以下技术效果：

1.第三步和第四步将需要多次传输的非连续数据片段通过变换处理一次性传输至目标区域，缓解了异构系统数据传输压力，提高了面向异构系统的跨步数据传输效率；

2.由于跨步数据传输效率的提高，加快了以跨步数据结构为特征的一类GPU应用程序的运行速度并且提高了异构系统的带宽利用率，提升了异构计算系统效率。

附图说明

图1为基于PCIE通信模式的异构计算系统体系结构。

图2为跨步数据结构示意图。

图3为本发明面向异构计算系统的跨步数据传输优化方法总体流程图。

具体实施方式

图1为基于PCIE通信模式的由主处理器CPU和加速器(如DSP、GPU、MIC)组成的异构计算系统体系结构示意图，其中，主处理器端拥有内存，加速器端拥有全局存储空间；主处理器和加速器之间只能通过PCIE总线进行通信和数据传输。

图2中数组A[128][128](列优先存储)为跨步数据Strided A[128][1:3:…:127]跨步数据结构画布map，跨步数据Strided A[128][1:3:…127]由数组A的第1列、第3列、第5列、…、第2n″+1、…、第127列组成，其中0≤n″≤63。数组A的第2n″+1列就是跨步数据结构分量，跨步数据结构步长为strided＝128*sizeof(A[0][0])；跨步数据中的每一列都是一片连续存储的数据片段，但是整个跨步数据Strided A是不连续的。该示例中每个连续片段仅包含一种相同的数据类型，并且与下一个连续片段的步长也是相同的，实际情况中，每个连续片段可能包含多个不同的数据类型；并且步长也可能不同。

图3为本发明的总体流程图，其具体实施步骤如下：

第一步、创建内存缓冲区1^st。

第二步、将整个画布map数据读入内存缓冲区1^st。

第三步、依据跨步数据大小创建内存缓冲区2^nd，将跨步数据内各连续分量依次拷贝至内存缓冲区2^nd内重组为一片连续存储的数据区域；

第四步、将缓冲区2^nd中连续存储的跨步数据以数据报文的形式经PCIE(PeripheralComponent Interface Express，外围器件扩展接口)通道传输至加速器端内存。

第五步、释放内存缓冲区2^nd和内存缓冲区1^st。

第六步、结束。

Claims

1.一种面向异构计算系统的跨步数据传输优化方法，其特征在于包括以下步骤：

第一步、依据待缓存数据大小创建内存缓冲区1^st；

第二步、利用数据读写函数将整个画布map数据读入内存缓冲区1^st；

3.1创建内存缓冲区2^nd；

3.2将跨步数据内各连续分量依次拷贝至2^nd内重组为一片连续存储的数据区域，

具体步骤如下：

3.2.1获取内存缓冲区2^nd的首地址H₂，即，内存缓冲区创建函数的返回值；

3.2.2获取跨步数据的首地址head和尾地址tail，方法如下：

3.2.2.1定义map的首地址Hm；

3.2.2.2定义跨步数据第一个元素与跨步数据画布首地址的偏移为offse-t；head＝Hm+offset-f；

3.2.2.3定义跨步数据最后一个元素与跨步数据画布首地址的偏移为offset-l；

3.2.2.4tail＝Hm+offset-l；

3.2.3定义跨步数据当前分量的首地址为cur＝NULL；

3.2.4cur＝head，当前分量地址指向将跨步数据第一段连续存储的分量首地址；

3.2.5获取当前分量与下一分量之间的步长strided即当前分量与下一分量之间的地址偏移量，方法如下：

3.2.2.5.1获取分量首地址与跨步数据画布首地址的偏移为offset_cur；

3.2.2.5.2获取下一分量首地址与跨步数据画布首地址的偏移为offset_next；

3.2.2.5.3strided＝offset_next-offset_cur；

3.2.2.5.4获取当前分量内的基本数据类型表示第i₀种基本数据类型；

3.2.6统计当前分量内基本数据类型的元素数目其中为跨步数据内基本数据类型的数目，1≤i₀≤r,r∈N；

3.2.7计算当前分量的存储长度

len = Σ_{i_{0} = 0}^{r} {ss}_{i_{0}} \times sizeof (T_{s s_{i_{0}}}),

sizeof ({Tss}_{i_{0}})

表示基本数据类型的存储长度，单位为字节；

3.2.8利用内存拷贝函数将缓冲区1^st内首地址为cur，长度为len个字节的数据区域缓存至缓冲区2^nd中以地址H₂开始的一片连续区域；

3.2.9H₂＝H₂+len；

3.2.10当前分量指针移动到下一分量，即，cur＝cur+strided；

3.2.11如果(cur+len)≤tail，转3.2.5，否则，转第四步；

第四步、将缓冲区2^nd中连续存储的跨步数据以数据报文的形式经外围器件扩展接口通道即PCIE通道传输至加速器端内存，方法是：利用异构系统中提供的数据传输函数将首地址为H₂，长度为size₂个字节的数据区域一次性传输至加速器段存储空间；

第五步、利用内存释放函数释放内存缓冲区2^nd和内存缓冲区1^st；

第六步、结束。

2.如权利要求1所述的面向异构计算系统的跨步数据传输优化方法，其特征在于内存缓冲区1^st创建方法是：

1.1定义跨步数据画布map，即包围跨步数据的最小数据结构体，如数组A[128][128]就是Strided A[128][1:3:…(2n″+1):…127]的画布，n″为自然数,0≤n″≤63；

1.2获取map内的基本数据类型Tm₀,Tm₁,…,Tm_i,…,Tm_n；Tm_i表示第i种基本数据类型，基本数据类型指整型、单精度浮点或双精度型、字符型和布尔型中的任何一种数据类型；

1.3统计map内对应的基本数据类型的元素数目m₀,m₁,…,m_i,…,m_n，其中m_i为map内基本数据类型Tm_i的数目，0≤i≤n,n为自然数；

1.4定义缓冲区1^st的大小为size₁；

1.5sizeof(Tm_i)表示基本数据类型Tm_i的存储长度，单位为字节；

1.6调用内存分配函数创建大小为size₁的内存缓冲区1^st。

3.如权利要求1所述的面向异构计算系统的跨步数据传输优化方法，其特征在于内存缓冲区2^nd创建方法是：

3.1.1获取map内跨步数据包含的基本数据类型Ts₀,Ts₁,…,Ts_i',…,Ts_p，Ts_i'表示第i'种基本数据类型；

3.1.2统计map内对应的基本数据类型的元素数目s₀,s₁,…,s_i',…,s_p，其中s_i'为跨步数据内基本数据类型Ts_i'的数目，1≤i'≤p,p∈N；

3.1.3定义缓冲区2^nd的大小为size₂；

3.1.4sizeof(Ts_i')表示基本数据类型Ts_i'的存储长度，单位为字节；

3.1.5调用内存分配函数创建大小为size₂的内存缓冲区2^nd。