CN105487911A - 一种基于编译指导的众核数据分片方法 - Google Patents

一种基于编译指导的众核数据分片方法 Download PDF

Info

Publication number
CN105487911A
CN105487911A CN201510830718.8A CN201510830718A CN105487911A CN 105487911 A CN105487911 A CN 105487911A CN 201510830718 A CN201510830718 A CN 201510830718A CN 105487911 A CN105487911 A CN 105487911A
Authority
CN
China
Prior art keywords
burst
compiling
original array
array
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510830718.8A
Other languages
English (en)
Other versions
CN105487911B (zh
Inventor
漆锋滨
毛兴权
顾龙
尤洪涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuxi Jiangnan Computing Technology Institute
Original Assignee
Wuxi Jiangnan Computing Technology Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuxi Jiangnan Computing Technology Institute filed Critical Wuxi Jiangnan Computing Technology Institute
Priority to CN201510830718.8A priority Critical patent/CN105487911B/zh
Publication of CN105487911A publication Critical patent/CN105487911A/zh
Application granted granted Critical
Publication of CN105487911B publication Critical patent/CN105487911B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/40Transformation of program code
    • G06F8/41Compilation
    • G06F8/44Encoding
    • G06F8/443Optimisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0668Interfaces specially adapted for storage systems adopting a particular infrastructure
    • G06F3/0671In-line storage system
    • G06F3/0683Plurality of storage devices
    • G06F3/0685Hybrid storage combining heterogeneous device types, e.g. hierarchical storage, hybrid arrays

Landscapes

  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Devices For Executing Special Programs (AREA)

Abstract

一种基于编译指导的众核数据分片方法,包括:在加速程序段开始处添加编译指导语句,描述原始数组的多个分片特征;编译器识别编译指导语句,记录原始数组的每个分片信息;对原始数组的各个分片信息,计算该分片的大小,并在局存中申请具有相同大小的相应局存数组;扫描整个加速程序段,检查原始数据的每个引用;如果该引用的数据在当前的分片内,则将原始数组的引用转换成对局存数组的引用;如果该引用是读引用,则在原始数组的分片信息上记录读标志;如果该引用是写引用,则在原始数组的分片信息上记录写标志;如果分片有读标志,在加速段开始处插入该分片的数据导入语句;如果分片有写标志,在加速段开始处插入该分片的数据导出语句。

Description

一种基于编译指导的众核数据分片方法
技术领域
本发明涉及计算机技术领域,具体涉及一种基于编译指导的众核数据分片方法。
背景技术
众核处理器上的加速计算核心是众核处理器的加速运算部件,可以将需要加速运算的代码和数据加载到运算核心上执行。加速计算核心对不同层次的存储器的访问速度是有很大差异的,其访问片外主存是较慢的,而对片上存储器的访问比片外主存有更快的访问速度和更高的访存带宽。因此加速线程的数据只有放在片上局部存储器中才能获得良好的加速性能。而实际的应用中,往往因为某些数据较大且在加速线程中的访问模式不规则而无法存储在局部存储器中,从而使得应用的性能下降。
软件管理的多层次存储系统(Software-ManagedMemoryHierarchiesSystem,SMMHS)指的是,众核处理器上有多层次存储系统,包括片外主存和每个或每几个计算核心拥有一块独立编址的片上存储器。片上存储器完全由用户或者软件来管理。片上存储器和片外主存构成了SMMHS的多级访存资源。
在拥有SMMHS的众核处理器上开发并行程序时,每个或每几个加速运算核心拥有一块独立编址的片上存储器,容量一般不大。因运算核心的片上局部存储器容量的限制,一些较大的数组变量如果在加速线程中具有不规则访问模式时,无法存储在局存中,只能存储在片外主存中。这样增加了加速线程的访存开销,降低了程序的性能。
某些编译器通过分析加速程序段循环中的数据访问模式,将较大的的数据分块导入到片上局存中,从而提高程序性能。但是他们的方法只限于访问模式规整(仿射下标函数)的循环,对于那些不规则的数据访问模式,他们的编译分析算法难以进行。
发明内容
本发明所要解决的技术问题是针对现有技术中存在上述缺陷,提供一种基于编译指导的众核数据分片方法,其能够解决加速线程(Acceleratorthread)(运行在加速运算核心上的程序实体)中不规则访问特征的数组利用片上局存进行优化的问题,以提高程序性能。
根据本发明,提供了一种基于编译指导的众核数据分片方法,包括:
在加速程序段开始处添加编译指导语句,描述原始数组的多个分片特征;
编译器识别编译指导语句,记录原始数组的每个分片信息;
对原始数组的各个分片信息,计算该分片的大小,并在局存中申请具有相同大小的相应局存数组;
扫描整个加速程序段,检查原始数据的每个引用;如果该引用的数据在当前的分片内,则将原始数组的引用转换成对局存数组的引用;
如果该引用是读引用,则在原始数组的分片信息上记录读标志;如果该引用是写引用,则在原始数组的分片信息上记录写标志;
如果分片有读标志,在加速段开始处插入该分片的数据导入语句;如果分片有写标志,在加速段开始处插入该分片的数据导出语句。
优选地,在将原始数组的引用转换成对局存数组的引用后,对局存数组的引用重新计算数组下标。
优选地,所述基于编译指导的众核数据分片方法用于具有软件管理的多层次存储系统的众核处理器的编译系统。
优选地,所述原始数组的访问模式具有分段局部的特征。
优选地,所述原始数组的数组下标是循环变量的仿射函数。
本发明采用添加用户指导描述和编译分析相结合的策略,解决了某些访问模式复杂的大数组有效利用片上局部存储的问题,提高了程序的执行性能。
附图说明
结合附图,并通过参考下面的详细描述,将会更容易地对本发明有更完整的理解并且更容易地理解其伴随的优点和特征,其中:
图1示意性地示出了根据本发明优选实施例的基于编译指导的众核数据分片方法的流程图。
需要说明的是,附图用于说明本发明,而非限制本发明。注意,表示结构的附图可能并非按比例绘制。并且,附图中,相同或者类似的元件标有相同或者类似的标号。
具体实施方式
为了使本发明的内容更加清楚和易懂,下面结合具体实施例和附图对本发明的内容进行详细描述。
加速程序段所用到的数据需要尽可能地存储在片上局存中,优化编译器一般通过编译静态分析、剖析(profiling)等技术分析数据的引用模式、访问频率和生命周期等信息,然后选择恰当的算法和编译优化框架对大数组进行分片存储优化。这样可以获得两个方面的好处:其一使得那些整个变量不能在片上局存中存储下的变量也能够利用片上存储器进行优化;其二使得一些能够整个存储在片上局存中的变量只需要一部分存储在片上存储器即可,节约出剩余部分的片上存储空间做其它数据变量的访存优化。但是该方法具有一定的局限性。加速程序段对数据的访问模式是多样的,编译器很难分析清楚一段程序中重点数据的所有特征引用模式。因此该方法只适用于对数组访问模式规整的程序,例如数组下标是循环变量的仿射函数。
而在实际的应用程序中,很多数组的访问模式具有分段局部的特征,例如:在一次循环迭代中只访问数据的某一段或者某几段。这样的访问特征编译器很难分析清楚。
本发明提出的基于编译指导的众核数据分片技术即针对具有这类访问特征的数组,设计了用于描述数据的分片访问特征的编译指导语句,在加速段开始时由用户添加。编译器在编译过程中进行相应的程序变换,将数据分片导入或导出片上局部存储器,提高加速程序段的访存性能。
图1示意性地示出了根据本发明优选实施例的基于编译指导的众核数据分片方法的流程图。例如,所述基于编译指导的众核数据分片方法可用于具有软件管理的多层次存储系统(SMMHS)的众核处理器的编译系统。
如图1所示,根据本发明优选实施例的基于编译指导的众核数据分片方法包括:
第一步骤S1:在加速程序段开始处添加编译指导语句,描述原始数组A的多个分片特征;如上所述,例如原始数组的访问模式具有分段局部的特征。
第二步骤S2:编译器识别编译指导语句,记录原始数组A的每个分片信息;
第三步骤S3:对原始数组A的一个分片信息,计算该分片的大小SIZE_1,并在局存中申请具有相同大小SIZE_1的相应的局存数组LDM_A1;
第四步骤S4:扫描整个加速程序段,考察(即检查)原始数据A的每个引用;如果该引用的数据在当前的分片内,则将原始数组A的引用转换成对局存数组LDM_A1的引用;此时,例如数组下标是循环变量的仿射函数,由此在引用转换后针对局存数组LDM_A1的引用重新计算下标,即在将原始数组的引用转换成对局存数组的引用后,对局存数组的引用重新计算数组下标;
第五步骤S5:如果该引用是读引用,则在原始数组A的分片信息上记录读标志;如果该引用是写引用,则在原始数组A的分片信息上记录写标志;
第六步骤S6:如果分片有读标志,在加速段开始处插入该分片的数据导入语句;如果分片有写标志,在加速段开始处插入该分片的数据导出语句;
第七步骤S7:如果原始数组A的还有其他分片信息未处理,则转第三步骤S3以便针对原始数组A的下一个分片信息进行上述处理;如果已经处理完原始数组A的所有分片信息,则程序结束。
根据上面所述流程可以看到,根据本发明优选实施例的基于编译指导的众核数据分片方法中,执行对大数组分片优化过程有两个重要方面:一是由用户添加的描述数组分片特征的编译指导语句;二是编译器在编译指导语句的指导下,对每个分片进行引用变换和数据传输。
在根据本发明优选实施例的基于编译指导的众核数据分片方法中,结合采用“用户添加数据访问特征描述”和“编译分析变换”的方式,实现了利用片上局存对具有分片引用特征的大数组的优化访问,提高了程序的性能。
本发明的优点在于针对加速程序段中某些编译器不能有效自动分析的具有分片引用特征的数组,结合采用“用户添加数据访问特征描述”和“编译分析变换”的方式,也能利用片上局部存储器进行优化,能有效提高程序的性能。而且编译指示使用方便简洁,综合收益大。
可以理解的是,虽然本发明已以较佳实施例披露如上,然而上述实施例并非用以限定本发明。对于任何熟悉本领域的技术人员而言,在不脱离本发明技术方案范围情况下,都可利用上述揭示的技术内容对本发明技术方案作出许多可能的变动和修饰,或修改为等同变化的等效实施例。因此,凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所做的任何简单修改、等同变化及修饰,均仍属于本发明技术方案保护的范围内。

Claims (5)

1.一种基于编译指导的众核数据分片方法,其特征在于包括:
在加速程序段开始处添加编译指导语句,描述原始数组的多个分片特征;
编译器识别编译指导语句,记录原始数组的每个分片信息;
对原始数组的各个分片信息,计算该分片的大小,并在局存中申请具有相同大小的相应局存数组;
扫描整个加速程序段,检查原始数据的每个引用;如果该引用的数据在当前的分片内,则将原始数组的引用转换成对局存数组的引用;
如果该引用是读引用,则在原始数组的分片信息上记录读标志;如果该引用是写引用,则在原始数组的分片信息上记录写标志;
如果分片有读标志,在加速段开始处插入该分片的数据导入语句;如果分片有写标志,在加速段开始处插入该分片的数据导出语句。
2.根据权利要求1所述的基于编译指导的众核数据分片方法,其特征在于,在将原始数组的引用转换成对局存数组的引用后,对局存数组的引用重新计算数组下标。
3.根据权利要求1或2所述的基于编译指导的众核数据分片方法,其特征在于,所述基于编译指导的众核数据分片方法用于具有软件管理的多层次存储系统的众核处理器的编译系统。
4.根据权利要求1或2所述的基于编译指导的众核数据分片方法,其特征在于,所述原始数组的访问模式具有分段局部的特征。
5.根据权利要求1或2所述的基于编译指导的众核数据分片方法,其特征在于,所述原始数组的数组下标是循环变量的仿射函数。
CN201510830718.8A 2015-11-24 2015-11-24 一种基于编译指导的众核数据分片方法 Active CN105487911B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510830718.8A CN105487911B (zh) 2015-11-24 2015-11-24 一种基于编译指导的众核数据分片方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510830718.8A CN105487911B (zh) 2015-11-24 2015-11-24 一种基于编译指导的众核数据分片方法

Publications (2)

Publication Number Publication Date
CN105487911A true CN105487911A (zh) 2016-04-13
CN105487911B CN105487911B (zh) 2018-07-06

Family

ID=55674907

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510830718.8A Active CN105487911B (zh) 2015-11-24 2015-11-24 一种基于编译指导的众核数据分片方法

Country Status (1)

Country Link
CN (1) CN105487911B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112416825A (zh) * 2019-08-21 2021-02-26 无锡江南计算技术研究所 面向异构众核基于空间重排的数据传输方法
CN112445486A (zh) * 2019-08-28 2021-03-05 无锡江南计算技术研究所 基于编译指导的有读写依赖循环的多线程并行方法
CN114217807A (zh) * 2021-04-09 2022-03-22 无锡江南计算技术研究所 一种基于异构众核架构的直接内存访问编译优化方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100268889A1 (en) * 2009-04-21 2010-10-21 Thomas Martin Conte Compiler based cache allocation
CN102096390A (zh) * 2011-01-30 2011-06-15 深圳市合信自动化技术有限公司 可编程逻辑控制器、程序编译器、编译系统及方法
CN102880497A (zh) * 2012-09-28 2013-01-16 无锡江南计算技术研究所 一种编译器及软件管理存储器的重用优化方法
CN102968388A (zh) * 2012-10-26 2013-03-13 无锡江南计算技术研究所 数据布局方法及其装置
CN103226487A (zh) * 2013-04-25 2013-07-31 中国人民解放军信息工程大学 面向异构众核多级存储结构的数据分布与局部性优化方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100268889A1 (en) * 2009-04-21 2010-10-21 Thomas Martin Conte Compiler based cache allocation
CN102096390A (zh) * 2011-01-30 2011-06-15 深圳市合信自动化技术有限公司 可编程逻辑控制器、程序编译器、编译系统及方法
CN102880497A (zh) * 2012-09-28 2013-01-16 无锡江南计算技术研究所 一种编译器及软件管理存储器的重用优化方法
CN102968388A (zh) * 2012-10-26 2013-03-13 无锡江南计算技术研究所 数据布局方法及其装置
CN103226487A (zh) * 2013-04-25 2013-07-31 中国人民解放军信息工程大学 面向异构众核多级存储结构的数据分布与局部性优化方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
黄品丰: "面向异构处理器的代价模型及存储优化技术研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112416825A (zh) * 2019-08-21 2021-02-26 无锡江南计算技术研究所 面向异构众核基于空间重排的数据传输方法
CN112445486A (zh) * 2019-08-28 2021-03-05 无锡江南计算技术研究所 基于编译指导的有读写依赖循环的多线程并行方法
CN114217807A (zh) * 2021-04-09 2022-03-22 无锡江南计算技术研究所 一种基于异构众核架构的直接内存访问编译优化方法
CN114217807B (zh) * 2021-04-09 2024-04-30 无锡江南计算技术研究所 一种基于异构众核架构的直接内存访问编译优化方法

Also Published As

Publication number Publication date
CN105487911B (zh) 2018-07-06

Similar Documents

Publication Publication Date Title
US8364739B2 (en) Sparse matrix-vector multiplication on graphics processor units
US7765534B2 (en) Compiler with cache utilization optimizations
KR100991091B1 (ko) 멀티프로세서들의 스트리밍 어플리케이션들을 위한 데이터변환들
KR102376117B1 (ko) 병렬 결정 트리 프로세서 아키텍처
US6381739B1 (en) Method and apparatus for hierarchical restructuring of computer code
US9477465B2 (en) Arithmetic processing apparatus, control method of arithmetic processing apparatus, and a computer-readable storage medium storing a control program for controlling an arithmetic processing apparatus
US7243195B2 (en) Software managed cache optimization system and method for multi-processing systems
US20070079079A1 (en) Apparatus, systems and methods to reduce access to shared data storage
Issenin et al. DRDU: A data reuse analysis technique for efficient scratch-pad memory management
CN105487911A (zh) 一种基于编译指导的众核数据分片方法
US6324629B1 (en) Method for determining an optimized data organization
CN105511867A (zh) 一种优化模式自动生成方法及优化装置
CN112130848B (zh) 一种面向便笺式存储器的带宽感知循环分块优化方法、编译系统、设备及存储介质
Wu et al. Bandwidth-aware loop tiling for dma-supported scratchpad memory
CN113553057A (zh) 一种针对不同架构的gpu进行并行计算的优化系统
CN102929580B (zh) 数组多引用访问的分块方法和装置
CN116360790A (zh) 一种基于虚拟机的代码编译方法、装置及执行方法、装置
CN113791770B (zh) 代码编译器、代码编译方法、代码编译系统和计算机介质
CN102981839B (zh) 合并执行大规模并行线程的数据扩展优化方法
Absar et al. Reuse analysis of indirectly indexed arrays
CN111309329B (zh) 一种指令地址自适应重定位方法及程序编译方法
CN112433965B (zh) 面向spm存储层次的数据缓存实现方法
Chen et al. Automatic mapping single-device OpenCL program to heterogeneous multi-device platform
CN104679477B (zh) 一种面向可变粒度内存系统的二进制文件重写方法
Abdolrashidi Improving Data-Dependent Parallelism in GPUs Through Programmer-Transparent Architectural Support

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant