CN102662638A

CN102662638A - 一种支持帮助线程预取距离参数的阈值边界选取方法

Info

Publication number: CN102662638A
Application number: CN2012100915285A
Authority: CN
Inventors: 古志民; 付引霞; 黄艳; 郑宁汉
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2012-03-31
Filing date: 2012-03-31
Publication date: 2012-09-12
Anticipated expiration: 2032-03-31
Also published as: CN102662638B

Abstract

本发明涉及一种支持帮助线程预取距离参数的阈值边界选取方法，属于多核计算机访存性能优化技术领域，可用于提升非规则数据密集应用的执行性能。在共享缓存的多核架构基础上，针对基于交织预取的帮助线程预取距离参数，通过引入预取距离的阈值左边界选取、预取距离的阈值右边界选取、预取距离的阈值边界构造等技术，来自动选取预取距离参数的阈值边界，使得最佳预取距离的参数阈值可在确定的边界范围内获取，以提高帮助线程预取控制的质量。本发明可广泛应用于非规则密集数据访存性能优化、帮助线程预取控制策略中预取距离阈值优化和共享缓存污染控制等方面。

Description

一种支持帮助线程预取距离参数的阈值边界选取方法

技术领域

本发明涉及一种支持帮助线程预取距离参数的阈值边界选取方法，属于多核计算机访存性能优化技术领域，可用于提升非规则数据密集应用的执行性能。

背景技术

近年来，片上多核处理器技术广泛应用于超级计算机、云计算等大型高性能计算领域，此类片上多核处理器技术通常将多个计算内核有机集成在一个处理器芯片中，通过综合利用片上私有缓存、硬件预取、片上共享资源和多核多线程并行执行，来提高应用程序的平均性能。然而，对非规则数据密集型应用来说，这些非规则数据密集访存请求，往往来自该应用中的非规则数据链表和非规则数组，由于它们的当前访存请求地址与下一个访存请求地址往往不具有连续性，导致上述基于局部性的传统硬件预取技术不会产生明显的性能改进效果，这种情况下，基于帮助线程的预取方法被提出，该方法通过构造这类应用线程的预取帮助线程，使预取帮助线程在空闲核上执行，试图提前访问这些需要预取的非规则数据，并仅可能让这些数据在被应用线程访问之前就及时推送至片上共享缓存中，以隐藏该应用线程的片外访存延迟，从而达到改进性能的目的。

针对这类帮助线程预取控制的参数和阈值选取问题，国外学者在《IEEETransactions on Parallel and Distributed Systems》上2009年发表的《Prefetching with Helper Threads for Loosely Coupled MultiprocessorSystems》中，采用了基于PV信号量和同步块参数的经验阈值方法，这类方法的致命缺陷是未支持预取距离参数的控制机制，严重限制了帮助线程的有效应用范围和应用场景；为了克服这一缺陷，我们在《2011 International Conferenceon Parallel Processing Workshops》上2011年发表了《Improving Performanceof the Irregular Data Intensive Application with Small ComputationWorkload for CMPs》，提出了一种基于交织预取的帮助线程控制策略，采用了基于预取距离、预取大小和同步块大小的三控制参数和经验阈值，极大地扩展了帮助线程的应用范围和应用场景。

在以上这类帮助线程预取控制策略中，由于预取控制参数的最佳阈值难以准确地确定，往往不得不采用经验法，人为指定这些预取参数的阈值，这样容易导致过早或过晚的预取情况发生，加剧共享缓存污染，甚至会严重影响性能提升的效果。

为了克服传统经验法的缺陷，减少帮助线程预取带来的共享缓存污染，进一步提升帮助线程的预取性能，本发明提出了一种支持帮助线程预取距离参数的阈值边界选取技术，来为它的最佳阈值优选提供核心技术支撑。迄今为止，尚未见到该项技术的报道。

发明内容

本发明的目的是为了解决帮助线程中预取距离参数的阈值边界选取问题，而提出一种支持帮助线程预取距离参数的阈值边界选取方法。本发明的目的是通过下述技术方案实现的。

为了便于阐明本发明方法所涉及的具体步骤，首先给出本发明方法中涉及的相关技术术语的定义：

定义1：热函数

对应用程序P中的任一函数f(P)，利用Intel VTune性能分析器分别获取应用程序P的数据缺失计数、应用程序P的时钟周期计数、函数f(P)的数据缺失计数、函数f(P)的时钟周期计数；如果用函数f(P)的数据缺失计数除以应用程序P的数据缺失计数，其结果不小于ε1，并且用函数f(P)的时钟周期计数除以应用程序P的时钟周期计数，其结果不小于ε2，0＜ε₁＜1，0＜ε₂＜1，则称函数f(P)是一个热函数；其中，ε₁、ε₂的值选用经验值；这里数据缺失和时钟周期的含义与计算机学科中的含义相同；

定义2：基于交织预取的帮助线程

对一个热函数，若采用了预取距离、预取大小和同步块大小的三控制参数来构建帮助线程的预取控制策略，那么把采用这种预取控制策略的帮助线程称为基于交织预取的帮助线程；

定义3：预取距离的阈值边界

一个预取距离的阈值边界是指该预取距离参数的有效取值范围，即左边界值≤预取距离的阈值≤右边界值；

定义4：目标多核处理器

可使基于交织预取的帮助线程正常运行的片上多核处理器称为目标多核处理器，它须满足至少有两处理核来共享片上总线和一个多路组共享缓存结构；

一种支持帮助线程预取距离参数的阈值边界选取方法，基本思想是针对热函数，高效选取交织预取帮助线程中预取距离参数的阈值边界，其整体框架设计流程如图1所示，其特征在于：

1)开始：按定义1的操作，摘取该应用程序的一个热函数，进入步骤1；若不存在这样的热函数，则转结束；

2)步骤一：预取距离的阈值左边界选取；

3)步骤二：预取距离的阈值右边界选取；

4)步骤三：基于特征2)和特征3)来构造预取距离的阈值边界；

5)结束：退出该方法；

步骤一到步骤三的具体实现步骤如下：

步骤一、预取距离的阈值左边界选取

其特征在于：针对该热函数构造基于交织预取的帮助线程，设置当前预取距离的阈值为0，然后在目标多核处理器上展开预取距离的阈值左边界逐步修正过程；

其具体操作步骤如下：

第1.1步：针对该热函数，按定义2来构造基于交织预取的帮助线程；

第1.2步：取当前预取距离的阈值为0，而预取大小和同步块大小的参数阈值分别采用经验值，让该基于交织预取的帮助线程在定义4的目标多核处理器上执行，如果预取加速比效果大于1，返回预取距离的阈值左边界为0，转第1.5步；否则，转1.3步；

第1.3步：当前预取距离的阈值加1，预取大小和同步块大小的参数阈值分别采用经验值，让该基于交织预取的帮助线程在定义4的目标多核处理器上执行；

第1.4步：如果预取加速比效果大于1或当前预取距离的阈值等于该热函数循环总次数，返回预取距离的阈值左边界为当前预取距离阈值，转第1.5步；否则，转第1.3步；

第1.5步：步骤一结束；

经过上述步骤的操作，即可得到预取距离的阈值左边界；

步骤二、预取距离的阈值右边界选取

其特征在于：在步骤一选取预取距离的阈值左边界基础上，在目标多核处理器上，采用插桩采样方法，获取该热函数的访存地址连续序列信息，然后将它作为基于目标多核处理器的共享缓存模拟结构输入，通过多路组缓存的估算操作，展开预取距离的阈值右边界选取过程；

其具体操作步骤如下：

第2.1步：如果预取距离的阈值左边界为0，返回预取距离的阈值右边界为0，并且使TagR＝1，转第2.7步；否则，转第2.2步；

第2.2步：在满足定义4的目标多核处理器上，采用插桩采样方法，获取该热函数的访存地址连续序列信息，该访存地址连续序列信息由热函数的循环体计数值、访存地址组成，即记录1<循环体计数值1，访存地址1>、记录2<循环体计数值2，访存地址2>、……、<结束>，并设置当前记录指针为第一条记录；

第2.3步：依据目标多核处理器中共享缓存的路数和组数，设置基于M路N组的多核共享缓存模拟结构中的M和N取值，即让M等于目标多核处理器中共享缓存的路数，N等于目标多核处理器中共享缓存的组数；

第2.4步：如果当前记录指针到达<结束>则TagR＝2，转2.7步；否则，读入当前记录到Y，转第2.5步；

第2.5步：通过对Y中的访存地址除N取余数，来计算该条记录中访存地址所在的组，如果该组的M路中仍有空闲路存在，则在该路中放入该地址，当前记录指针加1；否则，把该记录中热函数的循环体计数值的一半，经取整为X，取ΔI等于取整[(X乘以(热函数体一次循环访存次数-帮助线程一次循环访存次数))/热函数体一次循环访存次数+0.5]，再让X等于X加上这个整数修正量ΔI后，将该X值返回作为预取距离的阈值右边界，并且TagR＝1，转第2.7步；

第2.6步：转第2.4步；

第2.7步：如果TagR等于2则返回(当前记录指针-1)的热函数循环体计数值作为预取距离的阈值右边界，步骤二结束；

经过上述步骤的操作，即可得到预取距离的阈值右边界；

步骤三、构造预取距离的阈值边界

其特征在于：在步骤一选取预取距离的阈值左边界和步骤二选取预取距离的阈值右边界的基础上，构造预取距离的阈值边界；

其具体操作步骤如下：

第3.1步：将预取距离的阈值左边界赋值给L；

第3.2步：将预取距离的阈值右边界赋值给R；

第3.3步：如果L＝该热函数循环的总次数，转第3.6步；

第3.4步：如果L小于该热函数循环总次数且R＝该热函数循环总次数，返回L≤预取距离的阈值≤R，转第3.6步；

第3.5步：如果L＝R，预取距离的唯一阈值就是L；否则，按定义3，返回L≤预取距离的阈值≤R；

第3.6步：步骤三结束。

经过上述步骤的操作，即可得到预取距离的阈值边界或唯一阈值。

有益效果：

本发明对比已有技术具有以下创新点：

①本发明采用一种支持帮助线程预取距离参数的阈值边界选取方法，与传统经验法相比，主要技术包括预取距离的阈值左边界选取、预取距离的阈值右边界选取、预取距离的阈值边界构造，能够有效确定预取距离参数的阈值边界，为帮助线程中预取距离参数的阈值优选提供了有力支撑；

②与传统枚举取值方法相比，本发明可极大地缩小了预取距离参数阈值的取值范围，在参数阈值动态优化方面有着不可比拟的快速性特点；

③本发明可广泛应用于非规则密集数据访存性能优化、帮助线程预取控制策略中预取距离阈值优化和共享缓存污染控制等方面。

附图说明

图1为本发明的整体框架设计流程图；

具体实施方式

根据上述技术方案，下面结合实施例对本发明作进一步说明；

实施例1

以下面应用程序P中的一个循环函数样本为例，

while(condition){whilebody；}

结合上述循环函数样本举例，给出相关术语的定义如下：

定义1：热函数

对应用程序P中的该循环函数f(P)，利用Intel VTune性能分析器分别获取应用程序P的数据缺失计数＝65656666、应用程序P的时钟周期计数＝78787888、函数f(P)的数据缺失计数＝61222666、函数f(P)的时钟周期计数＝63636363；用函数f(P)的数据缺失计数除以应用程序P的数据缺失计数，其结果0.93不小于ε1＝0.6，并且用函数f(P)的时钟周期计数除以应用程序P的时钟周期计数，其结果0.80不小于ε2＝0.6，0＜ε₁＜1，0＜ε₂＜1，则称该循环函数f(P)是一个热函数；

定义2：基于交织预取的帮助线程

对该循环热函数f(P)，采用预取距离K、预取大小P和同步块大小B的三控制参数来构建帮助线程的预取控制策略如下：

}，采用这种三参数预取控制策略的帮助线程，称为基于交织预取的帮助线程；

定义3：预取距离的阈值边界

一个预取距离K的阈值边界是指该K阈值的有效取值范围，如左边界值1≤K的阈值≤右边界值22；

定义4：目标多核处理器

如Intel Q6600多核处理器就是一个目标多核处理器，它可使上述基于交织预取的帮助线程在其上正常运行，该多核处理器满足至少有两处理核来共享片上总线和一个多路组共享缓存结构的条件要求；

开始：按定义1的操作，摘取到该应用程序P的一个热函数f(P)；

步骤一、预取距离的阈值左边界选取

第1.1步：针对该热函数f(P)，按定义2构造基于交织预取的帮助线程；

第1.2步：取当前预取距离的阈值为0，预取大小和同步块大小的参数阈值分别采用经验值5和100，让该基于交织预取的帮助线程在定义4的Q6600目标多核处理器上执行，由于预取加速比效果0.8小于1，转1.3步；

第1.3步：当前预取距离的阈值加1，预取大小和同步块大小的参数阈值分别采用经验值5和100，让该基于交织预取的帮助线程在定义4的Q6600目标多核处理器上执行；

第1.4步：由于预取加速比效果1.21大于1，返回预取距离的阈值左边界为当前预取距离阈值，即1，转第1.5步；

第1.5步：步骤一结束；

经过上述步骤的操作，即可得到预取距离的阈值左边界为1；

步骤二、预取距离的阈值右边界选取

第2.1步：由于预取距离的阈值左边界＝1，转第2.2步；

第2.2步：在满足定义4的Q6600多核处理器上，采用插桩采样方法，获取该热函数f(P)的访存地址连续序列信息，如：记录1<1，80671234>、记录2<1，81783221>、记录3<1，87783229>、记录4<2，8434A789>、……、记录J<36，83110011>、……、<结束>，并设置当前记录指针为第一条记录；

第2.3步：依据目标多核处理器中共享缓存的路数＝16和组数＝1K，设置基于M路N组的多核共享缓存模拟结构中的M和N取值，即让M＝16，N＝1K＝1024；

第2.4步：由于当前记录指针未到<结束>，读入当前记录到Y，即Y＝<1，80671234>，转第2.5步；

第2.5步：通过对Y中的访存地址除N取余数＝取余((80671234)₁₆/1024)＝取余((1000 0000 0110 0111 0001 0010 0011 0100)₂/1024)＝564，即该条记录中访存地址所在的组为564，如果该组的M＝16路中仍有空闲路存在，则在该路中放入该地址＝1000 0000 0110 0111 0001 0010 0011 0100，当前记录指针加1；

第2.6步：转第2.4步；这种情况具体说明如下：须继续执行第2.4步到第2.5步，直到第J条记录时，由于取余((83110011)₁₆/1024＝17，第17组的M＝16路中已无空闲路存在，把该记录中热函数的循环体计数值＝36的一半18，经取整为X＝18，取ΔI等于取整[(18乘以(热函数体一次循环访存次数10-帮助线程一次循环访存次数8))/热函数体一次循环访存次数10+0.5]＝取整[18乘2/10+0.5]＝4，再让X等于18加ΔI的4后为22，将该X＝22值返回作为预取距离的阈值右边界，并且TagR＝1，转第2.7步；

第2.7步：由于TagR＝1，步骤二结束；

经过上述步骤的操作，即可得到预取距离的阈值右边界为22；

步骤三、构造预取距离的阈值边界

第3.1步：将预取距离的阈值左边界1赋值给L；

第3.2步：将预取距离的阈值右边界22赋值给R；

第3.3步：如果L＝该热函数循环的总次数30000，转第3.6步；

第3.6步：步骤三结束。

经过上述步骤的操作，在第3.5步即可得到预取距离的阈值边界[1，22]。

结束、退出该方法。

Claims

1.一种支持帮助线程预取距离参数的阈值边界选取方法，其基本思想是针对热函数，高效选取交织预取帮助线程中预取距离参数的阈值边界，其特征在于：

1)开始：摘取该应用程序的一个热函数，进入步骤1；若不存在这样的热函数，则转结束；

2)步骤一：预取距离的阈值左边界选取；

3)步骤二：预取距离的阈值右边界选取；

4)步骤三：基于特征2)和特征3)来构造预取距离的阈值边界；

5)结束：退出该方法；

2.根据权利要求1所述的一种支持帮助线程预取距离参数的阈值边界选取方法，其特征在于步骤一中预取距离的阈值左边界选取步骤为

第(1)步：针对该热函数，构造基于交织预取的帮助线程；

第(2)步：取当前预取距离的阈值为0，而预取大小和同步块大小的参数阈值分别采用经验值，让该基于交织预取的帮助线程在目标多核处理器上执行，如果预取加速比效果大于1，返回预取距离的阈值左边界为0，转第(5)步；否则，转(3)步；

第(3)步：当前预取距离的阈值加1，预取大小和同步块大小的参数阈值分别采用经验值，让该基于交织预取的帮助线程在目标多核处理器上执行；

第(4)步：如果预取加速比效果大于1或当前预取距离的阈值等于该热函数循环总次数，返回预取距离的阈值左边界为当前预取距离阈值，转第(5)步；否则，转第(3)步；

第(5)步：步骤一结束；

3.根据权利要求1所述的一种支持帮助线程预取距离参数的阈值边界选取方法，其特征在于步骤二中预取距离的阈值右边界选取步骤为

第(1)步：如果预取距离的阈值左边界为0，返回预取距离的阈值右边界为0，并且使TagR＝1，转第(7)步；否则，转第(2)步；

第(2)步：在目标多核处理器上，采用插桩采样方法，获取该热函数的访存地址连续序列信息，该访存地址连续序列信息由热函数的循环体计数值、访存地址组成，即记录1<循环体计数值1，访存地址1>、记录2<循环体计数值2，访存地址2>、……、<结束>，并设置当前记录指针为第一条记录；

第(3)步：依据目标多核处理器中共享缓存的路数和组数，设置基于M路N组的多核共享缓存模拟结构中的M和N取值，即让M等于目标多核处理器中共享缓存的路数，N等于目标多核处理器中共享缓存的组数；

第(4)步：如果当前记录指针到达<结束>则TagR＝2，转(7)步；否则，读入当前记录到Y，转第(5)步；

第(5)步：通过对Y中的访存地址除N取余数，来计算该条记录中访存地址所在的组，如果该组的M路中仍有空闲路存在，则在该路中放入该地址，当前记录指针加1；否则，把该记录中热函数的循环体计数值的一半，经取整为X，取ΔI等于取整[(X乘以(热函数体一次循环访存次数-帮助线程一次循环访存次数))/热函数体一次循环访存次数+0.5]，再让X等于X加上这个整数修正量ΔI后，将该X值返回作为预取距离的阈值右边界，并且TagR＝1，转第(7)步；

第(6)步：转第(4)步；

第(7)步：如果TagR等于2则返回(当前记录指针-1)中热函数循环体计数值作为预取距离的阈值右边界，步骤二结束；

4.根据权利要求1所述的一种支持帮助线程预取距离参数的阈值边界选取方法，其特征在于步骤三中构造预取距离的阈值边界步骤为

第(1)步：将预取距离的阈值左边界赋值给L；

第(2)步：将预取距离的阈值右边界赋值给R；

第(3)步：如果L＝该热函数循环的总次数，转第(6)步；

第(4)步：如果L小于该热函数循环总次数且R＝该热函数循环总次数，返回L≤预取距离的阈值≤R，转第(6)步；

第(5)步：如果L＝R，预取距离的唯一阈值就是L；否则，返回L≤预取距离的阈值≤R；

第(6)步：步骤三结束。