CN105677792A

CN105677792A - 一种基于重用距离的数据亲缘性分析方法

Info

Publication number: CN105677792A
Application number: CN201511029801.1A
Authority: CN
Inventors: 付雄; 朱广中; 邓松; 程春玲; 王俊昌
Original assignee: Nanjing Post and Telecommunication University
Current assignee: Nanjing Post and Telecommunication University; Nanjing University of Posts and Telecommunications
Priority date: 2015-12-31
Filing date: 2015-12-31
Publication date: 2016-06-15
Anticipated expiration: 2035-12-31
Also published as: CN105677792B

Abstract

本发明公开了一种基于重用距离的数据亲缘性分析方法，根据所有不相同的变量地址的重用距离序列的集合计算出每个变量地址重用距离序列中重用距离值的个数，根据所有不相同的变量地址的重用距离序列的集合得到该集合的项的集合，根据项的集合和相应的公式得到所有变量地址的重用距离序列集合的序列元素的集合，再根据相应的公式得到每个变量地址重用距离序列的序列元素的集合。使用n维向量表示每个变量地址重用距离序列的序列元素的集合对所有变量地址的重用距离序列的序列元素的包含关系，最后根据公式计算任意两个变量地址的数据亲缘性。本发明通过分析程序中变量之间的关系，为数据布局优化提供指导，从而提高cache命中率，优化程序性能。

Description

一种基于重用距离的数据亲缘性分析方法

技术领域

本发明属于计算机程序优化技术领域，特别涉及了一种数据亲缘性分析方法。

背景技术

在过去几十年的技术发展中，相对于内存存取速度，CPU的计算性能已经取得了明显改善。1982发明的英特尔80286处理器处理一个指令操作延迟320ns和内存访问延迟225ns，而英特尔Corei7处理器只有4ns的操作延迟和37ns内存访问延迟，这说明处理器操作延迟和内存访问延迟已经不在一个数量级了。在这两个处理器的处理吞吐量峰值和内存带宽峰值方面，英特尔80286处理器是2MIPS和13MBytes/sec，英特尔Corei7处理器是50000MIPS和16000MBytes/sec，所以这两个处理器吞吐量峰值的比值和内存访问带宽峰值的比值也不在一个数量级。因为处理器的操作延迟与吞吐量和内存访问延迟与访问带宽之间的差距，所以现代计算机体系结构中广泛采用cache来降低这种影响。

现在个人电脑和工作站中使用的cache块大小至少64个字节，如果每个cache块中只有很少的数据能命中，那么cache块中的其他数据就起不到预取的作用，cache中数据起不到预取的作用时形成的cache失效会引起较长时间的内存存取，最终影响程序的性能。实际中，cache能否有效地利用取决于程序局部性和数据的重用模式。

重用距离是程序局部性的度量标准之一，但重用距离分析具有较高的时空代价，目前在精确分析程序数据的重用距离的各种算法中，最好的时间和空间复杂度分别为O(NlogM)和O(M)，其中N和M分别为访问数据的次数和访问数据集的大小。分析的复杂度仍然很高，并且N和M都与程序及其输入相关；当M比较大，如达到上亿时，很容易导致系统物理内存甚至32位地址空间溢出。

利用重用距离分析算法可以得到程序中变量的重用距离序列，我们把变量之间的相关性定义为数据亲缘性，数据亲缘性分析其实就是利用变量的重用距离序列来分析变量之间的相关性，如果这两个变量的亲缘性比较好，则表示这两个变量之间的空间局部性较好，相互临近访问的概率很大，这样就可以把这两个变量进行内存布局优化来提高程序的空间局部性，从而提高cache命中率，所以研究数据亲缘性分析方法对提高程序的性能具有重要意义。

发明内容

为了解决上述背景技术提出的技术问题，本发明旨在提供一种基于重用距离的数据亲缘性分析方法，通过分析程序中变量之间的关系，为数据布局优化提供指导，从而提高cache命中率，优化程序性能。

为了实现上述技术目的，本发明的技术方案为：

一种基于重用距离的数据亲缘性分析方法，包括以下步骤：

(1)定义程序中按访问时间顺序形成的变量地址序列A＝a₁a₂...a_x...a_y...a_n，其中，n表示程序中按访问时间顺序形成的变量地址序列的长度，且序列A中存在同一个变量地址在不同时间被访问，即a_x＝a_y,x≠y；

(2)根据序列A得到程序中所有不相同的变量地址集合AD＝{a₁,a₂,...,a_z,...a_m}，其中，a_z∈A，m表示程序中所有不相同的变量地址的个数；

(3)根据重用距离的定义、序列A以及集合AD，得到程序中所有不相同的变量地址的重用距离序列集合AR＝{ar₁,ar₂,...,ar_i,...,ar_m}，其中，ar_i表示变量地址a_i的重用距离序列，a_i∈AD，a_i,k表示重用距离序列ar_i中的第k个重用距离值，s_i表示重用距离序列ar_i的长度；

(4)根据集合AR得到所有不相同的变量地址的重用距离序列的长度集合NA＝{na₁,na₂,...,na_i,...,na_m}，其中，na_i＝s_i,1≤i≤m，s_i是变量地址a_i的重用距离序列ar_i的长度；

(5)定义集合L＝{a₁,a₂,...,a_r,...,a_u}表示集合AR的项的集合，集合AR的项的集合是指把集合AR中所有重用距离序列中不相同的重用距离值取出来组成一个新集合，其中，a_r∈ar_i，u表示集合L中元素的个数；

(6)定义集合AR的所有序列元素集合SE＝{se₁,se₂,...,se_t,...,se_q}，其中，se_t＝a_ja_k,且a_j∈L,a_k∈L,j≠k；

(7)定义变量地址a_i的重用距离序列ar_i的所有序列元素集合SE(ar_i)，其中，集合SE(ar_i)＝{se(ar_i)|se(ar_i)＝a_i,ja_i,k,a_i,j∈ar_i,a_i,k∈ar_i,j＜k,1≤i≤m}；

(8)使用q维向量V_i＝{v_i1,v_i,2,...,v_i,t,...,v_i,q}表示集合SE(ar_i)中的序列元素对集合SE中的序列元素的包含关系，其中，q是集合SE中序列元素的个数；

(9)对任意的i、j，i≠j并且1≤i,j≤m，计算重用距离序列ar_i和重用距离序列ar_j所共有的序列元素的个数；

(10)计算重用距离序列ar_i和重用距离序列ar_j中的全部序列元素的个数；

(11)根据重用距离序列ar_i和重用距离序列ar_j所共有的序列元素的个数和重用距离序列ar_i和重用距离序列ar_j中的全部序列元素的个数，得到变量地址a_i和a_j之间的数据亲缘性。

在步骤(8)中，向量V_i中的元素

v_{i, t} = \{\begin{matrix} 0, & {se}_{t} &NotElement; S E ({ar}_{i}) \\ 1, & {se}_{t} &Element; S E ({ar}_{i}) \end{matrix} .

在步骤(9)中，使用|SE(ar_i)∧SE(ar_j)|表示重用距离序列ar_i和ar_j所共有的序列元素的个数，其中，SE(ar_i)∧SE(ar_j)＝{v_i,1∧v_j,1,v_i,2∧v_j,2,...,v_i,t∧v_j,t,...,v_i,q∧v_j,q}，“∧”表示与运算。

在步骤(10)中，使用|SE(ar_i)∨SE(ar_j)|表示重用距离序列ar_i和ar_j所包含的全部序列元素的个数，其中，SE(ar_i)∨SE(ar_j)＝{v_i,1∨v_j,1,v_i,2∨v_j,2,...,v_i,t∨v_j,t,...,v_i,q∨vj_,q}，“∨”表示或运算。

在步骤(11)中，变量地址a_i和a_j之间的数据亲缘性其中，|na_i-na_j|表示na_i和na_j相减的绝对值，0＜＝affinity(a_i,a_j)＜＝1，affinity(a_i,a_j)越接近1说明这两个变量地址数据亲缘性越高，affinity(a_i,a_j)等于0表示这两个变量地址没有数据亲缘性。

采用上述技术方案带来的有益效果：

本发明较目前主流的数据亲缘性分析方法而言的主要优势在于，现在主流的数据亲缘性分析方法主要有两种：一种是k-means聚类方法，另一种是k％-clustering方法。在k-means方法中，任何具有亲缘性的变量地址的确定不是由它们自己的特征确定，而是由所有其他变量地址的特征决定的。所以k-means方法是相对的数据亲缘性分析方法；在k％-clustering方法中，它可以绝对地比较两个变量地址之间的数据亲缘性，但是要求这两个变量地址的复用距离序列的个数相同，最重要的是不能排除复用距离序列中干扰序列的影响。本方法中的|na_i-na_j|不必要求变量地址的重用距离序列个数相同，本方法是根据变量地址的重用距离序列的序列元素比较数据亲缘性，可以排除复用距离序列中干扰序列对数据亲缘性结果的影响。

附图说明

图1是本发明的流程图。

具体实施方式

以下将结合附图，对本发明的技术方案进行详细说明。

如图1所示本发明的基于重用距离的数据亲缘性分析方法，具体步骤如下：

步骤1、定义程序中按访问时间顺序形成的变量地址序列A＝a₁a₂...a_x...a_y...a_n，其中，n表示程序中按访问时间顺序形成的变量地址序列的长度，且序列A中存在同一个变量地址在不同时间被访问，即a_x＝a_y,x≠y；

步骤2、根据序列A得到程序中所有不相同的变量地址集合AD＝{a₁,a₂,...,a_z,...a_m}，其中，a_z∈A，m表示程序中所有不相同的变量地址的个数；

步骤3、根据重用距离的定义、序列A以及集合AD，得到程序中所有不相同的变量地址的重用距离序列集合AR＝{ar₁,ar₂,...,ar_i,...,ar_m}，其中，ar_i表示变量地址a_i的重用距离序列，a_i∈AD，a_i,k表示重用距离序列ar_i中的第k个重用距离值，s_i表示重用距离序列ar_i的长度；

步骤4、根据集合AR得到所有不相同的变量地址的重用距离序列的长度集合NA＝{na₁,na₂,...,na_i,...,na_m}，其中，na_i＝s_i,1≤i≤m，s_i是变量地址a_i的重用距离序列ar_i的长度；

步骤5、定义集合L＝{a₁,a₂,...,a_r,...,a_u}表示集合AR的项的集合，集合AR的项的集合是指把集合AR中所有重用距离序列中不相同的重用距离值取出来组成一个新集合，其中，a_r∈ar_i，u表示集合L中元素的个数；

步骤6、定义集合AR的所有序列元素集合SE＝{se₁,se₂,...,se_t,...,se_q}，其中，se_t＝a_ja_k,且a_j∈L,a_k∈L,j≠k；

步骤7、定义变量地址a_i的重用距离序列ar_i的所有序列元素集合SE(ar_i)，其中，集合SE(ar_i)＝{se(ar_i)|se(ar_i)＝a_i,ja_i,k,a_i,j∈ar_i,a_i,k∈ar_i,j＜k,1≤i≤m}；

步骤8、使用q维向量V_i＝{v_i1,v_i,2,...,v_i,t,...,v_i,q}表示集合SE(ar_i)中的序列元素对集合SE中的序列元素的包含关系，其中，向量V_i中的元素

v_{i, t} = \{\begin{matrix} 0, & {se}_{t} &NotElement; S E ({ar}_{i}) \\ 1, & {se}_{t} &Element; S E ({ar}_{i}) \end{matrix},

q是集合SE中序列元素的个数；

步骤9、对任意的i、j，i≠j并且1≤i,j≤m，计算重用距离序列ar_i和重用距离序列ar_j所共有的序列元素的个数|SE(ar_i)∧SE(ar_j)|，其中，SE(ar_i)∧SE(ar_j)＝{v_i,1∧v_j,1,v_i,2∧v_j,2,...,v_i,t∧v_j,t,...,v_i,q∧v_j,q}，“∨”表示或运算，

步骤10、计算重用距离序列ar_i和重用距离序列ar_j中的全部序列元素的个数|SE(ar_i)∨SE(ar_j)|，其中，SE(ar_i)∨SE(ar_j)＝{v_i,1∨v_j,1,v_i,2∨v_j,2,...,v_i,t∨v_j,t,...,v_i,q∨v_j,q}，“∨”表示或运算，

步骤11、根据重用距离序列ar_i和重用距离序列ar_j所共有的序列元素的个数和重用距离序列ar_i和重用距离序列ar_j中的全部序列元素的个数，得到变量地址a_i和a_j之间的数据亲缘性其中，|na_i-na_j|表示na_i和na_j相减的绝对值。0＜＝affinity(a_i,a_j)＜＝1，affinity(a_i,a_j)越接近1说明这两个变量地址数据亲缘性越高，affinity(a_i,a_j)等于0表示这两个变量地址没有数据亲缘性。

以上实施例仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明保护范围之内。

Claims

1.一种基于重用距离的数据亲缘性分析方法，其特征在于，包括以下步骤：

2.根据权利要求1所述基于重用距离的数据亲缘性分析方法，其特征在于：在步骤(8)中，向量V_i中的元素

v_{i, t} = \{\begin{matrix} 0, & {se}_{t} &NotElement; S E ({ar}_{i}) \\ 1, & {se}_{t} &Element; S E ({ar}_{i}) \end{matrix} .

3.根据权利要求2所述基于重用距离的数据亲缘性分析方法，其特征在于：在步骤(9)中，使用|SE(ar_i)∧SE(ar_j)|表示重用距离序列ar_i和ar_j所共有的序列元素的个数，其中，SE(ar_i)∧SE(ar_j)＝{v_i,1∧v_j,1,v_i,2∧v_j,2,...,v_i,t∧v_j,t,...,v_i,q∧v_j,q}，“∧”表示与运算。

4.根据权利要求3所述基于重用距离的数据亲缘性分析方法，其特征在于：在步骤(10)中，使用|SE(ar_i)∨SE(ar_j)|表示重用距离序列ar_i和ar_j所包含的全部序列元素的个数，其中，SE(ar_i)∨SE(ar_j)＝{v_i,1∨v_j,1,v_i,2∨v_j,2,...,v_i,t∨v_j,t,...,v_i,q∨v_j,q}，“∨”表示或运算。

5.根据权利要求4所述基于重用距离的数据亲缘性分析方法，其特征在于：在步骤(11)中，变量地址a_i和a_j之间的数据亲缘性其中，|na_i-na_j|表示na_i和na_j相减的绝对值，0＜＝affinity(a_i,a_j)＜＝1，affinity(a_i,a_j)越接近1说明这两个变量地址数据亲缘性越高，affinity(a_i,a_j)等于0表示这两个变量地址没有数据亲缘性。