CN103150265B

CN103150265B - 面向嵌入式片上异构存储器的细粒度数据分配方法

Info

Publication number: CN103150265B
Application number: CN201310042340.6A
Authority: CN
Inventors: 鞠雷; 贾智平; 王冠华; 李阳
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2013-02-04
Filing date: 2013-02-04
Publication date: 2015-10-21
Anticipated expiration: 2033-02-04
Also published as: CN103150265A

Abstract

本发明是一种面向嵌入式片上异构存储器的细粒度数据分配方法，通过对程序中数据进行细粒度分割、精确选取和数据重新布局来提高便笺式存储器的利用效率。它把程序数据段分割成细粒度的内存数据块，并对执行期间的内存数据块访问序列进行跟踪，获取内存数据块的访问次数和Cache未命中信息，在Cache未命中时统计和记录内存数据块的时空冲突集（TCS，Temporal ConflictSet），再使用线性规划算法求的数据选取的最佳方案，对程序数据段的重新映射和布局，在程序中插入地址转换宏，重新编译代码。通过优化程序数据段的布局减少Cache的冲突，提高SPM的使用效率，最终在保证程序实时性的前提下提高程序的执行效率、减少平均执行时间。

Description

面向嵌入式片上异构存储器的细粒度数据分配方法

技术领域：

本发明属于嵌入式实时系统领域，尤其涉及一种面向嵌入式片上异构存储器的细粒度数据分配方法。

背景技术：

在计算机技术的发展过程中，主存储器的发展速度一直比中央处理器速度慢很多，主存和中央处理器的速度不匹配的矛盾造成了整个系统的瓶颈，随着高速片上存储器的使用，这种矛盾有所改善。在嵌入式系统中，便笺式存储器（SPM，Scratch Pad Memory）和高速缓存（Cache）是两种常见的片上异构存储器。在IBM公司的CellBroadband Engine系列和ARM公司的ARM9系列等处理器芯片上都集成了这两种片上异构存储器部件。SPM和Cache本质上都是一种静态随机存储器（SRAM,Static Random Access Memory），速度接近与CPU速度。Cache基于程序执行时的局部性原理：程序正在使用的主存某一单元附近的那些存储单元被用到的可能性很大。但在只有Cache的系统中，当程序中的数据量大于Cache的容量时，会造成Cache的数据冲突，在数据冲突时，Cache中的内容被替换，需要重新由主存加载数据到Cache，这样不但使程序的执行速度减慢，而且由于这种替换由硬件完成，是随机的，难以预测，所以很难对系统进行准确的实时性分析，这就降低了系统的实时性。而SPM的引入有利于有效缓解这种问题。

SPM由于不需要地址比较电路，所以体积较小、功耗比较低、访问速度比Cache快，而且由于SPM和主存统一编址，程序员可以灵活控制SPM中的内容。为了充分利用SPM带来的优势，需要分析系统中代码块和数据块的执行频率等信息，在有SPM和Cache同时存在的系统中，还需要通过对程序执行轨迹的跟踪获取代码块和数据块加载到Cache时的冲突关系。

现在针对SPM的研究比较多，有些研究目的是为了减少系统的能量消耗，有些研究是为了优化程序的执行时间，一般通过编译期代码（或数据）选取和重新布局，静态或者动态的改变SPM中的内容，但现在的研究主要集中在仅有SPM的系统，对使用SPM+Cache（如图1）存储体系的研究相对较少。现仅有的针对SPM+Cache系统程序数据段的优化算法中，算法把数组当成一个不可拆分的整体，如果某个数组的长度大于SPM的容量，这个数组就没有机会放入SPM中，从而无法通过SPM对数组数据进行优化。我们通过对多个数据密集型程序的执行过程跟踪研究，发现有些程序执行过程中，数据Cache的冲突都基本集中在数组固定的局部某些块中（如图2，X轴为数据块编号，Y轴为Cache未命中的次数），如果能精确的找出这些潜在的Cache冲突严重的块，把他们重新布局到SPM中，就可以减少Cache冲突，以提高SPM利用率从而提升系统的性能。

发明内容：

本发明要解决的问题就是：（1）在SPM空间一定的情况下精确的查找这种潜在的局部冲突率高的数据块；（2）通过数据的分割和重新布局，高效的利用有限的SPM空间，本发明通过提供一种面向嵌入式片上异构存储器的细粒度数据分配方法，充分利用SPM的优势来优化程序的数据段，改善程序的执行速度，提高系统性能；通过对程序中数据进行细粒度分割、精确选取和数据重新布局来提高便笺式存储器（SPM，Scratch Pad Memory）的利用效率，从而最大限度的减少Cache的冲突，最终提高程序的执行效率、减少平均执行时间。

为实现上述目的，本发明采用如下技术方案：

一种面向嵌入式片上异构存储器的细粒度数据分配方法，它的步骤为：

（1）对程序数据段进行预分析，获取数据的在内存中的首地址和数据类型和数据长度，将程序的数据段分割成细粒度的内存数据块，使其成为基本块，每块的大小取决于Cache每行的长度；

（2）对执行期间的内存数据块访问序列进行跟踪，获取内存数据块的访问次数和Cache未命中信息，在Cache未命中时统计和记录内存数据块的时空冲突集；

（3）使用线性规划算法求得数据分割和选取的最佳方案，进行数据分割的最小单位是内存数据块，其大小和所使用Cache的行存储单元的大小相同；

（4）生成数据布局分散加载文件，对程序数据段的重新映射和布局，在程序中插入地址转换宏，重新编译代码。

所述步骤（2）中，在给定输入的情况下获取到程序访问数据的序列，只统计Cache未命中到上次访问之间不重复的内存块序列，生成时空冲突集合TCS，TCS用于下一步中通过0-1整数线性规划算法精确计算由于内存数据块被选取到SPM中后造成miss减少数量。

所述步骤（3）中，每一个内存数据块miss减少分两种情况：1.因为本身被选取到SPM中，miss全部消；2.当自身没被选取到SPM中时，因为映射到同一组的其他内存数据块被选取到SPM，造成自身一些TCS中的块数小于Cache的路数；对一个内存数据块M_i是否被选择放入SPM中用x_i表示，当x_i为1的时候，表示M_i被选择放入SPM中，当x_i为0时表示M_i不被选择放入SPM中；通过下面公式来求取某个数据选取方案优化后的miss次数：

{cr}_{i} = Σ_{p = 1}^{miss (M_{i})} {sr}_{i}^{p}

mr_i=x_i·miss(M_i)+cr_i

Miss = Σ_{i = 0}^{| M_{i} |} miss (M_{i}) - {mr}_{i}

目标是使下面访存延迟计算函数即目标函数最小化，目标函数为：

latency = Σ_{i = 0}^{| M_{i} |} (((1 - x_{i}) \cdot miss (M_{i}) + Σ_{p = 1}^{miss (M_{i})} {sr}_{i}^{p}) \cdot T_{miss}

+ acc (M_{i}) \cdot (1 - x_{i}) \cdot (T_{hit} + T_{split})

+ acc (M_{i}) \cdot x_{i} \cdot (T_{spm} + T_{split}))

所述步骤（4）中，通过步骤（3）获取到优化结果，通过这个优化结果生成程序优化脚本即分散加载文件，在脚本中为每一个数据在装载和执行时指定不同的存储区域地址，把上步选取的数据块映射到SPM中，其余数据块仍然布置在主存中，在主存中的数据块的相对位置不会因为SPM的映射而改变；在新代码中需要在每次数据访问前插入地址转换宏，地址转换宏用switch case语句，目的是通过数组索引找到数据的地址，switch case语句有固定的访问延迟时间，有利于保证嵌入式实时系统最差执行时间的可预测性并且保证地址转换的开销最小；

编译器会识别生成的分散加载文件，如果代码中被顺序访问的数组被分割，在编译时，需要特定方式对代码进行改写。

本发明采用的方法与现有技术相比有如下优点：

（1）使用SPM+Cache架构。在单独使用SPM的架构中，特别是使用静态布局的方法中，未布置在SPM中的数据的访问延迟太大，无法有效提高程序的运行速度。在SPM+Cache的架构中，我们在SPM空间有限的条件下，让剩余的数据可以利用Cache带来的好处。

（2）把不能一次性放入SPM的数组进行细粒度分割。现有的算法把数组当成一个整体，在数组大小大于SPM时，就无法对数组进行处理，这样就使对于有大量数组计算（如矩阵乘法）而且数组较大的程序无法使用SPM带来的优势，我们的优化策略基于同Cache行存储单元大小相同的细粒度处理单元。

（3）对已经精确分割数据的“获利”进行计算，在考虑数据的访问频率的同时，考虑如果在不放入SPM中的情况下数据在Cache中和其他数据块的冲突情况。内存数据单元的时空冲突集（TCS）描述数据块冲突时Cache组中的其他数据块，通过选取他们到SPM中，可以减少TCS的元素个数，当TCS中元素个数少于Cache的相连的路数时，此次miss可以避免。

（4）本方法提供一种处理分割后数组连续访问时遇到的地址不连续问题的解决方法。这种方法把因为数组分割而造成访问时的额外开销最小化并保证每次访问的额外开销大小固定。

附图说明：

图1具有Cache+SPM结构系统连接逻辑图；

图2数据在Cache中冲突的局部性；

图3程序数据优化过程流程图；

图4映射到cahce相同组的内存数据块在Cache中的冲突序列；

图5内存数据块B被选取后的冲突序列。

具体实施方式：

下面给出本发明的一个实例并结合附图对本发明做进一步地说明。

（1）对程序数据段进行预分析

通过分析源程序代码，找出源程序的数据段，数据段包括全局（静态）变量、全局（静态）数组、程序堆栈，在栈数据段中我们主要关心存放程序局部变量的部分。分析数据段主要统计每个变量、数组的长度和类型，对于一个计算矩阵乘法程序获取到的数据段信息如下：

变量名	变量种类	变量长度	变量类型
				A	全局数组	1500	Int
B	全局数组	600	Int
				C	全局数组	1000	Int

（2）对程序数据段执行轨迹进行跟踪，建立Cache冲突集合

把源文件编译成二进制文件，通过给定的输入，在指令仿真器中获取程序执行的跟踪信息。我们在逻辑上把数据段分成n个大小为Cache每行长度（比如32B）的内存数据块，数组的跟踪和统计信息基于内存数据块。跟踪信息中包含每个内存数据块的首地址、数据块的访问次数、数据块的未命中的次数和未命中时的时空冲突集合（TCS），TCS中包含在一次miss到上次访问之间不重复的映射到同一组的内存块集合，如图4，A、B、C、D为映射到同一个Cache组的内存块，假设Cache为2路相联的，对于A来说，TCS_1和TCS_3为属于A的一段冲突序列，所以A的两次时空冲突集合就为{B，C}和{D，C}。对于内存数据块C，TCS_2为C的冲突序列，时空冲突集合为{A，D}，时空冲突集合为后面求解0-1线性规划的输入。

（3）通过0-1线性规划求出数据选取的最优解

这一步骤的主要工作，通过线性约束条件和目标函数，使用LP_solve或者Cplex等整数线性规划求解工具，求出最优解。表格1列出整数线性规划中使用的符号和解释。

表格1

通过表格1可以看出x_i表示内存数据块M_i是否在被选取放入SPM中，取值含义表示如下：

每一个内存数据块miss减少分两种情况：1.因为本身被选取到SPM中，miss全部消；2.当自身没被选取到SPM中时，因为映射到同一组的其他内存数据块被选取到SPM，造成自身一些TCS中的块数小于Cache的路数（如图5，当B被选取到SPM中时，TCS_1的块数少于2，所以内存数据块A会减少一次miss）。当内存数据块M_i没被选取到SPM中，M_j被选取到SPM，可以表示为：

转换成数学表达式为：

y_{i}^{j} = ~ x_{i} Λ x_{j} \tilde{=} \min (1 - x_{i}, x_{j})

为了便于0-1线性规划求解，写成下面等价线性化公式：

y_{i}^{j} \leq 1 - x_{i}

y_{i}^{j} \leq x_{j}

x_{j} - x_{i} - y_{i}^{j} \leq 0

当内存数据块M_j在块M_i的第p个TCS中时，为1，不在为0公式表示为：

a_{i}^{jp} = {\begin{matrix} 1, & M_{j} & &Element; & {TCS}_{i}^{p} \\ 0, & others \end{matrix}

在某个选取方案中，如果内存数据块M_i没被选取到SPM中，第p个TCS中留在主存中的内存数据块数量小于Cache组相连的路数时，第p次miss会被消除，会不会消除用表示，|S_k|表示与M_i同cache组的内存数据块数量。表示为公式为：

{sr}_{i}^{p} = {\begin{matrix} 1, & Σ_{j = 0}^{| S_{k} |} & a_{i}^{jp} & \cdot & y_{i}^{j} & < & Assoc \\ 0, & others \end{matrix}

对于没被选取到SPM的内存数据块M_i所有可能被消除的miss为：

{cr}_{i} = \begin{matrix} Σ_{p = 1}^{miss (M_{i})} & {sr}_{i}^{p} \end{matrix}

当考虑内存数据块M_i被选取或者不被选取到SPM中两种情况时，最终miss减少的数量可以表示为：

mr_i=x_i·miss(M_i)+cr_i

最终程序中剩余数据Cache的miss数为：

Miss = Σ_{i = 0}^{| M_{i} |} miss (M_{i}) - {mr}_{i}

加载到SPM中数据量大小必须小于SPM的大小，size(M_i)表示内存数据块M_i的大小，单位为字节，SPM_size表示SPM大小，单位为字节，|M_i|表示内存数据块数量。最终表示如下：

{Acess}_{cache} = Σ_{i = 0}^{| M_{i} |} acc (M_{i}) \cdot (1 - x_{i})

数据块M_i通过SPM被访问访问的次数可以表示为：

{Acess}_{spm} = Σ_{i = 0}^{| M_{i} |} acc (M_{i}) \cdot x_{i}

数据块M_i通过Cache被访问的次数可以表示为：

{Acess}_{cache} = Σ_{i = 0}^{| M_{i} |} acc (M_{i}) \cdot (1 - x_{i})

最终的目标是使优化后的程序访问数据的延迟最小化，下面为我们的目标函数，当latency的值最小时为最优化解，其中T_miss、T_hit、T_spm、T_split分别为Cache未命中、Cache命中、SPM命中和由于数据分割造成的多余开销的时间延迟。目标函数为：

latency=Miss·T_miss+Acess_cache·(T_hit+T_split)+Acess_spm·(T_spm+T_split)

展开式为：

latency = Σ_{i = 0}^{| M_{i} |} (((1 - x_{i}) \cdot miss (M_{i}) + Σ_{p = 1}^{miss (M_{i})} {sr}_{i}^{p}) \cdot T_{miss}

+ acc (M_{i}) \cdot (1 - x_{i}) \cdot (T_{hit} + T_{split})

+ acc (M_{i}) \cdot x_{i} \cdot (T_{spm} + T_{split}))

（4）生成数据布局分散加载文件

分散加载文件是ARM编译器在链接时使用的输入文件，用来指定数据段的加载区域和地址。经过步骤（3）之后，我们可以得到需要加载到SPM中变量或者基本数据块的相对位置，在指定好SPM的初始位置和大小之后，我们很容易计算出变量或者基本块在SPM中的相对位置，如果指定SPM的初始地址为0x10000000，举例如下：

变量名	大小	在SPM中的位置
			A	4	0x10000000
B	23	0x10000004

C	1	0x1000001B
			......	......	......

在分散加载文件中描述如下：

（5）用优化编译器重新编译程序

如果一个数组被分成多个数据段，每段有可能加载在不同的地址上，在程序对数据进行连续访问时，会遇到地址转换的问题，发明通过修改编译器自动在需要地址转换的地方插入下面的宏。下面的宏可以保证每次访问都有固定的额外开销，而且如果我们把宏中使用的变量设置成寄存器变量，并把这段宏代码加载到SPM中，可以有效减少宏编译成的代码的执行时间。

。

Claims

1.一种面向嵌入式片上异构存储器的细粒度数据分配方法，其特征是，它的步骤为：

(1)对程序数据段进行预分析，获取程序数据的在内存中的首地址、数据类型和数据长度，将程序数据段分割成细粒度的内存数据块，使其成为基本块，每块的大小取决于Cache每行的长度；

(2)对执行期间的内存数据块访问序列进行跟踪，获取内存数据块的访问次数和Cache未命中信息，在Cache未命中时统计和记录内存数据块的时空冲突集；

(3)使用线性规划算法求得数据分割和选取的最佳方案，进行数据分割的最小单位是内存数据块，其大小和所使用Cache的行存储单元的大小相同；所述步骤(3)中，每一个内存数据块miss减少分两种情况：

1）因为本身被选取到SPM中，miss全部消除；

2）当自身没被选取到SPM中时，因为映射到同一组的其他内存数据块被选取到SPM，造成自身一些TCS中的块数小于Cache的路数；对一个内存数据块是否被选择放入SPM中用x_i表示，当x_i为1的时候，表示M_i被选择放入SPM中，当x_i为0时表示M_i不被选择放入SPM中；通过下面公式来求取某个数据选取方案优化后的miss次数：

Mr_i＝x_i·miss(M_i)+cr_i

(4)生成数据布局分散加载文件，对程序数据段的重新映射和布局，在程序中插入地址转换宏，重新编译代码。

2.如权利要求1所述的面向嵌入式片上异构存储器的细粒度数据分配方法，其特征是，所述步骤(2)中，在给定输入的情况下获取到程序访问数据的序列，只统计Cache未命中到上次访问之间不重复的内存块序列，生成时空冲突集合TCS，TCS用于下一步中通过0-1整数线性规划算法精确计算由于内存数据块被选取到SPM中后造成miss减少数量。

3.如权利要求1所述的面向嵌入式片上异构存储器的细粒度数据分配方法，其特征是，所述步骤(4)中，通过步骤(3)获取到优化结果，通过这个优化结果生成程序优化脚本即分散加载文件，在脚本中为每一个数据在装载和执行时指定不同的存储区域地址，把上步选取的数据块映射到SPM中，其余数据块仍然布置在主存中，在主存中的数据块的相对位置不会因为SPM的映射而改变；在新代码中需要在每次数据访问前插入地址转换宏，地址转换宏用switch case语句，目的是通过数组索引找到数据的地址，switch case语句有固定的访问延迟时间，有利于保证嵌入式实时系统最差执行时间的可预测性并且保证地址转换的开销最小；

编译器会识别生成的分散加载文件，如果代码中被顺序访问的数组被分割，在编译时，编译器自动在需要地址转换的地方插入地址转换宏对代码进行改写。