CN103077008B

CN103077008B - 数组相加运算汇编库程序的地址对齐simd加速方法

Info

Publication number: CN103077008B
Application number: CN201310036071.2A
Authority: CN
Inventors: 迟利华; 刘杰; 甘新标; 晏益慧; 徐涵; 胡庆丰; 龚春叶; 冯华; 蒋杰
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2013-01-30
Filing date: 2013-01-30
Publication date: 2014-12-03
Anticipated expiration: 2033-01-30
Also published as: CN103077008A

Abstract

本发明公开了一种数组相加运算汇编库程序的地址对齐SIMD加速方法，目的是提高数组相加运算汇编库程序的执行速度。技术方案是首先从目标体系结构中获取SIMD向量宽度w和数据宽度size，然后计算数组X和数组Y的地址对齐偏移量，接下来根据地址对齐偏移量来判断数组X和数组Y的地址是否已经对齐，如果已经对齐，直接对数组X和数组Y进行向量相加运算；否则，对数组X和数组Y进行向量组装与混合运算。即对数组X和数组Y前面部分进行标量运算，对中间部分利用寄存器掩码进行向量组装和向量运算，对尾部不满足向量运算要求的部分采用标量运算。采用本发明可实现汇编库程序数据地址对齐访存，加快SIMD程序运行，提升SIMD计算性能。

Description

数组相加运算汇编库程序的地址对齐SIMD加速方法

技术领域

本发明涉及数组相加运算的地址对齐SIMD(Single Instruction Multiple Data，单指令多数据)加速计算方法，尤指数组相加运算汇编库程序的地址对齐SIMD加速方法。

背景技术

传统的CPU标量浮点计算部件，每个时刻只能进行一个浮点运算，而SIMD功能部件每个时刻可以完成多个浮点运算，是提高微处理器速度的重要部件，发挥SIMD部件性能需要设计SIMD运算程序。

现有的SIMD扩展处理机对数据访存地址行为非常敏感。通常，SIMD扩展仅支持连续访存数据加载和存储，并且只支持地址对齐的访存数据加载和存储。如PowerPC处理器的AltiVec扩展，Alpha处理器的MVI扩展等。另外一些指令集如MAX-1/2、VIS、3DNow！、VMX采用软件方式实现非对齐地址访存；Intel的AVX、MMX和SSE系列指令集则在硬件上直接支持对非对齐地址访存，但是对齐地址访存和非对齐地址访存的SIMD程序性能差异显著。在许多实际工程应用程序中，循环内的数组引用通常是非对齐地址访存，严重影响了SIMD程序性能。

SIMD地址对齐访存就是SIMD程序访问的一片连续存储空间的首地址必须是SIMD向量宽度w的整数倍，即：Addr/w＝size*k，其中：k为整数；Addr表示SIMD程序访问的一片连续存储空间的首地址，w表示SIMD向量宽度，即SIMD能够同时处理的数据个数。size表示向量中每个分量的数据类型占据的字节数。

非对齐地址访存将严重影响程序性能，因此，高级语言编写程序时通常使用对齐命令aligned来完成数据的对齐访存。而在汇编语言库程序设计中，涉及的地址是由外部调用程序传入的，无法修改，如果数据地址非对齐将严重影响程序性能甚至出错。SIMD加速的前提就是地址对齐的连续访存，因此基于地址对齐的SIMD加速技术一直以来都是学术界研究的热点。

Shahbahrami等人在Intel实验平台上进行了实验，评估了非对齐访存造成的性能损失；

李玉祥设计了一种面向向量化的局部数据重组，在循环之前对数据进行重新布局，等待向量化之后再对数据进行恢复，但是这种局部数据重组代价比较大，往往难以取得理想的收益；

Larsen等人讨论了如何在过程间对数组引用进行连续性分析，并综合循环剥离、循环多版本、数组填充等方法使得能够对更多的数组引用进行地址对齐访问。采用动态剥离的方法分析指针引用的地址对齐信息，并应用在Intel的C++编译器中；

Fridman等人则利用冗余的系数存储来解决常数数组引用的对齐访存问题。

上述方法从不同的侧面强调了地址对齐访存对SIMD程序设计的重要性，并且面向特定应用提出了具体的解决方案，但是上述解决方案局限于采用高级语言编程方式对数组进行预处理以提高编译器的优化性能，优化效果不明显并且实际推广应用困难。因此，如何以汇编库程序为目标提供一种面向数组相加运算的地址对齐SIMD加速方法是本领域技术人员极为关注的技术问题。

发明内容

本发明要解决的技术问题在于：提供一种数组相加运算汇编库程序的地址对齐SIMD加速方法，提高数组相加运算汇编库程序的执行速度。

具体技术方案为：

第一步：从目标体系结构信息中获取SIMD向量宽度w和数据宽度size，向量宽度w指SIMD能够同时处理的数据个数，数据宽度size指数据类型占据的字节数；

第二步：计算数组X的地址对齐偏移量，具体方法如下：

2.1获取X的内存首地址&X；

2.2执行求余操作得到地址偏移量offset_X，offset_X＝mod(&X，(size*w))，mod(m₁,n₁)表示m₁除以n₁得到的余数，“*”为乘法；

2.3执行除法操作得到地址对齐偏移量shift_X，shift_X＝div(offset_X,size)；div(m,n)表示m除以n得到的结果向下取整(例如div(3,2)＝1)由2.2和2.3可知，Shift_X＜w；

第三步：计算数组Y的地址对齐偏移量，具体方法如下：

3.1获取Y的内存首地址&Y；

3.2执行求余操作得到地址偏移量offset_Y，offset_Y＝mod(&Y,(size*w))；

3.3执行除法操作得到地址对齐偏移量shift_Y，shift_Y＝div(offset_Y,size)，由3.2和3.3可知，Shift_Y＜w；

第四步：地址对齐判断，具体方法如下：

4.1获取数组X的大小即数组中的元素个数N，获取数组Y的大小N；

4.2如果shift_X＝shift_Y＝0，说明地址已对齐可直接进行向量运算，转第五步，否则，转第六步；

第五步：对X和Y进行向量运算，具体步骤如下：

5.1令变量i＝0，j＝0；

5.2定义向量运算部分循环次数变量m＝div(N,w)；

5.3如果j＜m，执行向量运算，转5.4；否则，只能执行标量运算，转5.9；

5.4加载X[i],X[i+1],…,X[i+w-1]到向量寄存器V_X，加载Y[i],Y[i+1],…,Y[i+w-1]到向量寄存器V_Y；

5.5执行向量运算完成数组相加存入向量寄存器V_Z，即，V_Z＝V_X+V_Y；

5.6将向量寄存器V_Z中的结果分别赋值给Z[i],Z[i+1],…,Z[i+w-1]，如公式(1)所示；

\{\begin{matrix} Z [i] = V_{Z} [0] \\ Z [i + 1] = V_{Z} [1] \\ \begin{matrix} . & . & . \end{matrix} \\ \begin{matrix} . & . & . \end{matrix} \\ \begin{matrix} . & . & . \end{matrix} \\ Z [i + w - 1] = V_{Z} [w - 1] \end{matrix} - - - (1)

5.7更新i＝i+w，j＝j+1；

5.8如果j＜m，转5.4，否则，向量运算完毕，转入尾部标量运算，转5.9；

5.9如果i＜N，转5.10执行标量运算；否则，转第七步结束；

5.10执行标量运算完成数组相加，即，Z[i]＝X[i]+Y[i]；

5.11更新i＝i+1；

5.12如果i＜N，转5.10，否则，转第七步结束；

第六步：对X和Y进行向量组装与混合运算，具体方法如下：

6.1如果shift_X＝shift_Y，转6.2；否则，转6.21

6.2定义头部标量运算部分循环次数变量h＝min{w-shift_X,N}，其中min{x,y}表示取x,y中的最小值；

6.3令k＝N-h；

6.4定义向量运算部分运算循环次数变量m＝div(k,w)；

6.5令i＝0，j＝0；

6.6如果j＜h，转6.7；否则，头部标量运算完毕，转入向量运算，转6.10；

6.7执行头部标量运算，即，Z[i]＝X[i]+Y[i]；

6.8更新i＝i+1，j＝j+1；

6.9如果j＜h，转6.7，否则，转入向量运算部分，转6.10；

6.10令j＝0；

6.11如果j＜m，执行向量运算，转6.12；否则，向量运算部分完毕，转入尾部标量运算，转6.17；

6.12加载X[i],X[i+1],…,X[i+w-1]到向量寄存器V_X，加载Y[i],Y[i+1],…,Y[i+w-1]到向量寄存器V_Y；

6.13执行向量运算完成数组相加存入向量寄存器V_Z，即，V_Z＝V_X+V_Y；

6.14将向量寄存器V_Z中的结果分别赋值给Z[i],Z[i+1],…,Z[i+w-1]，如公式(2)所示；

\{\begin{matrix} Z [i] = V_{Z} [0] \\ Z [i + 1] = V_{Z} [1] \\ \begin{matrix} . & . & . \end{matrix} \\ \begin{matrix} . & . & . \end{matrix} \\ \begin{matrix} . & . & . \end{matrix} \\ Z [i + w - 1] = V_{Z} [w - 1] \end{matrix} - - - (2)

6.15更新i＝i+w，j＝j+1；

6.16如果j＜m，转6.12，否则，向量部分运算完毕，转入尾部标量运算，转6.17；

6.17如果i＜N，执行标量运算，转6.18；否则，转第七步；

6.18执行标量运算完成数组相加，即，Z[i]＝X[i]+Y[i]；

6.19更新i＝i+1；

6.20如果i＜N，转6.18，否则，转第七步；

6.21如果shift_X＜shift_Y，转6.22；否则，转6.48；

6.22计算移位偏移量Δshift，Δshift＝shift_Y-shift_X；

6.23定义头部标量运算部分循环次数变量h＝min{w-shift_X,N}；

6.24令k＝N-h；

6.25定义向量运算部分循环次数变量m＝div(k,w)；

6.26令i＝0，j＝0；

6.27如果j＜h，转6.28；否则，头部标量运算完毕，转入向量运算部分，转6.31；

6.28执行头部标量运算，即，Z[i]＝X[i]+Y[i]；

6.29更新i＝i+1，j＝j+1；

6.30如果j＜h，转6.28，否则，头部标量运算完毕，转入向量运算部分，转6.31；

6.31令j＝0；

6.32如果j＜m，执行向量运算，转6.33；否则，向量运算完毕，转入尾部标量运算，转6.44；

6.33加载Y[i-Δshift],Y[i-Δshift+1],…,Y[i-Δshift+w-1]到向量寄存器V_Y1；

6.34加载X[i],X[i+1],…,X[i+w-1]到向量寄存器V_X；

6.35加载Y[i+w-Δshift],Y[i+w-Δshift+1],…,Y[i+w-Δshift+w-1]到向量寄存器V_Y2；

6.36设置向量寄存器掩码有效位：某位的掩码设置为1表示可以将该向量掩码为1的分量赋值给另一向量的指定位；掩码设置为0表示该向量掩码为0的分量在向量赋值过程中无效。设置向量寄存器V_Y1的掩码有效位为：即，将向量寄存器V_Y1的后w-Δshift个分量设置为有效位赋值给另一向量的相应位，而其它位无效；

6.37设置向量寄存器V_Y2的掩码有效位为：即，将向量寄存器V_Y2前Δshift个分量设置为有效位赋值给另一向量的相应位，而其它位无效；

6.38基于向量寄存器掩码重组生成新的向量并赋值给向量寄存器V_Y，即将向量寄存器V_Y1的后w-Δshift个分量和向量寄存器V_Y2的前Δshift个分量合并重组生成向量V_Y，各分量对应赋值关系如公式(3)所示；

\{\begin{matrix} V_{Y} [0] = V_{Y 1} [Δshift] \\ V_{Y} [1] = V_{Y 1} [Δshift + 1] \\ \begin{matrix} . & . & . \end{matrix} \\ \begin{matrix} . & . & . \end{matrix} \\ \begin{matrix} . & . & . \end{matrix} \\ V_{Y} [w - Δshift - 1] = V_{Y 1} [w - 1] \\ V_{Y} [w - Δshift] = V_{Y 2} [0] \\ V_{Y} [w - Δshift + 1] = V_{Y 2} [1] \\ \begin{matrix} . & . & . \end{matrix} \\ \begin{matrix} . & . & . \end{matrix} \\ \begin{matrix} . & . & . \end{matrix} \\ V_{Y} [w - 1] = V_{Y 2} [Δshift - 1] \end{matrix} - - - (3)

6.39执行向量运算完成数组相加存入向量寄存器V_Z，即，V_Z＝V_X+V_Y；

6.40将向量寄存器V_Z中的结果分别赋值给Z[i],Z[i+1],…,Z[i+w-1]，如公式(4)所示；

\{\begin{matrix} Z [i] = V_{Z} [0] \\ Z [i + 1] = V_{Z} [1] \\ \begin{matrix} . & . & . \end{matrix} \\ \begin{matrix} . & . & . \end{matrix} \\ \begin{matrix} . & . & . \end{matrix} \\ Z [i + w - 1] = V_{Z} [w - 1] \end{matrix} - - - (4)

6.41更新i＝i+w，j＝j+1；

6.42将向量寄存器V_Y2的值赋给V_Y1，即V_Y1＝V_Y2，如公式(5)所示；

\{\begin{matrix} V_{Y 1} [0] = V_{Y 2} [0] \\ V_{Y 1} [1] = V_{Y 2} [1] \\ \begin{matrix} . & . & . \end{matrix} \\ \begin{matrix} . & . & . \end{matrix} \\ \begin{matrix} . & . & . \end{matrix} \\ V_{Y 1} [w - 1] = V_{Y 2} [w - 1] \end{matrix} - - - (5)

6.43如果j＜m，转6.34；否则，向量部分运算完毕，转入尾部标量运算，转6.44；

6.44如果i＜N，执行标量运算，转6.45；否则，转第七步；

6.45执行尾部标量运算，即，Z[i]＝X[i]+Y[i]；

6.46更新i＝i+1；

6.47如果i＜N，转6.45；否则，转第七步；

6.48计算移位偏移量Δshift，Δshift＝shift_X-shift_Y；

6.49定义头部标量运算部分循环次数变量h＝min{w-shift_Y,N}；

6.50令k＝N-h；

6.51定义向量运算部分循环次数变量m＝div(k,w)；

6.52令i＝0，j＝0；

6.53如果j＜h，转6.54；否则，转入向量运算，转6.57；

6.54执行头部标量运算，即，Z[i]＝X[i]+Y[i]；

6.55更新i＝i+1，j＝j+1；

6.56如果j＜h，转6.54，否则，头部标量运算完毕，转入向量运算部分，转6.57；

6.57令j＝0；

6.58如果j＜m，执行向量运算，转6.59；否则，转入尾部标量运算，转6.70；

6.59加载X[i-Δshift],X[i-Δshift+1],…,X[i-Δshift+w-1]到向量寄存器V_X1；

6.60加载Y[i],Y[i+1],…,Y[i+w-1]到向量寄存器V_Y；

6.61加载X[i+w-Δshift],X[i+w-Δshift+1],…,X[i+w-Δshift+w-1]到向量寄存器V_X2；

6.62设置向量寄存器V_X1的掩码有效位为：即，将向量寄存器V_X1的后w-Δshift个分量设置为有效位赋值给另一向量的相应位，而其它位无效；

6.63设置向量寄存器V_X2的掩码有效位为：即，将向量寄存器V_X2前Δshift个分量设置为有效位赋值给另一向量的相应位，而其它位无效；

6.64基于向量寄存器掩码重组生成新的向量并赋值给向量寄存器V_X，即将向量寄存器V_X1的后w-Δshift个分量和向量寄存器V_X2的前Δshift个分量合并重组生成向量V_X，各分量对应赋值关系如公式(6)所示；

\{\begin{matrix} V_{X} [0] = V_{X 1} [Δshift] \\ V_{X} [1] = V_{X 1} [Δshift + 1] \\ \begin{matrix} . & . & . \end{matrix} \\ \begin{matrix} . & . & . \end{matrix} \\ \begin{matrix} . & . & . \end{matrix} \\ V_{X} [w - Δshift - 1] = V_{X 1} [w - 1] \\ V_{X} [w - Δshift] = V_{X 2} [0] \\ V_{X} [w - Δshift + 1] = V_{X 2} [1] \\ \begin{matrix} . & . & . \end{matrix} \\ \begin{matrix} . & . & . \end{matrix} \\ \begin{matrix} . & . & . \end{matrix} \\ V_{X} [w - 1] = V_{X 2} [Δshift - 1] \end{matrix} - - - (6)

6.65执行向量运算完成数组相加存入向量寄存器V_Z，即，V_Z＝V_X+V_Y；

6.66将向量寄存器V_Z中的结果分别赋值给Z[i],Z[i+1],…,Z[i+w-1]，如公式(7)所示；

\{\begin{matrix} Z [i] = V_{Z} [0] \\ Z [i + 1] = V_{Z} [1] \\ \begin{matrix} . & . & . \end{matrix} \\ \begin{matrix} . & . & . \end{matrix} \\ \begin{matrix} . & . & . \end{matrix} \\ Z [i + w - 1] = V_{Z} [w - 1] \end{matrix} - - - (7)

6.67更新i＝i+w，j＝j+1；

6.68将向量寄存器V_X2的值赋给V_X1，即V_X1＝V_X2，如公式(8)所示；

\{\begin{matrix} V_{X 1} [0] = V_{X 2} [0] \\ V_{X 1} [1] = V_{X 2} [1] \\ \begin{matrix} . & . & . \end{matrix} \\ \begin{matrix} . & . & . \end{matrix} \\ \begin{matrix} . & . & . \end{matrix} \\ V_{X 1} [w - 1] = V_{X 2} [w - 1] \end{matrix} - - - (8)

6.69如果j＜m，转6.60；否则，向量部分运算完毕，转入尾部标量运算，转6.70；

6.70如果i＜N，执行标量运算，转6.71；否则，转第七步；

6.71执行尾部标量运算，即，Z[i]＝X[i]+Y[i]；

6.72更新i＝i+1；

6.73如果i＜N，转6.71；否则，转第七步；

第七步：结束。

与现有技术相比，采用本发明可实现汇编库程序数据地址对齐访存，加快SIMD程序运行，提升SIMD计算性能。

附图说明

图1为向量寄存器格式示例。

图2为本发明的总流程图。

具体实施方式

图1为向量寄存器格式示例

图示向量寄存器包括w个双精度浮点分量，即向量宽度为w，数据宽度size为双精度浮点类型占据的字节数。

图2是本发明的总流程图。本发明包括以下步骤：

第一步：从目标体系结构信息中获取SIMD向量宽度w和数据宽度size。

第二步：计算数组X地址对齐偏移量。

第三步：计算数组Y地址对齐偏移量。

第四步：根据地址对齐偏移量来判断数组X和数组Y的地址是否已经对齐，如果已对齐，执行第五步，否则执行第六步。

第五步：对X和Y进行向量运算。

第六步：对X和Y进行向量组装与混合运算。

第七步：结束。

Claims

1.一种数组相加运算汇编库程序的地址对齐SIMD加速方法，其特征在于包括以下步骤：

第二步：计算数组X的地址对齐偏移量，具体方法如下：

2.1获取X的内存首地址&X；

2.3执行除法操作得到地址对齐偏移量shift_X，shift_X＝div(offset_X,size)；div(m₁,n₁)表示m₁除以n₁得到的结果向下取整；

第三步：计算数组Y的地址对齐偏移量，具体方法如下：

3.1获取Y的内存首地址&Y；

3.3执行除法操作得到地址对齐偏移量shift_Y，shift_Y＝div(offset_Y,size)；

第四步：地址对齐判断，方法是：

4.2如果shift_X＝shift_Y＝0，说明地址已对齐可直接对X和Y进行向量运算，转第五步，否则，转第六步；

第五步：对X和Y进行向量运算，具体步骤如下：

5.1令变量i＝0，j＝0；

5.2定义向量运算部分循环次数变量m＝div(N,w)；

5.3如果j＜m，执行向量运算，转5.4；否则，转5.9；

\{\begin{matrix} Z [i] = V_{Z} [0] \\ Z [i + 1] = V_{Z} [1] \\ \begin{matrix} . & . & . \end{matrix} \\ \begin{matrix} . & . & . \end{matrix} \\ \begin{matrix} . & . & . \end{matrix} \\ Z [i + w - 1] = V_{Z} [w - 1] \end{matrix} - - - (1)

5.7更新i＝i+w，j＝j+1；

5.8如果j＜m，转5.4，否则，转5.9；

5.9如果i＜N，转5.10执行标量运算；否则，转第七步；

5.10执行标量运算完成数组相加，即，Z[i]＝X[i]+Y[i]；

5.11更新i＝i+1；

5.12如果i＜N，转5.10，否则，转第七步；

第六步：对X和Y进行向量组装与混合运算，具体方法如下：

6.1如果shift_X＝shift_Y，转6.2；否则，转6.21

6.3令k＝N-h；

6.4定义向量运算部分运算循环次数变量m＝div(k,w)；

6.5令i＝0，j＝0；

6.6如果j＜h，转6.7；否则，转6.10；

6.7执行头部标量运算，即，Z[i]＝X[i]+Y[i]；

6.8更新i＝i+1，j＝j+1；

6.9如果j＜h，转6.7，否则，转6.10；

6.10令j＝0；

6.11如果j＜m，转6.12；否则，转6.17；

\{\begin{matrix} Z [i] = V_{Z} [0] \\ Z [i + 1] = V_{Z} [1] \\ \begin{matrix} . & . & . \end{matrix} \\ \begin{matrix} . & . & . \end{matrix} \\ \begin{matrix} . & . & . \end{matrix} \\ Z [i + w - 1] = V_{Z} [w - 1] \end{matrix} - - - (2)

6.15更新i＝i+w，j＝j+1；

6.16如果j＜m，转6.12，否则，转6.17；

6.17如果i＜N，转6.18；否则，转第七步；

6.18执行标量运算完成数组相加，即，Z[i]＝X[i]+Y[i]；

6.19更新i＝i+1；

6.20如果i＜N，转6.18，否则，转第七步；

6.21如果shift_X＜shift_Y，转6.22；否则，转6.48；

6.22计算移位偏移量Δshift，Δshift＝shift_Y-shift_X；

6.23定义头部标量运算部分循环次数变量h＝min{w-shift_X,N}；

6.24令k＝N-h；

6.25定义向量运算部分循环次数变量m＝div(k,w)；

6.26令i＝0，j＝0；

6.27如果j＜h，转6.28；否则，转6.31；

6.28执行头部标量运算，即，Z[i]＝X[i]+Y[i]；

6.29更新i＝i+1，j＝j+1；

6.30如果j＜h，转6.28，否则，转6.31；

6.31令j＝0；

6.32如果j＜m，转6.33；否则，转6.44；

6.34加载X[i],X[i+1],…,X[i+w-1]到向量寄存器V_X；

6.36设置向量寄存器掩码有效位：某位的掩码设置为1表示可以将该向量掩码为1的分量赋值给另一向量的指定位；掩码设置为0表示该向量掩码为0的分量在向量赋值过程中无效；设置向量寄存器V_Y1的掩码有效位为：即，将向量寄存器V_Y1的后w-Δshift个分量设置为有效位赋值给另一向量的相应位，而其它位无效；

\{\begin{matrix} V_{Y} [0] = V_{Y 1} [Δshift] \\ V_{Y} [1] = V_{Y 1} [Δshift + 1] \\ \begin{matrix} . & . & . \end{matrix} \\ \begin{matrix} . & . & . \end{matrix} \\ \begin{matrix} . & . & . \end{matrix} \\ V_{Y} [w - Δshift - 1] = V_{Y 1} [w - 1] \\ V_{Y} [w - Δshift] = V_{Y 2} [0] \\ V_{Y} [w - Δshift + 1] = V_{Y 2} [1] \\ \begin{matrix} . & . & . \end{matrix} \\ \begin{matrix} . & . & . \end{matrix} \\ \begin{matrix} . & . & . \end{matrix} \\ V_{Y} [w - 1] = V_{Y 2} [Δshift - 1] \end{matrix} - - - (3)

\{\begin{matrix} Z [i] = V_{Z} [0] \\ Z [i + 1] = V_{Z} [1] \\ \begin{matrix} . & . & . \end{matrix} \\ \begin{matrix} . & . & . \end{matrix} \\ \begin{matrix} . & . & . \end{matrix} \\ Z [i + w - 1] = V_{Z} [w - 1] \end{matrix} - - - (4)

6.41更新i＝i+w，j＝j+1；

\{\begin{matrix} V_{Y 1} [0] = V_{Y 2} [0] \\ V_{Y 1} [1] = V_{Y 2} [1] \\ \begin{matrix} . & . & . \end{matrix} \\ \begin{matrix} . & . & . \end{matrix} \\ \begin{matrix} . & . & . \end{matrix} \\ V_{Y 1} [w - 1] = V_{Y 2} [w - 1] \end{matrix} - - - (5)

6.43如果j＜m，转6.34；否则，转6.44；

6.44如果i＜N，转6.45；否则，转第七步；

6.45执行尾部标量运算，即，Z[i]＝X[i]+Y[i]；

6.46更新i＝i+1；

6.47如果i＜N，转6.45；否则，转第七步；

6.48计算移位偏移量Δshift，Δshift＝shift_X-shift_Y；

6.49定义头部标量运算部分循环次数变量h＝min{w-shift_Y,N}；

6.50令k＝N-h；

6.51定义向量运算部分循环次数变量m＝div(k,w)；

6.52令i＝0，j＝0；

6.53如果j＜h，转6.54；否则，转6.57；

6.54执行头部标量运算，即，Z[i]＝X[i]+Y[i]；

6.55更新i＝i+1，j＝j+1；

6.56如果j＜h，转6.54，否则，转6.57；

6.57令j＝0；

6.58如果j＜m，转6.59；否则，转6.70；

6.60加载Y[i],Y[i+1],…,Y[i+w-1]到向量寄存器V_Y；

\{\begin{matrix} V_{X} [0] = V_{X 1} [Δshift] \\ V_{X} [1] = V_{X 1} [Δshift + 1] \\ \begin{matrix} . & . & . \end{matrix} \\ \begin{matrix} . & . & . \end{matrix} \\ \begin{matrix} . & . & . \end{matrix} \\ V_{X} [w - Δshift - 1] = V_{X 1} [w - 1] \\ V_{X} [w - Δshift] = V_{X 2} [0] \\ V_{X} [w - Δshift + 1] = V_{X 2} [1] \\ \begin{matrix} . & . & . \end{matrix} \\ \begin{matrix} . & . & . \end{matrix} \\ \begin{matrix} . & . & . \end{matrix} \\ V_{X} [w - 1] = V_{X 2} [Δshift - 1] \end{matrix} - - - (6)

\{\begin{matrix} Z [i] = V_{Z} [0] \\ Z [i + 1] = V_{Z} [1] \\ \begin{matrix} . & . & . \end{matrix} \\ \begin{matrix} . & . & . \end{matrix} \\ \begin{matrix} . & . & . \end{matrix} \\ Z [i + w - 1] = V_{Z} [w - 1] \end{matrix} - - - (7)

6.67更新i＝i+w，j＝j+1；

\{\begin{matrix} V_{X 1} [0] = V_{X 2} [0] \\ V_{X 1} [1] = V_{X 2} [1] \\ \begin{matrix} . & . & . \end{matrix} \\ \begin{matrix} . & . & . \end{matrix} \\ \begin{matrix} . & . & . \end{matrix} \\ V_{X 1} [w - 1] = V_{X 2} [w - 1] \end{matrix} - - - (8)

6.69如果j＜m，转6.60；否则，转6.70；

6.70如果i＜N，执行标量运算，转6.71；否则，转第七步；

6.71执行尾部标量运算，即，Z[i]＝X[i]+Y[i]；

6.72更新i＝i+1；

6.73如果i＜N，转6.71；否则，转第七步；

第七步：结束。