CN104615584B

CN104615584B - 面向gpdsp的大规模三角线性方程组求解向量化计算的方法

Info

Publication number: CN104615584B
Application number: CN201510062255.5A
Authority: CN
Inventors: 刘仲; 陈书明; 扈啸; 万江华; 陈海燕; 陈胜刚; 胡封林; 郭阳; 田希; 陈磊; 刘胜; 孙海燕; 阳柳; 张雪萌; 陈跃跃; 吴家铸
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2015-02-06
Filing date: 2015-02-06
Publication date: 2017-12-22
Anticipated expiration: 2035-02-06
Also published as: CN104615584A

Abstract

本发明公开了一种面向GPDSP的大规模三角线性方程组求解向量化计算的方法，为：采用分块计算的方式将大规模三角线性方程组的求解分割为不规整三角矩阵分块与向量乘法和规整化的矩阵分块与向量乘法；通过GPDSP中的CPU核运行操作系统，负责数据的逻辑分割和任务的调度，计算负载较少的不规整三角矩阵分块与向量乘法计算；通过GPDSP中的DSP核负责规整化的矩阵分块与向量乘法，不间断的从CPU核获取新的计算任务并将运行结果报告CPU核，所述CPU核通过动态调度实现各DSP核之间的计算任务的动态负载均衡。本发明原理简单、操作方便，能充分利用GPDSP中CPU核的通用计算和DSP核的强大向量处理阵列并行计算、高带宽向量数据加载能力，显著提高DSP核计算访存比。

Description

面向GPDSP的大规模三角线性方程组求解向量化计算的方法

技术领域

本发明主要涉及通用计算数字信号处理器(General-Purpose Digital SignalProcessor，简称GPDSP)，特指一种适用于GPDSP的大规模三角线性方程组求解向量化计算的方法。

背景技术

三角线性方程组求解计算在高性能计算和科学工程计算领域中应用广泛。例如，大规模稠密线性方程组求解通常是先进行系数矩阵的LU分解或QR分解，再转化为三角线性方程组求解，最后通过三角线性方程组求解获得最终的线性方程组的求解结果。高性能基准测试程序(High Performance Linpack，HPL)是TOP500最重要的测试基准，HPL通过求解稠密线性代数方程组，以测试和评价高性能计算机系统的浮点性能，HPL在完成矩阵LU分解之后，还需要一个下三角线性方程组求解和一个上三角线性方程组求解以完成最终的计算。因此，三角线性方程组求解的性能对提高HPL的效率具有非常重要的应用价值。

目前，三角线性方程组求解的加速方法包括硬件方法和软件方法，硬件的加速方法代价高，通用性差；软件方法主要是采用循环展开、软件流水等软件优化方法进行加速，通常加速的效果不明显，很难实现大幅度的加速。近年来，随着GPU的计算能力飞速发展，在专利申请号：200910226769.4的文献中提出一种利用CPU和GPU协同工作对三角线性方程组求解的加速方法，该方法根据CPU和GPU的性能进行负载平衡，这种静态的任务分割与具体的实现方法相关，难以保证最优的发挥处理器的性能。

在专利申请号为201310725118.6的文献(处于实审阶段)中提供了一种通用计算数字信号处理器(General-Purpose Digital Signal Processor，简称GPDSP)，它包含CPU核单元和DSP核单元，CPU核单元主要用于负责包括存储管理、文件控制、进程调度、中断管理任务在内的通用事务管理以及提供对通用操作系统的完整支持；DSP核单元包含若干强大计算能力的64位向量处理阵列，用于支持高密集运算任务的解算。GPDSP中CPU核的优势在于控制管理，其计算能力在GPDSP中的占比极小，而DSP核的向量处理阵列具有强大向量化计算能力和高带宽的向量数据加载能力，是GPDSP计算性能的主要贡献者，因此，上述利用CPU和GPU对三角线性方程组求解的加速方法不适合GPDSP，不能充分利用DSP核的向量阵列存储访存模式和向量处理阵列并发向量处理的体系结构特征，难以发挥GPDSP的向量计算优势。

发明内容

本发明要解决的技术问题就在于：针对现有技术存在的技术问题，本发明提供一种原理简单、操作方便、能充分利用GPDSP中CPU核的通用计算和DSP核的强大向量处理阵列并行计算、高带宽向量数据加载能力，显著提高DSP核计算访存比的面向GPDSP的大规模三角线性方程组求解向量化计算的方法。

为解决上述技术问题，本发明采用以下技术方案：

一种面向GPDSP的大规模三角线性方程组求解向量化计算的方法，为：

采用分块计算的方式将大规模三角线性方程组的求解分割为不规整三角矩阵分块与向量乘法和规整化的矩阵分块与向量乘法；

通过GPDSP中的CPU核运行操作系统，负责数据的逻辑分割和任务的调度，计算负载较少的不规整三角矩阵分块与向量乘法计算；

通过GPDSP中的DSP核负责规整化的矩阵分块与向量乘法，不间断的从CPU核获取新的计算任务并将运行结果报告CPU核，所述CPU核通过动态调度实现各DSP核之间的计算任务的动态负载均衡。

作为本发明的进一步改进：所述方法的具体流程为：

S1：由GPDSP的CPU核在片外DDR存储器为矩阵A，向量x和b分配存储空间，并生成初始化数据或者从其他数据来源传输本次计算所需要的数据；

S2：根据GPDSP的体系结构特征确定优化的下三角矩阵的分块大小NB值；

S3：由GPDSP的CPU核根据上述步骤确定的NB值将矩阵A，向量x和b进行逻辑分块；

S4：GPDSP的CPU核将三角分块T_i和子向量b_i加载到片内共享存储阵列中，初始i＝1，计算得到计算结果x_i传出到片外DDR存储器中，同时保持在片内共享存储阵列中；

S5：GPDSP的CPU核将逻辑分块S_i+1,i,S_i+2,i,…,S_n,i的加入计算任务池；逻辑分块的计算任务按照先行优先、再列优先的顺序策略进行优先级排序；

S6：GPDSP的CPU核从计算任务池中按照计算优先级，依次派发计算任务给空闲的DSP核，并且保证每一行只有一个逻辑分块被处理，若该行已经有一个逻辑分块正被处理，则按照优先级顺序取下一个不在本行上的逻辑分块，设派发的逻辑分块为S_i,j；

S7：GPDSP的DSP核通过DMA从片外DDR存储器将逻辑分块为S_i,j传输到片内向量阵列存储器，判断片内共享存储阵列中是否保存有逻辑子向量分块x_j和b_i，若没有，则从片外DDR存储器传入片内共享存储阵列中；执行逻辑分块S_i,j与子向量分块x_j和b_i的乘减计算：b_i＝b_i-S_i,j*x_j；计算后的结果b_i保持在片内共享存储阵列中；

S8：GPDSP的CPU核根据计算任务池的逻辑分块执行情况判断i+1行的逻辑分块是否都计算完毕，若是，令i＝i+1，转步骤S4；若不是，转步骤S6；

重复上述步骤S4至步骤S8的计算，直到GPDSP的CPU核完成所有的计算，则所有子向量x₁,x₂,…,x_n构成最终的三角线性方程组的解向量，计算完毕。

作为本发明的进一步改进：所述步骤S7的具体步骤为：

S7.1：GPDSP的DSP核通过DMA从片外DDR存储器将逻辑分块为S_i,j传输到片内向量阵列存储器是按照转置的方式存储在片内向量阵列存储器中，记为TS_i,j；设初始值全为0的向量寄存器组V₀，V₀用作乘累加计算的累加器；

S7.2：GPDSP的DSP核使用标量LOAD指获取子向量x_j的第一个元素，存入标量寄存器U₁；

S7.3：GPDSP的DSP核使用标量广播指令将U₁数据广播至向量寄存器V₁中；

S7.4：GPDSP的DSP核使用向量LOAD指令加载TS_i,j的第一行元素，存入向量寄存器组V₂；

S7.5：GPDSP的DSP核使用向量浮点乘法指令计算V₁与V₂的乘积加上V₀的值并将结果存入V₀；

重复执行步骤S7.2到步骤S7.5，直至子向量x_j的每一个元素计算完毕；

S7.6：GPDSP的DSP核通过DMA从片内共享存储阵列中将子向量分块b_i传输到片内向量阵列存储器；

S7.7：GPDSP的DSP核使用向量LOAD指令加载子向量分块b_i元素，存入向量寄存器组V₃；

S7.8：GPDSP的DSP核使用向量浮点减法指令计算V₃与V₀的减法，存入向量寄存器组V₃；

S7.9：GPDSP的DSP核使用向量STORE指令将向量寄存器组V₃存入子向量分块b_i在片内向量阵列存储器中的原存储位置；

S7.10：GPDSP的DSP核通过DMA从片内向量阵列存储器将子向量分块b_i传输到片内共享存储阵列中的原存储位置；

S7.11：计算完毕。

作为本发明的进一步改进：所述步骤S2中确定分块NB大小的方法是：基于GPDSP的体系结构特征，考虑(1)DSP核上的该分块大小的矩阵分块与向量乘法计算的核心程序能够充分发挥DSP核的峰值性能，NB是(p*q)的整数倍；(2)后续计算过程中CPU核和DSP核等待的时间最少。

作为本发明的进一步改进：在所述步骤S3中，令n＝INT(N/NB)，其中INT()表示对括号中的值向上取整，将下三角系数矩阵按照分块NB值划分为n×n个子块，其中在对角线上的子块依次标记为，以子块T_i为坐标，对应列方向上的矩阵分块依次标记为S_i+1,i,S_i+2,i,…,S_n,i；将x、b分别划分为长度为NB的子向量，分别有n个子向量，分别标记为x₁,x₂,…,x_n；b₁,b₂,…,b_n。

作为本发明的进一步改进：在所述步骤S5中，对于同列的逻辑分块S_j,i,S_k,i，若j>k，则S_i,k比S_i,j优先处理；对于同行的逻辑分块S_i,j,S_i,k,若j>k，则S_i,k比S_i,j优先处理。

与现有技术相比，本发明的优点在于：

1、本发明采用分块计算的方式将大规模三角线性方程组的求解分割为计算量小、数量较少的不规整三角矩阵分块与向量乘法，以及占据主要计算量、数量众多的规整化的矩阵分块与向量乘法。由CPU核运行操作系统，负责数据的逻辑分割和任务的调度，计算负载较少的不规整三角矩阵分块与向量乘法计算，而由DSP核负责占据主要计算量、数量众多的规整化的矩阵分块与向量乘法，DSP核运行充分优化的规整化的矩阵分块与向量乘法计算的核心程序，不间断的从CPU核获取新的计算任务并将运行结果报告CPU核，CPU核通过动态调度实现各DSP核之间的计算任务的动态负载均衡。

2、本发明所提供的任务分割方法能够充分发挥CPU核的通用计算和DSP核的强大向量化计算能力的优点，实现CPU核与DSP核间的紧密协同配合、DSP核之间的动态负载均衡，高效的实现大规模三角线性方程组求解向量化的计算。

3、本发明的方法，原理简单、操作方便、能充分利用GPDSP中CPU核的通用计算和DSP核的强大向量处理阵列并行计算、高带宽向量数据加载能力，显著提高DSP核计算访存比的大规模三角线性方程组求解向量化计算的方法，尤其适用于基于GPDSP实现大规模三角线性方程组求解向量化的计算。

附图说明

图1是本发明在具体应用实例中所面向GPDSP的简化访存结构模型示意图。

图2是本发明方法的流程示意图。

图3是本发明中GPDSP的DSP核执行逻辑分块S_i,j与子向量分块x_j和b_i的乘减计算的流程示意图。

具体实施方式

以下将结合说明书附图和具体实施例对本发明做进一步详细说明。

本发明的面向GPDSP的大规模三角线性方程组求解向量化计算的方法，为基于GPDSP的体系结构特征所提供一种高效的CPU核和DSP核协同计算实现大规模三角线性方程组求解向量化计算的方法。

本发明采用分块计算的方式将大规模三角线性方程组的求解分割为计算量小、数量较少的不规整三角矩阵分块与向量乘法，以及占据主要计算量、数量众多的规整化的矩阵分块与向量乘法。由CPU核运行操作系统，负责数据的逻辑分割和任务的调度，计算负载较少的不规整三角矩阵分块与向量乘法计算，而由DSP核负责占据主要计算量、数量众多的规整化的矩阵分块与向量乘法，DSP核运行充分优化的规整化的矩阵分块与向量乘法计算的核心程序，不间断的从CPU核获取新的计算任务并将运行结果报告CPU核，CPU核通过动态调度实现各DSP核之间的计算任务的动态负载均衡。

在较佳的实施例中，本发明所提供的任务分割方法能够充分发挥CPU核的通用计算和DSP核的强大向量化计算能力的优点，实现CPU核与DSP核间的紧密协同配合、DSP核之间的动态负载均衡，高效的实现大规模三角线性方程组求解向量化的计算。

如图1所示，是本发明在具体应用实例中所面向的GPDSP的简化访存结构模型示意图。系统包括CPU核单元和DSP核单元，DSP核单元包含若干64位向量处理阵列计算单元、专用的片内标量存储器和向量阵列存储器，CPU核单元和DSP核单元共享的片内共享存储、大容量的片外DDR存储器。

如图2所示，在一个具体应用实例中，设GPDSP中DSP核的数量为r个；DSP核的向量处理阵列的计算单元数量为p个，每个计算单元的MAC(乘加部件)数量为q个，DSP核的片内向量阵列存储器容量为s1字节，DSP核的片内标量存储器容量为s2字节；GPDSP的片内共享存储阵列容量为s3字节，GPDSP的片外共享DDR存储容量为s4字节。

设求解的三角线性方程组为Ax＝b，其中A是N×N阶的下三角系数矩阵，b是长度为N的常数向量，x是长度为N的待求解向量，矩阵元素的数据类型为单精度或双精度，每个元素数据为w字节。

在具体应用实例中，本发明的具体流程为：

S1：由GPDSP的CPU核在片外DDR存储器为矩阵A，向量x和b分配存储空间，并生成初始化数据或者从其他数据来源传输本次计算所需要的数据。

S2：根据GPDSP的体系结构特征确定优化的下三角矩阵的分块大小NB值。

确定分块NB大小的方法是：基于GPDSP的体系结构特征，主要考虑(1)DSP核上的该分块大小的矩阵分块与向量乘法计算的核心程序能够充分发挥DSP核的峰值性能，NB是(p*q)的整数倍；(2)后续计算过程中CPU核和DSP核等待的时间最少。设本方法中NB取值为(p*q)的m倍。

S3：由GPDSP的CPU核根据上述步骤确定的NB值将矩阵A，向量x和b进行逻辑分块。

即：令n＝INT(N/NB)，其中INT()表示对括号中的值向上取整。将下三角系数矩阵按照分块NB值划分为n×n个子块，其中在对角线上的子块依次标记为，以子块T_i为坐标，对应列方向上的矩阵分块依次标记为S_i+1,i,S_i+2,i,…,S_n,i。将x、b分别划分为长度为NB的子向量，分别有n个子向量，分别标记为x₁,x₂,…,x_n；b₁,b₂,…,b_n；。

S4：GPDSP的CPU核将三角分块T_i和子向量b_i加载到片内共享存储阵列中(初始i＝1)，计算得到计算结果x_i传出到片外DDR存储器中，同时保持在片内共享存储阵列中。

S5：GPDSP的CPU核将逻辑分块S_i+1,i,S_i+2,i,…,S_n,i的加入计算任务池。逻辑分块的计算任务按照先行优先、再列优先的顺序策略进行优先级排序，即：对于同列的逻辑分块S_j,i,S_k,i，若j>k，则S_i,k比S_i,j优先处理；对于同行的逻辑分块S_i,j,S_i,k,若j>k，则S_i,k比S_i,j优先处理。

S6：GPDSP的CPU核从计算任务池中按照计算优先级，依次派发计算任务给空闲的DSP核，并且保证每一行只有一个逻辑分块被处理，若该行已经有一个逻辑分块正被处理，则按照优先级顺序取下一个不在本行上的逻辑分块，设派发的逻辑分块为S_i,j。

S7：GPDSP的DSP核通过DMA从片外DDR存储器将逻辑分块为S_i,j传输到片内向量阵列存储器，判断片内共享存储阵列中是否保存有逻辑子向量分块x_j和b_i，若没有，则从片外DDR存储器传入片内共享存储阵列中；执行逻辑分块S_i,j与子向量分块x_j和b_i的乘减计算：b_i＝b_i-S_i,j*x_j。计算后的结果b_i保持在片内共享存储阵列中。

S8：GPDSP的CPU核根据计算任务池的逻辑分块执行情况判断i+1行的逻辑分块是否都计算完毕，若是，令i＝i+1，转步骤S4。若不是，转步骤S6。

作为本发明的较佳实施例，如图3所示，本实施例中，上述步骤S7中GPDSP的DSP核执行逻辑分块S_i,j与子向量分块x_j和b_i的乘减计算，具体步骤为：

S7.1：GPDSP的DSP核通过DMA从片外DDR存储器将逻辑分块为S_i,j传输到片内向量阵列存储器是按照转置的方式存储在片内向量阵列存储器中，记为TS_i,j；

设初始值全为0的向量寄存器组V₀，V₀用作乘累加计算的累加器。

S7.2：GPDSP的DSP核使用标量LOAD指获取子向量x_j的第一个元素，存入标量寄存器U₁。

S7.3：GPDSP的DSP核使用标量广播指令将U₁数据广播至向量寄存器V₁中。

S7.4：GPDSP的DSP核使用向量LOAD指令加载TS_i,j的第一行元素，存入向量寄存器组V₂。

S7.5：GPDSP的DSP核使用向量浮点乘法指令计算V₁与V₂的乘积加上V₀的值并将结果存入V₀。

重复执行步骤S7.2到步骤S7.5，直至子向量x_j的每一个元素计算完毕。

S7.6：GPDSP的DSP核通过DMA从片内共享存储阵列中将子向量分块b_i传输到片内向量阵列存储器

S7.7：GPDSP的DSP核使用向量LOAD指令加载子向量分块b_i元素，存入向量寄存器组V₃。

S7.8：GPDSP的DSP核使用向量浮点减法指令计算V₃与V₀的减法，存入向量寄存器组V₃。

S7.9：GPDSP的DSP核使用向量STORE指令将向量寄存器组V₃存入子向量分块b_i在片内向量阵列存储器中的原存储位置。

S7.10：GPDSP的DSP核通过DMA从片内向量阵列存储器将子向量分块b_i传输到片内共享存储阵列中的原存储位置。

S7.11：计算完毕。

结合图3的内容，在上述过程中:

参见如图3(1)所示，设GPDSP的体系结构参数p＝4，q＝1，NB＝4；i＝4，j＝2。计算：b₄＝b₄-S₄₂*x₂。

如图3(2)所示，GPDSP的DSP核通过DMA从片外DDR存储器将逻辑分块为S_4,2传输到片内向量阵列存储器是按照转置的方式存储在片内向量阵列存储器中，记为TS_4,2；。

如图3(3)所示，GPDSP的DSP核设初始值全为0的向量寄存器V₀，用作乘累加计算的累加器；使用标量LOAD指获取子向量x₂的第一个元素x₂₁，存入标量寄存器U₁；使用标量广播指令将U₁数据广播至向量寄存器V₁＝{x₂₁ x₂₁ x₂₁ x₂₁}；使用向量LOAD指令加载TS_4,2的第一行元素，存入向量寄存器V₂＝{s₁₁ s₂₁ s₃₁ s₄₁}；使用向量浮点乘法指令计算V₁与V₂的乘积加上V₀的值并将结果存入V₀＝{x₂₁*s₁₁ x₂₁*s₂₁ x₂₁*s₃₁ x₂₁*s₄₁}。

如图3(4)所示，GPDSP的DSP核使用标量LOAD指获取子向量x₂的第二个元素x₂₂，存入标量寄存器U₁；使用标量广播指令将U₁数据广播至向量寄存器V₁＝{x₂₂ x₂₂ x₂₂ x₂₂}；使用向量LOAD指令加载TS_4,2的第二行元素，存入向量寄存器V₂＝{s₁₂ s₂₂ s₃₂ s₄₂}；使用向量浮点乘法指令计算V₁与V₂的乘积加上V₀的值并将结果存入V₀：V₀＝{x₂₂*s₁₂+x₂₁*s₁₁ x₂₂*s₂₂+x₂₁*s₂₁ x₂₂*s₃₂+x₂₁*s₃₁ x₂₂*s₄₂+x₂₁*s₄₁}。

如图3(5)所示，GPDSP的DSP核使用标量LOAD指获取子向量x₂的第三个元素x₂₃，存入标量寄存器U₁；使用标量广播指令将U₁数据广播至向量寄存器V₁＝{x₂₃ x₂₃ x₂₃ x₂₃}；使用向量LOAD指令加载TS_4,2的第三行元素，存入向量寄存器V₂＝{s₁₃ s₂₃ s₃₃ s₄₃}；使用向量浮点乘法指令计算V₁与V₂的乘积加上V₀的值并将结果存入V₀：

V₀＝{x₂₃*s₁₃+x₂₂*s₁₂+x₂₁*s₁₁ x₂₃*s₂₃+x₂₂*s₂₂+x₂₁*s₂₁

x₂₃*s₃₃+x₂₂*s₃₂+x₂₁*s₃₁ x₂₃*s₄₃+x₂₂*s₄₂+x₂₁*s₄₁}。

如图3(6)所示，GPDSP的DSP核使用标量LOAD指获取子向量x₂的第四个元素x₂₄，存入标量寄存器U₁；使用标量广播指令将U₁数据广播至向量寄存器V₁＝{x₂₄ x₂₄ x₂₄ x₂₄}；使用向量LOAD指令加载TS_4,2的第四行元素，存入向量寄存器V₂＝{s₁₄ s₂₄ s₃₄ s₄₄}；使用向量浮点乘法指令计算V₁与V₂的乘积加上V₀的值并将结果存入V₀：

V₀＝{x₂₄*s₁₄+x₂₃*s₁₃+x₂₂*s₁₂+x₂₁*s₁₁ x₂₄*s₂₄+x₂₃*s₂₃+x₂₂*s₂₂+x₂₁*s₂₁

x₂₄*s₃₄+x₂₃*s₃₃+x₂₂*s₃₂+x₂₁*s₃₁ x₂₄*s₄₄+x₂₃*s₄₃+x₂₂*s₄₂+x₂₁*s₄₁}。

如图3(7)所示，GPDSP的DSP核使用向量LOAD指令加载子向量分块b_i元素，存入向量寄存器V₃＝{b₄₁ b₄₂ b₄₃ b₄₄}；使用向量浮点减法指令计算V₃与V₀的减法，存入向量寄存器V₃：

V₃＝{b₄₁-(x₂₄*s₁₄+x₂₃*s₁₃+x₂₂*s₁₂+x₂₁*s₁₁) b₄₂-(x₂₄*s₂₄+x₂₃*s₂₃+x₂₂*s₂₂+x₂₁*s₂₁)

b₄₃-(x₂₄*s₃₄+x₂₃*s₃₃+x₂₂*s₃₂+x₂₁*s₃₁) b₄₄-(x₂₄*s₄₄+x₂₃*s₄₃+x₂₂*s₄₂+x₂₁*s₄₁)}

GPDSP的DSP核使用向量STORE指令将向量寄存器V₃存入子向量分块b_i在片内向量阵列存储器中的原存储位置。最后通过DMA从片内向量阵列存储器将子向量分块b_i传输到片内共享存储阵列中的原存储位置，完成逻辑分块S_i,j与子向量分块x_j和b_i的乘减计算。

以上仅是本发明的优选实施方式，本发明的保护范围并不仅局限于上述实施例，凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理前提下的若干改进和润饰，应视为本发明的保护范围。

Claims

1.一种面向GPDSP的大规模三角线性方程组求解向量化计算的方法，其特征在于，

通过GPDSP中的DSP核负责规整化的矩阵分块与向量乘法，不间断的从CPU核获取新的计算任务并将运行结果报告CPU核，所述CPU核通过动态调度实现各DSP核之间的计算任务的动态负载均衡；

所述方法的具体流程为：

S4：GPDSP的CPU核将三角分块T_i和子向量b_i加载到片内共享存储阵列中，初始i＝1，计算得到x_i＝T_i ^-1b_i，计算结果x_i传出到片外DDR存储器中，同时保持在片内共享存储阵列中；

2.根据权利要求1所述的面向GPDSP的大规模三角线性方程组求解向量化计算的方法，其特征在于，所述步骤S7的具体步骤为：

S7.11：计算完毕。

3.根据权利要求1或2所述的面向GPDSP的大规模三角线性方程组求解向量化计算的方法，其特征在于，所述步骤S2中确定分块NB大小的方法是：基于GPDSP的体系结构特征，考虑(1)DSP核上的该分块大小的矩阵分块与向量乘法计算的核心程序能够充分发挥DSP核的峰值性能，NB是(p*q)的整数倍；(2)后续计算过程中CPU核和DSP核等待的时间最少；其中，设GPDSP中DSP核的向量处理阵列的计算单元数量为p个，每个计算单元的乘加部件MAC数量为q个。

4.根据权利要求1或2所述的面向GPDSP的大规模三角线性方程组求解向量化计算的方法，其特征在于，在所述步骤S3中，令n＝INT(N/NB)，其中INT()表示对括号中的值向上取整，将下三角系数矩阵按照分块NB值划分为n×n个子块，其中在对角线上的子块依次标记为T_i，以子块T_i为坐标，对应列方向上的矩阵分块依次标记为S_i+1,i,S_i+2,i,…,S_n,i；将x、b分别划分为长度为NB的子向量，分别有n个子向量，分别标记为x₁,x₂,…,x_n；b₁,b₂,…,b_n；其中，设求解的三角线性方程组为Ax＝b，其中A是N×N阶的下三角系数矩阵，b是长度为N的常数向量，x是长度为N的待求解向量，矩阵元素的数据类型为单精度或双精度，每个元素数据为w字节。

5.根据权利要求1或2所述的面向GPDSP的大规模三角线性方程组求解向量化计算的方法，其特征在于，在所述步骤S5中，对于同列的逻辑分块S_j,i,S_k,i，若j>k，则S_k,i比S_j,i优先处理；对于同行的逻辑分块S_i,j,S_i,k,若j>k，则S_i,k比S_i,j优先处理。