CN108090029A

CN108090029A - 矩阵求逆中的算粒调度装置

Info

Publication number: CN108090029A
Application number: CN201810009266.0A
Authority: CN
Inventors: 王元磊; 张兴明; 宋克; 刘勤让; 沈剑良; 吕平; 朱珂; 刘冬培; 王盼; 高彦钊; 谭力波; 陶常勇; 杨堃; 王封; 张帆; 张新顺; 汪欣
Original assignee: Tianjin Binhai New Area Information Technology Innovation Center; Tianjin Core Technology Co Ltd
Current assignee: TIANJIN XINHAICHUANG TECHNOLOGY Co.,Ltd.
Priority date: 2018-01-04
Filing date: 2018-01-04
Publication date: 2018-05-29
Anticipated expiration: 2038-01-04
Also published as: CN108090029B

Abstract

本发明公开了一种矩阵求逆中的算粒调度装置及方法，涉及数据计算技术领域，包括：运算分配调度模块、乘法算粒、累加乘算粒和乘法结果判决模块；运算分配模块接收到待处理算式时，确定空闲状态的累加乘算粒及算粒标识，根据算粒标识为待处理算式生成算式附加信息，将待处理算式中的多个乘法运算分别分配至至少两个乘法算粒中，得到多个乘法值；乘法结果判决模块根据算式附加信息将多个乘法值及待处理算式的常数项输送至算粒标识对应的累加乘算粒中，得到计算结果。本发明提供的一种矩阵求逆中的算粒调度装置及方法，对矩阵求逆构成中的运算算式进行算粒拆分、算粒高效调度和适度并行化处理，实现对可重构矩阵求逆运算，进而实现FPGA硬件的加速处理。

Description

矩阵求逆中的算粒调度装置

技术领域

本发明涉及数据计算技术领域，尤其是涉及一种矩阵求逆中的算粒调度装置。

背景技术

在数据计算领域内，如何应用一种通用的计算平台进行高效的数据计算，一直是大数据量处理应用环境所探究的方向。尤其在雷达信号处理领域，STAP(空时自适应处理)运算中的矩阵求逆运算一直是制约雷达信号实时高效处理的瓶颈，因此如何应用一个通用的平台高效的计算矩阵求逆运算，对于雷达信号处理中是非常关键的。

目前应用FPGA(现场可编程门阵列，Field－Programmable Gate Array)开发的矩阵求逆算法主要有流水化处理和并行处理等方式，但由于矩阵求逆中数据计算量会逐步增大，因此流水化处理并不高效；并行化处理由于需要软件配合进行数据下发，这是一种以资源换时间的传统方法，不利于大数据量的处理，不适用于新时代小型化和低功耗等设计要求。

发明内容

有鉴于此，本发明的目的在于提供一种矩阵求逆中的算粒调度装置，以缓解现有技术中的矩阵求逆算法存在有处理效率低，数据处理能力较差的技术问题。

第一方面，本发明实施例提供了一种矩阵求逆中的算粒调度装置，包括：运算分配调度模块、乘法算粒、累加乘算粒和乘法结果判决模块；

所述运算分配模块，用于当接收到待处理算式时，确定空闲状态的累加乘算粒及算粒标识，并根据所述算粒标识为所述待处理算式生成算式附加信息，将所述待处理算式中的多个乘法运算分别分配至至少两个乘法算粒中，得到多个乘法值；

所述乘法结果判决模块，用于根据所述算式附加信息，将多个所述乘法值及所述待处理算式的常数项输送至所述算粒标识对应的所述累加乘算粒中，得到计算结果。

结合第一方面，本发明实施例提供了第一方面的第一种可能的实施方式，其中，所述装置还包括：累加结果判决模块和结果判决模块；

所述累加结果判决模块，用于将所述多个乘法值和所述算式附加信息写入与所述算粒标识对应的数据缓冲器中；

所述结果判决模块，用于将所述计算结果写入结果缓存中。

第二方面，本发明实施例还提供一种矩阵求逆中的算粒调度方法，应用于如第一方面所述的装置中，所述方法包括：

当接收到待处理算式时，确定空闲状态的累加乘算粒及算粒标识；

根据所述算粒标识为所述待处理算式生成算式附加信息；

将所述待处理算式中的多个乘法运算分别分配至至少两个乘法算粒中，得到多个乘法值；

根据所述算式附加信息，将多个所述乘法值及所述待处理算式的常数项输送至所述算粒标识对应的所述累加乘算粒中，得到计算结果。

结合第二方面，本发明实施例提供了第二方面的第一种可能的实施方式，其中，所述方法还包括：

将所述待处理算式中的常数项写入算式数据缓存模块中与所述算粒标识对应的固定地址；

将所述多个乘法值和所述算式附加信息写入与所述算粒标识对应的数据缓冲器中。

结合第二方面，本发明实施例提供了第二方面的第二种可能的实施方式，其中，所述算式附加信息包括：所述待处理算式的标识和乘法运算数量，所述方法还包括：

判断写入所述数据缓冲器中的乘法值的数量与所述待处理算式的乘法运算数量是否相同；

若写入所述数据缓冲器中的乘法值的数量与所述待处理算式的乘法运算数量相同，确定所述待处理算式的多个乘法值写入完毕。

结合第二方面，本发明实施例提供了第二方面的第三种可能的实施方式，其中，将所述待处理算式中的多个乘法运算分别分配至至少两个乘法算粒中，得到多个乘法值，包括：

针对每个所述乘法算粒，检测写入所述乘法算粒的存储器内的乘法运算的数量是否大于预设阈值；

当写入所述乘法算粒的存储器内的乘法运算的数量大于预设阈值时，根据优先级将当前待分配的乘法运算下发至其他乘法算粒中。

结合第二方面，本发明实施例提供了第二方面的第四种可能的实施方式，其中，所述常数项包括：一个常数项，所述将多个所述乘法值及所述待处理算式的常数项输送至所述算粒标识对应的所述累加乘算粒中，得到计算结果，包括：

将多个乘法值和常数项相累加得到所述计算结果。

结合第二方面，本发明实施例提供了第二方面的第五种可能的实施方式，其中，所述常数项包括：第一常数项和第二常数项，所述将多个所述乘法值及所述待处理算式的常数项输送至所述算粒标识对应的所述累加乘算粒中，得到计算结果，包括：

将多个乘法值和第一常数项相累加得到加法计算结果；

将所述加法计算结果和所述第二常数项相乘得到所述计算结果。

第三方面，本发明实施例还提供一种电子设备，包括存储器、处理器，所述存储器中存储有可在所述处理器上运行的计算机程序，所述程序代码使所述处理器执行第二方面所述的方法。

第四方面，本发明实施例还提供一种具有处理器可执行的非易失的程序代码的计算机可读介质，所述程序代码使所述处理器执行所述第二方面所述的方法。

本发明实施例带来了以下有益效果：本发明实施例提供的一种矩阵求逆中的算粒调度装置及方法，应用可重构计算方法，对矩阵求逆构成中的运算算式进行算粒拆分、算粒高效调度和适度并行化处理，实现对可重构矩阵求逆运算，进而实现FPGA硬件的加速处理。

本发明的其他特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的矩阵求逆中的算粒调度装置的结构示意图；

图2为本发明实施例提供的矩阵求逆中的算粒调度装置的控制原理图；

图3为本发明另一个实施例提供的矩阵求逆中的算粒调度方法的流程示意图；

图4为本发明另一个实施例提供的矩阵求逆中的算粒调度方法的流程示意图。

图标：

100-运算分配调度模块；200-乘法算粒；300-乘法结果判决模块；400-累加乘算粒；500-累加结果判决模块；600-结果判决模块。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

目前，现有技术中的矩阵求逆算法存在有处理效率低，数据处理能力较差，基于此，本发明实施例提供的一种矩阵求逆中的算粒调度装置及方法，应用可重构计算方法，对矩阵求逆构成中的运算算式进行算粒拆分、算粒高效调度和适度并行化处理，实现对可重构矩阵求逆运算，进而实现FPGA硬件的加速处理。

在本发明实施例提供的一种矩阵求逆中的算粒调度装置及方法，对运算过程中的运算算式进行归类分析，在求逆过程中的算式分解中主要有两类算式如下：

Y＝A1xB1+…+An*Bn+C1；

Y＝(A1xB1+…+An*Bn+C3)xD3。

因此，如何动态高效地进行上述两个算式的运算是优化矩阵求逆运算效能的关键。

为便于对本实施例进行理解，首先对本发明实施例所公开的一种矩阵求逆中的算粒调度装置进行详细介绍。

如图1所示，在本发明的一个实施例中，提供了一种矩阵求逆中的算粒调度装置，包括：运算分配调度模块100、乘法算粒200、累加乘算粒400和乘法结果判决模块300。

所述运算分配模块100，用于当接收到待处理算式时，确定空闲状态的累加乘算粒及算粒标识，并根据所述算粒标识为所述待处理算式生成算式附加信息，将所述待处理算式中的多个乘法运算分别分配至至少两个乘法算粒中，得到多个乘法值。

具体的，当所述运算分配模块100接收到任一待处理算式时，先向乘法结果判决模块300发送获取指令，以获取处于空闲状态的算粒标识(即ID号)。之后根据算粒标识为所述待处理算式生成对应的算式附加信息(待处理算式的ID以及乘法运算数量)，例如，空闲状态的算粒标识ID号为“0”，即对应待处理算式的ID为“0”。之后运算分配调度模块100将多个乘法运算和算式附加信息分别下发给至少两个乘法算粒200，以得到该算式多个相乘运算的乘法值。在下发完多个乘法运算后，所述运算分配调度模块100将算式中的常数项写入到算式数据缓存模块中与所述算粒ID号对应的固定地址中。

如图2所示，在前述实施例的基础上，所述装置还包括：累加结果判决模块500和结果判决模块600。

所述累加结果判决模块500，用于将所述多个乘法值和所述算式附加信息写入与所述算粒标识对应的数据缓冲器中。

所述乘法结果判决模块300，用于根据所述算式附加信息，将多个所述乘法值及所述待处理算式的常数项输送至所述算粒标识对应的所述累加乘算粒400中，得到计算结果。

具体的，所述乘法结果判决模块300，从数据缓冲器读取多个乘法值，从算式数据缓存模块中与所述算粒ID号对应的固定地址中读取待处理算式的常数项，将多个乘法值和常数项发送给与所述算粒ID号对应的累加乘算粒400中，进行累加次数和累加后乘法的启动，得到该算式的计算结果。

所述结果判决模块600，用于将所述计算结果写入结果缓存中。

本发明实施例提供的一种矩阵求逆中的算粒调度装置，对矩阵求逆构成中的运算算式进行算粒拆分、算粒高效调度和适度并行化处理，实现对可重构矩阵求逆运算，进而实现FPGA硬件的加速处理。

如图3所示，在本发明的另一实施例中，提供了一种应用于前述实施例所述的算粒调度装置的方法，包括以下几个步骤。

S101，当运算分配调度模块接收到待处理算式时，确定空闲状态的累加乘算粒及算粒标识。

S102，运算分配调度模块根据所述算粒标识为所述待处理算式生成算式附加信息。

S103，运算分配调度模块将所述待处理算式中的多个乘法运算分别分配至至少两个乘法算粒中，得到多个乘法值。

具体的，将所述待处理算式中的多个乘法运算分别分配至至少两个乘法算粒中时，所述方法包括以下步骤。

针对每个所述乘法算粒，运算分配调度模块检测写入所述乘法算粒的存储器内的乘法运算的数量是否大于预设阈值。

当写入所述乘法算粒的存储器内的乘法运算的数量大于预设阈值时，运算分配调度模块会根据优先级将当前待分配的乘法运算以及待处理算式的算式附加信息下发至其他乘法算粒中。

每个乘法算粒对自身分配得到的至少一个乘法运算进行计算，并将乘法结果和算式附加信息输送至所述累加结果判决模块。

在下发后多个乘法运算后，运算分配调度模块还将所述待处理算式中的常数项写入算式数据缓存模块中与所述算粒标识对应的固定地址。例如，算粒标识ID号为“0”，即将待处理算式中的常数项写入到算式数据缓存模块中的“0”地址中。在这里示出和描述的所有示例中，任何具体值应被解释为仅仅是示例性的，而不是作为限制，因此，示例性实施例的其他示例可以具有不同的值。

之后累加结果判决模块将所述多个乘法值和所述算式附加信息写入与所述算粒标识(例如，ID号为“0”)对应的数据缓冲器(FIFO-0)中。如图4所示，在将多个乘法值和算式附加信息写入对应的数据缓冲器时，所述方法还包括以下几个步骤。

S201，判断写入所述数据缓冲器中的乘法值的数量与所述待处理算式的乘法运算数量是否相同。

S202，若写入所述数据缓冲器中的乘法值的数量与所述待处理算式的乘法运算数量相同，确定所述待处理算式的多个乘法值写入完毕，即所述待处理算式的所有相乘运算都运算完毕。

S104，乘法结果判决模块根据所述算式附加信息，将多个所述乘法值及所述待处理算式的常数项输送至所述算粒标识对应的所述累加乘算粒中，得到计算结果。

在实际应用中，当累加结果判决模块将待处理算式的多个乘法值全部写入数据缓冲器时，向乘法结果发送指示信号，以提示乘法结果判决模块读取数据缓冲器的多个乘法值。或者，对应累加结果判决模块将多个乘法值写入数据缓冲器的过程设定为第一时钟周期，对应乘法结果读取数据缓冲器的多个乘法值的过程设定为第二时钟周期，当累加结果判决模块写入完毕时，启动乘法结果判决模块从算粒标识对应的数据缓冲器中读取的多个乘法值。

之后乘法结果判决模块先读取数据缓冲器的多个乘法值，再从算式数据缓存模块中的对应地址中将该待处理算式的常数项读取出来，根据代处理算式的标识与算粒标识的对应关系，将多个乘法值和常数项输送至所述算粒标识对应的所述累加乘算粒中，进行累加次数和累加后乘法的启动，得到该算式的计算结果。所得计算结果由结果判决模块获取，并写入结果缓存中。

由于求逆过程中的算式分解中主要有两类算式如下：

Y＝A1xB1+…+An*Bn+C1 (1)

Y＝(A1xB1+…+An*Bn+C3)xD3 (2)

对于第一种算式，所述常数项只包括一个常数项C1。针对这种类型算式，将多个所述乘法值及所述待处理算式的常数项输送至所述算粒标识对应的所述累加乘算粒中，得到计算结果的步骤如下。

将多个乘法值和常数项相累加得到所述计算结果。

对于第二种方式，所述常数项包括：第一常数项C3和第二常数项D3。针对这种类型算式，将多个所述乘法值及所述待处理算式的常数项输送至所述算粒标识对应的所述累加乘算粒中，得到计算结果的步骤如下。

将多个乘法值和第一常数项相累加得到加法计算结果。

以下以举例方式说明本发明实施例提供的矩阵求逆中的算粒调度装置的具体工作原理：

本发法以算式为处理单位。

1.当所述运算分配模块接收到任一待处理算式时，先向乘法结果判决模块发送获取指令，以获取处于空闲状态的算粒标识(即ID号)。之后根据算粒标识为所述待处理算式生成对应的算式附加信息。

例如，空闲状态的算粒标识ID号为“0”，即对应待处理算式的ID为“0”。之后运算分配模块将多个乘法运算和算式附加信息分别下发给至少两个乘法算粒，以得到该算式多个相乘运算的乘法值。下发过程中，动态仲裁，动态下发，若不存在空闲状态的累加乘算粒，停止相乘运算的下发。

在下发完多个乘法运算后，所述运算分配调度模块将算式中的常数项写入到算式数据缓存模块中与所述算粒ID号对应的固定地址中。即，对应算粒标识ID号为“0”，即将待处理算式中的常数项写入到算式数据缓存模块中的“0”地址中。

对于第一种算式，写入常数项“C1，1”；对于第二种算式，写入常数项“C3，D3”。

2.累加结果判决模块接收已分配相乘运算的乘法算粒发送的多个乘法值以及算式附加信息(算式标识和乘法运算数量)，将多个乘法值和算式附加信息写入与算粒标识(空闲累加乘算粒标识的ID为“0”)对应的数据缓冲器(FIFO-0)内。若将所述待处理算式的所有相乘运算的多个乘法值收满写入完毕后，启动乘法结果判决模块开始读取数据。

3.乘法结果判决模块先将数据缓冲器(FIFO-0)内的多个乘法值读空，再从算式数据缓存模块的“0”地址中读取常数项，将多个乘法值和常数项发送给与所述算粒ID号对应的累加乘算粒中，根据相应的随路附加信息标识(例如，每个数值对应一个运算标识，“0”代表相乘，“1”代表相加)，进行累加次数和累加后乘法的启动，得到该算式的计算结果。

4.将计算结果写入结果缓存。

5.当接收到下一个待处理算式时，重复上述过程。

6.采用数据反压方式，在数据处理量高的时候，可动态例化多个算粒资源。

本发明的实施例提供的一种矩阵求逆中的算粒调度方法，可以实现系统资源的灵活调配，通过更换不同种类的算粒，可快速适应不同种类的计算，通过优化设计该方法内的仲裁调度方式，可实现资源的动态调整与分配，可实现多任务并行运算，根据系统时效运行的要求，可实现不同并行运算的自适应扩展。

在本发明的另一个实施例中，还提供了一种电子设备，包括存储器、处理器，所述存储器中存储有可在所述处理器上运行的计算机程序，所述程序代码使所述处理器执行的矩阵求逆中的算粒调度方法。

在本发明的另一个实施例中，还提供了一种具有处理器可执行的非易失的程序代码的计算机可读介质，所述程序代码使所述处理器执行所述矩阵求逆中的算粒调度方法。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

本发明实施例所提供的矩阵求逆中的算粒调度装置以及系统的计算机程序产品，包括存储了程序代码的计算机可读存储介质，所述程序代码包括的指令可用于执行前面方法实施例中所述的方法，具体实现可参见方法实施例，在此不再赘述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统和装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

在本发明的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种矩阵求逆中的算粒调度装置，其特征在于，包括：运算分配调度模块、乘法算粒、累加乘算粒和乘法结果判决模块；

2.根据权利要求1所述的装置，其特征在于，所述装置还包括：累加结果判决模块和结果判决模块；

所述结果判决模块，用于将所述计算结果写入结果缓存中。

3.一种矩阵求逆中的算粒调度方法，其特征在于，应用于如权利要求1至2所述的装置中，所述方法包括：

根据所述算粒标识为所述待处理算式生成算式附加信息；

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

5.根据权利要求4所述的方法，其特征在于，所述算式附加信息包括：所述待处理算式的标识和乘法运算数量，所述方法还包括：

6.根据权利要求5所述的方法，其特征在于，将所述待处理算式中的多个乘法运算分别分配至至少两个乘法算粒中，得到多个乘法值，包括：

7.根据权利要求6所述的方法，其特征在于，所述常数项包括：一个常数项，所述将多个所述乘法值及所述待处理算式的常数项输送至所述算粒标识对应的所述累加乘算粒中，得到计算结果，包括：

将多个乘法值和常数项相累加得到所述计算结果。

8.根据权利要求7所述的方法，其特征在于，所述常数项包括：第一常数项和第二常数项，所述将多个所述乘法值及所述待处理算式的常数项输送至所述算粒标识对应的所述累加乘算粒中，得到计算结果，包括：

将多个乘法值和第一常数项相累加得到加法计算结果；

9.一种电子设备，包括存储器、处理器，所述存储器中存储有可在所述处理器上运行的计算机程序，其特征在于，所述程序代码使所述处理器执行所述权利要求3至8任一所述的方法。

10.一种具有处理器可执行的非易失的程序代码的计算机可读介质，其特征在于，所述程序代码使所述处理器执行所述权利要求3至8任一所述的方法。