CN106959937A

CN106959937A - 一种面向gpdsp的反卷积矩阵的向量化实现方法

Info

Publication number: CN106959937A
Application number: CN201710201601.2A
Authority: CN
Inventors: 郭阳; 张军阳; 扈啸; 王慧丽; 胡敏慧; 王子聪
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2017-03-30
Filing date: 2017-03-30
Publication date: 2017-07-18
Anticipated expiration: 2037-03-30
Also published as: CN106959937B

Abstract

本发明公开了一种面向GPDSP的反卷积矩阵的向量化实现方法，由GPDSP的CPU核为卷积神经网络中前向传播阶段产生的权值矩阵及反向计算阶段的残差矩阵分配相应的标量存储空间和向量存储空间，其步骤为，S1：设残差矩阵A(m,m)、权值矩阵B(n,n)及反卷积结果矩阵C(m+n‑1,m+n‑1)，且m>n；S2：通过控制循环次数，首先计算反卷积结果矩阵C前n‑1行元素；S3：固定循环次数，计算反卷积结果矩阵C第n行至第m行元素；S4：通过控制循环次数，计算反卷积结果矩阵C倒数第n‑1行至倒数第1行元素。本发明具有原理简单、操作方便、能充分利用向量处理器完成特殊数据计算、缩短整个算法运行时间、提高算法执行效率等优点。

Description

一种面向GPDSP的反卷积矩阵的向量化实现方法

技术领域

本发明主要涉及到向量处理器及机器学习领域，特指一种面向GPDSP的反卷积矩阵的向量化实现方法。

背景技术

深度学习(Deep Learning,DL)是当前机器学习领域的一个重要研究方向。DL通过构造多层感知器(Multilayer Perception,MLP)来模拟人脑的分层感知方式，MLP能够通过组合低层次特征来表达属性类别或高层的抽象特征，从而成为当前目标识别领域的研究重点。

经典的DL模型主要包括自动编码机模型(Auto Encode，AE)、深度信念网络模型(Deep Belief Networks,DBNs)及卷积神经网络模型(Convolutional Neural Networks,CNN)。一般来说，上述模型主要通过编码器从输入图像中提取特征，从底层逐层向上将图像转化到高层特征空间，相应的，使用解码器将高层特征空间的特征通过网络自顶向下重构输入图像。其中，深度学习模型主要分为无监督学习模型和有监督学习模型，自动编码机和深度信念网络就是无监督学习模型的代表，它们可以自底向上地逐层学习丰富的图像特征并为高层次应用，如图像识别、语音识别等。而CNN模型则是有监督的学习模型，通过构建卷积层及池化层来构建多层的卷积神经网络，通过BP(Back Propogation)算法反向调整滤波模板，经过多次的正向计算和反向调优来构建具有高识别率的神经网络。

由于CNN模型涉及到大量的矩阵操作，如，矩阵与矩阵乘法、矩阵与向量乘法、向量与向量乘法、矩阵与矩阵卷积、矩阵扩充、矩阵反卷积以及各种超越函数的计算，使得CNN模型需要占用大量的计算资源。通过对CNN模型的深入分析发现，该模型中涉及大量的数据并行性，目前运行CNN模型的硬件平台主要有CPU、GPU、FPGA及专用的神经网络处理器，如中科院计算所的寒武纪系列。

通用计算数字信号处理器(General-Purpose Digital Signal Processor,GPDSP)一般包括CPU核和DSP核，CPU核主要负责包括文件控制、存储管理、进程调度、中断管理任务在内的通用事务管理及对通用操作系统的支持；DSP核主要包含若干具有强大计算能力的浮点或定点向量处理阵列，用于支持高密度的计算任务，向量处理器一般由N个处理单元(PE)组成，每个PE包含若干个功能单元，一般包括ALU部件、加法部件、移位部件等，这些部件可以读写一组局部寄存器，每个处理单元包含一组局部寄存器，所有处理单元同一编号的局部寄存器在逻辑上又组成了一个向量寄存器。向量处理器采用SIMD的方式，N个处理单元在同一条向量指令的控制下同时对各自的局部寄存器进行相同的操作，以开发应用程序的数据级并行性。

发明内容

本发明要解决的技术问题就在于：针对现有技术存在的技术问题，本发明提供一种原理简单、操作方便、能充分利用向量处理器完成特殊数据计算、缩短整个算法运行时间、提高算法执行效率的面向GPDSP的反卷积矩阵的向量化实现方法，用以满足计算密集型应用的需求。

为解决上述技术问题，本发明采用以下技术方案：

一种面向GPDSP的反卷积矩阵的向量化实现方法，其特征在于，由GPDSP的CPU核为卷积神经网络中前向传播阶段产生的权值矩阵及反向计算阶段的残差矩阵分配相应的标量存储空间和向量存储空间，其步骤为，

S1：设残差矩阵A(m,m)、权值矩阵B(n,n)及反卷积结果矩阵C(m+n-1,m+n-1)，且m>n；

S2：通过控制循环次数，首先计算反卷积结果矩阵C前n-1行元素；

S3：固定循环次数，计算反卷积结果矩阵C第n行至第m行元素；

S4：通过控制循环次数，计算反卷积结果矩阵C倒数第n-1行至倒数第1行元素。

作为本发明的进一步改进：所述权值矩阵B置于标量存储体，反卷积矩阵A置于向量存储体，且权值矩阵B从后至前，倒序来取。

作为本发明的进一步改进：所述步骤S2的详细步骤为：

S2.1取权值矩阵B第n行的最后一个元素，b_n-1,n-1，取残差矩阵A第一行元素，将b_n-1,n-1广播至标量寄存器中的元素与矩阵A第一行元素对应相乘，累加上将b_n-1,n-2向量化后与移位后的残差矩阵A的第一行元素一一对应相乘的结果；重复以上步骤n次，n位权值矩阵B列数，完成反卷积结果矩阵C第一行元素的计算；

S2.2顺移至残差矩阵A的第二行元素，计算过程如步骤2.1，循环n+n次完成反卷积结果矩阵C第二行元素的计算；

S2.3顺移至残差矩阵A的第n-1行元素，计算过程如步骤2.1，循环(n-1)*(n-1)次完成反卷积结果矩阵C第n-1行元素的计算。

作为本发明的进一步改进：所述步骤S3中，反卷积结果矩阵C的第n行至第m行的每一行元素的计算都在步骤S2.3的基础上顺移至残差矩阵A的第n行，计算过程如步骤2.1，循环n*n次完成反卷积结果矩阵C中间某一行行元素的计算。

作为本发明的进一步改进：所述步骤S4的详细步骤为：

S4.1倒数第n-1行元素由权值矩阵B的前n-1行元素参与计算，计算过程如步骤S2.3；

S3.3倒数第2行元素由权值矩阵B的前2行元素参与计算，计算过程如步骤S2.2；

S3.4倒数第1行元素由权值矩阵B的前1行元素参与计算，计算过程如步骤S2.1。

与现有技术相比，本发明的优点在于：

1、本发明的面向GPDSP的反卷积矩阵的向量化实现方法，将卷积神经网络反向计算中涉及到的残差矩阵A(m,m)和权值矩阵B(n,n)反卷积至输入空间，即，反卷积结果矩阵C(m+n-1,m+n-1)，不仅避免了数据的搬移、矩阵的扩充，且能充分利用向量处理器中多个并行处理单元能够同时进行相同运算的特点来进行大量的同类型操作，使用特殊的VSHUFW指令，大大提高数据的复用率，进而大幅度提高反卷积矩阵的计算效率。

2、采用本发明的方法比传统的方法更加简单高效，目标向量处理器实现的硬件代价低，在实现相同功能的情况下，降低了功耗。另外，本发明的方法，实现简单、成本低廉、操作方便、可靠性好。

附图说明

图1是本发明方法的流程示意图。

图2是本发明面向的GPDSP的简化结构模型示意图。

图3是本发明中的反卷积计算流程示意图。

图4是本发明在具体应用实例中反卷积结果矩阵第1行元素计算示意图。

图5是本发明在具体应用实例中反卷积结果矩阵第2行元素计算示意图。

具体实施方式

以下将结合说明书附图和具体实施例对本发明做进一步详细说明。

假设C＝A*B，即矩阵A和矩阵B的卷积是C，也就是说已知A和B求C的过程叫做卷积，那么如果已知C和A或者C和B求B或A的过程就叫做反卷积。如图2所示，为本发明所面向的GPDSP的简化结构模型示意图。

如图1和图3所示，本发明的面向GPDSP的反卷积矩阵的向量化实现方法，其步骤为：

S1：反卷积结果矩阵C前n-1行元素的计算；

S1.1由GPDSP的CPU核为卷积神经网络中前向传播阶段产生的权值矩阵及反向计算阶段的残差矩阵分配相应的标量存储空间和向量存储空间；

S1.2设残差矩阵A(m,m)、权值矩阵B(n，n)及反卷积结果矩阵C(m+n-1,m+n-1)，且m>n；

S1.3取权值矩阵B第n行的最后一个元素，b_n-1,n-1，取残差矩阵A第一行元素，将b_n-1,n-1广播至标量寄存器中的元素与矩阵A第一行元素对应相乘，累加上将b_n-1,n-2向量化后与移位后的残差矩阵A的第一行元素一一对应相乘的结果；重复以上步骤n次(权值矩阵B列数)，完成反卷积结果矩阵C第一行元素的计算，计算过程如图4所示；

S1.4顺移至残差矩阵A的第二行元素，计算过程类似步骤1.3，循环n+n次完成反卷积结果矩阵C第二行元素的计算，计算过程如图5所示；

S1.5顺移至残差矩阵A的第n-1行元素，计算过程类似步骤1.3，循环(n-1)*(n-1)次完成反卷积结果矩阵C第n-1行元素的计算。

S2：反卷积矩阵C中间第n行至m行元素的计算；

由于第n行至m行的计算是由残差矩阵A所有行元素都参与运算，因此反卷积结果矩阵C的第n行至第m行的每一行元素的计算都要在步骤S1.5的基础上顺移至残差矩阵A的第n行，计算过程类似步骤S1.3，循环n*n次完成反卷积结果矩阵C中间某一行行元素的计算。

S3：反卷积结果矩阵C后n-1行元素的计算；

S3.1由于步骤S2是由权值矩阵B所有元素参与运算，而步骤S3中是由权值矩阵B的部分行元素参与运算，因此后n-1行元素的计算类似步骤S1，只是和步骤S1中的循环次数有所不同；

S3.2倒数第n-1行元素由权值矩阵B的前n-1行元素参与计算，计算过程类似步骤S1.5；

S3.3倒数第2行元素由权值矩阵B的前2行元素参与计算，计算过程类似步骤S1.4；

S3.4倒数第1行元素由权值矩阵B的前1行元素参与计算，计算过程类似步骤S1.3。

结合图3，本发明在一个具体应用实例中，详细流程为：

S100：设卷积神经网络反向传播计算中残差矩阵A的规模为8×8，权值矩阵B的规模为5×5，则反卷积结果矩阵C的规模为12×12，即(8+5-1)，一般地，残差矩阵A放置在向量存储体，权值矩阵B放置在标量存储体。

S200：首先计算反卷积结果矩阵C的第1行元素，计算过程如下；

S2.1 b_4,4×a_0,0…b_4,4×a_0,7 b_4,4×0 b_4,4×0 b_4,4×0 b_4,4×0；

S2.2 b_4,3×0 b_4,3×a_0,0…b_4,3×a_0,7 b_4,3×0 b_4,3×0 b_4,3×0；

S2.3 b_4,2×0 b_4,2×0 b_4,2×a_0,0…b_4,2×a_0,7 b_4,2×0 b_4,2×0；

S2.4 b_4,1×0 b_4,1×0 b_4,1×0 b_4,1×a_0,0…b_4,1×a_0,7 b_4,1×0；

S2.5 b_4,0×0 b_4,0×0 b_4,0×0 b_4,0×0 b_4,0×a_0,0…b_4,0×a_0,7；

S2.6将步骤2.1至步骤2.5每行的12个乘法结果对应相加，累加4次完成反卷积结果矩阵C第1行元素的计算，即2.7，计算过程如图4所示；

S2.7得出C矩阵第1行元素c_0,0c_0,1c_0,2c_0,3c_0,4c_0,5c_0,6c_0,7c_0,8c_0,9c_0,10c_0,11；

S300：计算反卷积结果矩阵C的第2行元素，由于本次计算涉及到权值矩阵B两行元素的计算，因此，计算过程比步骤S200多5次循环，计算过程如下；

S3.1 b_4,4×a_1,0…b_4,4×a_1,7 b_4,4×0 b_4,4×0 b_4,4×0 b_4,4×0；

S3.2 b_4,3×0 b_4,3×a_1,0…b_4,3×a_1,7 b_4,3×0 b_4,3×0 b_4,3×0；

S3.3 b_4,2×0 b_4,2×0 b_4,2×a_1,0…b_4,2×a_1,7 b_4,2×0 b_4,2×0；

S3.4 b_4,1×0 b_4,1×0 b_4,1×0 b_4,1×a_1,0…b_4,1×a_1,7 b_4,1×0；

S3.5 b_4,0×0 b_4,0×0 b_4,0×0 b_4,0×0 b_4,0×a_1,0…b_4,0×a_1,7；

S3.6 b_3,4×a_0,0…b_3,4×a_0,7 b_3,4×0 b_3,4×0 b_3,4×0 b_3,4×0；

S3.7 b_3,3×0 b_3,3×a_0,0…b_3,3×a_0,7 b_3,3×0 b_3,3×0 b_3,3×0；

S3.8 b_3,2×0 b_3,2×0 b_3,2×a_0,0…b_3,2×a_0,7 b_3,2×0 b_3,2×0；

S3.9 b_3,1×0 b_3,1×0 b_3,1×0 b_3,1×a_0,0…b_3,1×a_0,7 b_3,1×0；

S3.10 b_3,0×0 b_3,0×0 b_3,0×0 b_3,0×0 b_3,0×a_0,0…b_3,0×a_0,7；

S3.11将步骤S3.1至步骤S3.10每行的12个乘法结果对应相加，累加9次完成反卷积结果矩阵C第2行元素的计算，即3.12，计算过程如图5所示；

S3.12得出C矩阵第2行元素；

c_1,0 c_1,1 c_1,2 c_1,3 c_1,4 c_1,5 c_1,6 c_1,7 c_1,8 c_1,9 c_1,10 c_1,11；

S400：计算反卷积结果矩阵C的第3行元素，由于本次计算涉及到权值矩阵B三行元素的计算，因此，计算过程比步骤S300多5次循环，计算过程类似步骤S200；

S4.1最终得出C矩阵第3行元素：

c_2,0 c_2,1 c_2,2 c_2,3 c_2,4 c_2,5 c_2,6 c_2,7 c_2,8 c_2,9 c_2,10 c_2,11；

S500：计算反卷积结果矩阵C的第4行元素，由于本次计算涉及到权值矩阵B四行元素的计算，因此，计算过程比步骤S400多5次循环，计算过程似步骤S200；

S5.1得出C矩阵第4行元素：

c₃₀ c₃₁ c₃₂ c₃₃ c₃₄ c₃₅ c₃₆ c₃₇ c₃₈ c₃₉ c₃₁₀ c₃₁₁；

S600：计算反卷积结果矩阵C的第五行元素，由于本次计算涉及到权值矩阵B五行元素的计算，因此，计算过程比步骤S500多5次循环，计算过程似步骤S200；

S6.1得出C矩阵第5行元素：

c_4,0 c_4,1 c_4,2 c_4,3 c_4,4 c_4,5 c_4,6 c_4,7 c_4,8 c_4,9 c_4,10 c_4,11；

S700：计算反卷积结果矩阵C的第5—8行元素，由于中间行计算涉及到权值矩阵B五行元素的计算，因此，计算过程如步骤S600；最终计算出反卷积结果矩阵C的第5—8行元素；

S7.1得出C矩阵第5至8行元素：

S800：计算反卷积结果矩阵C的第9行元素，由于权值矩阵B只有前4行参与计算，因此该行计算过程类似步骤S500；

S8.1得出C矩阵第9行元素：

c_8,0 c_8,1 c_8,2 c_8,3 c_8,4 c_8,5 c_8,6 c_8,7 c_8,8 c_8,9 c_8,10 c_8,11；

S900：计算反卷积结果矩阵C的第10行元素，由于权值矩阵B只有前3行参与计算，因此该行计算过程类似步骤S400；

S9.1得出C矩阵第10行元素：

c_9,0 c_9,1 c_9,2 c_9,3 c_9,4 c_9,5 c_9,6 c_9,7 c_9,8 c_9,9 c_9,10 c_9,11；

S1000：计算反卷积结果矩阵C的第11行元素，由于权值矩阵B只有前2行参与计算，因此该行计算过程类似步骤S300；

S10.1得出C矩阵第11行元素：

c_10,0 c_10,1 c_10,2 c_10,3 c_10,4 c_10,5 c_10,6 c_10,7 c_10,8 c_10,9 c_10,10 c_10,11；

S1100：计算反卷积结果矩阵C的第12行元素，由于权值矩阵B只有第1行参与计算，因此该行计算过程类似步骤S200；

S11.1得出C矩阵第12行元素：

c_11,0 c_11,1 c_11,2 c_11,3 c_11,4 c_11,5 c_11,6 c_11,7 c_11,8 c_11,9 c_11,10 c_11,11。

以上仅是本发明的优选实施方式，本发明的保护范围并不仅局限于上述实施例，凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理前提下的若干改进和润饰，应视为本发明的保护范围。

Claims

1.一种面向GPDSP的反卷积矩阵的向量化实现方法，其特征在于，由GPDSP的CPU核为卷积神经网络中前向传播阶段产生的权值矩阵及反向计算阶段的残差矩阵分配相应的标量存储空间和向量存储空间，其步骤为，

2.根据权利要求1所述的面向GPDSP的反卷积矩阵的向量化实现方法，其特征在于，所述权值矩阵B置于标量存储体，反卷积矩阵A置于向量存储体，且权值矩阵B从后至前，倒序来取。

3.根据权利要求1或2所述的面向GPDSP的反卷积矩阵的向量化实现方法，其特征在于，所述步骤S2的详细步骤为：

4.根据权利要求3所述的面向GPDSP的反卷积矩阵的向量化实现方法，其特征在于，所述步骤S3中，反卷积结果矩阵C的第n行至第m行的每一行元素的计算都在步骤S2.3的基础上顺移至残差矩阵A的第n行，计算过程如步骤2.1，循环n*n次完成反卷积结果矩阵C中间某一行行元素的计算。

5.根据权利要求4所述的面向GPDSP的反卷积矩阵的向量化实现方法，其特征在于，所述步骤S4的详细步骤为：