CN108629409B

CN108629409B - 一种基于主成分分析减少io开销的神经网络处理系统

Info

Publication number: CN108629409B
Application number: CN201810408127.5A
Authority: CN
Inventors: 张磊; 金禄旸; 张潇; 陈云霁
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2018-04-28
Filing date: 2018-04-28
Publication date: 2020-04-10
Anticipated expiration: 2038-04-28
Also published as: CN108629409A

Abstract

本公开提供了一种基于主成分分析减少IO开销的神经网络处理系统，其中，所述神经网络处理系统，包括：片下降维单元，用于对片下数据进行降维并发送至片上；以及片上计算装置，与所述片下降维单元连接，用于接收所述降维并发送至片上的数据，执行神经网络运算；其中，所述降维单元基于主成分分析对所述片下数据进行降维。本公开基于主成分分析减少IO开销的神经网络处理系统，通过在加载与存储数据时进行数据降维，减少了IO数量，降低了时间与能量开销。

Description

一种基于主成分分析减少IO开销的神经网络处理系统

技术领域

本公开属于计算机技术领域，更具体地涉及一种基于主成分分析的神经网络处理系统及方法。

背景技术

人工神经网络(Artificial Neural Networks，ANNs)简称为神经网络(NeuralNetworks，NNs)，它是一种模仿动物神经网络行为特征，进行分布式并行信息处理的算法数学模型。这种网络依靠系统的复杂程度，通过调整内部大量节点之间的相互连接关系，从而达到处理信息的目的。深度学习(deep learning)的概念源于人工神经网络的研究。含多隐层的多层感知器就是一种深度学习结构。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征，以发现数据的分布式特征表示。

目前的各种神经网络片上计算装置，往往面临访存瓶颈的问题，加载与存储数据造成了很大的时间与能量开销。因此，亟需提出一种IO时间与能量开销低、处理速度快的神经网络处理系统及方法。

发明内容

(一)要解决的技术问题

基于以上问题，本公开的目的在于提出一种基于主成分分析的神经网络处理系统及方法，用于解决以上技术问题的至少之一。

(二)技术方案

为了达到上述目的，根据本公开的一个方面，提供了一种基于主成分分析的神经网络处理系统，包括：

片下降维单元，用于对片下数据进行降维并发送至片上；以及

片上计算装置，与所述片下降维单元连接，用于接收所述降维并发送至片上的数据，执行神经网络运算；

其中，所述降维单元基于主成分分析对所述片下数据进行降维。

在一些实施例中，所述的神经网络处理系统，还包括：

片上升维单元，设于所述片上计算装置内，用于对经所述片下降维单元降维并发送至片上的数据进行升维。

在一些实施例中，所述的神经网络处理系统，还包括：

片上降维单元，设于所述片上计算装置内，用于对片上数据进行降维并发送至片下；以及

片下升维单元，设于所述片上计算装置外，用于对经所述片上降维单元降维并发送至片下的数据进行升维。

在一些实施例中，利用所述降维单元进行降维的数据及利用所述升维单元进行升维的数据包括神经网络中的神经元数据和权值数据。

在一些实施例中，所述降维单元基于主成分分析利用变换矩阵对输入至所述降维单元的数据进行降维；所述变换矩阵由奇异值分解(SVD)确定。

在一些实施例中，所述升维单元利用降维变换矩阵的逆矩阵对输入至所述升维单元的数据进行升维。

在一些实施例中，基于主成分分析的降维操作即将需要降维的数据乘以变换矩阵；基于主成分分析的升维操作即将需要升维的数据乘以降维变换矩阵的逆矩阵。

在一些实施例中，所述片上计算装置还包括：存储单元、指令控制单元以及运算单元；其中，

所述存储单元用于存储运算指令以及经所述片下降维单元降维后的数据；

所述片上升维单元与所述存储单元连接，用于接收所述存储单元发送的降维后的数据并进行升维；

所述指令控制单元与所述存储单元连接，用于接收所述存储单元发送的运算指令，并译码为相应的微指令；

所述运算单元与所述升维单元和所述指令控制单元连接，用于接收所述微指令以及经所述片上升维单元升维后的数据，并进行神经网络运算；

所述片上降维单元，用于对所述运算单元输出的数据进行降维并发送至片下。

在一些实施例中，所述片上计算装置还包括：直接存储访问单元、指令缓存单元、输入权值缓存单元、输入神经元缓存单元以及输出缓存单元；其中，

所述直接存储访问单元用于在所述存储单元与所述指令缓存单元、所述输入权值缓存单元、所述输入神经元缓存单元和所述输出缓存单元之间进行数据读写；

所述指令缓存单元与所述直接存储访问单元连接，用于接收运算指令并发送至所述指令控制单元；

所述输入权值缓存单元与所述直接存储访问单元连接，用于接收权值数据并发送至所述片上升维单元；

所述输入神经元缓存单元与所述直接存储访问单元连接，用于接收神经元数据并发送至所述片上升维单元；

所述输出缓存单元与所述运算单元连接，用于接收运算单元输出的数据并发送至所述直接存储访问单元或发送至所述片上降维单元。

在一些实施例中，所述片上计算装置还包括：预处理单元，用于对输入存储单元的数据进行预处理。

(三)有益效果

(1)本公开可以利用主成分分析对数据进行降维，从而有效地减少了神经网络加速器所需的IO量，减少了能耗，提高了处理速度；另外，利用主成分分析对数据进行升维，还原原数据，满足了神经网络处理的数据精度需求。

(2)本公开神经网络处理系统及方法可以使主成分分析以及奇异值分解(SVD)操作在神经网络处理过程中更好地得到支撑。

附图说明

图1为依据本公开一实施例神经网络处理系统的方块图。

图2为依据本公开另一实施例神经网络处理系统方块图。

图3为依据本公开一实施例片上计算装置方块图。

图4为依据本公开另一实施例片上计算装置及神经网络处理系统方块图。

图5为依据本公开又一实施例片上计算装置及神经网络处理系统方块图。

图6为依据本公开另一实施例片上计算装置方块图。

图7为依据本公开又一实施例片上计算装置方块图。

图8为依据本公开实施例神经网络处理方法流程图。

具体实施方式

为使本公开的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本公开作进一步的详细说明。

本公开涉及一种基于主成分分析(Principal Component Analysis，PCA)的神经网络处理系统及方法。

主成分分析(PCA)是一种统计方法。通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量，转换后的这组变量叫主成分。主成分分析，是考察多个变量间相关性一种多元统计方法，研究如何通过少数几个主成分来揭示多个变量间的内部结构，即从原始变量中导出少数几个主成分，使它们尽可能多地保留原始变量的信息，且彼此间互不相关。PCA是一种无监督降维算法，可以很好地解决因变量太多而复杂性、计算量增大的弊端。与此类似，K-L变换的本质与主成分分析基本一致，本公开中关于主成分分析的方法同样适用于K-L变换。主成分分析(PCA)常使用奇异值分解(Singular ValueDecomposition，SVD)的方法来完成。

具体的，本公开主要用于支持两种主成分分析计算：1.对一组数据进行SVD分解，根据SVD分解结果选取合适的特征值，输出得到的变换矩阵。2.已知主成分分析的变换矩阵或已利用SVD分解确定了变换矩阵，利用变换矩阵进行降维和/或利用变换矩阵的逆矩阵进行升维，将经过变换矩阵降维的数据加载到片上和/或将经过变换矩阵降维的数据存储至片下，在加载到片上之前和/或存储至片下之前选择性利用变换矩阵的逆矩阵的将降维后的数据升维，从而还原得到(相当于)经过有损压缩的原数据。

更具体而言，对于上述第1种主成分分析计算，例如，一组人脸图片数据，其图片大小固定，可以将每张图片看作一个向量，这些向量组成一个矩阵，对此矩阵进行SVD分解。SVD分解有多种实现方式，这里只例举其中一种，可以择优实现。SVD分解中涉及的矩阵减去均值、矩阵与自身的转置相乘的操作，可以使用专门的硬件进行计算。对其结果求特征值以及特征向量以后，可以得到SVD分解的三个结果矩阵U、sigma、V(计算中可以只求U和V中的一个，来对行或列进行降维，对于图像等数据，一般压缩其像素的维度，如将m个像素表示的图像降维压缩成n个像素来表示，其中m＞n)。其中，sigma是对角矩阵，对角线上的值的平方根就是奇异值。对奇异值进行排序，取其中最大的k个值以及其对应的特征向量，特征向量组成的矩阵就是主成分分析所要求的变换矩阵。

对于上述第2种主成分分析计算，根据已知的或已确定的降维变换矩阵，在将数据加载到片上之前，先将数据在片下降维(将变换矩阵与原矩阵(待降维数据)相乘，即可对原矩阵进行降维)，再进行加载操作，加载之后可以选择性的在片上进行升维，以还原原始数据。在将数据存储到片下之前，先对其进行降维，再进行存储操作。将数据存储到片下后，视其之后的用途，对其进行升维，或不升维以备之后再加载之需。

下面详细介绍本公开基于主成分分析的神经网络处理系统及方法。

在一些实施例中，如图1所示，所述基于主成分分析的神经网络处理系统包括：

其中，所述降维单元基于主成分分析对所述片下数据进行降维。具体的，所述降维单元基于主成分分析利用变换矩阵对输入至所述降维单元的数据进行降维；所述变换矩阵可以是已知的变换矩阵，也可以由奇异值分解(SVD)确定。

本实施例通过对片下数据降维再加载至片上，减少了IO数量，降低了时间与能量开销。

在一些实施例中，如图2所示，所述的神经网络处理系统包括上述片下降维单元和片上计算装置，还包括：片下升维单元；且所述片上计算装置包括片上升维单元和片上降维单元；其中

所述片下降维单元，用于对片下数据进行降维并发送至片上；

所述片上升维单元，设于所述片上计算装置内，用于对经所述片下降维单元降维并发送至片上的数据进行升维；

所述片上降维单元，设于所述片上计算装置内，用于对片上数据进行降维并发送至片下；以及

所述片下升维单元，设于所述片上计算装置外，用于对经所述片上降维单元降维并发送至片下的数据进行升维。由此，通过对片上数据降维再输出至片下，同样减少了IO数量，降低了时间与能量开销。

上述实施例中，基于主成分分析的降维操作，即将数据乘以变换矩阵。基于主成分分析的升维操作，即将数据乘以变换矩阵的(伪)逆矩阵(由于变换矩阵是正交矩阵，其逆矩阵是自身的转置)。另外，虽然上述实施例中是采用升维单元对数据进行升维操作，但是关于本公开中的对数据进行升维的操作，也可以使用片上计算装置中的运算单元来进行(同样的，降维操作既可以采用降维单元来进行，也可以采用运算单元来进行)。由于涉及的操作是纯粹的矩阵乘法，运算单元可以高效地完成。若使用运算单元，则可以省去升维单元带来的硬件代价，使得面积更小，但增加了一定的运算单元的负担，使得流水线中计算阶段的时间变长，因此更适合于IO操作占比更大的情况。若增加专门的升维单元，则可以充分利用流水线技术，使得升维单元与运算单元并行工作。将降维操作作为加载数据操作的一部分。所述降维单元、升维单元，以及用于实现升维、降维操作的运算单元可包括多个并行的乘法器，还可包括华莱士树。

在一些实施例中，如图3所示，该片上计算装置100包括：升维单元101、存储单元102、指令控制单元107以及运算单元108；其中，

所述存储单元用于存储运算指令以及经降维操作后的数据；

所述升维单元与所述存储单元连接，用于接收所述存储单元发送的降维操作后的数据，并进行升维操作；

所述运算单元与所述升维单元和所述指令控制单元连接，用于接收所述微指令以及经升维操作后的数据，并进行神经网络运算。所述运算单元进行神经网络运算得到的运算结果可以反馈至所述片上计算装置的所述存储单元，也可以发送至片下。

进一步的，如图4所示，所述片上计算装置100还可包括片上降维单元111，用于对所述运算单元的运算结果进行降维再发送至片下。相应的，所述神经网络处理系统还可进一步包括片下升维单元112，用于对经所述片上降维单元降维后发送至片下的数据进行升维，从而在片下存储。

如图5所示，所述神经网络处理系统还可以包括片下降维单元113，用于在片下数据输入在所述片上计算装置100之前，对数据进行降维，以减少IO开销。

在一些实施例中，如图6所示，所述片上计算装置包括：存储单元102、第一输入缓存单元105、第二输入缓存单元106、指令控制单元107、升维单元101以及运算单元108。其中所述第一输入缓存单元可以为神经元缓存单元，所述第二输入缓存单元可以为权值缓存单元。

可选的，所述片上计算装置还可包括直接存储访问(Direct Memory Access，DMA)单元103、指令缓存单元104以及输出缓存单元109。

其中，所述存储单元用于存储运算指令(具体可包括但不限于神经网络运算指令、非神经网络运算指令、加法指令、卷积指令、SVD指令等)以及输入数据(具体可包括但不限于降维处理后的输入数据、输入数据的位置关系数据、运算结果以及其他神经网络运算中产生的中间数据等)。所述输入数据包括但不限于输入权值和输入神经元数据，且所述输入数据可包括至少一个输入权值和/或至少一个输入神经元，具体数量不作限定，即所述输入数据。

所述直接存储访问DMA单元用于在所述存储单元102与所述指令缓存单元104、所述第二输入缓存单元106、所述第一输入缓存单元105和所述输出缓存单元109之间进行数据读写。

更具体而言，所述DMA单元103可从所述存储单元102中读取运算指令，并将该运算指令发送给指令控制单元107，或缓存至指令缓存单元104。

所述DMA单元103还可从所述存储单元102中读取输入权值或处理后的输入权值，以发送至第一输入存储单元105或第二输入存储单元106中进行缓存。相应地，DMA单元103还可从所述存储单元102中读取输入神经元或处理后的输入神经元，以发送至第一输入存储单元105或第二输入存储单元106中。其中，所述第一输入存储单元105和第二输入存储单元106中缓存的数据不同，例如第一输入缓存单元105为神经元缓存单元，其存储有输入神经元或处理后的输入神经元，第二输入缓存单元106为权值缓存单元，其存储输入权值或处理后的权值；反之亦然。

所述指令缓存单元104用于缓存运算指令。

所述指令控制单元107可用于从所述指令缓存单元或存储单元中获取运算指令，进一步地可将所述运算指令译码为相应的微指令，以便所述运算单元中的相关部件能够识别和执行。

所述输出缓存单元109可用于缓存所述运算单元输出的运算结果。

所述运算单元用于根据指令控制单元发送的微指令进行相应的数据运算处理，以获得运算结果。

所述升维单元用于对数据进行升维处理，将降维后的数据还原。

当然，与前一实施例类似，所述片上计算装置还可包括片上降维单元，用于对所述片上计算装置的运算结果进行降维再发送至片下。相应的，所述神经网络处理系统还可进一步包括片下升维单元，用于对经所述片上降维单元降维后发送至片下的数据进行升维，从而在片下存储。所述神经网络处理系统还可以包括片下降维单元，用于在片下数据输入在所述片上计算装置之前，对数据进行降维，以减少IO数量。

所述运算指令可以包括：操作域以及操作码，如表1所示，其中，寄存器号(可选的，寄存器也可以是寄存器堆)0、寄存器号(可选的，寄存器也可以是寄存器堆)1、寄存器号(可选的，寄存器也可以是寄存器堆)2、寄存器号(可选的，寄存器也可以是寄存器堆)3、寄存器号(可选的，寄存器也可以是寄存器堆)4可以为操作域。本公开在对输入矩阵进行奇异值分解(SVD)分解计算中所涉及的具体的SVD计算需要SVD指令的支持，具体形式如表1所示。

表1运算指令形式

在一些实施例中，如图7所示，与前述实施例片上计算装置不同的是，本实施例片上计算装置还包括预处理单元110，用于对输入存储单元的数据进行预处理。例如本公开中，所述存储单元中缓存的输入数据即可为经过该预处理单元处理后的输入数据等。所述预处理包括但不限于以下处理中的任一项或多项的组合：高斯滤波、二值化、归一化、正则化、异常数据筛选等等，本公开不做限定。本实施例其他功能模块与前一实施例类似，此处不再赘述。本公开包括使用降维指令、升维指令来实现相应的主成分分析降维、升维操作。所述降维指令、升维指令的形式具体如下。

表2降维指令和升维指令形式

另外，所述片上计算装置中还可以包括其他类型的压缩单元，例如量化压缩单元，由此可以对数据采用其他方式(如量化等)进行压缩以降低数据占用存储资源量，乃至减少数据运算量，提高数据处理效率。

本公开中，所述片下数据、片上数据包括神经网络中的神经元数据和权值数据。所述降维单元基于主成分分析利用变换矩阵对输入至所述降维单元的数据进行降维，所述变换矩阵可以是已知的变换矩阵，也可以由奇异值分解SVD确定。所述升维单元利用降维变换矩阵的逆矩阵对输入至所述升维单元的数据进行升维，升维也即重构，用于还原原数据。

在一些实施例中，如图8所示，本公开还提供一种基于主成分分析的神经网络处理方法，包括：

S1、对片下数据进行降维并发送至片上，即片下降维和加载步骤；

S2、对所述降维并发送至片上的数据进行升维，即片上升维步骤；

S3、接收所述升维后的数据并执行神经网络运算，即片上运算步骤；

S4、对神经网络运算得到的数据进行降维并发送至片下，即片上降维步骤；以及

S5、对所述降维并发送至片下的数据进行升维并存储为片下数据，即片下升维和存储步骤；

其中，基于主成分分析对数据进行所述降维和/或升维操作。

在一些实施例中，在片下降维的步骤和片上升维的步骤之间还包括：在片上存储指令和经片下降维后发送至片上的数据，即片上存储步骤；

在进行神经网络运算的步骤之前还包括：将所述指令译码为微指令，即片上译码步骤；

由此，利用所述微指令以及经片上升维后的数据进行神经网络运算。

在片上存储步骤之前，还包括：对所述经片下降维后发送至片上的数据进行预处理，即片上预处理步骤。

具体的，在所述降维步骤(片上降维、片下降维)中，基于主成分分析利用变换矩阵对数据进行降维操作；在所述升维步骤(片上升维、片下升维)中，利用降维变换矩阵的逆矩阵对数据进行升维操作。

可选的，所述变换矩阵为一已知的变换矩阵，或由奇异值分解(SVD)确定的一变换矩阵。在奇异值分解(SVD)确定变换矩阵的过程中，将输入数据进行SVD分解得到三个结果矩阵U、sigma、V；sigma是对角矩阵，其对角线上的值的平方根就是奇异值，对奇异值进行排序，取其中最大的k个值对应的特征向量，这些特征向量组成的矩阵即用于主成分分析的变换矩阵。

在降维步骤中，将需要降维的数据乘以变换矩阵以完成降维操作；在升维步骤中，将需要升维的数据乘以降维变换矩阵的逆矩阵以完成升维操作。

在一些实施例中，利用SVD指令进行奇异值分解，如前述表1所示，SVD指令包括：寄存器号0，用于存储输入地址；寄存器号1用于存储输入矩阵m方向长度；寄存器号2用于存储输入矩阵n方向长度，寄存器号3用于存储奇异值输出地址；寄存器号4，用于存储奇异矩阵输出地址。

在一些实施例中，利用降维指令和升维指令进行降维操作和升维操作，如前述表2所示，降维指令包括：域1，用于存储指令类型；域2用于存储源地址是否在片上；域2，用于存储目的地址；域3，用于存储目的地址是否在片上；域4，用于存储源地址是否使用寄存器；域5，用于存储目的地址是否使用寄存器；域6，用于存储源地址；域7，用于存储目的地址；域8，用于存储寄存器号；域9，用于存储降维变换矩阵地址；域10，用于存储降维变换矩阵的第一个维度。

在降维步骤中，可利用给定的降维维度(降维指令中包含的降维维度信息)对数据进行PCA降维。此降维操作可以作为神经网络训练阶段的一部分，得到数据或权值的降维方法；也可以作为神经网络运算的一种算子操作。

本公开中，所述降维以及升维操作的数据既可以是神经网络中的神经元数据，也可以是神经网络中的权值数据。

在一些实施例中，本公开还提供了一种计算机可读存储介质，其存储用于电子数据交换的计算机程序，其中，所述计算机程序使得计算机执行所述方法。

在一些实施例中，本公开还提供了一种芯片，所述芯片包括如上所述的片上计算装置。

在一些实施例中，本公开还提供了一种芯片封装结构，所述芯片封装结构包括如上第四方面提供的芯片。

在一些实施例中，本公开还提供了一种板卡，所述板卡包括如上所述的芯片封装结构。

在一些实施例中，本公开还提供了一种电子设备，所述电子设备包括如上所述的板卡。

在一些实施例中，所述电子设备包括数据处理装置、机器人、电脑、打印机、扫描仪、平板电脑、智能终端、手机、行车记录仪、导航仪、传感器、摄像头、服务器、云端服务器、相机、摄像机、投影仪、手表、耳机、移动存储、可穿戴设备、交通工具、家用电器、和/或医疗设备。

在一些实施例中，所述交通工具包括飞机、轮船和/或车辆；所述家用电器包括电视、空调、微波炉、冰箱、电饭煲、加湿器、洗衣机、电灯、燃气灶、油烟机；所述医疗设备包括核磁共振仪、B超仪和/或心电图仪。

以上所述的具体实施例，对本公开的目的、技术方案和有益效果进行了进一步详细说明，应理解的是，以上所述仅为本公开的具体实施例而已，并不用于限制本公开，凡在本公开的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

Claims

1.一种基于主成分分析的神经网络处理系统，包括：

片下降维单元，根据降维指令对片下数据进行降维并发送至片上；所述降维指令包括：第一操作域，用于存储指令类型；第二操作域，用于存储源地址是否在片上；第三操作域，用于存储目的地址是否在片上；第四操作域，用于存储源地址是否使用寄存器；第五操作域，用于存储目的地址是否使用寄存器；第六操作域，用于存储源地址；第七操作域，用于存储目的地址；第八操作域，用于存储寄存器号；第九操作域，用于存储降维变换矩阵地址；第十操作域，用于存储降维变换矩阵的第一个维度；以及

其中，所述降维单元基于主成分分析对所述片下数据进行降维；

所述降维单元基于主成分分析利用变换矩阵对输入至所述降维单元的数据进行降维；所述变换矩阵由奇异值分解(SVD)确定；

还包括：

片上升维单元，设于所述片上计算装置内，用于对经所述片下降维单元降维并发送至片上的数据进行升维；

片上降维单元，设于所述片上计算装置内，用于对片上数据进行降维并发送至片下；

所述片上计算装置还包括：存储单元、指令控制单元以及运算单元；其中，

2.根据权利要求1所述的神经网络处理系统，还包括：

3.根据权利要求1或2所述的神经网络处理系统，其中，利用所述降维单元进行降维的数据及利用所述升维单元进行升维的数据包括神经网络中的神经元数据和权值数据。

4.根据权利要求3所述的神经网络处理系统，其中，所述升维单元利用降维变换矩阵的逆矩阵对输入至所述升维单元的数据进行升维。

5.根据权利要求1、2或4所述的神经网络处理系统，其中，基于主成分分析的降维操作即将需要降维的数据乘以变换矩阵；基于主成分分析的升维操作即将需要升维的数据乘以降维变换矩阵的逆矩阵。

6.根据权利要求1所述的神经网络处理系统，其中，所述片上计算装置还包括：直接存储访问单元、指令缓存单元、输入权值缓存单元、输入神经元缓存单元以及输出缓存单元；其中，

7.根据权利要求6所述的神经网络处理系统，其中，所述片上计算装置还包括：预处理单元，用于对输入存储单元的数据进行预处理。