CN114004353A

CN114004353A - 减少光器件数量的光神经网络芯片构建方法及系统

Info

Publication number: CN114004353A
Application number: CN202111161801.2A
Authority: CN
Inventors: 陆则朴; 臧大伟; 沈华; 戴梦溪; 谭光明; 孙凝晖
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2021-09-30
Filing date: 2021-09-30
Publication date: 2022-02-01

Abstract

本发明提出一种减少光器件数量的光神经网络芯片构建方法和系统，通过芯片结构与训练方法协同的方法，通过低秩近似压缩光芯片中冗余光器件的数量，同时基于若干的优化手段，保证神经网络的识别准确率。本发明所提出的减少光器件数量的光神经网络芯片构建方法包括权重矩阵预处理、酉保持训练、器件剪枝和功能光器件网络构建。因此，本发明通过结构和算法的协同，在识别率基本保持不变的情况下，极大地降低光器件的使用数量。

Description

减少光器件数量的光神经网络芯片构建方法及系统

技术领域

本发明涉及人工智能和光子计算领域，并特别涉及一种减少光器件数量的光神经网络芯片构建方法及系统。

背景技术

近年来，人工神经网络在包括图像识别、语音识别、行为决策在内的多个领域中都取得了远超传统算法的成果，因此在实际生活中得到了广泛的应用。但是，深层的结构和数目众多的神经元使神经网络需要耗费大量的算力资源，业界对此的解决方案是使用高度并行的GPU甚至是专用的加速硬件承载神经网络的运算，以提高计算的速度和能效。但是随着集成电路的特征尺寸趋于物理极限，摩尔定律逐渐失效，基于CMOS工艺的电域神经网络加速器无法满足若干应用对算力和能效的要求，成为信息领域未来几十年面临的重大问题。

光信号与电信号相比，在频率、能效和抗干扰等方面存在巨大优势，基于光信号的光计算技术具备天然的并行度极高、运算速度极快、能耗极低等优势，作为电计算技术的替代者有着广阔的前景；特别地，基于光计算技术的神经网络加速器，利用光器件来构建向量矩阵乘加结构，实现人工神经网络中运算量最大的矩阵乘加操作，在一个时钟周期就能完成一个规模的矩阵计算，具有极大的速度和能效提升。虽然基于光器件的神经网络加速器在速度和能效等方面有巨大优势，但是其构建方法直接采用SVD分解在光器件网络上实现神经网络的权重矩阵，需要使用平方数量级的光器件，这一方面增加了光芯片的面积和能量的消耗，另一方面也放大了每个光器件制造时的随机误差，使得整个网络的容错性降低，增加了操控的难度，成为光子计算走向实用的重要障碍。

发明内容

为了克服上述现有技术在将大规模神经网络映射到光结构上时占用面积大、消耗器件多、操控复杂的问题，本发明提出了一种能极大地减少光器件使用数量的光神经网络芯片构建方法，通过神经网络权值的低秩近似和与光器件特性匹配的训练方法，在识别率基本保持不变的情况下，大幅度地降低了光神经网络芯片所需的器件数量，减小了芯片面积和操控的复杂程度。

具体来说，本发明提出一种减少光器件数量的光神经网络芯片构建方法，其中包括：

步骤1、获取待向光器件映射的原始神经网络，通过对该神经网络中各权值矩阵分解为对角矩阵和酉矩阵，将该原始神经网络转换为由对角矩阵和酉矩阵组成的矩阵序列。

步骤2、将训练集中样本输入该矩阵序列，通过比较矩阵序列中最后一个输出与该训练集的标签，得到损失值Loss；

步骤3、通过正则化函数，得到各权值矩阵的对角矩阵和酉矩阵用以约束参数优化方向的正则项，将所有正则项与该损失值Loss相加，得到优化目标函数FullLoss；

步骤4、用优化目标函数FullLoss对各权值矩阵的对角矩阵和酉矩阵求导，并基于得到的偏导数，通过反向传播与梯度下降对各权值矩阵的对角矩阵和酉矩阵进行更新；

步骤5、比较更新后与更新前的对角矩阵和酉矩阵，判断两者差异是否低于阈值，若是，则执行步骤7，否则执行步骤6；

步骤6、对更新后的对角矩阵和酉矩阵进行剪枝处理后再次执行该步骤2到5；

步骤7、将更新后的对角矩阵和酉矩阵映射到光器件上，以生成该原始神经网络对应的光神经网络芯片。

所述的减少光器件数量的光神经网络芯片构建方法，其中该步骤1包括：

将该原始神经网络中权值矩阵W进行分解，得到半酉矩阵U、非负对角矩阵Σ和半酉矩阵V；

该步骤3包括：

对该原始神经网络中每层的矩阵U,Σ与V分别计算两个正则项g(U,V,Σ)和h(U,V,Σ)，将所有矩阵的正则项计算值与Loss加到一起，得到完整的优化目标函数FullLoss。

所述的减少光器件数量的光神经网络芯片构建方法，其中该正则项g(U,V,Σ)的计算方法为：

其中Σ的对角值分别为σ₁,σ₂,...,σ_r，对角值构成的向量为s＝[σ₁,σ₂,…,σ_r]^T，用

和

分别表示s的1-范数和2-范数；

该正则项h(U，V，Σ)的计算方法为：

其中Δ_u＝I_r-Q_u，Δ_v＝I_r-Q_v，I_r表示尺寸为r×r的单位矩阵，Q_u和Q_v是严格的半酉矩阵，尺寸分别与矩阵U和V相同。

所述的减少光器件数量的光神经网络芯片构建方法，其中该步骤6包括：

采用剪枝的方法降低半酉矩阵U、非负对角矩阵Σ和半酉矩阵V的秩。

所述的减少光器件数量的光神经网络芯片构建方法，其中该步骤7包括：

将更新后的半酉矩阵V和半酉矩阵U分别分解为对角矩阵和只在n个通道上起作用的酉矩阵的乘积，根据乘积中的变换矩阵并结合

的顺序将光器件串联，以得到更新后的对角矩阵和酉矩阵到光器件的映射。

本发明还提出了一种减少光器件数量的光神经网络芯片构建系统，其中包括：

模块1，用于获取待向光器件映射的原始神经网络，通过对该神经网络中各权值矩阵分解为对角矩阵和酉矩阵，将该原始神经网络转换为由对角矩阵和酉矩阵组成的矩阵序列。

模块2，用于将训练集中样本输入该矩阵序列，通过比较矩阵序列中最后一个输出与该训练集的标签，得到损失值Loss；

模块3，用于通过正则化函数，得到各权值矩阵的对角矩阵和酉矩阵用以约束参数优化方向的正则项，将所有正则项与该损失值Loss相加，得到优化目标函数FullLoss；

模块4，用于用优化目标函数FullLoss对各权值矩阵的对角矩阵和酉矩阵求导，并基于得到的偏导数，通过反向传播与梯度下降对各权值矩阵的对角矩阵和酉矩阵进行更新；

模块5，用于比较更新后与更新前的对角矩阵和酉矩阵，判断两者差异是否低于阈值，若是，则执行模块7，否则执行模块6；

模块6，用于对更新后的对角矩阵和酉矩阵进行剪枝处理后再次执行该模块2到5；

模块7，用于将更新后的对角矩阵和酉矩阵映射到光器件上，以生成该原始神经网络对应的光神经网络芯片。

所述的减少光器件数量的光神经网络芯片构建系统，其中该模块1包括：

该模块3包括：

所述的减少光器件数量的光神经网络芯片构建系统，其中该正则项g(U,V,Σ)的计算过程为：

其中Σ的对角值分别为σ₁,σ₂,…,σ_r，对角值构成的向量为s＝[σ₁,σ₂,…,σ_r]^T，用

和

分别表示s的1-范数和2-范数；

该正则项h(U，V，Σ)的计算过程为：

所述的减少光器件数量的光神经网络芯片构建系统，其中该模块6包括：

采用剪枝降低半酉矩阵U、非负对角矩阵Σ和半酉矩阵V的秩。

所述的减少光器件数量的光神经网络芯片构建系统，其中该模块7包括：

由以上方案可知，本发明的优点在于：

利用高并行、低能耗和抗干扰的光信号及器件构建了神经网络处理芯片，能够极大地提高神经网络计算处理的速度和能效；同时，该发明可以极大地减少光器件的使用(大于80％)，可以利用较少的光器件和光芯片的面积实现相同的功能，不仅减小了芯片的面积，而且降低了光器件的操控难度，极大地降低了成本，对光神经网络的应用部署具有重要价值。

附图说明

图1为三层神经网络结构示意图；

图2为本发明光神经网络的训练流程图；

图3为本发明光神经网络的单次迭代流程图；

图4为将网络从秩为3剪枝至秩为2的剪枝示意图，其中灰色部分为被去除的分量；

图5为实现例中第一层网络的低秩(秩为2)光神经网络结构图。

具体实施方式

发明人经过调研与实验发现，可以通过芯片结构与训练方法协同的方法，通过低秩近似压缩光芯片中冗余光器件的数量，同时基于若干的优化手段，保证神经网络的识别准确率。因此，本发明提出了一种减少光器件数量的光神经网络芯片设计方法，通过结构和算法的协同，在识别率基本保持不变的情况下，极大地降低光器件的使用数量。

本发明所提出的减少光器件数量的光神经网络芯片构建方法包括权重矩阵预处理方法、酉保持训练方法、器件剪枝方法和功能光器件网络构建方法等四个主要的过程和子方法。其中：

权重矩阵预处理方法，是指对于神经网络两个层次之间连接的权值矩阵进行处理，将权值矩阵利用矩阵分解的方法分解为对角阵和酉矩阵，然后对获得的多个矩阵进行分别的训练和处理，而不是作为一个矩阵进行处理。

酉保持训练方法，是指在训练过程中，通过目标函数中正则化函数的控制，来约束参数的优化方向，保证权重矩阵处理之后的酉矩阵依然保持为近似的半酉矩阵。这个方法能保证U和V两个矩阵不会偏离半酉矩阵太远，从而在训练完成后的映射操作中不会有太多的损失。

器件剪枝方法，是指在训练过程中通过正则化函数的控制，诱导权重矩阵向秩降低的方向更新；同时在训练一步或多步之后，剪去较小奇异值对应的分量，从而减少参数的数量，进而减少光器件的使用数量；而且，对奇异值阈值的设定可以在识别率和器件数量之间按照用户的需求动态设定。

功能光器件网络构建方法，是指将训练完成的若干矩阵(包括对角阵、酉矩阵等)，映射到光耦合器、衰减器、调相器和马赫增德尔干涉仪等器件上，并通过参数的调节获得与矩阵参数对应的功能性光器件网络。

能极大地减少光器件使用数量的光神经网络芯片构建方法，是指按照神经网络的逻辑层次，通过矩阵预处理方法、器件剪枝方法一层一层的进行处理，通过酉保持训练方法和功能光器件保持方法进行整体处理。矩阵预处理方法和功能器件保持方法在整个过程中只需要运行一次，而酉保持训练方法和器件剪枝方法则要迭代若干次。

构建出的光计算芯片可以用于自动驾驶、视频监控等任意需要神经网络处理的系统中。

为让本发明的上述特征和效果能阐述的更明确易懂，下文特举实施例，并配合说明书附图作详细说明如下。

本发明所提出的训练和映射方法可以解决任意神经网络向光器件的映射问题，与神经网络的层数、连接关系和神经元数量无关，其中神经网络可例如是由全连接层与卷积层(可转化为全连接层)组成的神经网络，例如多层感知器、LeNet、AlexNet、VGG等。为了更清晰地展示本发明的思想，以下以一个三层神经网络为例进行说明，其中三层神经网络包含输入层、隐藏层和输出层，不失一般性，假设输入层包含5个神经元、隐藏层包含4个神经元、输出层包含2个神经元，层次与层次之间采用全连接相连，用于本实现例的神经网络结构如图1所示。

本发明所提出的减少光器件数量的光神经网络芯片构建方法包括权重矩阵预处理方法、酉保持训练方法、器件剪枝方法和功能光器件网络构建方法等四个主要的过程和子方法。

在一个实施例中，在训练开始前，先使用权重矩阵预处理方法。所谓权重矩阵处理方法是指对于神经网络两个层次之间连接的权值矩阵进行处理，将权值矩阵利用矩阵分解的方法分解为对角阵和酉矩阵，然后对获得的多个矩阵进行分别的训练和处理，而不是作为一个矩阵进行处理。

步骤S110：将第一层的连接矩阵(4×5权值矩阵)W使用SVD方法进行分解；

步骤S120：将获得的4×4半酉矩阵U、4×4非负对角矩阵Σ、5×4半酉矩阵V进行分别存储，并单独处理；

步骤S130：将神经网络中的其它层次，依次按照步骤S110进行分解；

步骤S140：神经网络将变成一系列的由三种矩阵顺序组成的一个序列。例如将原始的神经网络视为一个序列，序列中每一项就是层与层之间的权重矩阵(如果是卷积层的话，那就是卷积核经过重排变成的矩阵)。经过步骤S140后，神经网络仍是一个序列，序列中每一项被分解成了三个矩阵。这三个矩阵有一个特点，它们乘起来后等于原始序列中对应的矩阵。假如原始神经网络包含矩阵序列[W₁,W₂]，并且SVD分解给出

那么经过步骤S140，神经网络的矩阵序列就变成了

其中

表示矩阵的共轭转置。

在一个实施例中，将步骤S110，S120和S130获得到的U，Σ和V三个矩阵作为初始的参数，采用酉保持算法和器件剪枝方法进行训练。所谓酉保持训练方法，是指在训练过程中，通过目标函数中正则化函数的控制，来约束参数的优化方向，保证权重矩阵处理之后的酉矩阵依然保持为酉阵，而不会随着训练的过程改变性质。所谓的器件剪枝方法，是指在训练一步或者几步之后，剪去较小奇异值对应的分量，从而减少参数的数量，进而减少光器件的使用数量；而且，对奇异值阈值的设定可以在识别率和器件数量之间按照用户的需求动态设定。整体流程如图2所示。

在本实施例中，要经过若干次的迭代才能使参数数量达到稳定，对于每一次的迭代：

步骤S210将从公开的数据集，例如对于图像处理任务，可以使用MNIST、FashionMNIST、ImageNet等数据集选取的训练集的样本输入到S140获得的一系列矩阵的第一个矩阵中，将一系列矩阵中的最后一个输出与训练集的标签进行比较、计算获得损失值Loss，神经网络的矩阵序列是

那么当输入是向量x的时候，输出

其中标签记载的是样本的正确输出；

步骤S220对每层的参数矩阵U,Σ与V分别计算两个正则项g(U,V，Σ)和h(U,V,Σ)，该正则项起到约束参数优化方向的作用，将所有矩阵的正则项计算值与Loss加到一起，得到完整的优化目标函数FullLoss；

步骤S230用FullLoss对各个参数矩阵求导，用计算得到的偏导数以合适的学习率γ更新参数矩阵，即反向传播与梯度下降过程；

步骤S240比较更新后与更新前的参数矩阵，若两者差异足够小，则认为参数矩阵已收敛，停止训练，否则继续下一步；

步骤S250根据Σ的值，对参数矩阵施加器件剪枝，裁剪参数矩阵的尺寸；

步骤S260转到S210进行新一轮的迭代，用裁剪后的U,Σ与V继续训练。

步骤S210-S260共同组成了实施例一次迭代中的关键流程，即参数的训练与更新，其中的详细流程如图3所示。

在步骤S220中，其中一个正则项g(U,V,Σ)是器件剪枝方法的组成部分之一，其作用为衡量参数矩阵的秩，从而能在后续的梯度下降中让U，V与Σ朝向能降低参数矩阵的秩的方向更新。注意任何具有上述衡量秩的特性的函数都可以作为本方法中的正则项使用，下述正则项公式仅为其中一个例子，并不表示只能使用下述的正则项公式。其中一种正则项可以如公式1所示，记Σ的对角值分别为σ₁,σ₂,…,σ_r，对角值构成的向量为s＝[σ₁,σ₂,…,σ_r]^T，用

和

分别表示s的1-范数和2-范数。那么正则项g(U,V,Σ)的计算方法为

在步骤S250中，根据Σ的值的大小削减高秩参数矩阵中重要性低的分量，将其变成低秩矩阵。该方法可通过设置参数β配置剪枝阈值，从而在神经网络的低秩性与识别率之间取得平衡。例如，一种方法为计算Σ中所有对角线上元素的和，将剪枝阈值设置为这个和的1/β，若位于第i行第i列的对角线元素小于剪枝阈值，就将Σ的第i行和第i列都删除，并将U的第i列删除，将V的第i列删除，剪枝前后矩阵的尺寸变化如图4所示。需注意任意能够削减高秩矩阵中不重要分量的方法都能作为器件剪枝方法的一种实现手段，并不局限于上述提及的方法。

步骤S220中，其中一个正则项h(U,V,Σ)起到了酉保持作用，其功能为衡量参数矩阵中U和V与酉矩阵之间的距离，从而能在后续的梯度下降中让U与V朝向能保持酉矩阵的方向更新。任何具有上述衡量酉矩阵距离的特性的函数都可以作为本方法中的正则项使用，不失一般性，以下给出一个具体的h(U,V,Σ)计算方法。对尺寸为m×r的U和尺寸为n×r的V分别应用QR分解，可以将它们表示成U＝Q_uR_u和V＝Q_vR_v的形式。其中Q_u和Q_v是半酉矩阵，尺寸分别与U和V相同；R_u和R_v都是尺寸为r×r的方阵。用I_r表示尺寸为r×r的单位矩阵，1_1×r表示长度为r且所有元素均为1的行向量，令Δ_u＝I_r-Q_u，Δ_v＝I_r-Q_v，用°运算符表示矩阵的Hadamard乘积，那么正则项h(U,V,Σ)的计算方法为

在迭代训练结束后，将一系列的矩阵U，Σ和V，使用光器件网络构建子方法映射到光器件上，组成具有神经网络功能的光子芯片结构，有别于现有技术只能将正方形的酉矩阵映射为光器件，本发明提出的改进后的方法可以将长方形的半酉矩阵映射为光器件。

功能光器件网络构建方法是指将训练完成的若干矩阵(包括对角阵、酉矩阵等)，映射到光耦合器、衰减器、调相器和马赫增德尔干涉仪等器件上，并通过参数的调节获得与矩阵参数对应的功能性光器件网络。假设最终权重矩阵的秩为2，即U，Σ和V的尺寸分别是4×2，2×2和5×2，则可以将U和V分解为对角矩阵与一系列只在两个通道上起作用的酉矩阵的乘积：

U＝T_3，4T_2，3T_1，2T_3，4T_2,3D_u

V＝D_vT_2,3T_3,4T_4,5T_1,2T_2,3T_3,4T_4,5

其中T_j,j+1代表将第j和第j+1通道的光信号经过马赫增德尔干涉仪所经过的变换矩阵，而对角矩阵Σ，D_u和D_v只需要在每个通道上插入各自独立的调相器与衰减器即可。按照

的顺序将光器件串联在一起后，就得到了低秩神经网络在光器件上的映射。实现例中第一层网络(秩为2)映射到光器件上的结构如图5所示。其中D_u,D_v与Σ一样都是对角矩阵，D_u为使用酉矩阵对角化后的U，D_v为使用酉矩阵对角化后的V。

通过以上所述方法的组合，通过神经网络权值的低秩近似和与光器件特性匹配的训练方法，在识别率基本保持不变的情况下，大幅度地降低了光神经网络芯片所需的器件数量，减小了芯片面积和操控的复杂程度。

基于以上方法，可以构建用于自动驾驶、视频监控等任意需要神经网络处理的光子计算芯片及系统，其中光芯片的输入可以为图像传感器采集到的图像数据，也可以是激光雷达等探测到的障碍物信息。

以下为与上述方法实施例对应的系统实施例，本实施方式可与上述实施方式互相配合实施。上述实施方式中提到的相关技术细节在本实施方式中依然有效，为了减少重复，这里不再赘述。相应地，本实施方式中提到的相关技术细节也可应用在上述实施方式中。

该模块3包括：

和

分别表示s的1-范数和2-范数；

该正则项h(U，V，Σ)的计算过程为：

采用剪枝降低半酉矩阵U、非负对角矩阵Σ和半酉矩阵V的秩。