CN117057407A

CN117057407A - 一种面向有串扰的波分复用光学神经网络的训练方法

Info

Publication number: CN117057407A
Application number: CN202311052080.0A
Authority: CN
Inventors: 刘逸丰; 金潮渊; 李晨晖; 翁海中; 王博文; 黄科杰
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2023-08-21
Filing date: 2023-08-21
Publication date: 2023-11-14

Abstract

本发明公开了一种面向有串扰的波分复用光学神经网络的训练方法，属于信息技术领域。本发明适用于有串扰的波分复用光学神经网络，此类神经网络至少有一层隐藏层或输出层采用基于神经元复用单元的网络架构，这种基于神经元复用单元的波分复用神经网络可以将网络的物理层面的体积和功耗压缩数倍，但会引入串扰。本发明采用基于损失函数梯度下降的训练方法训练所述采用基于神经元复用单元的网络架构的隐藏层和输出层，即输出向量与标签向量联合计算得到训练的损失函数，通过使损失函数沿梯度下降以更新相应层的权重矩阵，从而实现面向有串扰的波分复用光学神经网络的训练。

Description

一种面向有串扰的波分复用光学神经网络的训练方法

技术领域

本发明涉及信息技术领域，尤其涉及一种面向有串扰的波分复用光学神经网络的训练方法。

背景技术

在过去的几十年中，微电子技术一直按照摩尔定律发展，即当价格不变时，电路集成度约每隔18-24个月便会增加一倍，性能也将提升一倍。然而在21世纪初，随着电路集成度的不断提高，电子所产生的热量也会迅速增加，串扰、功耗、噪声和时延问题将越来越严重，从而使器件无法正常工作，这使得微电子工业已经很难按照摩尔定律的预测发展，对于人工智能、神经网络这样对算力需求不断膨胀的产业，显然是个不利消息。而与数字计算机中的电子不同，光子作为非相互作用的玻色子，自然具有可以以光速实现多重互连及并行计算的优良特性，今后，逐步使用光电融合乃至全光计算机以满足人工智能和神经网络的算力需求，已成为必然趋势。

国际上已有的光计算系统中，波分复用技术作为光学系统的一大优势，已逐步开始进入大众视线。为了克服光学器件由于物理限制导致的尺度大、集成度低等问题，同时为了充分利用部分光学器件的波分复用特性，在一些波分复用光学神经网络架构中会让多个数据编码在若干信道上并输入进一个光学器件进行处理。这种并行处理的方案，可以进一步提高光学神经网络系统的计算密度，然而器件内部的信道串扰会不可避免地造成系统准确性的下降。尤其在利用波分复用技术实现的非线性运算部分，由于通常使用有源器件实现，信道串扰引入的影响会更为显著，随着并行处理的规模增大而难以忽略。目前，针对串扰，人们通常通过加工和设计串扰更小的器件以克服串扰导致的性能下降，但由于同一器件中光与物质相互作用的特性，我们几乎不可能消除同一信道内多个波长之间的串扰，故算法层面应对串扰所致的性能下降的方案亟待被提出。

发明内容

针对现有技术的不足，本发明提供了一种面向有串扰的波分复用光学神经网络的训练方法，其能耦合部分波分复用神经网络架构。本发明基于损失函数梯度下降并且通过将非线性运算过程中的串扰解析表征的方式考虑进神经网络的训练中。相比起电学神经网络中基于梯度下降的通用反向传播训练算法，本发明在训练其所能耦合的波分复用神经网络架构时，能达到更优的效果。

波分复用神经网络由若干隐藏层和一层输出层组成，每层隐藏层或输出层均包括若干个神经元，所述神经元的突触所对应的权重附加操作，在物理上被设计为不同信道内不同波长的光的强度调控。

适用于本发明的波分复用神经网络为有串扰的波分复用光学神经网络，其要求所述波分复用神经网络至少有一层隐藏层或输出层采用基于神经元复用单元的网络架构。典型而非限定的，本发明有串扰的所述波分复用神经网络的所有隐藏层和输出层均采用所述基于神经元复用单元的网络架构，或者所述有串扰的波分复用神经网络仅部分隐藏层或全部隐藏层采用所述基于神经元复用单元的网络架构，或者所述有串扰的波分复用神经网络仅输出层采用所述基于神经元复用单元的网络架构。相比于传统的波分复用神经网络，这种基于神经元复用单元的波分复用神经网络可以将网络的物理层面的体积和功耗压缩数倍，但会引入串扰。

所述神经元复用单元为输入-输出信号具有非线性强度关系的波分复用器件，其处理的信号为多个强度被独立编码的并行传播的多波长光，所述多波长光的强度对应于线性运算部分的输出向量中的多个元素。

其中，输出层采用基于神经元复用单元的网络架构是指：在光学神经网络的输出层中，其线性运算部分的输出数据被编码在不同波长光的强度上，所述的不同波长的光，作为输入信号并行进入神经元复用单元进行非线性运算，所述非线性运算的结果被编码在不同波长光的强度上，作为整个光学神经网络的输出。

隐藏层采用基于神经元复用单元的网络架构是指：在光学神经网络的某一或多个隐藏层中，其线性运算部分的输出数据被编码在不同波长光的强度上，所述的不同波长的光，作为输入信号并行进入神经元复用单元进行非线性运算，所述非线性运算的结果被编码在不同波长光的强度上，作为下一层的输入向量在光学神经网络中传递。

在一种可能的可耦合的波分复用神经网络架构中：

神经网络中某一层的每个神经元的输入数据都被编码在某一特定波长光的强度上，而该层中的不同神经元之间具有不同的波长。即在神经网络中该层的线性运算过程中，某一神经元与所有输入信号的连接所对应的向量-向量乘法中涉及的元素乘法会被编码在不同物理信道的同一波长的信号上完成；

所述的不同物理信道的同波长光被物理上进行合束操作，完成向量-向量乘法中元素乘法后的累加运算；神经网络中该层的不同神经元内的非线性运算都在某一特定波长上完成，而所述的层中的不同神经元内使用不同的波长的光信号作为非线性运算的数据载体。即从数学模型来看，在神经网络中该层的非线性运算过程中，一个神经元内会将线性运算中向量-向量乘法运算后的标量值编码在某一波长的光信号上，并传递至所述神经元对应的用于非线性运算的物理结构；

所述层中的不同波长的光并行地进入某一波分复用非线性器件的输入端口，并作为其输入，在所述波分复用非线性器件的输出端口的各波长的强度信息上得到该层的非线性运算的输出向量。

所述层可为输出层或隐藏层。

前述基于神经元复用单元的网络架构的波分复用神经网络中，在非线性运算或线性运算中，波分复用器件会引入多种形式的信道串扰。

在一种可能的信道串扰构成中，由于多个波长的信号光同时进入波分复用的有源器件中，不同波长的光子会在有源器件中同时与器件中的电子或光子产生相互作用，从而对于在有源器件的输出端产生的某一波长的输出信号，会与输入端的其余波长的信号光有关。

在一种可能的信道串扰构成中，在完成波分复用的线性运算后，由于在非线性运算部分引入MUX及DEMUX等无源波分复用器件完成不同波长信号的合束以及分束操作，MUX/DEMUX器件中的热串扰或滤波不充分等特点导致分束后的不同波长对应的信道会受其余信道不同波长的信号光的影响。

即对于在某一层中线性运算后传递给n个神经元进行非线性运算的数据为数据x＝(x₁x₂…x_n)^T，若数据被编码在n个波长的信号光上并完成所述非线性运算后，由于信道串扰，第k个神经元的非线性函数由无串扰情况下的y_k＝F_k(x_k)变为y_k＝f_k(x₁,x_k,…,x_n)，其中n为正整数，代表神经元的个数，k为满足1≤k≤n的正整数，即由于串扰存在，第k个神经元的输出成为了多个输入的函数，其中x_j为串扰项，j为满足1≤j≤n且j≠k的正整数。则用向量的数学形式表示所述层的n个神经元非线性运算后的输出为：

所述的信道串扰，包含但不仅限于上述MUX等DEMUX器件在非线性运算或线性运算中所引入的串扰，或波分复用有源器件在非线性运算中所引入的串扰，在满足上述特性的波分复用神经网络架构中，其某一层的非线性运算中串扰导致的输入输出关系满足公式(1)描述，均在此发明的保护范围之内。

本发明提出了一种面向有串扰的波分复用光学神经网络的训练方法，所述有串扰的波分复用光学神经网络的隐藏层和/或输出层中至少一层采用了基于神经元复用单元的网络架构，在该基于神经元复用单元架构的层的非线性运算中将引入串扰。所述方法需要对面向有串扰的波分复用光学神经网络的所有采用基于神经元复用单元的网络架构的层进行训练以减小甚至消除串扰对性能的影响；

其中，采用基于神经元复用单元的网络架构的输出层采用基于损失函数梯度下降方法训练：从数据的正向传播来看，所述输出层的输入数据为m维向量i＝(i₁ i₂ … i_m)^T，权重矩阵为n×m维矩阵W^o，则线性运算部分的输出向量(即神经元非线性运算部分的输入向量)为x＝(x₁ x₂ … x_n)^T＝W^o·i，则对于具有所述信道串扰特性的神经网络输出层，对于输入数据，其非线性运算输出可表示为：

输出层的非线性输出即为整个神经网络的输出。在训练中，输出层的n维输出向量output与n维标签向量e＝(e₁ e₂ … e_n)^T联合计算得到训练的损失函LOSS，在本发明的一个可选实施方式中，其表达式为：

本发明通过使损失函数沿梯度下降以更新输出层的权重矩阵W^o，通过计算偏微分并结合学习率η以迭代地更新权重矩阵W^o，更新过程可表示为：

根据求导的链式法则，被展开为如下式：

定义误差向量为特别地，所述的误差向量中，第p个元素/>的计算过程涉及向量output中每个元素关于向量x中第p个元素的偏导数。p为满足1≤p≤m的正整数，所述的第p个元素如下所示：

为了更明晰地展示本发明的创新，我们给出误差向量6^o的更详细的展开表达式：

着重地，本发明在输出层的反向传播过程中引入矩阵所述矩阵中的每一个非对角元素都有与之对应的串扰项，从而使误差沿着梯度方向下降。

采用基于神经元复用单元的网络架构的隐藏层采用基于损失函数梯度下降方法训练：假设所述隐藏层为整个光学神经网络中的第L层，从数据的正向传播来看，o^L-1为第L-1层的输出，即为第L层的输入，则误差的反向传播来看，δ^L+1为从第L+1层反向传播来的误差，W^L+1为第L+1层的权重矩阵。第L层的权重矩阵W^L与o^L-1相乘得到该层的线性运算部分的输出s^L＝W^L·o^L-1，与上述输出层的运算类似，所述第L层的非线性运算后的输出为：

与上述输出层的权重矩阵更新方法类似，权重矩阵W^L的更新方式为：

根据链式法则，可以分解为：

同样需要强调的是，上述表达式中矩阵项是一个在非对角项中引入物理串扰的矩阵。本发明中所述的输出层的/>矩阵和所述隐藏层的/>矩阵将物理串扰耦合为一个紧凑形式，并保证了即使光学神经网络中有误差存在依旧能使误差沿着梯度方向下降至全局最优解，保证了该发明在受串扰影响的波分复用光学神经网络中的可用性。

附图说明

图1为本发明实施例一中被训练的光学神经网络架构；

图2为本发明实施例一中使用本发明训练的光学神经网络性能比较。

具体实施方式

为明确本发明的架构、实现过程和优势，以下将对发明的技术方案进行更清楚、更详细地描述。诚然，由于架构中所述各模块的选型的自由度，以下所述的实施例仅为本发明的一个实施例，而不是全部的实施例。基于本发明中的实施例，本领域的技术人员若未做出创造性劳动的情况下获得任何其他实施例，都属于本发明保护的范围。

实施例一

针对一个波分复用的两层的光学神经网络，其架构如图1所示。在有60个节点的第一层(即Layer1)中，非线性运算过程使用30个2信道的SOA完成非线性运算；在有10个节点的第二层(Layer2)即输出层，非线性运算会在计算机中实现传统的Sigmoid函数，所述Sigmoid函数对于输入q，其输出为。所述光学神经网络中的某一层中，输入向量i的任一元素在传播过程会被编码在不同波长的光的强度上；所述不同的波长的光中任一波长光对应于该层的某一神经元，即该层中某一神经元对应的向量-向量乘法和非线性运算都是通过调控不同信道中同一波长光的强度实现的。则从层的角度看，通过调控所述不同波长光的强度以完成基于向量-矩阵乘法的线性运算以及非线性运算，其中该层的输出向量中代表着某一个神经元的输出的任一元素都被编码在一特定的波长上。

由于第一层中的非线性运算部分使用了30个2信道的SOA，其两个信道间会受到增益压缩带来的串扰影响。假设输入一个SOA的信号为第一输入信号x₁和第二输入信号x₂，所述SOA本身具有单程小信号增益G_ss和饱和增益功率P_sat两个参数，则经过所述SOA后的第一输出信号y₁可表示为对称地，我们也计算第二输出信号/>

在所述的光学神经网络中，训练及测试数据集为通用的MNIST手写数字集。在训练阶段，网络输入一个784×1的向量i，其经过所述的第一层的权重为W¹的线性运算部分后得到经过所述的第一层的非线性运算部分后得到：

经过所述的第二层的权重为W²的线性运算与非线性运算部分后分别得到向量和向量/>

针对任意一个训练数据，其标签(即期望输出)为e＝(e₁ e₂ … e₁₀)^T，根据前述对输出层权重的训练方法以及链式法则，则可得到下列公式并更新权重W²：

同样地，通过计算可以更新第一层的权重W¹，其中/>可以表示为：

其中，表示所述层中非线性运算部分的第n个2信道的SOA的第m个信道的输出关于/>的导数，所述/>为被编码在所述2信道的SOA的输入上的值。上述/>的计算式中所有其余项均为可计算的。

综上，使用本发明的上述光学神经网络经过多轮迭代式的训练，其面对不同串扰的2信道的SOA器件，其训练效果在同规模下都远超基于电学计算机的BP算法训练的光学神经网络，具体如图(2)所示。其中横坐标为单程小信号增益G_ss，其不同取值表征了不同串扰强度的2信道的SOA器件，圆形标记的实线表示了不同G_ss下本发明训练的光学神经网络的性能，三角形标记的实线则为基于电学计算机的BP算法训练的同规模的光学神经网络的性能，两组数据都对应左侧纵坐标。菱形标记的虚线对应右侧纵坐标，表示了不同G_ss下本发明训练的光学神经网络的性能提升。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。

Claims

1.一种面向有串扰的波分复用光学神经网络的训练方法，所述面向有串扰的波分复用光学神经网络至少有一层隐藏层或输出层采用基于神经元复用单元的网络架构；所述神经元复用单元为输入-输出信号具有非线性强度关系的波分复用器件，其处理的信号为多个强度被独立编码的并行传播的多波长光，所述多波长光的强度对应于线性运算部分的输出向量中的多个元素；

其中，输出层采用基于神经元复用单元的网络架构是指：在光学神经网络的输出层中，其线性运算部分的输出数据被编码在不同波长光的强度上，所述的不同波长的光，作为输入信号并行进入神经元复用单元进行非线性运算，所述非线性运算的结果被编码在不同波长光的强度上，作为整个光学神经网络的输出；

隐藏层采用基于神经元复用单元的网络架构是指：在光学神经网络的某一或多个隐藏层中，其线性运算部分的输出数据被编码在不同波长光的强度上，所述的不同波长的光，作为输入信号并行进入神经元复用单元进行非线性运算，所述非线性运算的结果被编码在不同波长光的强度上，作为下一层的输入向量在光学神经网络中传递；所述训练方法为训练所述有串扰的波分复用光学神经网络中的所有采用基于神经元复用单元的网络架构的隐藏层和输出层；

其中，采用基于神经元复用单元的网络架构的输出层和隐藏层均采用基于损失函数梯度下降的训练方法，即基于神经元复用单元的网络架构的输出层和隐藏层的输出向量与标签向量联合计算得到训练的损失函数，通过使损失函数沿梯度下降以更新相应层的权重矩阵，从而实现所述面向有串扰的波分复用光学神经网络的训练。

2.根据权利要求1所述的面向有串扰的波分复用光学神经网络的训练方法，其特征在于，所述基于神经元复用单元的网络架构的输出层采用基于损失函数梯度下降的训练方法，具体为：

所述输出层的输入数据为m维向量i＝(i₁i₂…i_m)^T，权重矩阵为n×m维矩阵W^o，则线性运算部分的输出向量为x＝(x₁x₂…x_n)^T＝W^o·i，则对于具有所述信道串扰特性的神经网络输出层，对于输入数据，其非线性运算输出可表示为：

输出层的非线性输出即为整个神经网络的输出；

在训练中，计算得到训练的损失函数LOSS，

通过使损失函数沿梯度下降以更新输出层的权重矩阵W^o，通过计算偏微分并结合学习率η以迭代地更新权重矩阵W^o。

3.根据权利要求2所述的面向有串扰的波分复用光学神经网络的训练方法，其特征在于，所述结合学习率η以迭代地更新权重矩阵W^o，具体为：

更新过程表示为：

根据求导的链式法则，被展开为如下式：

定义误差向量为所述的误差向量中，第p个元素/>的计算过程涉及向量output中每个元素关于向量x中第p个元素的偏导数；p为满足1≤p≤m的正整数，所述的第p个元素如下所示：

4.根据权利要求3所述的面向有串扰的波分复用光学神经网络的训练方法，其特征在于，误差向量δ^o的详细的展开表达式为：

由于在输出层的反向传播过程中引入矩阵所述矩阵中的每一个非对角元素都有与之对应的串扰项，从而使误差沿着梯度方向下降。

5.根据权利要求1所述的面向有串扰的波分复用光学神经网络的训练方法，其特征在于，所述基于神经元复用单元的网络架构的隐藏层采用基于损失函数梯度下降的训练方法，具体为：

假设所述隐藏层为整个光学神经网络中的第L层，从数据的正向传播来看，o^L-1为第L-1层的输出，即为第L层的输入，则误差的反向传播来看，δ^L+1为从第L+1层反向传播来的误差，W^L+1为第L+1层的权重矩阵；第L层的权重矩阵W^L与o^L-1相乘得到该层的线性运算部分的输出s^L＝W^L·o^L-1，所述第L层的非线性运算后的输出为：

权重矩阵W^L的更新方式为：

其中，η为学习率，LOSS为训练的损失函数；

根据链式法则，分解为：