CN116384460A

CN116384460A - 鲁棒性光学神经网络训练方法、装置、电子设备及介质

Info

Publication number: CN116384460A
Application number: CN202310324913.8A
Authority: CN
Inventors: 郑纪元; 邓辰辰; 郭雨晨; 方璐; 范静涛; 吴嘉敏; 戴琼海
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2023-03-29
Filing date: 2023-03-29
Publication date: 2023-07-04

Abstract

本申请涉及光学神经网络技术领域，特别涉及一种鲁棒性光学神经网络训练方法、装置、电子设备及介质，其中，方法包括：获取光学神经网络的损失函数；在训练光学神经网络的过程中确定损失函数的平稳极值，其中，平稳极值为损失函数处于一个局部最小值且绝对值满足预设精度要求，同时在极值附近的预设范围内损失函数的变化速率低于预设数值；将平稳极值作为光学神经网络的训练目标，在光学神经网络的训练损失函数达到平稳极值时，完成光学神经网络的训练。由此，解决了相关技术中通过搭建外围光路和电路并结合误差校准算法对光的相位和幅度等物理特性的误差进行补偿，无法保证神经网络输出结果的准确性，且存在校准时间长，难度大等问题。

Description

鲁棒性光学神经网络训练方法、装置、电子设备及介质

技术领域

本申请涉及光学神经网络技术领域，特别涉及一种鲁棒性光学神经网络训练方法、装置、电子设备及介质。

背景技术

光具有物理空间最快的传播速度以及多维多尺度的优势，用光子代替电子，用光路代替电路，光学计算芯片具有高速、并行、低功耗等颠覆性优势。尤其随着人工智能算法的深度发展，光在介质中受限传播的物理过程在数学上的表达与深度神经网络算法具有高度的相似性，采用光学芯片实现神经网络计算有望突破传统电子芯片的能效瓶颈。

光学神经网络芯片通常需要先在电子计算机上通过预训练得到网络中神经元的参数，再映射到芯片结构的设计参数。但由于芯片加工存在一定的偏差，无法保证理论模型与芯片加工的完美映射，且光学神经网络芯片的输入信号通常需要将电信号通过调制器、相移器等器件加载到光信号的幅度相位偏振等物理特性，而信号的加载和转换过程中也会有误差。因此，基于训练模型加工的光学神经网络芯片在推理计算过程中难以得到与模型训练时一致的精准度。

相关技术通常是在芯片制造完成后搭建外围光路和电路并结合误差校准算法对光的相位和幅度等物理特性的误差进行补偿，但校准时间长难度大，每个芯片逐一校准的技术路线无法满足未来大规模量产的需求。

发明内容

本申请提供一种鲁棒性光学神经网络训练方法、装置、电子设备及存储介质，以解决相关技术中通过搭建外围光路和电路并结合误差校准算法对光的相位和幅度等物理特性的误差进行补偿，无法保证神经网络输出结果的准确性，且存在校准时间长，难度大等问题。

本申请第一方面实施例提供一种鲁棒性光学神经网络训练方法，包括以下步骤：获取光学神经网络的损失函数；在训练所述光学神经网络的过程中确定所述损失函数的平稳极值，其中，所述平稳极值为所述损失函数处于一个局部最小值且绝对值满足预设精度要求，同时在极值附近的预设范围内损失函数的变化速率低于预设数值；将所述平稳极值作为所述光学神经网络的训练目标，在所述光学神经网络的训练损失函数达到所述平稳极值时，完成所述光学神经网络的训练。

可选地，在本申请的一个实施例中，所述将所述平稳极值作为所述光学神经网络的训练目标，包括：若所述损失函数的平稳极值为多个，识别多个平稳极值中满足绝对值精度要求的任意一个最小平稳极值；将所述任意一个平稳极值作为所述光学神经网络的训练目标。

可选地，在本申请的一个实施例中，在完成所述光学神经网络的训练之后，还包括：根据训练完成的光学神经网络确定网络权重参数，其中，利用所述训练完成的光学神经网络对应的平稳极值确定所述网络权重参数；基于所述网络权重参数确定光学神经网络芯片的加工参数，利用所述加工参数加工所述光学神经网络芯片。

可选地，在本申请的一个实施例中，所述光学神经网络包括衍射神经网络、干涉神经网络和散射神经网络中的任意一种。

本申请第二方面实施例提供一种鲁棒性光学神经网络训练装置，包括：获取模块，用于获取光学神经网络的损失函数；第一确定模块，用于在训练所述光学神经网络的过程中确定所述损失函数的平稳极值，其中，所述平稳极值为所述损失函数处于一个局部最小值且绝对值满足预设精度要求，同时在极值的预设范围内损失函数的变化速率低于预设数值；训练模块，用于将所述平稳极值作为所述光学神经网络的训练目标，在所述光学神经网络的训练损失函数达到所述平稳极值时，完成所述光学神经网络的训练。

可选地，在本申请的一个实施例中，所述训练模块，进一步用于在所述损失函数的平稳极值为多个时，识别多个平稳极值中满足绝对值精度要求的任意一个最小平稳极值；将所述任意一个平稳极值作为所述光学神经网络的训练目标。

可选地，在本申请的一个实施例中，还包括：第二确定模块，用于在完成所述光学神经网络的训练之后，根据训练完成的光学神经网络确定网络权重参数，其中，利用所述训练完成的光学神经网络对应的平稳极值确定所述网络权重参数；加工模块，用于基于所述网络权重参数确定光学神经网络芯片的加工参数，利用所述加工参数加工所述光学神经网络芯片。

本申请第三方面实施例提供一种电子设备，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序，以实现如上述实施例所述的鲁棒性光学神经网络训练方法。

本申请第四方面实施例提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行，以用于实现如上述实施例所述的鲁棒性光学神经网络训练方法。

由此，本申请至少具有如下有益效果：

本申请实施例通过获取光学神经网络的损失函数，并在训练光学神经网络的过程中确定损失函数的平稳极值，通过寻找损失函数的平稳极值作为神经网络设计和训练的目标，提高光学神经网络芯片的鲁棒性，使神经网络的权重参数和输入数据存在噪声偏差时，损失函数的值不会出现特别明显的变化，从而降低误差对神经网络输出结果准确性的影响。由此，解决了相关技术中通过搭建外围光路和电路并结合误差校准算法对光的相位和幅度等物理特性的误差进行补偿，无法保证神经网络输出结果的准确性，且存在校准时间长，难度大等问题。

本申请附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为根据本申请实施例提供的一种鲁棒性光学神经网络训练方法的流程图；

图2为根据本申请实施例提供的损失函数平稳极值和尖锐极值的示意图；

图3为根据本申请实施例提供的一种鲁棒性光学神经网络训练装置的方框示意图；

图4为根据本申请实施例提供的电子设备的结构示意图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本申请，而不能理解为对本申请的限制。

下面参考附图描述本申请实施例的鲁棒性光学神经网络训练方法、装置、电子设备及存储介质。针对上述背景技术中提到的问题，本申请提供了一种鲁棒性光学神经网络训练方法，在该方法中，通过获取光学神经网络的损失函数，并在训练光学神经网络的过程中确定损失函数的平稳极值，通过寻找损失函数的平稳极值作为神经网络设计和训练的目标，提高光学神经网络芯片的鲁棒性，使神经网络的权重参数和输入数据存在噪声偏差时，损失函数的值不会出现特别明显的变化，从而降低误差对神经网络输出结果准确性的影响。由此，解决了相关技术中通过搭建外围光路和电路并结合误差校准算法对光的相位和幅度等物理特性的误差进行补偿，无法保证神经网络输出结果的准确性，且存在校准时间长，难度大等问题。

具体而言，图1为本申请实施例所提供的一种鲁棒性光学神经网络训练方法的流程示意图。

如图1所示，该鲁棒性光学神经网络训练方法包括以下步骤：

在步骤S101中，获取光学神经网络的损失函数。

其中，光学神经网络包括但不限于衍射神经网络、干涉神经网络、散射神经网络。

可以理解的是，损失函数是描述经过网络计算输出预测值和预期真实值之间差距的函数，本申请实施例可以获取光学神经网络的损失函数，通过求解损失函数平稳极值确定网络权重参数，从而实现提高神经网络芯片的鲁棒性。

在步骤S102中，在训练光学神经网络的过程中确定损失函数的平稳极值，其中，平稳极值为损失函数处于一个局部最小值且绝对值满足预设精度要求，同时在极值附近的预设范围内损失函数的变化速率低于预设数值。

在本申请实施例中，预设精度要求、预设数值和预设范围可以根据实际情况进行设置，不做具体限定。

本申请实施例可以在神经网络训练过程中，使网络计算输出预测值不断逼近真实值，也就是将损失函数降到最低，在光学神经网络训练时通过求解损失函数平稳极值确定网络参数有利于提高网络的鲁棒性。

在步骤S103中，将平稳极值作为光学神经网络的训练目标，在光学神经网络的训练损失函数达到平稳极值时，完成光学神经网络的训练。

本申请实施例可以在训练过程中寻找损失函数的平稳极值作为神经网络设计和训练的目标，这样在神经网络的权重参数和输入数据存在噪声偏差时，损失函数的值不会出现特别明显的变化，从而降低噪声偏差对神经网络输出结果准确性的影响，提高光学神经网络芯片的鲁棒性。

在本申请的一个实施例中，将平稳极值作为光学神经网络的训练目标，包括：若损失函数的平稳极值为多个，识别多个平稳极值中满足绝对值精度要求的任意一个最小平稳极值；将任意一个平稳极值作为光学神经网络的训练目标。

在本申请实施例中，如果网络模型和芯片参数能够完全对应，且训练集合测试集完全一致，那么理想情况就是求解全局最小值。然而，由于加工和测试过程存在不可避免的误差，那么训练得到的全局最小值对应的网络模型可能会在实际芯片测试中无法得到满足精度要求的输出预测值。

如图2所示的损失函数的平稳极值和尖锐极值的示意图，可以看到极小值B是全局最优解，但是B点对应的网络参数发生极小变化时，损失函数发生急剧变化，说明当网络参数发生非常小的波动时，网络计算输出得到的预测值和预期真实值的差值也会变得很大，无法满足精度要求。另外一个局部极小值A虽然在训练模型中损失函数比B略高一点，但其绝对值大小是也满足网络的精度要求。与B不同的是，A点附近的损失函数变化十分缓慢，这意味着当误差噪声在一定范围内波动时，损失函数不会发生突变，大概率仍能满足网络模型的精度要求。

在本申请的一个实施例中，在完成光学神经网络的训练之后，还包括：根据训练完成的光学神经网络确定网络权重参数，其中，利用训练完成的光学神经网络对应的平稳极值确定网络权重参数；基于网络权重参数确定光学神经网络芯片的加工参数，利用加工参数加工光学神经网络芯片。

本申请实施例在光学神经网络训练过程中不仅仅考虑损失函数本身的大小，同时考虑其附近参数的变化趋势，即通过求解平稳极值确定光学神经网络芯片的加工参数，以实现对光学神经网络芯片的加工，有效缓解了加工误差带来的从设计模型到芯片加工的映射难题以及信号加载和转换带来的误差问题，可以使得加工后的光学计算结构鲁棒性大幅提升，具有容忍加工和实验误差的能力，为光学神经网络芯片实现大规模量产奠定重要的基础。

根据本申请实施例提出的鲁棒性光学神经网络训练方法，通过获取光学神经网络的损失函数，并在训练光学神经网络的过程中确定损失函数的平稳极值，通过寻找损失函数的平稳极值作为神经网络设计和训练的目标，提高光学神经网络芯片的鲁棒性，使神经网络的权重参数和输入数据存在噪声偏差时，损失函数的值不会出现特别明显的变化，从而降低误差对神经网络输出结果准确性的影响。由此，解决了相关技术中通过搭建外围光路和电路并结合误差校准算法对光的相位和幅度等物理特性的误差进行补偿，无法保证神经网络输出结果的准确性，且存在校准时间长，难度大等问题。

其次参照附图描述根据本申请实施例提出的一种鲁棒性光学神经网络训练装置。

图3是本申请实施例的一种鲁棒性光学神经网络训练装置的方框示意图。

如图3所示，该鲁棒性光学神经网络训练装置10包括：获取模块100、第一确定模块200和训练模块300。

其中，获取模块100用于获取光学神经网络的损失函数；第一确定模块200用于在训练光学神经网络的过程中确定损失函数的平稳极值，其中，平稳极值为损失函数处于一个局部最小值且绝对值满足预设精度要求，同时在极值附近的预设范围内损失函数的变化速率低于预设数值；训练模块300用于将平稳极值作为光学神经网络的训练目标，在光学神经网络的训练损失函数达到平稳极值时，完成光学神经网络的训练。

在本申请的一个实施例中，训练模块300进一步用于在损失函数的平稳极值为多个时，识别多个平稳极值中满足绝对值精度要求的任意一个最小平稳极值；将任意一个平稳极值作为光学神经网络的训练目标。

在本申请的一个实施例中，本申请实施例的装置10还包括：第二确定模块和加工模块。

其中，第二确定模块用于在完成光学神经网络的训练之后，根据训练完成的光学神经网络确定网络权重参数，其中，利用训练完成的光学神经网络对应的平稳极值确定网络权重参数；加工模块用于基于网络权重参数确定光学神经网络芯片的加工参数，利用加工参数加工光学神经网络芯片。

在本申请的一个实施例中，光学神经网络包括衍射神经网络、干涉神经网络和散射神经网络中的任意一种。

需要说明的是，前述对鲁棒性光学神经网络训练方法实施例的解释说明也适用于该实施例的鲁棒性光学神经网络训练装置，此处不再赘述。

根据本申请实施例提出的鲁棒性光学神经网络训练装置，通过获取光学神经网络的损失函数，并在训练光学神经网络的过程中确定损失函数的平稳极值，通过寻找损失函数的平稳极值作为神经网络设计和训练的目标，提高光学神经网络芯片的鲁棒性，使神经网络的权重参数和输入数据存在噪声偏差时，损失函数的值不会出现特别明显的变化，从而降低误差对神经网络输出结果准确性的影响。由此，解决了相关技术中通过搭建外围光路和电路并结合误差校准算法对光的相位和幅度等物理特性的误差进行补偿，无法保证神经网络输出结果的准确性，且存在校准时间长，难度大等问题。

图4为本申请实施例提供的电子设备的结构示意图。该电子设备可以包括：

存储器401、处理器402及存储在存储器401上并可在处理器402上运行的计算机程序。

处理器402执行程序时实现上述实施例中提供的鲁棒性光学神经网络训练方法。

进一步地，电子设备还包括：

通信接口403，用于存储器401和处理器402之间的通信。

存储器401，用于存放可在处理器402上运行的计算机程序。

存储器401可能包含高速RAM(Random Access Memory，随机存取存储器)存储器，也可能还包括非易失性存储器，例如至少一个磁盘存储器。

如果存储器401、处理器402和通信接口403独立实现，则通信接口403、存储器401和处理器402可以通过总线相互连接并完成相互间的通信。总线可以是ISA(IndustryStandard Architecture，工业标准体系结构)总线、PCI(Peripheral Component，外部设备互连)总线或EISA(Extended Industry Standard Architecture，扩展工业标准体系结构)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，图4中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

可选的，在具体实现上，如果存储器401、处理器402及通信接口403，集成在一块芯片上实现，则存储器401、处理器402及通信接口403可以通过内部接口完成相互间的通信。

处理器402可能是一个CPU(Central Processing Unit，中央处理器)，或者是ASIC(Application Specific Integrated Circuit，特定集成电路)，或者是被配置成实施本申请实施例的一个或多个集成电路。

本申请实施例还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上的鲁棒性光学神经网络训练方法。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不是必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或N个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中，“N个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更N个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本申请的实施例所属技术领域的技术人员所理解。

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，N个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如，如果用硬件来实现和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列，现场可编程门阵列等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

尽管上面已经示出和描述了本申请的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种鲁棒性光学神经网络训练方法，其特征在于，包括以下步骤：

获取光学神经网络的损失函数；

在训练所述光学神经网络的过程中确定所述损失函数的平稳极值，其中，所述平稳极值为所述损失函数处于一个局部最小值且绝对值满足预设精度要求，同时在极值附近的预设范围内损失函数的变化速率低于预设数值；

将所述平稳极值作为所述光学神经网络的训练目标，在所述光学神经网络的训练损失函数达到所述平稳极值时，完成所述光学神经网络的训练。

2.根据权利要求1所述的方法，其特征在于，所述将所述平稳极值作为所述光学神经网络的训练目标，包括：

若所述损失函数的平稳极值为多个，识别多个平稳极值中满足绝对值精度要求的任意一个平稳极值；

将所述任意一个平稳极值作为所述光学神经网络的训练目标。

3.根据权利要求1所述的方法，其特征在于，在完成所述光学神经网络的训练之后，还包括：

根据训练完成的光学神经网络确定网络权重参数，其中，利用所述训练完成的光学神经网络对应的平稳极值确定所述网络权重参数；

基于所述网络权重参数确定光学神经网络芯片的加工参数，利用所述加工参数加工所述光学神经网络芯片。

4.根据权利要求1-3任意一项所述的方法，其特征在于，所述光学神经网络包括衍射神经网络、干涉神经网络和散射神经网络中的任意一种。

5.一种鲁棒性光学神经网络训练装置，其特征在于，包括：

获取模块，用于获取光学神经网络的损失函数；

第一确定模块，用于在训练所述光学神经网络的过程中确定所述损失函数的平稳极值，其中，所述平稳极值为所述损失函数处于一个局部最小值且绝对值满足预设精度要求，同时在极值附近的预设范围内损失函数的变化速率低于预设数值；

训练模块，用于将所述平稳极值作为所述光学神经网络的训练目标，在所述光学神经网络的训练损失函数达到所述平稳极值时，完成所述光学神经网络的训练。

6.根据权利要求5所述的装置，其特征在于，所述训练模块，进一步用于：

若所述损失函数的平稳极值为多个，识别多个平稳极值中满足绝对值精度要求的任意一个最小平稳极值；

7.根据权利要求5所述的装置，其特征在于，还包括：

第二确定模块，用于在完成所述光学神经网络的训练之后，根据训练完成的光学神经网络确定网络权重参数，其中，利用所述训练完成的光学神经网络对应的平稳极值确定所述网络权重参数；

加工模块，用于基于所述网络权重参数确定光学神经网络芯片的加工参数，利用所述加工参数加工所述光学神经网络芯片。

8.根据权利要求5-7任意一项所述的装置，其特征在于，所述光学神经网络包括衍射神经网络、干涉神经网络和散射神经网络中的任意一种。

9.一种电子设备，其特征在于，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序，以实现如权利要求1-4任一项所述的鲁棒性光学神经网络训练方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行，以用于实现如权利要求1-4任一项所述的鲁棒性光学神经网络训练方法。