CN112699993A

CN112699993A - 一种多层光学卷积神经网络方法

Info

Publication number: CN112699993A
Application number: CN202011459726.3A
Authority: CN
Inventors: 董明利; 孙一辰; 于明鑫; 祝连庆; 张东亮; 庄炜; 张旭
Original assignee: Beijing Information Science and Technology University
Current assignee: Beijing Information Science and Technology University
Priority date: 2020-12-11
Filing date: 2020-12-11
Publication date: 2021-04-23

Abstract

深度神经网络利用各种图像特性的空间不变性的卷积神经网络(CNN)在计算机视觉问题中特别流行。为了提高效率，现在采用许多策略来压缩CNN，同时保持性能。CNN的计算效率仍然是一个活跃的研究领域，由于对功率和带宽的严格限制。卷积神经网络(CNN)在各种计算机视觉应用中表现十分出色。我们探索一种互补策略，在模拟或数字电子计算之前结合多层光学计算，提高性能，同时增加最小的电子计算成本和处理时间。进行傅里叶变换可优化且可拓展的光学配置保留了这些优点，作为构建光学CNN的框架。提出一个计算成像系统，模拟前馈CNN，有助于执行输入图像的分类。该方法的目的是提供多层光学卷积神经网络的方法，该方法操作简单，能够提高图片识别的准确率。

Description

一种多层光学卷积神经网络方法

技术领域

本发明属于光学深度学习领域，特别涉及一种多层光学卷积神经网络方法。

背景技术

深度神经网络已经在各种应用中取得了成功，从计算机视觉到自然语言再到游戏。利用各种图像特性的空间不变性的卷积神经网络(CNN)在计算机视觉问题中特别流行，例如图像分类，图像分割，甚至如图像生成。随着各种任务的性能提升到显著的水平，这些网络中的参数和连接数量急剧增加，培训和使用这些网络的功率和内存也相应增加。

虽然我们认为学习网络权重的训练阶段是缓慢的阶段，但是由于数百万次重复的储存器参考和矩阵乘法，大型模型在推理期间还需要显著的能量和存储。为了提高效率，现在已经采用了许多策略来压缩CNN，同时保持性能，包括修剪，训练量化，Hufman编码和改变的架构设计。在硬件方面，现在有专门用于机器学习的处理单元，例如IBM的TrueNorth芯片，Movidius的视觉处理单元(VPU)的和谷歌的张量处理单元(TPU)。针对嵌入式视觉应用的其他已推理为中心的努力尝试将一部分图像处理结合到传感器上，消除或减少将全部图像数据传送到处理器的需要。CNN的计算效率仍然是一个活跃的研究领域，由于对功率和带宽的严格限制，移动视觉、自动驾驶车辆和机器人以及无线智能传感器等嵌入式系统仍然难以部署CNN。

卷积神经网络(CNN)在各种计算机视觉应用中表现十分出色，但是它们的高性能也带来了高计算成本。尽管我们在其算法上和专用硬件上努力提高其效率，可由于功率预算较为紧张，在嵌入式系统中部署CNN仍然十分困难。

在这里，我们探索一种互补策略，在模拟或数字电子计算之前结合多层光学计算，提高性能，同时增加最小的电子计算成本和处理时间。光学计算因其高带宽，高互连性和固有的并行处理而引人瞩目，所有这些都可能以光速进行。某些操作可以在自由空间中活在光子芯片上执行，几乎没有功耗，例如，镜头可以“免费”进行傅里叶变换。一组可优化且可拓展的光学配置保留了这些优点，并作为构建光学CNN的框架，将引起计算机视觉，机器人，机器学习和光学社区的兴趣。光学神经网络(ONNs)的初步研究是由光学器件执行完全连接层的昂贵矩阵乘法的能力所激发的。最近，在学术研究和工业中，人们对ONN重新产生了兴趣。然而，所引起的ONN文献不涉及卷积层，这在计算机视觉应用中已变得必不可少。另外，这些方法是用相干光作为信号开发的，这使得他们难以适应计算机的相机系统。

我们从计算成像的角度出发，朝着光学CNN的目标迈进，通过光学和算法的协同设计将图像采集与计算相结合。计算相机通过定制光学器件利用光的物理传播来编码关于在标准2D图像捕获中丢失的场景的信息。在这里，我们提出了一个计算成像系统，模拟了前馈CNN,有助于执行输入图像的分类。通过将CNN的第一卷积层推入光学系统，我们在推理期间减少了电子处理器的工作量。此外，输入信号已经是光信号的成像场景容易允许在传感器读出之前通过附加的无源光学元件传播。Te ASP Vision系统之前曾探索过混合光电子CNN的概念，使用角度敏感像素(ASP)来逼近典型CNN的概念，DNA它仅限于一组固定的卷积核。并进行工作将可优化元素整合到神经网络启发的多层光学系统中，但不会尝试创建CNN，该系统针对特定的分类问题进行了优化，从而展示了定制光电子CNN的低功耗推断。

发明内容

本发明的目的在于克服现有技术的缺点，提供一种多层光学卷积神经网络方法，该方法操作简单，而且能够提高图片识别的准确率，增加装置的适用性。

为解决上述技术问题，本发明采用的技术方案是：一种多层光学卷积神经网络方法，所述方法包括以下步骤：步骤a、获取MNIST数据集；步骤b、对所述MNIST数据集的图像进行分类处理；步骤c、建立多个完全连接层和多个通道卷积层；步骤d、在TensorFlow框架中定义模型，并使用交叉熵损失和ADAM优化器学习权重；步骤e、通过互补策略在模拟或数字电子计算之前结合多层光学计算，将操作在自由空间中活在光子芯片上执行。

优选的，所述多个完全连接层和所述多个通道卷积层具有相同数量的可训练权重。

优选的，所述多个完全连接层和所述多个通道卷积层通过opt-conv层实现。

与现有技术相比，本发明的有益效果在于：

本发明目的是提供多层光学卷积神经网络的方法，该方法操作简单，而且能够提高图片识别的准确率。

应当理解，前述大体的描述和后续详尽的描述均为示例性说明和解释，并不应当用作对本发明所要求保护内容的限制。

附图说明

参考随附的附图，本发明更多的目的、功能和优点将通过本发明实施方式的如下描述得以阐明，其中：

图1示意性示出了本发明多层光学神经卷积网络光路图；

图2示意性示出了本发明4F系统图。

图中：

1、激光器 2、第一反射镜

3、第二反射镜 4、扩束器

5、旋转扩散器 6、朝向数字微镜器件

7、光学卷积块 8、相机

9、第一透镜 10、相位掩模

11、第二透镜

具体实施方式

通过参考示范性实施例，本发明的目的和功能以及用于实现这些目的和功能的方法将得以阐明。然而，本发明并不受限于以下所公开的示范性实施例；可以通过不同形式来对其加以实现。说明书的实质仅仅是帮助相关领域技术人员综合理解本发明的具体细节。

在下文中，将参考附图描述本发明的实施例。在附图中，相同的附图标记代表相同或类似的部件，或者相同或类似的步骤。

该方法的目的是提供多层光学卷积神经网络的方法，该方法操作简单，而且能够提高图片识别的准确率。

该方法的上述目的是通过如下技术方案来实现的：多层光学卷积神经网络的方法，包括如下步骤：

(1)获取MNIST数据集；

(2)对MNIST数据集的图像进行分类处理；

(3)建立多个完全连接层和多个通道卷积层；

(4)在TensorFlow框架中定义模型，并使用交叉熵损失和ADAM优化器来学习权重；

(5)探索一种互补策略，在模拟或数字电子计算之前结合多层光学计算，提高性能，同时增加最小的电子计算成本和处理时间；

(6)将某些操作在自由空间中活在光子芯片上执行。

手写数字1的MNIST数据集的图像分类是可用于确认分类类型是否按预期操作的基本任务。我们在此任务上比较了两类模型；多个完全连接层和多个通道卷积层，具有相同数量的可训练权重，我们可以通过opt-conv层实现。在完全连接层的模型中，N类的分数直接从输出向量y∈N中读取。在卷积模型中，输出图像被划分成为相等大小的子图像，并且N分数由子图像内的像素的最大强度给出。为方便起见，我们选择仅用数字1到9，N＝9,这样的输出图像可以被分成3×3的方形区域阵列。我们在TensorFlow框架中定义模型，并使用交叉熵损失和ADAM优化器来学习权重。

图1示出了主要方法的方法中描述的光学原型的简易示意图。顶视图示出了朝向数字微镜器件(DMD)的照明路径以及通过光学卷积块到相机传感器的后续成像路径。侧视图更清楚地示出了光学卷积块的组件。插入顶视图的是从上方用白光照射的制造的相位掩模的图像。

鉴于这种评分方法，我们假设卷积模型将在大卷积内核的相应区域中学习N个类中每个N类的平均表示，类似于单个完全连接层如何学习每个类的模板。

本专利所用实验装置如图1所示，激光从激光器1发出，经过第一反射镜2和第二反射镜3两次反射，通过扩束器4后进行扩束，在通过旋转扩散器5和朝向数字微镜器件6后，打入光学卷积块7，其中光学卷积块中需要制作相位掩模，最后经过相机8。

图2所示为一个焦距为200mm的4F系统，光从朝向数字微镜器件6中，经过第一透镜9，相位掩模10，第二透镜11，最后进入相机8。

本发明的有益效果：本发明目的是提供多层光学卷积神经网络的方法，该方法操作简单，而且能够提高图片识别的准确率。

结合这里披露的本发明的说明和实践，本发明的其他实施例对于本领域技术人员都是易于想到和理解的。说明和实施例仅被认为是示例性的，本发明的真正范围和主旨均由权利要求所限定。

Claims

1.一种多层光学卷积神经网络方法，其特征在于，所述方法包括以下步骤：

步骤a、获取MNIST数据集；

步骤b、对所述MNIST数据集的图像进行分类处理；

步骤c、建立多个完全连接层和多个通道卷积层；

步骤d、在TensorFlow框架中定义模型，并使用交叉熵损失和ADAM优化器学习权重；

步骤e、通过互补策略在模拟或数字电子计算之前结合多层光学计算，将操作在自由空间中活在光子芯片上执行。

2.根据权利要求1所述的方法，其特征在于，所述多个完全连接层和所述多个通道卷积层具有相同数量的可训练权重。

3.根据权利要求1所述的方法，其特征在于，所述多个完全连接层和所述多个通道卷积层通过opt-conv层实现。