CN116861963A

CN116861963A - 基于多路光注入激光器的光子卷积储备池的自动驾驶设备

Info

Publication number: CN116861963A
Application number: CN202310580135.9A
Authority: CN
Inventors: 郭星星; 项水英; 周含旭; 张雅慧; 郝跃
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2023-05-22
Filing date: 2023-05-22
Publication date: 2023-10-10

Abstract

本发明提供了一种基于多路光注入激光器的光子卷积储备池的自动驾驶设备，通过信息获取装置从车辆的图像采集设备获取驾驶信息，识别装置通过自身训练好的目标识别分类网络对驾驶信息进行识别得到类别。本发明的待识别信息通过输入层得到特征向量，并通过储层输出储层的非线性瞬态响应，再通过输出层将非线性瞬态响应结合以及计算输出权重得到目标类别。由于本发明使用具备延迟反馈回路的发射激光器替换传统的全连接层，避免了梯度消失和梯度爆炸的缺陷。此外，本发明使用的多重注入的发射激光器可以提高数据处理速率，并结合岭回归和赢者通吃策略的后处理方法得到待识别信息的所属类别，因此本发明针对语音指令识别、自动驾驶表现出良好的性能。

Description

基于多路光注入激光器的光子卷积储备池的自动驾驶设备

技术领域

本发明属于自动驾驶技术领域，具体涉及一种基于多路光注入激光器的光子卷积储备池的自动驾驶设备。

背景技术

自动驾驶伴随着科技迅速发展，为社会发展提供了一种全新的服务模式和全新体验。但自动驾驶目前需要解决的难题，其最核心和最困难的就是感知，目前行业内主要是以视觉为主导的多传感器融合方案以及以激光雷达为主导其他传感器为辅助的技术方案。

现阶段，自动驾驶中主要以通过卷积神经网络实现基于图像的目标检测和跟踪，主要有两阶段检测、单阶段检测、Transform检测等算法。

两阶段检测具体包括实现的方式包括提取物体区域和分类识别两个步骤，第一阶段利用一个区域候选网络在特征图的基础上生成候选框。第二阶段利用全连接层实现细化分类和回归。单阶段检测相较于两阶段算法，只需要进行一次特征提取即可实现目标检测，具有更快的检测速度。Transformer检测将注意力机制引入到目标检测领域，对不同目标之间的关系建模，在特征之中融入关系信息，实现了特征增强的目的。

现有自动驾驶领域的环境感知任务中广泛使用的卷积神经网络由于所需训练参数大、损失函数非凸的问题，存在着训练难度大、硬件实现困难的问题，如要处理更复杂的图片内容则需要不断加深神经网络的层数。但随着神经网络层数的加深，优化函数易陷入局部最优解，训练过程中梯度弥散、梯度爆炸的问题更加突出，导致自动驾驶效率和准确性不高。

发明内容

为了解决现有技术中存在的上述问题，本发明提供了一种应用于自动驾驶的多路光注入激光器的光子卷积储备池计算设备。本发明要解决的技术问题通过以下技术方案实现：

本发明提供了一种基于多路光注入激光器的光子卷积储备池的自动驾驶设备包括：

信息获取装置，用于从车辆的图像采集设备获取驾驶信息，并对所述驾驶信息进行处理得到待识别信息；

其中，所述驾驶信息包括车辆四周的环境图像和/或语音信息；

识别装置，用于通过自身训练好的目标识别分类网络对所述待识别信息进行识别得到待识别信息的类别；

其中，所述目标识别分类网络包括输入层、储层和输出层，所述待识别信息通过输入层得到特征向量，并通过储层输出储层的非线性瞬态响应，再通过输出层将非线性瞬态响应结合以及计算输出权重，得到待识别信息的类别。

本发明提供了一种基于多路光注入激光器的光子卷积储备池的自动驾驶设备，通过信息获取装置从车辆的图像采集设备获取驾驶信息，并对所述驾驶信息进行处理得到待识别信息；识别装置通过自身训练好的目标识别分类网络对所述待识别信息进行识别得到待识别信息的类别。本发明的目标识别分类网络包括输入层、储层和输出层，待识别信息通过输入层得到特征向量，并通过储层输出储层的非线性瞬态响应，再通过输出层将非线性瞬态响应结合以及计算输出权重，得到待识别信息的类别。由于本发明使用具备延迟反馈回路的发射激光器替换传统的全连接层，避免了梯度消失和梯度爆炸的缺陷。此外，本发明使用的多重注入的发射激光器可以提高数据处理速率，并结合岭回归和赢者通吃策略的后处理方法得到待识别信息的所属类别，因此本发明针对语音指令识别、自动驾驶表现出良好的性能。

以下将结合附图及实施例对本发明做进一步详细说明。

附图说明

图1是本发明提供的一种基于多路光注入激光器的光子卷积储备池的自动驾驶设备的示意图；

图2是本发明提供的目标识别分类网络的结构示意图；

图3是本发明提供的卷积预处理模块提取原始数据的特征值过程中数据维度的变化的过程示意图；

图4是本发明提供的环境图像训练目标识别分类网络的过程示意图；

图5是本发明提供的语音信息训练目标识别分类网络的过程示意图。

具体实施方式

下面结合具体实施例对本发明做进一步详细的描述，但本发明的实施方式不限于此。

如图1所示，本发明提供了一种基于多路光注入激光器的光子卷积储备池的自动驾驶设备包括：

本发明的信息获取装置具体用于：从车辆的图像采集设备获取驾驶信息；当所述驾驶信息包含环境图像时，将环境图像转化大小为28×28像素图片；当所述驾驶信息包含语音指令时，将语音指令转化大小为86×P的二维矩阵，P为语音数据长度，并将86×P矩阵转化为大小为28×28的二维矩阵，将数值归一化到[0，1]之间；将8×28像素图片和/或归一化后的结果确定为待识别信息。

参考图2，所述目标识别分类网络包括输入层、储层和输出层，所述待识别信息通过输入层得到特征向量，并通过储层输出储层的非线性瞬态响应，再通过输出层将非线性瞬态响应结合以及计算输出权重，得到待识别信息的类别。

所述输入层包括卷积预处理模块以及掩膜处理模块；

其中，所述卷积预处理模块用于将驾驶信息先进行卷积，再通过平均池化实现数据的下采样，之后进行非线性激活得到一维特征向量；所述掩膜处理模块用于将一维特征向量乘以掩膜矩阵得到多路输入信号，并通过马赫-曾德尔调制器注入至所述储层中。

卷积预处理模块包括Cov₁、Cov₂、Pool₁、Pool₂和Sigmod五个部分；

其中，使用Cov₁和Cov₂进行卷积，Pool₁和Pool₂通过平均池化实现数据的下采样，Sigmod用于非线性激活；

Cov₁和Cov₂分别应用6个和12个5×5卷积核，每个卷积核每次滑动一个像素，Sigmod使用simgod函数处理Cov₁和Cov₂的输出结果；Pool₁和Poo1₂以2×2池化核为最小单元。

Pool₁和Poo1₂显著提高系统的测试精度的同时进一步减少了数据尺寸和处理时间。通过卷积预处理产生具有192个元素的一维向量u(t)，图3详细显示了所述卷积预处理过程中数据的维度变化。图中的原始图像2(a)是一个28×28矩阵，它经Cov₁和Sigmod被转换为图3中(b)图所示的六个24×24矩阵。Pool₁为下采样，其将数据转换为6个12×12矩阵，如图所示3中(c)图。类似地，在Cov₂和Sigmod之后，得到了12个8×8矩阵(图3中(d)图)。最后，由Pool₂获得如图3中(e)图所示的12个4×4矩阵。将图3中(e)图所示矩阵展平后，获得图图3中(f)图所示的包含192个元素的一维向量u(t)。同时所述卷积预处理模块中所使用的卷积层权重通过利用反向传播算法训练Cov₁和Cov₂得到。

本发明采用卷积预处理提取原始数据特征，减小了系统的所需处理的数据量，有效提高了系统信息处理速率和降低了系统功耗。

本发明的掩膜预处理模块将一维特征值向量u(t)乘以所述掩模矩阵m(t)生成所述输入信号S(t)。所以，所述输入信号S(t)为所述一维特征值向量u(t)的随机线性组合所述掩膜矩阵，m(t)是192×虚拟节点数矩阵，如图3(a)所示。所述掩膜矩阵m(t)是大小为192×虚拟节点数，所述虚拟节点数等于储层所使用的延迟反馈回路的总延迟时间与所述采样间隔的比值。本发明中，所述输入层将输入数据分为F路通过马赫-曾德尔调制器注入所述VCSEL和延迟回路组成的储层中。本发明采用多路注入VCSEL的方法，提高了系统的信息处理速率。

所述储层包括垂直腔表面的发射激光器和延迟反馈回路；

其中，通过延迟反馈回路为所述发射激光器增加自由度；多路输入信号通过所述发射激光器在自由度和偏振分量作用下产生非线性瞬态响应，并传输至输出层。

本发明所述储层如图2中(b)图所示，具有反馈回路的VCSEL被用作储层中的非线性节点。此外，在适当的操作条件下，两个正交偏振分量(称为X偏振(X-PC)和Y偏振(Y-PC))可以同时存在于VCSEL中，从而产生更丰富的非线性动态状态。这里我们收集所述X-PC中虚拟节点的瞬态X₁、X₂...X_F。

所述非线性瞬态响应通过输出层按照时序组合，并以一定采样间隔采样对组合结果采样得到状态矩阵；并输出层根据状态矩阵以及对应的输出权重，利用赢者通吃策略选择输出权重最大的类别确定为待识别信息的所属类别。

本实例所述输出层如图2中(c)所示，具体采用岭回归和赢者通吃策略相结合的后处理方法由非线性瞬态响应结果state(n)得到最终结果。

本发明的目标识别分类网络的训练过程包括：

a，获取具有先验信息的自动驾驶图像和语音，将其组成训练集；

其中，所述先验信息表示训练集中的样本所属真实类别；

b，通过卷积预处理模块对训练集中每个样本进行卷积处理，以将样本转化为一维特征向量；

c，通过掩膜预处理模块将一维特征向量与对应的掩膜矩阵相乘得到多路输入信号，并注入垂直腔表面的发射激光器

d，通过垂直腔表面的发射激光器，在自由度和偏振分量作用下产生非线性瞬态响应，并传输至输出层；其中所述自由度为延迟反馈回路为所述发射激光器所生成；

e，通过输出层对非线性瞬态响应按照预定的时间间隔采样得到状态矩阵，以样本所属真实类别为目标，利用岭回归算法计算状态矩阵与输出向量之间的输出权重；

e中状态矩阵、输出向量、输出权重三者关系表示为：

y(i)＝W(i)state(i)；

其中，输出权重表示为W(i)，输出向量表示为y(i)，y(n)包括N个元素的一维列向量，N是类别数，i表示类别序号。

其中，输出向量表示样本所属预测类别；

d，针对每个样本重复b至e，并将输出向量表示的预测类别与真实类别比较，如果不一致则调整返回e重新计算输出权重。

从车身的图像采集设备中获取车辆四周的环境图像，并将该环境图像调整为大小是28×28像素图片并将其最为待识别的图像。

参考图4，本发明实施利用环境图像得到训练好的目标识别分类网络具体包括：通过训练过程得输出权重矩阵对待识别图像进行识别，得到所述待识别图像的类别。

所述训练过程具体是，将先验信息中包含的所有目标种类的若干图片作为训练集，通过储备池的输入层，对所有用于训练的图片进行卷积预处理，将所属训练图片转化为具有192个元素的一维特征向量u(t)。进一步的，在掩膜预处理任务中，将所述一维特征向量分为F路信号，分别乘以mask₁、mask₂…mask _F，得到输入信号S₁(t)、S₂(t)...S_F(t)。进一步的，将所述输入信号S₁₍t)、S₂(t)...S_F(t)注入VCSEL中并收集非线性瞬态响应X₁、X₂...X_F，组合并采样后得到state(n)。最后，利用岭回归算法所得到的输出权重矩阵W与state(n)相乘，得到所述输出向量y(n),所述y(n)为1×N的向量并利用赢者通吃策略得到最终识别结果,N为类别数。

参考图5，本发明实施利用语音指令得到训练好的目标识别分类网络具体包括：

利用车辆中的语音指令采集模块获取语音信息，使用里昂模型将语音指令转换为86×P的二维矩阵，P为语音的长度。进一步的，将所述86×P矩阵转化为大小为28×28的二维矩阵，并将数值归一化到[0,1]之间。并将该28×28的二维矩阵作为待识别的语音指令。

通过训练过程得输出权重矩阵对待识别语音指令进行识别，得到所述待识别语音指令的类别。

所述训练过程将先验信息中包含的所有语音指令的若干信号组成训练集，其余训练过程与本发明实施提供基于多路光注入VCSEL的光子卷积储备池计算的自动驾驶图像的环境感知方案中训练过程相同。

本发明的训练方案避免了神经网络中需要训练参数多，训练难度大，易出现训练过程中损失函数陷入局部最优解、梯度弥散和梯度爆炸的问题。能够在语音指令识别、自动驾驶中表现出良好的性能。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

尽管在此结合各实施例对本申请进行了描述，然而，在实施所要求保护的本申请过程中，本领域技术人员通过查看所述附图、公开内容、以及所附权利要求书，可理解并实现所述公开实施例的其他变化。在权利要求中，“包括”(comprising)一词不排除其他组成部分或步骤，“一”或“一个”不排除多个的情况。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种基于多路光注入激光器的光子卷积储备池的自动驾驶设备，其特征在于，包括：

2.根据权利要求1所述的基于多路光注入激光器的光子卷积储备池的自动驾驶设备，其特征在于，所述输入层包括卷积预处理模块以及掩膜处理模块；

3.根据权利要求1所述的基于多路光注入激光器的光子卷积储备池的自动驾驶设备，其特征在于，卷积预处理模块包括Cov₁、Cov₂、Pool₁、Pool₂和Sigmod五个部分；

4.根据权利要求3所述的基于多路光注入激光器的光子卷积储备池的自动驾驶设备，其特征在于，所述储层包括垂直腔表面的发射激光器和延迟反馈回路；

5.根据权利要求4所述的基于多路光注入激光器的光子卷积储备池的自动驾驶设备，其特征在于，

6.根据权利要求5所述的基于多路光注入激光器的光子卷积储备池的自动驾驶设备，其特征在于，所述目标识别分类网络的训练过程包括：

其中，所述先验信息表示训练集中的样本所属真实类别；

其中，输出向量表示样本所属预测类别；

7.根据权利要求6所述的基于多路光注入激光器的光子卷积储备池的自动驾驶设备，其特征在于，e中状态矩阵、输出向量、输出权重三者关系表示为：

y(i)＝W(i)state(i)；

8.根据权利要求1所述的基于多路光注入激光器的光子卷积储备池的自动驾驶设备，其特征在于，信息获取装置具体用于：

从车辆的图像采集设备获取驾驶信息；

当所述驾驶信息包含环境图像时，将环境图像转化大小为28×28像素图片；

当所述驾驶信息包含语音指令时，将语音指令转化大小为86×P的二维矩阵，并将86×P矩阵转化为大小为28×28的二维矩阵，将数值归一化到[0，1]之间；

将28×28像素图片和/或归一化后的结果确定为待识别信息。