CN116861963A - 基于多路光注入激光器的光子卷积储备池的自动驾驶设备 - Google Patents
基于多路光注入激光器的光子卷积储备池的自动驾驶设备 Download PDFInfo
- Publication number
- CN116861963A CN116861963A CN202310580135.9A CN202310580135A CN116861963A CN 116861963 A CN116861963 A CN 116861963A CN 202310580135 A CN202310580135 A CN 202310580135A CN 116861963 A CN116861963 A CN 116861963A
- Authority
- CN
- China
- Prior art keywords
- information
- convolution
- output
- category
- photon
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000002347 injection Methods 0.000 title claims abstract description 20
- 239000007924 injection Substances 0.000 title claims abstract description 20
- 239000013598 vector Substances 0.000 claims abstract description 31
- 230000001052 transient effect Effects 0.000 claims abstract description 23
- 230000004044 response Effects 0.000 claims abstract description 22
- 238000000034 method Methods 0.000 claims abstract description 20
- 238000012545 processing Methods 0.000 claims abstract description 14
- 239000011159 matrix material Substances 0.000 claims description 33
- 238000012549 training Methods 0.000 claims description 27
- 238000007781 pre-processing Methods 0.000 claims description 17
- 230000008569 process Effects 0.000 claims description 14
- 230000007613 environmental effect Effects 0.000 claims description 6
- 238000011176 pooling Methods 0.000 claims description 6
- 238000005070 sampling Methods 0.000 claims description 6
- 230000006870 function Effects 0.000 claims description 5
- 230000010287 polarization Effects 0.000 claims description 5
- 230000009471 action Effects 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 4
- 238000004880 explosion Methods 0.000 abstract description 4
- 238000012805 post-processing Methods 0.000 abstract description 3
- 230000007547 defect Effects 0.000 abstract description 2
- 230000008034 disappearance Effects 0.000 abstract description 2
- 238000001514 detection method Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 7
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000008447 perception Effects 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 239000006185 dispersion Substances 0.000 description 2
- 230000010365 information processing Effects 0.000 description 2
- 239000000243 solution Substances 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000005312 nonlinear dynamic Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W50/00—Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W60/00—Drive control systems specially adapted for autonomous road vehicles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/06—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
- G06N3/067—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using optical means
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- H—ELECTRICITY
- H01—ELECTRIC ELEMENTS
- H01S—DEVICES USING THE PROCESS OF LIGHT AMPLIFICATION BY STIMULATED EMISSION OF RADIATION [LASER] TO AMPLIFY OR GENERATE LIGHT; DEVICES USING STIMULATED EMISSION OF ELECTROMAGNETIC RADIATION IN WAVE RANGES OTHER THAN OPTICAL
- H01S5/00—Semiconductor lasers
- H01S5/10—Construction or shape of the optical resonator, e.g. extended or external cavity, coupled cavities, bent-guide, varying width, thickness or composition of the active region
- H01S5/18—Surface-emitting [SE] lasers, e.g. having both horizontal and vertical cavities
- H01S5/183—Surface-emitting [SE] lasers, e.g. having both horizontal and vertical cavities having only vertical cavities, e.g. vertical cavity surface-emitting lasers [VCSEL]
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W50/00—Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
- B60W2050/0001—Details of the control system
- B60W2050/0002—Automatic control, details of type of controller or control system architecture
- B60W2050/0017—Modal analysis, e.g. for determining system stability
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W50/00—Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
- B60W2050/0062—Adapting control system settings
- B60W2050/0075—Automatic parameter input, automatic initialising or calibrating means
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- Acoustics & Sound (AREA)
- General Engineering & Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Mathematical Physics (AREA)
- Mechanical Engineering (AREA)
- Automation & Control Theory (AREA)
- Medical Informatics (AREA)
- Transportation (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Condensed Matter Physics & Semiconductors (AREA)
- Electromagnetism (AREA)
- Optics & Photonics (AREA)
- Neurology (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了一种基于多路光注入激光器的光子卷积储备池的自动驾驶设备,通过信息获取装置从车辆的图像采集设备获取驾驶信息,识别装置通过自身训练好的目标识别分类网络对驾驶信息进行识别得到类别。本发明的待识别信息通过输入层得到特征向量,并通过储层输出储层的非线性瞬态响应,再通过输出层将非线性瞬态响应结合以及计算输出权重得到目标类别。由于本发明使用具备延迟反馈回路的发射激光器替换传统的全连接层,避免了梯度消失和梯度爆炸的缺陷。此外,本发明使用的多重注入的发射激光器可以提高数据处理速率,并结合岭回归和赢者通吃策略的后处理方法得到待识别信息的所属类别,因此本发明针对语音指令识别、自动驾驶表现出良好的性能。
Description
技术领域
本发明属于自动驾驶技术领域,具体涉及一种基于多路光注入激光器的光子卷积储备池的自动驾驶设备。
背景技术
自动驾驶伴随着科技迅速发展,为社会发展提供了一种全新的服务模式和全新体验。但自动驾驶目前需要解决的难题,其最核心和最困难的就是感知,目前行业内主要是以视觉为主导的多传感器融合方案以及以激光雷达为主导其他传感器为辅助的技术方案。
现阶段,自动驾驶中主要以通过卷积神经网络实现基于图像的目标检测和跟踪,主要有两阶段检测、单阶段检测、Transform检测等算法。
两阶段检测具体包括实现的方式包括提取物体区域和分类识别两个步骤,第一阶段利用一个区域候选网络在特征图的基础上生成候选框。第二阶段利用全连接层实现细化分类和回归。单阶段检测相较于两阶段算法,只需要进行一次特征提取即可实现目标检测,具有更快的检测速度。Transformer检测将注意力机制引入到目标检测领域,对不同目标之间的关系建模,在特征之中融入关系信息,实现了特征增强的目的。
现有自动驾驶领域的环境感知任务中广泛使用的卷积神经网络由于所需训练参数大、损失函数非凸的问题,存在着训练难度大、硬件实现困难的问题,如要处理更复杂的图片内容则需要不断加深神经网络的层数。但随着神经网络层数的加深,优化函数易陷入局部最优解,训练过程中梯度弥散、梯度爆炸的问题更加突出,导致自动驾驶效率和准确性不高。
发明内容
为了解决现有技术中存在的上述问题,本发明提供了一种应用于自动驾驶的多路光注入激光器的光子卷积储备池计算设备。本发明要解决的技术问题通过以下技术方案实现:
本发明提供了一种基于多路光注入激光器的光子卷积储备池的自动驾驶设备包括:
信息获取装置,用于从车辆的图像采集设备获取驾驶信息,并对所述驾驶信息进行处理得到待识别信息;
其中,所述驾驶信息包括车辆四周的环境图像和/或语音信息;
识别装置,用于通过自身训练好的目标识别分类网络对所述待识别信息进行识别得到待识别信息的类别;
其中,所述目标识别分类网络包括输入层、储层和输出层,所述待识别信息通过输入层得到特征向量,并通过储层输出储层的非线性瞬态响应,再通过输出层将非线性瞬态响应结合以及计算输出权重,得到待识别信息的类别。
本发明提供了一种基于多路光注入激光器的光子卷积储备池的自动驾驶设备,通过信息获取装置从车辆的图像采集设备获取驾驶信息,并对所述驾驶信息进行处理得到待识别信息;识别装置通过自身训练好的目标识别分类网络对所述待识别信息进行识别得到待识别信息的类别。本发明的目标识别分类网络包括输入层、储层和输出层,待识别信息通过输入层得到特征向量,并通过储层输出储层的非线性瞬态响应,再通过输出层将非线性瞬态响应结合以及计算输出权重,得到待识别信息的类别。由于本发明使用具备延迟反馈回路的发射激光器替换传统的全连接层,避免了梯度消失和梯度爆炸的缺陷。此外,本发明使用的多重注入的发射激光器可以提高数据处理速率,并结合岭回归和赢者通吃策略的后处理方法得到待识别信息的所属类别,因此本发明针对语音指令识别、自动驾驶表现出良好的性能。
以下将结合附图及实施例对本发明做进一步详细说明。
附图说明
图1是本发明提供的一种基于多路光注入激光器的光子卷积储备池的自动驾驶设备的示意图;
图2是本发明提供的目标识别分类网络的结构示意图;
图3是本发明提供的卷积预处理模块提取原始数据的特征值过程中数据维度的变化的过程示意图;
图4是本发明提供的环境图像训练目标识别分类网络的过程示意图;
图5是本发明提供的语音信息训练目标识别分类网络的过程示意图。
具体实施方式
下面结合具体实施例对本发明做进一步详细的描述,但本发明的实施方式不限于此。
如图1所示,本发明提供了一种基于多路光注入激光器的光子卷积储备池的自动驾驶设备包括:
信息获取装置,用于从车辆的图像采集设备获取驾驶信息,并对所述驾驶信息进行处理得到待识别信息;
其中,所述驾驶信息包括车辆四周的环境图像和/或语音信息;
本发明的信息获取装置具体用于:从车辆的图像采集设备获取驾驶信息;当所述驾驶信息包含环境图像时,将环境图像转化大小为28×28像素图片;当所述驾驶信息包含语音指令时,将语音指令转化大小为86×P的二维矩阵,P为语音数据长度,并将86×P矩阵转化为大小为28×28的二维矩阵,将数值归一化到[0,1]之间;将8×28像素图片和/或归一化后的结果确定为待识别信息。
识别装置,用于通过自身训练好的目标识别分类网络对所述待识别信息进行识别得到待识别信息的类别;
参考图2,所述目标识别分类网络包括输入层、储层和输出层,所述待识别信息通过输入层得到特征向量,并通过储层输出储层的非线性瞬态响应,再通过输出层将非线性瞬态响应结合以及计算输出权重,得到待识别信息的类别。
所述输入层包括卷积预处理模块以及掩膜处理模块;
其中,所述卷积预处理模块用于将驾驶信息先进行卷积,再通过平均池化实现数据的下采样,之后进行非线性激活得到一维特征向量;所述掩膜处理模块用于将一维特征向量乘以掩膜矩阵得到多路输入信号,并通过马赫-曾德尔调制器注入至所述储层中。
卷积预处理模块包括Cov1、Cov2、Pool1、Pool2和Sigmod五个部分;
其中,使用Cov1和Cov2进行卷积,Pool1和Pool2通过平均池化实现数据的下采样,Sigmod用于非线性激活;
Cov1和Cov2分别应用6个和12个5×5卷积核,每个卷积核每次滑动一个像素,Sigmod使用simgod函数处理Cov1和Cov2的输出结果;Pool1和Poo12以2×2池化核为最小单元。
Pool1和Poo12显著提高系统的测试精度的同时进一步减少了数据尺寸和处理时间。通过卷积预处理产生具有192个元素的一维向量u(t),图3详细显示了所述卷积预处理过程中数据的维度变化。图中的原始图像2(a)是一个28×28矩阵,它经Cov1和Sigmod被转换为图3中(b)图所示的六个24×24矩阵。Pool1为下采样,其将数据转换为6个12×12矩阵,如图所示3中(c)图。类似地,在Cov2和Sigmod之后,得到了12个8×8矩阵(图3中(d)图)。最后,由Pool2获得如图3中(e)图所示的12个4×4矩阵。将图3中(e)图所示矩阵展平后,获得图图3中(f)图所示的包含192个元素的一维向量u(t)。同时所述卷积预处理模块中所使用的卷积层权重通过利用反向传播算法训练Cov1和Cov2得到。
本发明采用卷积预处理提取原始数据特征,减小了系统的所需处理的数据量,有效提高了系统信息处理速率和降低了系统功耗。
本发明的掩膜预处理模块将一维特征值向量u(t)乘以所述掩模矩阵m(t)生成所述输入信号S(t)。所以,所述输入信号S(t)为所述一维特征值向量u(t)的随机线性组合所述掩膜矩阵,m(t)是192×虚拟节点数矩阵,如图3(a)所示。所述掩膜矩阵m(t)是大小为192×虚拟节点数,所述虚拟节点数等于储层所使用的延迟反馈回路的总延迟时间与所述采样间隔的比值。本发明中,所述输入层将输入数据分为F路通过马赫-曾德尔调制器注入所述VCSEL和延迟回路组成的储层中。本发明采用多路注入VCSEL的方法,提高了系统的信息处理速率。
所述储层包括垂直腔表面的发射激光器和延迟反馈回路;
其中,通过延迟反馈回路为所述发射激光器增加自由度;多路输入信号通过所述发射激光器在自由度和偏振分量作用下产生非线性瞬态响应,并传输至输出层。
本发明所述储层如图2中(b)图所示,具有反馈回路的VCSEL被用作储层中的非线性节点。此外,在适当的操作条件下,两个正交偏振分量(称为X偏振(X-PC)和Y偏振(Y-PC))可以同时存在于VCSEL中,从而产生更丰富的非线性动态状态。这里我们收集所述X-PC中虚拟节点的瞬态X1、X2...XF。
所述非线性瞬态响应通过输出层按照时序组合,并以一定采样间隔采样对组合结果采样得到状态矩阵;并输出层根据状态矩阵以及对应的输出权重,利用赢者通吃策略选择输出权重最大的类别确定为待识别信息的所属类别。
本实例所述输出层如图2中(c)所示,具体采用岭回归和赢者通吃策略相结合的后处理方法由非线性瞬态响应结果state(n)得到最终结果。
本发明的目标识别分类网络的训练过程包括:
a,获取具有先验信息的自动驾驶图像和语音,将其组成训练集;
其中,所述先验信息表示训练集中的样本所属真实类别;
b,通过卷积预处理模块对训练集中每个样本进行卷积处理,以将样本转化为一维特征向量;
c,通过掩膜预处理模块将一维特征向量与对应的掩膜矩阵相乘得到多路输入信号,并注入垂直腔表面的发射激光器
d,通过垂直腔表面的发射激光器,在自由度和偏振分量作用下产生非线性瞬态响应,并传输至输出层;其中所述自由度为延迟反馈回路为所述发射激光器所生成;
e,通过输出层对非线性瞬态响应按照预定的时间间隔采样得到状态矩阵,以样本所属真实类别为目标,利用岭回归算法计算状态矩阵与输出向量之间的输出权重;
e中状态矩阵、输出向量、输出权重三者关系表示为:
y(i)=W(i)state(i);
其中,输出权重表示为W(i),输出向量表示为y(i),y(n)包括N个元素的一维列向量,N是类别数,i表示类别序号。
其中,输出向量表示样本所属预测类别;
d,针对每个样本重复b至e,并将输出向量表示的预测类别与真实类别比较,如果不一致则调整返回e重新计算输出权重。
从车身的图像采集设备中获取车辆四周的环境图像,并将该环境图像调整为大小是28×28像素图片并将其最为待识别的图像。
参考图4,本发明实施利用环境图像得到训练好的目标识别分类网络具体包括:通过训练过程得输出权重矩阵对待识别图像进行识别,得到所述待识别图像的类别。
所述训练过程具体是,将先验信息中包含的所有目标种类的若干图片作为训练集,通过储备池的输入层,对所有用于训练的图片进行卷积预处理,将所属训练图片转化为具有192个元素的一维特征向量u(t)。进一步的,在掩膜预处理任务中,将所述一维特征向量分为F路信号,分别乘以mask1、mask2…mask F,得到输入信号S1(t)、S2(t)...SF(t)。进一步的,将所述输入信号S1(t)、S2(t)...SF(t)注入VCSEL中并收集非线性瞬态响应X1、X2...XF,组合并采样后得到state(n)。最后,利用岭回归算法所得到的输出权重矩阵W与state(n)相乘,得到所述输出向量y(n),所述y(n)为1×N的向量并利用赢者通吃策略得到最终识别结果,N为类别数。
参考图5,本发明实施利用语音指令得到训练好的目标识别分类网络具体包括:
利用车辆中的语音指令采集模块获取语音信息,使用里昂模型将语音指令转换为86×P的二维矩阵,P为语音的长度。进一步的,将所述86×P矩阵转化为大小为28×28的二维矩阵,并将数值归一化到[0,1]之间。并将该28×28的二维矩阵作为待识别的语音指令。
通过训练过程得输出权重矩阵对待识别语音指令进行识别,得到所述待识别语音指令的类别。
所述训练过程将先验信息中包含的所有语音指令的若干信号组成训练集,其余训练过程与本发明实施提供基于多路光注入VCSEL的光子卷积储备池计算的自动驾驶图像的环境感知方案中训练过程相同。
本发明的训练方案避免了神经网络中需要训练参数多,训练难度大,易出现训练过程中损失函数陷入局部最优解、梯度弥散和梯度爆炸的问题。能够在语音指令识别、自动驾驶中表现出良好的性能。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
尽管在此结合各实施例对本申请进行了描述,然而,在实施所要求保护的本申请过程中,本领域技术人员通过查看所述附图、公开内容、以及所附权利要求书,可理解并实现所述公开实施例的其他变化。在权利要求中,“包括”(comprising)一词不排除其他组成部分或步骤,“一”或“一个”不排除多个的情况。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。
Claims (8)
1.一种基于多路光注入激光器的光子卷积储备池的自动驾驶设备,其特征在于,包括:
信息获取装置,用于从车辆的图像采集设备获取驾驶信息,并对所述驾驶信息进行处理得到待识别信息;
其中,所述驾驶信息包括车辆四周的环境图像和/或语音信息;
识别装置,用于通过自身训练好的目标识别分类网络对所述待识别信息进行识别得到待识别信息的类别;
其中,所述目标识别分类网络包括输入层、储层和输出层,所述待识别信息通过输入层得到特征向量,并通过储层输出储层的非线性瞬态响应,再通过输出层将非线性瞬态响应结合以及计算输出权重,得到待识别信息的类别。
2.根据权利要求1所述的基于多路光注入激光器的光子卷积储备池的自动驾驶设备,其特征在于,所述输入层包括卷积预处理模块以及掩膜处理模块;
其中,所述卷积预处理模块用于将驾驶信息先进行卷积,再通过平均池化实现数据的下采样,之后进行非线性激活得到一维特征向量;所述掩膜处理模块用于将一维特征向量乘以掩膜矩阵得到多路输入信号,并通过马赫-曾德尔调制器注入至所述储层中。
3.根据权利要求1所述的基于多路光注入激光器的光子卷积储备池的自动驾驶设备,其特征在于,卷积预处理模块包括Cov1、Cov2、Pool1、Pool2和Sigmod五个部分;
其中,使用Cov1和Cov2进行卷积,Pool1和Pool2通过平均池化实现数据的下采样,Sigmod用于非线性激活;
Cov1和Cov2分别应用6个和12个5×5卷积核,每个卷积核每次滑动一个像素,Sigmod使用simgod函数处理Cov1和Cov2的输出结果;Pool1和Poo12以2×2池化核为最小单元。
4.根据权利要求3所述的基于多路光注入激光器的光子卷积储备池的自动驾驶设备,其特征在于,所述储层包括垂直腔表面的发射激光器和延迟反馈回路;
其中,通过延迟反馈回路为所述发射激光器增加自由度;多路输入信号通过所述发射激光器在自由度和偏振分量作用下产生非线性瞬态响应,并传输至输出层。
5.根据权利要求4所述的基于多路光注入激光器的光子卷积储备池的自动驾驶设备,其特征在于,
所述非线性瞬态响应通过输出层按照时序组合,并以一定采样间隔采样对组合结果采样得到状态矩阵;并输出层根据状态矩阵以及对应的输出权重,利用赢者通吃策略选择输出权重最大的类别确定为待识别信息的所属类别。
6.根据权利要求5所述的基于多路光注入激光器的光子卷积储备池的自动驾驶设备,其特征在于,所述目标识别分类网络的训练过程包括:
a,获取具有先验信息的自动驾驶图像和语音,将其组成训练集;
其中,所述先验信息表示训练集中的样本所属真实类别;
b,通过卷积预处理模块对训练集中每个样本进行卷积处理,以将样本转化为一维特征向量;
c,通过掩膜预处理模块将一维特征向量与对应的掩膜矩阵相乘得到多路输入信号,并注入垂直腔表面的发射激光器
d,通过垂直腔表面的发射激光器,在自由度和偏振分量作用下产生非线性瞬态响应,并传输至输出层;其中所述自由度为延迟反馈回路为所述发射激光器所生成;
e,通过输出层对非线性瞬态响应按照预定的时间间隔采样得到状态矩阵,以样本所属真实类别为目标,利用岭回归算法计算状态矩阵与输出向量之间的输出权重;
其中,输出向量表示样本所属预测类别;
d,针对每个样本重复b至e,并将输出向量表示的预测类别与真实类别比较,如果不一致则调整返回e重新计算输出权重。
7.根据权利要求6所述的基于多路光注入激光器的光子卷积储备池的自动驾驶设备,其特征在于,e中状态矩阵、输出向量、输出权重三者关系表示为:
y(i)=W(i)state(i);
其中,输出权重表示为W(i),输出向量表示为y(i),y(n)包括n个元素的一维列向量,n是类别数,i表示类别序号。
8.根据权利要求1所述的基于多路光注入激光器的光子卷积储备池的自动驾驶设备,其特征在于,信息获取装置具体用于:
从车辆的图像采集设备获取驾驶信息;
当所述驾驶信息包含环境图像时,将环境图像转化大小为28×28像素图片;
当所述驾驶信息包含语音指令时,将语音指令转化大小为86×P的二维矩阵,并将86×P矩阵转化为大小为28×28的二维矩阵,将数值归一化到[0,1]之间;
将28×28像素图片和/或归一化后的结果确定为待识别信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310580135.9A CN116861963A (zh) | 2023-05-22 | 2023-05-22 | 基于多路光注入激光器的光子卷积储备池的自动驾驶设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310580135.9A CN116861963A (zh) | 2023-05-22 | 2023-05-22 | 基于多路光注入激光器的光子卷积储备池的自动驾驶设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116861963A true CN116861963A (zh) | 2023-10-10 |
Family
ID=88224046
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310580135.9A Pending CN116861963A (zh) | 2023-05-22 | 2023-05-22 | 基于多路光注入激光器的光子卷积储备池的自动驾驶设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116861963A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117420770A (zh) * | 2023-12-01 | 2024-01-19 | 上海频准激光科技有限公司 | 用于多路激光控制的数据仿真系统 |
-
2023
- 2023-05-22 CN CN202310580135.9A patent/CN116861963A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117420770A (zh) * | 2023-12-01 | 2024-01-19 | 上海频准激光科技有限公司 | 用于多路激光控制的数据仿真系统 |
CN117420770B (zh) * | 2023-12-01 | 2024-04-26 | 上海频准激光科技有限公司 | 用于多路激光控制的数据仿真系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110427867B (zh) | 基于残差注意力机制的面部表情识别方法及系统 | |
CN111460968B (zh) | 基于视频的无人机识别与跟踪方法及装置 | |
CN111507378A (zh) | 训练图像处理模型的方法和装置 | |
CN110020681A (zh) | 基于空间注意力机制的点云特征提取方法 | |
CN113326735B (zh) | 一种基于YOLOv5的多模态小目标检测方法 | |
CN111368972A (zh) | 一种卷积层量化方法及其装置 | |
CN116861963A (zh) | 基于多路光注入激光器的光子卷积储备池的自动驾驶设备 | |
CN112489072B (zh) | 一种车载视频感知信息传输负载优化方法及装置 | |
CN114463759A (zh) | 一种基于无锚框算法的轻量化文字检测方法及装置 | |
CN116681885B (zh) | 输变电设备红外图像目标识别方法及系统 | |
CN114022727B (zh) | 一种基于图像知识回顾的深度卷积神经网络自蒸馏方法 | |
CN117079095A (zh) | 基于深度学习的高空抛物检测方法、系统、介质和设备 | |
CN115496859A (zh) | 基于散乱点云交叉注意学习的三维场景运动趋势估计方法 | |
Liu et al. | Mob-YOLO: A Lightweight UAV Object Detection Method | |
CN115830384A (zh) | 一种基于双判别器生成对抗网络的图像融合方法和系统 | |
CN116185182B (zh) | 一种融合眼动注意力的可控图像描述生成系统及方法 | |
CN116486203B (zh) | 一种基于孪生网络和在线模板更新的单目标跟踪方法 | |
CN111627064B (zh) | 一种行人交互友好型的单目避障方法 | |
CN117456480B (zh) | 一种基于多源信息融合的轻量化车辆再辨识方法 | |
Zeng | High efficiency pedestrian crossing prediction | |
US20210350704A1 (en) | Alarm device, alarm system including the same, and method of operating the same | |
CN118038524A (zh) | 一种轻量级表情识别方法、系统、介质及电子设备 | |
CN117197772A (zh) | 一种通过点云检测的工业agv小车障碍检测方法 | |
Zhang et al. | Road Target Detection Algorithm Based on Improved YOLOv5 | |
Yin et al. | YOLOv4-A: Research on Traffic Sign Detection Based on Hybrid Attention Mechanism |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |