CN113110493B

CN113110493B - 一种基于光子神经网络的路径规划设备及路径规划方法

Info

Publication number: CN113110493B
Application number: CN202110495811.3A
Authority: CN
Inventors: 张天; 胡富荣; 杨志伟; 赵婉玉; 戴键; 徐坤
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2021-05-07
Filing date: 2021-05-07
Publication date: 2022-09-30
Anticipated expiration: 2041-05-07
Also published as: CN113110493A

Abstract

本发明实施例提供了一种基于光子神经网络的路径规划设备及路径规划方法，可以先基于待规划路径的场景中的历史状态信息，来得到对应的历史操作价值，进而基于历史状态信息对应的历史操作信息以及对应的历史操作价值，对光子神经网络模型进行训练，得到训练完成的光子神经网络模型；最后，将待规划路径的场景中的当前状态信息输入至训练完成的光子神经网络模型中，可以得到该训练完成的光子神经网络模型输出的路径规划设备的路径规划信息。在本发明实施例中，由于光子神经网络在处理线性运算时可以以光速进行，而且能耗小，因此，采用光子神经网络模型进行路径规划，可以缩短路径规划过程中的时间开销，提高了路径规划的效率。

Description

一种基于光子神经网络的路径规划设备及路径规划方法

技术领域

本发明涉及通信技术领域，特别是涉及一种基于光子神经网络的路径规划设备及路径规划方法。

背景技术

近几十年，人工智能领域取得了前所未有的发展，而机器学习是人工智能领域的核心，是使机器具有智能的根本途径。通过机器学习，可以使得机器由最初完成简单的数据分类任务发展到可以实现更为复杂的任务，例如，使用强化学习方法进行路径规划，其中，强化学习方法是一种借鉴“经验”的闭环学习方法，其主要是通过智能体与环境之间不断地进行信息交互，从而达到自主学习的过程。

然而，发明人发现，现有技术中的强化学习方法均应用于电子设备，但是，现有的电子设备在进行路径规划时需要执行复杂矩阵乘法，而该电子设备在执行复杂矩阵乘法时需要消耗大量计算时间，不能进一步降低路径规划的时间开销。

发明内容

本发明实施例的目的在于提供一种基于光子神经网络的路径规划设备及路径规划方法，以降低路径规划的时间开销，提高路径规划的效率。具体技术方案如下：

第一方面，本发明实施例提供了一种基于光子神经网络的路径规划设备，该设备包括：判决模块、临时存储器以及光子神经网络模块，临时存储器分别与判决模块和光子神经网络模块连接，判决模块还与光子神经网络模块连接；

判决模块，用于获取待规划路径的场景中的历史状态信息，并基于历史状态信息，确定对应的历史操作信息，其中，历史状态信息包括：路径规划设备的历史位置信息、历史目标位置信息、历史障碍物位置信息，历史操作信息为对路径规划设备进行移动的操作；

临时存储器，用于获取基于待规划路径的场景对历史操作信息作出的历史奖励值，并基于历史操作信息以及对应的历史奖励值，确定历史操作信息对应的历史操作价值；

光子神经网络模块，用于获取多个历史操作信息以及对应的多个历史操作价值，并基于多个历史操作信息和对应的多个历史操作价值，对光子神经网络模型进行训练，得到训练完成的光子神经网络模型；

光子神经网络模块，还用于获取待规划路径的场景中的当前状态信息，并将当前状态信息输入至训练完成的光子神经网络模型中，得到训练完成的光子神经网络模型输出的路径规划设备的路径规划信息。

可选的，判决模块，具体用于：

基于历史状态信息、随机判决概率与对应的衰减系数，确定对应的历史操作信息。

可选的，判决模块，具体用于：

基于所述随机判决概率对应的衰减系数对所述随机判决概率进行衰减；

在衰减后的随机判决概率大于预设阈值时，随机选择与所述历史状态信息对应的历史操作信息；

在所述衰减后的随机判决概率小于或等于所述预设阈值时，获取所述光子神经网络模型基于所述历史状态信息输出的不同操作信息对应的第一预测操作价值；并在所述不同操作信息中，选择最大的第一预测操作价值对应的操作信息作为所述历史状态信息对应的历史操作信息。

可选的，光子神经网络模型为基于马赫-曾德尔干涉仪的多层光子神经网络；

光子神经网络模块，具体用于将多个历史操作信息对应的光信号输入至多层光子神经网络，得到多层光子神经网络基于多个历史操作信息输出的第二预测操作价值；

光子神经网络模块，还用于基于第二预测操作价值和多个历史操作信息对应的多个历史操作价值，调整光子神经网络的权值，以对光子神经网络模型进行训练，并得到训练完成的光子神经网络模型。

可选的，临时存储器，还用于存储历史操作信息以及对应的历史操作价值；

光子神经网络模块，具体用于获取临时存储器中存储的多个历史操作信息以及对应的多个历史操作价值，并基于多个历史操作信息和对应的多个历史操作价值，对光子神经网络模型进行训练，得到训练完成的光子神经网络模型。

第二方面，本发明实施例还提供了一种基于光子神经网络的路径规划方法，应用于基于光子神经网络的路径规划设备，设备包括：判决模块、临时存储器以及光子神经网络模块，临时存储器分别与判决模块和光子神经网络模块连接，判决模块还与光子神经网络模块连接；

该方法包括：

判决模块获取待规划路径的场景中的历史状态信息，并基于历史状态信息，确定对应的历史操作信息，其中，历史状态信息包括：路径规划设备的历史位置信息、历史目标位置信息、历史障碍物位置信息，历史操作信息为对路径规划设备进行移动的操作；

临时存储器获取基于待规划路径的场景对历史操作信息作出的历史奖励值，并基于历史操作信息以及对应的历史奖励值，确定历史操作信息对应的历史操作价值；

光子神经网络模块获取多个历史操作信息以及对应的多个历史操作价值，并基于多个历史操作信息和对应的多个历史操作价值，对光子神经网络模型进行训练，得到训练完成的光子神经网络模型；

光子神经网络模块获取待规划路径的场景中的当前状态信息，并将当前状态信息输入至训练完成的光子神经网络模型中，得到训练完成的光子神经网络模型输出的路径规划设备的路径规划信息。

可选的，基于历史状态信息，确定对应的历史操作信息，包括：

可选的，基于历史状态信息、随机判决概率与对应的衰减系数，确定对应的历史操作信息，包括：

基于随机判决概率对应的衰减系数对随机判决概率进行衰减；

在衰减后的随机判决概率大于预设阈值时，随机选择与历史状态信息对应的历史操作信息；

在衰减后的随机判决概率小于或等于预设阈值时，获取光子神经网络模型基于历史状态信息输出的不同操作信息对应的第一预测操作价值；并在不同操作信息中，选择最大的第一预测操作价值对应的操作信息作为历史状态信息对应的历史操作信息。

基于多个历史操作信息和对应的历史操作价值，对光子神经网络模型进行训练，得到训练完成的光子神经网络模型，包括：

将多个历史操作信息对应的光信号输入至多层光子神经网络，得到多层光子神经网络基于多个历史操作信息输出的第二预测操作价值；

基于第二预测操作价值和多个历史操作信息对应的多个历史操作价值，调整光子神经网络的权值，以对光子神经网络模型进行训练，并得到训练完成的光子神经网络模型。

可选的，在基于历史操作信息以及对应的历史奖励值，确定历史操作信息对应的历史操作价值之后，该方法还包括：

临时存储器将历史操作信息以及对应的历史操作价值存储至临时存储器；

光子神经网络模块获取多个历史操作信息以及对应的多个历史操作价值，并基于多个历史操作信息和对应的多个历史操作价值，对光子神经网络模型进行训练，得到训练完成的光子神经网络模型，包括：

光子神经网络模块获取临时存储器中存储的多个历史操作信息以及对应的多个历史操作价值，并基于多个历史操作信息和对应的多个历史操作价值，对光子神经网络模型进行训练，得到训练完成的光子神经网络模型。

本发明实施例有益效果：

本发明实施例提供的一种基于光子神经网络的路径规划设备及路径规划方法，可以先基于待规划路径的场景中的历史状态信息，来得到对应的历史操作价值，进而基于历史状态信息对应的历史操作信息以及对应的历史操作价值，对光子神经网络模型进行训练，得到训练完成的光子神经网络模型；最后，将待规划路径的场景中的当前状态信息输入至训练完成的光子神经网络模型中，由该训练完成的光子神经网络模型进行路径规划，可以得到该训练完成的光子神经网络模型输出的路径规划设备的路径规划信息。

在本发明实施例中，由于光子神经网络在处理线性运算时可以以光速进行，而且能耗小，因此，采用光子神经网络模型进行路径规划，可以缩短路径规划过程中的时间开销，提高了路径规划的效率。并且，在对光子神经网络模型训练完成后，该光子神经网络模型的权重参数会存储在光子神经网络内部而无须存储在临时存储器中，可以降低对临时存储器的存储空间的占用。当然，实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的实施例。

图1为本发明实施例的一种基于光子神经网络的路径规划设备的结构示意图；

图2为本发明实施例的一种基于光子神经网络的路径规划设备与环境的交互示意图；

图3为本发明实施例的一种基于光子神经网络的路径规划方法的流程图；

图4为本发明实施例中二维平面场景的场景示意图；

图5为在图4所示的场景中进行路径规划时路径规划设备行走步数与试验次数之间的关系示意图；

图6为本发明实施例中三维场景的场景示意图；

图7为在图6所示的场景中进行路径规划时路径规划设备行走步数与试验次数之间的关系示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员基于本申请所获得的所有其他实施例，都属于本发明保护的范围。

为了解决现有技术存在的问题，本发明实施例提供了一种基于光子神经网络的路径规划设备及路径规划方法，以实现降低路径规划的时间开销，提高路径规划的效率。

下面，首先对本发明实施例的一种基于光子神经网络的路径规划设备进行介绍，如图1所示，为本发明实施例的一种基于光子神经网络的路径规划设备的结构示意图，在图1中，该路径规划设备可以包括：判决模块110、临时存储器120以及光子神经网络模块130，临时存储器120分别与所述判决模块110和所述光子神经网络模块130连接，所述判决模块110还与所述光子神经网络模块130连接；

所述判决模块110，用于获取待规划路径的场景中的历史状态信息，并基于所述历史状态信息，确定对应的历史操作信息，其中，所述历史状态信息包括：所述路径规划设备的历史位置信息、历史目标位置信息、历史障碍物位置信息，所述历史操作信息为对所述路径规划设备进行移动的操作；

所述临时存储器120，用于获取基于所述待规划路径的场景对所述历史操作信息作出的历史奖励值，并基于所述历史操作信息以及对应的历史奖励值，确定所述历史操作信息对应的历史操作价值；

所述光子神经网络模块130，用于获取多个所述历史操作信息以及对应的多个历史操作价值，并基于多个所述历史操作信息和对应的多个所述历史操作价值，对光子神经网络模型进行训练，得到训练完成的光子神经网络模型；

所述光子神经网络模块130，还用于获取所述待规划路径的场景中的当前状态信息，并将所述当前状态信息输入至所述训练完成的光子神经网络模型中，得到所述训练完成的光子神经网络模型输出的所述路径规划设备的路径规划信息。

为了更清楚的说明本发明实施例，这里，结合图2进行说明，如图2所示，为本发明实施例的一种基于光子神经网络的路径规划设备与环境的交互示意图；

在采用本发明实施例的一种基于光子神经网络的路径规划设备对待规划路径的场景中的路径规划设备进行路径规划时，可以先采用待规划路径的场景中的历史状态信息对应的历史操作信息以及对应的历史操作价值，对光子神经网络模型进行训练，得到训练完成的光子神经网络模型；

其中，路径规划设备可以是机器人，也可以是具有数据处理能力的其他设备，这里不作具体限定。

具体的，上述的路径规划设备的判决模块110，可以先获取待规划路径的场景中的历史状态信息，并基于所述历史状态信息，确定对应的历史操作信息。在确定出历史操作信息后，上述的路径规划设备可以基于该历史操作信息，作出对应的移动操作，例如，向左移动、向右移动、向前移动、向后移动等操作。当该路径规划设备在作出移动操作后，会基于移动操作和预设奖励规则给予该移动操作对应的奖励值，也即历史操作信息对应的历史奖励值。例如，路径规划设备撞到该待规划路径的场景的障碍物或边界，奖励值为-1；该路径规划设备移动到目标位置，奖励值为100；该路径规划设备未移动到目标位置也没有撞到障碍物或边界，奖励值为1。

在一些示例中，上述的判决模块110在基于历史状态信息，来确定对应的历史操作信息时，可以采用ε-贪婪算法来确定该历史状态信息对应的历史操作信息，也即，先预测该历史状态信息对应的多个操作的预测操作价值，然后选择最大预测操作价值对应的操作作为该历史状态信息对应的历史操作信息。

在一些示例中，上述的判决模块110也可以基于所述历史状态信息、随机判决概率与对应的衰减系数，确定对应的历史操作信息。因此，上述的判决模块110，具体用于基于所述历史状态信息、随机判决概率与对应的衰减系数，确定对应的历史操作信息。

具体的，上述的判决模块110，可以在每次确定历史操作信息时，先计算随机判决概率与对应的衰减系数的乘积，这样，可以实现每次确定历史操作信息时，均对随机判决概率进行衰减，得到衰减后的随机判决概率。其中，这里的随机判决概率即为ε-贪婪算法中的随机判决概率。

可以理解的是，该随机判决概率对应的衰减系数是指每次确定历史操作信息时都会使得随机判决概率衰减的系数。也即，该随机判决概率对应的衰减系数会使得该随机判决概率越来越小。

在得到衰减后的随机判决概率后，可以将该衰减后的随机判决概率与预设阈值进行对比。

在所述衰减后的随机判决概率小于或等于所述预设阈值时，上述的判决模块110可以获取所述光子神经网络模型基于所述历史状态信息输出的不同操作信息对应的第一预测操作价值；并在所述不同操作信息中，选择最大的第一预测操作价值对应的操作信息作为所述历史状态信息对应的历史操作信息。

这样，可以实现该路径规划设备从随机探索到基于光子神经网络模型的预测进行探索的转变。

基于此，上述的判决模块110，也可以具体用于：

在一些示例中，上述的路径规划设备在基于该历史操作信息，作出对应的移动操作后，会进入新的位置，该新的位置可以作为新的历史位置信息。

在得到该历史操作信息对应的历史奖励值后，上述的路径规划设备的临时存储器120可以先获取基于所述待规划路径的场景对所述历史操作信息作出的历史奖励值，然后基于所述历史操作信息以及对应的历史奖励值，确定所述历史操作信息对应的历史操作价值；

在一些示例中，可以基于所述历史操作信息以及对应的历史奖励值，并采用Q-learning算法来确定所述历史操作信息对应的历史操作价值。

这样，可以得到多个历史操作信息以及该多个历史操作信息对应的历史操作价值，在得到多个历史操作信息以及对应的多个历史操作价值后，可以基于该多个所述历史操作信息和对应的多个所述历史操作价值，对光子神经网络模型进行训练，得到训练完成的光子神经网络模型；

在一些示例中，上述的光子神经网络模型为基于马赫-曾德尔干涉仪的多层光子神经网络；

因此，上述的光子神经网络模块130，还可以具体用于将所述多个历史操作信息对应的光信号输入至所述多层光子神经网络，得到所述多层光子神经网络基于所述多个历史操作信息输出的第二预测操作价值；

所述光子神经网络模块130，还用于基于所述第二预测操作价值和多个所述历史操作信息对应的多个所述历史操作价值，调整所述光子神经网络的权值，以对所述光子神经网络模型进行训练，并得到训练完成的光子神经网络模型。

在一些示例中，每层光子神经网络包括线性层和非线性层；上述的光子神经网络模块130将所述多个历史操作信息对应的光信号输入至所述多层光子神经网络时，该多层光子神经网络中的第一层光子神经网络的线性层可以对该历史操作信息对应的光信号进行线性变换，然后由该第一层光子神经网络的线性层对线性变换后的光信号进行非线性变换，然后将非线性变换后的光信号输入至第二层光子神经网络的线性层进行线性变换，依次类推，上述的历史操作信息对应的光信号通过该多层光子神经网络后，可以得到该多层光子神经网络中的最后一层光子神经网络输出的第二预测操作价值；

然后，该光子神经网络模块130，可以基于所述第二预测操作价值和多个所述历史操作信息对应的多个所述历史操作价值，调整所述光子神经网络的权值，以便对所述光子神经网络模型进行训练，并得到训练完成的光子神经网络模型。

可以理解的是，光子神经网络的权值是马赫-曾德尔干涉仪中的内部移相器与外部移相器的相位值，因此，对光子神经网络的权值进行调整也即对光子神经网络的马赫-曾德尔干涉仪中的内部移相器与外部移相器的相位值进行调整。通过多次对相位值进行调整，便可以实现对光子神经网络模型进行训练。

在一些示例中，当对当对所述光子神经网络模型进行N次训练后，当第N次训练得到的光子神经网络模型满足预设停止条件时，可以将所述第N次训练得到的光子神经网络模型作为所述训练完成的光子神经网络模型。

其中，该预设停止条件可以是达到预设训练次数或者第二预测操作价值和多个所述历史操作信息对应的多个所述历史操作价值的差值小于预设差值阈值。

在又一些示例中，上述的临时存储器110，还用于存储所述历史操作信息以及对应的历史操作价值；

具体的，上述的临时存储器110在得到历史操作信息以及对应的历史操作价值后可以进行存储，以便得到多个历史操作信息以及对应的多个历史操作价值，进而能够基于多个历史操作信息以及对应的多个历史操作价值对光子神经网络进行训练。

本发明实施例提供的一种基于光子神经网络的路径规划设备，可以先基于待规划路径的场景中的历史状态信息，来得到对应的历史操作价值，进而基于历史状态信息对应的历史操作信息以及对应的历史操作价值，对光子神经网络模型进行训练，得到训练完成的光子神经网络模型；最后，将待规划路径的场景中的当前状态信息输入至训练完成的光子神经网络模型中，由该训练完成的光子神经网络模型进行路径规划，可以得到该训练完成的光子神经网络模型输出的路径规划设备的路径规划信息。

在本发明实施例中，由于光子神经网络在处理线性运算时可以以光速进行，而且能耗小，因此，采用光子神经网络模型进行路径规划，可以缩短路径规划过程中的时间开销，提高了路径规划的效率。并且，在对光子神经网络模型训练完成后，该光子神经网络模型的权重参数会存储在光子神经网络内部而无须存储在临时存储器中，可以降低对临时存储器的存储空间的占用。

相应于上述的设备实施例，本发明实施例还提供了一种基于光子神经网络的路径规划方法，该方法可以应用于图1所示的路径规划设备，如图3所示，该方法可以包括：

S310，判决模块获取待规划路径的场景中的历史状态信息，并基于历史状态信息，确定对应的历史操作信息，其中，历史状态信息包括：路径规划设备的历史位置信息、历史目标位置信息、历史障碍物位置信息，历史操作信息为对路径规划设备进行移动的操作；

S320，临时存储器获取基于待规划路径的场景对历史操作信息作出的历史奖励值，并基于历史操作信息以及对应的历史奖励值，确定历史操作信息对应的历史操作价值；

S330，光子神经网络模块获取多个历史操作信息以及对应的多个历史操作价值，并基于多个历史操作信息和对应的多个历史操作价值，对光子神经网络模型进行训练，得到训练完成的光子神经网络模型；

S340，光子神经网络模块获取待规划路径的场景中的当前状态信息，并将当前状态信息输入至训练完成的光子神经网络模型中，得到训练完成的光子神经网络模型输出的路径规划设备的路径规划信息。

本发明实施例提供的一种基于光子神经网络的路径规划方法，可以先基于待规划路径的场景中的历史状态信息，来得到对应的历史操作价值，进而基于历史状态信息对应的历史操作信息以及对应的历史操作价值，对光子神经网络模型进行训练，得到训练完成的光子神经网络模型；最后，将待规划路径的场景中的当前状态信息输入至训练完成的光子神经网络模型中，由该训练完成的光子神经网络模型进行路径规划，可以得到该训练完成的光子神经网络模型输出的路径规划设备的路径规划信息。

在一些示例中，基于历史状态信息，确定对应的历史操作信息，包括：

在一些示例中，基于历史状态信息、随机判决概率与对应的衰减系数，确定对应的历史操作信息，包括：

在一些示例中，光子神经网络模型为基于马赫-曾德尔干涉仪的多层光子神经网络；

在一些示例中，基于多个历史操作信息和对应的历史操作价值，对光子神经网络模型进行训练，得到训练完成的光子神经网络模型，包括：

在一些示例中，在基于历史操作信息以及对应的历史奖励值，确定历史操作信息对应的历史操作价值之后，该方法还包括：

为了说明本发明实施例的效果，这里结合实际应用场景进行说明，如图4所示，为本发明实施例中二维平面场景的场景示意图；该场景由100个单元格组成，例如，由场景边界(黑色线条)和虚线条组成的100个单元格；每一个单元格代表一个二维坐标系上的点{(x,y)|x,y∈0,1,2...9}，上述的路径规划设备的初始位置为如图4所示的黑色方框，例如，该初始位置可以为(0，0)；目标位置固定为如图4所示的黑色圆形，例如，该目标位置可以为图4中的(7，7)；在图4中，一共有6个障碍物分布在目标位置周围，例如，图4中的黑色三角形，它们的坐标分别为(3，7),(4，6),(5，5),(6，4),(6，8),(7，6)，路径规划设备每一步可以采取上、下、左、右四种操作中的一种操作，每一种操作可以让路径规划设备移动一个单元格，这里，规定路径规划设备从初始位置到达目标位置或累计步数达到100次为一次试验。规定路径规划设备在撞到障碍物时会返回到上一步的位置，每一次试验路径规划设备停止迭代的步数上限为100步(可以认为规定路径规划设备无法找到目的地)。奖励的规则为：规定路径规划设备撞到障碍物或边界，奖励值为-1；移动到目标位置奖励值为100，未移动到目标位置也没有撞到障碍物或边界，奖励值为1。其他参数选择如下：随机判决概率ε的衰减系数ε-decay＝0.999/step，操作价值表更新的学习率α＝0.25，奖励的衰减系数γ＝0.9，临时存储器的大小为100(此时待规划路径的场景中的100种位置信息以及对应的操作信息和奖励值全部存储)。光子神经网络模型的输入及输出端口数分别为4个，层数为1层，在路径规划设备的累计步数达到100步时开始训练，共训练次数为3680次，对操作价值预测的准确率达到99％。

图5为在图4所示的场景中进行路径规划时路径规划设备行走步数与试验次数之间的关系示意图。其中，图5中的横坐标代表试验次数，纵坐标为每次试验中路径规划设备所走的步数，试验的初始阶段，路径规划设备的步数在最大步长100周围震荡，是因为路径规划设备的判决模块在一开始大概率随机选择操作信息，以大量的随机试验作为路径规划设备的经验积累，由于操作信息是随机选择的，所以每次试验的累计步数较多且不稳定。从图可以看出随着试验次数的增多，路径规划设备完成一次试验所需要的步数先是逐渐减小，而后不断震荡，在100次试验后路径规划设备的步数已经逐渐稳定在最短路径，例如，图5中虚线所示的最短路径为16步。

为了验证本方案在更为复杂的三维场景中同样适用，这里结合图6所示的三维场景的场景进行说明，如图6所示，为本发明实施例中三维场景的场景示意图；该三维场景为一个正方体场景，由1000个正方体单元格组成，每一个单元格可以代表一个三维场景中的点，在图6中，路径规划设备的初始位置为(3,1,4)，目标位置为(9,9,9)。在图6中(0～5，3～4，0～3)，(2～5，3～4，3～4)，(4～5，2～4，0～4)，(2～3，6～10，0～4)，(3～6，6～10，0～1)，(3～6，6～10，3～4)，(6～7，8～10，3～9)，(7～9，3～9，0～3)共350个坐标为障碍物所在位置。路径规划设备每一步可以采取上、下、左、右、前、后六种操作。这里，规定一次试验的终止条件为：路径规划设备到达目标位置或路径规划设备的累计步数达到上限值例如，上限值可以为1000步，此时，可以判定为路径规划设备无法抵达目标位置。规定路径规划设备在撞到障碍物时，依旧会回到上一步的位置，奖励的规则为：规定路径规划设备撞到障碍物或边界，奖励值为-1；移动到目标位置奖励值为100，未移动到目标位置也没有撞到障碍物或边界，奖励值为1。其他参数选择如下：随机判决概率ε的衰减系数ε-decay＝0.9998/step，操作价值表更新的学习率α＝0.25，奖励的衰减系数γ＝0.9，临时存储器的大小为500(此时待规划路径的场景中的新的位置信息以及对应的操作信息和奖励值，会覆盖旧的位置信息以及对应的操作信息和奖励值)光子神经网络模型的输入及输出端口数分别为6个，层数为5层，在路径规划设备的累计步数达到1000步时开始训练，共训练次数为56945次，对操作价值预测的准确率达到95％。

图7为在图6所示的场景中进行路径规划时路径规划设备行走步数与试验次数之间的关系示意图。从图7中可以看出，试验的初始阶段，路径规划设备的步数在最大步长1000周围震荡，是因为路径规划设备的判决模块在一开始大概率随机选择操作信息，以大量的随机试验作为路径规划设备的经验积累，由于操作信息是随机选择的，所以每次试验的累计步数较多且不稳定。从图可以看出随着试验次数的增多，路径规划设备完成一次试验所需要的步数先是逐渐减小，而后不断震荡，最终在近150次试验时路径规划设备的步数已经逐渐稳定在最短路径，例如，图7中虚线所示的最短路径为19步。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于方法实施例而言，由于其基本相似于设备实施例，所以描述的比较简单，相关之处参见设备实施例的部分说明即可。

以上所述仅为本发明的较佳实施例，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种基于光子神经网络的路径规划设备，其特征在于，所述设备包括：

判决模块、临时存储器以及光子神经网络模块，所述临时存储器分别与所述判决模块和所述光子神经网络模块连接，所述判决模块还与所述光子神经网络模块连接；

所述判决模块，用于获取待规划路径的场景中的历史状态信息，并基于所述历史状态信息，确定对应的历史操作信息，其中，所述历史状态信息包括：所述路径规划设备的历史位置信息、历史目标位置信息、历史障碍物位置信息，所述历史操作信息为对所述路径规划设备进行移动的操作；

所述临时存储器，用于获取基于所述待规划路径的场景对所述历史操作信息作出的历史奖励值，并基于所述历史操作信息以及对应的历史奖励值，确定所述历史操作信息对应的历史操作价值；

所述光子神经网络模块，用于获取多个所述历史操作信息以及对应的多个历史操作价值，并基于多个所述历史操作信息和对应的多个所述历史操作价值，对光子神经网络模型进行训练，得到训练完成的光子神经网络模型；

所述光子神经网络模块，还用于获取所述待规划路径的场景中的当前状态信息，并将所述当前状态信息输入至所述训练完成的光子神经网络模型中，得到所述训练完成的光子神经网络模型输出的所述路径规划设备的路径规划信息；

所述判决模块，具体用于：基于所述历史状态信息、随机判决概率与对应的衰减系数，确定对应的历史操作信息；

所述判决模块，具体用于：

2.根据权利要求1所述的设备，其特征在于，所述光子神经网络模型为基于马赫-曾德尔干涉仪的多层光子神经网络；

所述光子神经网络模块，具体用于将所述多个历史操作信息对应的光信号输入至所述多层光子神经网络，得到所述多层光子神经网络基于所述多个历史操作信息输出的第二预测操作价值；

所述光子神经网络模块，还用于基于所述第二预测操作价值和多个所述历史操作信息对应的多个所述历史操作价值，调整所述光子神经网络的权值，以对所述光子神经网络模型进行训练，并得到训练完成的光子神经网络模型。

3.根据权利要求1所述的设备，其特征在于，所述临时存储器，还用于存储所述历史操作信息以及对应的历史操作价值；

所述光子神经网络模块，具体用于获取所述临时存储器中存储的多个所述历史操作信息以及对应的多个历史操作价值，并基于多个所述历史操作信息和对应的多个所述历史操作价值，对光子神经网络模型进行训练，得到训练完成的光子神经网络模型。

4.一种基于光子神经网络的路径规划方法，其特征在于，应用于基于光子神经网络的路径规划设备，所述设备包括：判决模块、临时存储器以及光子神经网络模块，所述临时存储器分别与所述判决模块和所述光子神经网络模块连接，所述判决模块还与所述光子神经网络模块连接；

所述方法包括：

所述判决模块获取待规划路径的场景中的历史状态信息，并基于所述历史状态信息，确定对应的历史操作信息，其中，所述历史状态信息包括：所述路径规划设备的历史位置信息、历史目标位置信息、历史障碍物位置信息，所述历史操作信息为对所述路径规划设备进行移动的操作；

所述临时存储器获取基于所述待规划路径的场景对所述历史操作信息作出的历史奖励值，并基于所述历史操作信息以及对应的历史奖励值，确定所述历史操作信息对应的历史操作价值；

所述光子神经网络模块获取多个所述历史操作信息以及对应的多个历史操作价值，并基于多个所述历史操作信息和对应的多个所述历史操作价值，对光子神经网络模型进行训练，得到训练完成的光子神经网络模型；

所述光子神经网络模块获取所述待规划路径的场景中的当前状态信息，并将所述当前状态信息输入至所述训练完成的光子神经网络模型中，得到所述训练完成的光子神经网络模型输出的所述路径规划设备的路径规划信息；

所述基于所述历史状态信息，确定对应的历史操作信息，包括：基于所述历史状态信息、随机判决概率与对应的衰减系数，确定对应的历史操作信息；

所述基于所述历史状态信息、随机判决概率与对应的衰减系数，确定对应的历史操作信息，包括：

5.根据权利要求4所述的方法，其特征在于，所述光子神经网络模型为基于马赫-曾德尔干涉仪的多层光子神经网络；

所述基于所述多个历史操作信息和对应的历史操作价值，对光子神经网络模型进行训练，得到训练完成的光子神经网络模型，包括：

将多个所述历史操作信息对应的光信号输入至所述多层光子神经网络，得到所述多层光子神经网络基于所述多个历史操作信息输出的第二预测操作价值；

基于所述第二预测操作价值和多个所述历史操作信息对应的多个所述历史操作价值，调整所述光子神经网络的权值，以对所述光子神经网络模型进行训练，并得到训练完成的光子神经网络模型。

6.根据权利要求4所述的方法，其特征在于，在所述基于所述历史操作信息以及对应的历史奖励值，确定所述历史操作信息对应的历史操作价值之后，所述方法还包括：

所述临时存储器将所述历史操作信息以及对应的历史操作价值存储至所述临时存储器；

所述光子神经网络模块获取多个所述历史操作信息以及对应的多个历史操作价值，并基于多个所述历史操作信息和对应的多个所述历史操作价值，对光子神经网络模型进行训练，得到训练完成的光子神经网络模型，包括：

所述光子神经网络模块获取所述临时存储器中存储的多个所述历史操作信息以及对应的多个历史操作价值，并基于多个所述历史操作信息和对应的多个所述历史操作价值，对光子神经网络模型进行训练，得到训练完成的光子神经网络模型。