CN116499466A

CN116499466A - 一种智能体导航方法、装置、存储介质及电子装置

Info

Publication number: CN116499466A
Application number: CN202310456899.7A
Authority: CN
Inventors: 窦猛汉; 请求不公布姓名
Original assignee: Benyuan Quantum Computing Technology Hefei Co ltd
Current assignee: Benyuan Quantum Computing Technology Hefei Co ltd
Priority date: 2023-04-25
Filing date: 2023-04-25
Publication date: 2023-07-28

Abstract

本申请公开了一种智能体导航方法、装置、存储介质及电子装置，涉及量子计算技术领域，该方法包括：将智能体的初始位置输入变分量子线路中，得到智能体的多个奖励值；变分量子线路是基于智能体所在的地图中训练得到，地图中包括至少一个障碍物；根据多个奖励值对智能体进行移动操作，确定智能体的当前位置；若当前位置不是目标位置，则将当前位置作为初始位置，并返回执行将智能体的初始位置输入变分量子线路中，得到智能体的多个奖励值，直至智能体移动到目标位置。可以减少智能体寻找通往目标位置的路径的时间。

Description

一种智能体导航方法、装置、存储介质及电子装置

技术领域

本申请属于量子计算技术领域，特别是涉及一种智能体导航方法、装置、存储介质及电子装置。

背景技术

量子计算机是一类遵循量子力学规律进行高速数学和逻辑运算、存储及处理量子信息的物理装置。当某个装置处理和计算的是量子信息，运行的是量子算法时，它就是量子计算机。量子计算机因其具有相对普通计算机更高效的处理数学问题的能力，例如，能将破解RSA密钥的时间从数百年加速到数小时，故成为一种正在研究中的关键技术。

强化学习是机器学习的一个分支，相比于机器学习经典的有监督学习和无监督学习，强化学习最大的特点是在交互中学习(Learning from Interaction)，智能体(Agent)在与地图环境的交互中根据获得的奖励或惩罚不断的学习知识，使得智能体可以在当前地图环境中寻找到通往目标位置的路径。目前的强化学习方法都是基于经典计算机实现的，模型计算复杂度较高，参数量较多，强化学习模型的运行效率较低，所以智能体基于经典计算机实现的强化学习网络寻找到通往目标位置的路径需要耗费较长的时间。

发明内容

本申请的目的是提供一种智能体导航方法、装置、存储介质及电子装置，旨在减少智能体寻找通往目标位置的路径的时间。

为了实现上述目的，本申请实施例的第一方面，提供一种智能体导航方法，所述方法包括：

将智能体的初始位置输入变分量子线路中，得到所述智能体的多个奖励值；所述变分量子线路是基于所述智能体所在的地图中训练得到，所述地图中包括至少一个障碍物；

根据所述多个奖励值对所述智能体进行移动操作，确定所述智能体的当前位置；

若当前位置不是目标位置，则将所述当前位置作为所述初始位置，并返回执行所述将所述智能体的初始位置输入变分量子线路中，得到所述智能体的多个奖励值，直至所述智能体移动到目标位置。

可选的，奖励值与移动操作一一对应；

所述根据所述多个奖励值对所述智能体进行移动操作，确定所述智能体的当前位置，包括：

确定所述多个奖励值中的最大奖励值，基于最大奖励值对应的移动操作对所述智能体进行移动操作，确定所述智能体的当前位置。

可选的，所述将智能体的初始位置输入变分量子线路中，得到所述智能体的多个奖励值之前，所述方法还包括：

对所述智能体所在的地图的每一位置进行二进制编码；

根据所述智能体所在位置的二进制编码，得到所述智能体的初始位置。

可选的，所述量子线路包括：编码层、含参变分层和测量层；

所述将智能体的初始位置输入变分量子线路中，得到所述智能体的多个奖励值，包括：

基于所述编码层将所述初始位置编码至预设数量个量子比特上；

基于所述含参变分层对编码后的预设数量个量子比特进行量子态演化；

基于所述测量层对演化后每一量子比特的量子态进行测量，计算每一量子态期望值，得到多个奖励值。

可选的，所述编码层包括依次作用于每一量子比特的第一RX门和第一RZ门。

可选的，所述含参变分层包括作用于相邻量子比特的CNOT门以及第二RX门、第二RZ门、第三RZ门和作用于每一量子比特的RY门。

可选的，所述变分量子线路通过以下步骤得到：

基于随机参数初始化所述变分量子线路；

构建训练地图环境对初始化的变分量子线路进行训练，基于均方误差MSE函数计算所述初始化的变分量子线路的输出值和样本真实值之间的损失函数值；

根据所述损失函数值，使用梯度下降算法对所述初始化的变分量子线路进行参数调整，直至所述损失函数值达到预设精度；或者训练所述变分量子线路的迭代次数达到预设次数，得到训练完成的变分量子线路。

本申请实施例的第二方面，提供一种智能体导航装置，所述装置包括：

输入模块，用于将智能体的初始位置输入变分量子线路中，得到所述智能体的多个奖励值；所述变分量子线路是基于所述智能体所在的地图中训练得到，所述地图中包括至少一个障碍物；

确定模块，用于根据所述多个奖励值对所述智能体进行移动操作，确定所述智能体的当前位置；

判断模块，用于若当前位置不是目标位置，则将所述当前位置作为所述初始位置，并触发所述输入模块执行所述将所述智能体的初始位置输入变分量子线路中，得到所述智能体的多个奖励值，直至所述智能体移动到目标位置。

本申请实施例的第三方面，提供一种存储介质，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行上述第一方面中任一项所述方法的步骤。

本申请实施例的第四方面，提供一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行上述第一方面中任一项所述方法的步骤。

基于上述技术方案，通过将智能体的初始位置输入变分量子线路，得到智能体的多个奖励值，根据多个奖励值的最大值对应的动作移动智能体，得到智能体的当前位置，将当前位置作为初始位置输入变分量子线路，直至智能体移动至目标位置，借助于变分量子线路的并行计算优势，加快了强化学习过程的计算速度，使得智能体可以在较短时间内寻找到通往目标位置的路径。

附图说明

图1是根据一示例性实施例示出的一种控制智能体移动的方法的计算机终端的硬件结构框图；

图2是根据一示例性实施例示出的一种控制智能体移动的方法的流程图；

图3是根据一示例性实施例示出的一种地图网格化的示意图；

图4是根据一示例性实施例示出的一种变分量子线路的结构示意图；

图5是根据一示例性实施例示出的一种智能体导航装置的框图。

具体实施方式

下面通过参考附图描述的实施例是示例性的，仅用于解释本申请，而不能解释为对本申请的限制。

本申请实施例首先提供了一种智能体导航方法，该方法可以应用于电子设备，如计算机终端，具体如普通电脑、量子计算机等。

下面以运行在计算机终端上为例对其进行详细说明。图1是根据一示例性实施例示出的一种智能体导航方法的计算机终端的硬件结构框图。如图1所示，计算机终端可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储基于量子线路的智能体导航方法的存储器104，可选地，上述计算机终端还可以包括用于通信功能的传输装置106以及输入输出设备108。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述计算机终端的结构造成限定。例如，计算机终端还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

存储器104可用于存储应用软件的软件程序以及模块，如本申请实施例中的智能体导航方法对应的程序指令/模块，处理器102通过运行存储在存储器104内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至计算机终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端的通信供应商提供的无线网络。在一个实例中，传输装置106包括一个网络适配器(Network Interface Controller，NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置106可以为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

需要说明的是，真正的量子计算机是混合结构的，它包含两大部分：一部分是经典计算机，负责执行经典计算与控制；另一部分是量子设备，负责运行量子程序进而实现量子计算。而量子程序是由量子语言如QRunes语言编写的一串能够在量子计算机上运行的指令序列，实现了对量子逻辑门操作的支持，并最终实现量子计算。具体的说，量子程序就是一系列按照一定时序操作量子逻辑门的指令序列。

在实际应用中，因受限于量子设备硬件的发展，通常需要进行量子计算模拟以验证量子算法、量子应用等等。量子计算模拟即借助普通计算机的资源搭建的虚拟架构(即量子虚拟机)实现特定问题对应的量子程序的模拟运行的过程。通常，需要构建特定问题对应的量子程序。本申请实施例所指量子程序，即是经典语言编写的表征量子比特及其演化的程序，其中与量子计算相关的量子比特、量子逻辑门等等均有相应的经典代码表示。

量子线路作为量子程序的一种体现方式，也称量子逻辑电路，是最常用的通用量子计算模型，表示在抽象概念下对于量子比特进行操作的线路，其组成包括量子比特、线路(时间线)、以及各种量子逻辑门，最后常需要通过量子测量操作将结果读取出来。

不同于传统电路是用金属线所连接以传递电压信号或电流信号，在量子线路中，线路可看成是由时间所连接，亦即量子比特的状态随着时间自然演化，在这过程中按照哈密顿运算符的指示，一直到遇上逻辑门而被操作。

一个量子程序整体上对应有一条总的量子线路，本申请所述量子程序即指该条总的量子线路，其中，该总的量子线路中的量子比特总数与量子程序的量子比特总数相同。可以理解为：一个量子程序可以由量子线路、针对量子线路中量子比特的测量操作、保存测量结果的寄存器及控制流节点(跳转指令)组成，一条量子线路可以包含几十上百个甚至成千上万个量子逻辑门操作。量子程序的执行过程，就是对所有的量子逻辑门按照一定时序执行的过程。需要说明的是，时序即单个量子逻辑门被执行的时间顺序。

需要说明的是，经典计算中，最基本的单元是比特，而最基本的控制模式是逻辑门，可以通过逻辑门的组合来达到控制电路的目的。类似地，处理量子比特的方式就是量子逻辑门。使用量子逻辑门，能够使量子态发生演化，量子逻辑门是构成量子线路的基础，量子逻辑门包括单比特量子逻辑门，如Hadamard门(H门，阿达马门)、泡利-X门(X门，泡利X门)、泡利-Y门(Y门，泡利Y门)、泡利-Z门(Z门，泡利Z门)、RX门(RX旋转门)、RY门(RY旋转门)、RZ门(RZ旋转门)等等；多比特量子逻辑门，如CNOT门、CR门、iSWAP门、Toffoli门等等。量子逻辑门一般使用酉矩阵表示，而酉矩阵不仅是矩阵形式，也是一种操作和变换。一般量子逻辑门在量子态上的作用是通过酉矩阵左乘以量子态右矢对应的向量进行计算。例如，量子态右矢|0>对应的向量可以为量子态右矢|1>对应的向量可以为/>

参见图2，图2是根据一示例性实施例示出的一种智能体导航方法的流程图。该方法包括：

S201、将智能体的初始位置输入变分量子线路中，得到智能体的多个奖励值。

其中，变分量子线路是基于智能体所在的地图中训练得到，地图中包括至少一个障碍物。

在上述S201之前，该方法还包括：

步骤一、对智能体所在的地图的每一位置进行二进制编码。

具体的，可以对智能体所在的地图进行网格化处理，然后对每一网络进行二进制编码。

如图3所示，图3为本申请实施例提供的网格化处理后的地图，图中包括智能体的初始位置和智能体需要移动到的目标位置，图3所示的网格化地图还包括障碍位置，共有4*4个网格，进而可以使用0到15之间的整数对每个网格进行标记，将十进制数转为二进制数对每一网格进行编码，得到每一网格的二进制数(0001-1111)，共16个二进制数。

步骤二、根据智能体所在位置的二进制编码，得到智能体的初始位置。

图3所示的智能体的初始位置可以表示为0001，目标位置可以表示为1111。

S202、根据多个奖励值对智能体进行移动操作，确定智能体的当前位置。

其中，奖励值与移动操作一一对应。

例如，智能体所处空间维度是一维，则移动操作可以为：向左和向右，对应两个奖励值。

例如，智能所处空间维度是二维，则移动操作可以为：向左、向前、向右和向后，对应四个奖励值。

再例如，智能体所处空间维度是三维，则移动操作可以为：向左、向前、向右、向后、向上和向下，对应六个奖励值。

S202具体可以实现为：确定多个奖励值中的最大奖励值，基于最大奖励值对应的移动操作对智能体进行移动操作，确定智能体的当前位置。

S203、若当前位置不是目标位置，则将当前位置作为初始位置，并返回执行S201、将智能体的初始位置输入变分量子线路中，得到智能体的多个奖励值，直至智能体移动到目标位置。

采用本申请实施例，通过将智能体的初始位置输入变分量子线路，得到智能体的多个奖励值，根据多个奖励值的最大值对应的动作移动智能体，得到智能体的当前位置，将当前位置作为初始位置输入变分量子线路，直至智能体移动至目标位置，借助于变分量子线路的并行计算优势，加快了强化学习过程的计算速度，使得智能体可以在较短时间内寻找到通往目标位置的路径。

下面对本申请实施例中的变分量子线路训练方式进行介绍，上述实施例中的变分量子线路具体可以通过以下步骤得到：

步骤一、基于随机参数初始化变分量子线路。

步骤二、构建训练地图环境对初始化的变分量子线路进行训练，基于均方误差MSE函数计算初始化的变分量子线路的输出值和样本真实值之间的损失函数值。

其中，样本真实值为智能体移动到训练地图上每一位置对应的奖励值，移动到障碍位置的奖励值小于其他位置的奖励值，移动到目标位置的奖励值大于移动到训练地图上其他位置的奖励值。

具体的，可以将智能体在训练地图中的初始位置S_t输入变分量子线路中，得到变分量子线路输出的多个奖励值，最大奖励值为变分量子线路的输出值R_t，智能体执行最大奖励值对应的移动操作a_t，移动到下一位置S_t+1，基于均方误差MSE函数计算移动到下一位置对应的样本真实值和变分量子线路的输出值R_t之间的损失函数。

步骤三、根据损失函数值，使用梯度下降算法对初始化的变分量子线路进行参数调整，直至损失函数值达到预设精度；或者训练变分量子线路的迭代次数达到预设次数，得到训练完成的变分量子线路。

其中，预设精度和预设次数的值需要根据模型的复杂度和实际应用环境进行设置。

通过上述步骤对变分量子线路进行训练，可以使得变分量子线路输出的奖励值中的最大值对应的移动操作为智能体的最优移动操作，执行该移动操作可以避开地图上的障碍位置。

在本申请另一实施例中，上述实施例中的量子线路包括：编码层、含参变分层和测量层；

上述S201、将智能体的初始位置输入变分量子线路中，得到智能体的多个奖励值，具体可以实现为：

基于编码层将初始位置编码至预设数量个量子比特上，基于含参变分层对编码后的预设数量个量子比特进行量子态演化，基于测量层对演化后每一量子比特的量子态进行测量，计算每一量子态期望值，得到多个奖励值。

其中，编码层包括依次作用于每一量子比特的第一RX门和第一RZ门，含参变分层包括作用于相邻量子比特的CNOT门以及第二RX门、第二RZ门、第三RZ门和作用于每一量子比特的RY门。预设数量可以根据实际应用场景进行设置。

例如，在图3所示的场景中，每一网格可以用一个四位二进制数b₁b₂b₃b₄表示，b₁、b₂、b₃和b₄的取值为0或1，则预设数量可以设置为4，使用4个量子比特编码初始位置，则编码得到的量子态为

如图4所示，图4为本申请实施例提供的变分量子线路的结构示意图，图4中变分量子线路的编码层包括的第一RX门第一RZ门分别包括参数θ_i和ψ_i，分别表示绕X轴和Y轴旋转给定的角度θ_i和ψ_i，编码得到上述量子态

具体的根据可以以下公式确定θ_i和ψ_i：

θ_i＝*b_i

ψ_i＝*b_i

其中，i表示比特索引，取值为1、2、3和4，π为弧度。

图4所示的含参变分层包括用于对相邻量子比特进行量子态纠缠的CNOT门，以及含参量子门：第二RX门、第二RZ门、第三RZ门和作用于每一量子比特的RY门，通过不断迭代优化含参量子门的参数实现对变分量子线路的优化，第一RX门和第一RZ门的参数θ_i和ψ_i用于状态制备，不参与迭代优化。

需要说明的是上述量子线路中的比特数可以根据实际问题进行调整，含参变分层可以多层叠加，以增加参数量，具体可以根据实际运行该变分量子线路的量子设备的容量决定。

图4中的测量层可以测量每一量子比特的量子态期望值，作为奖励值，图4所示的变分量子线路的测量层可以输出4个奖励值，分别对应一个移动操作，向上、向下、向左和向右。

本申请实施例提供的智能体导航方法，将量子计算的优势应用到了经典强化学习网络中，降低了经典网络模型存储数据所需的空间复杂度以及计算复杂度，提高了模型运行效率，使得智能体可以在较短时间内找到通往目标位置的路径。

基于相同的发明构思，本申请实施例还提供了一种智能体导航装置，如图5所示，该装置包括:

输入模块501，用于将智能体的初始位置输入变分量子线路中，得到所述智能体的多个奖励值；所述变分量子线路是基于所述智能体所在的地图中训练得到，所述地图中包括至少一个障碍物；

确定模块502，用于根据所述多个奖励值对所述智能体进行移动操作，确定所述智能体的当前位置；

判断模块503，用于若当前位置不是目标位置，则将所述当前位置作为所述初始位置，并触发输入模块501执行所述将所述智能体的初始位置输入变分量子线路中，得到所述智能体的多个奖励值，直至所述智能体移动到目标位置。

可选的，奖励值与移动操作一一对应；

所述确定模块，具体用于：

可选的，该装置还包括：编码模块，用于对所述智能体所在的地图的每一位置进行二进制编码；根据所述智能体所在位置的二进制编码，得到所述智能体的初始位置。

所述输入模块，具体用于：

可选的，所述变分量子线路通过以下步骤得到：

基于随机参数初始化所述变分量子线路；

根据所述损失函数值，使用梯度下降算法对所述初始化的变分量子线路进行参数调整，直至所述损失函数值达到预设精度；或者训练变分量子线路的迭代次数达到预设次数，得到训练完成的变分量子线路。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

本申请的再一实施例还提供了一种存储介质，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行上述智能体导航方法实施例中的步骤。

具体的，在本实施例中，上述存储介质可以包括但不限于：U盘、只读存储器(Read-Only Memory，简称为ROM)、随机存取存储器(Random Access Memory，简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。

本申请的再一实施例还提供了一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行上述智能体导航方法实施例中的步骤。

具体的，上述电子装置还可以包括传输设备以及输入输出设备，其中，该传输设备和上述处理器连接，该输入输出设备和上述处理器连接。

具体的，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

步骤一、将智能体的初始位置输入变分量子线路中，得到智能体的多个奖励值。

步骤二、根据多个奖励值对智能体进行移动操作，确定智能体的当前位置。

步骤三、若当前位置不是目标位置，则将当前位置作为初始位置，并返回执行步骤一、将智能体的初始位置输入变分量子线路中，得到智能体的多个奖励值，直至智能体移动到目标位置。

以上依据图式所示的实施例详细说明了本申请的构造、特征及作用效果，以上所述仅为本申请的较佳实施例，但本申请不以图面所示限定实施范围，凡是依照本申请的构想所作的改变，或修改为等同变化的等效实施例，仍未超出说明书与图示所涵盖的精神时，均应在本申请的保护范围内。

Claims

1.一种智能体导航方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，奖励值与移动操作一一对应；

3.根据权利要求1或2所述的方法，其特征在于，所述将智能体的初始位置输入变分量子线路中，得到所述智能体的多个奖励值之前，所述方法还包括：

对所述智能体所在的地图的每一位置进行二进制编码；

4.根据权利要求3所述的方法，其特征在于，所述量子线路包括：编码层、含参变分层和测量层；

5.根据权利要求3所述的方法，其特征在于，所述编码层包括依次作用于每一量子比特的第一RX门和第一RZ门。

6.根据权利要求3所述的方法，其特征在于，所述含参变分层包括作用于相邻量子比特的CNOT门以及第二RX门、第二RZ门、第三RZ门和作用于每一量子比特的RY门。

7.根据权利要求1所述的方法，其特征在于，所述变分量子线路通过以下步骤得到：

基于随机参数初始化所述变分量子线路；

8.一种智能体导航装置，其特征在于，所述装置包括：

9.一种存储介质，其特征在于，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行所述权利要求1至7任一项中所述的方法。

10.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行所述权利要求1至7任一项中所述的方法。