CN114047764A

CN114047764A - 路径规划模型的训练方法和路径规划方法、装置

Info

Publication number: CN114047764A
Application number: CN202111358540.3A
Authority: CN
Inventors: 盛佳璇
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-11-16
Filing date: 2021-11-16
Publication date: 2022-02-15
Anticipated expiration: 2041-11-16
Also published as: CN114047764B

Abstract

本公开提供了一种路径规划模型的训练方法和路径规划方法、装置、设备、介质，涉及人工智能领域，具体涉及深度学习和计算机视觉领域，可应用于自动驾驶和机械生产等场景。训练方法的具体实现方案包括：采用编码网络对第一样本数据中的第一环境数据进行编码，获得第一环境数据的第一特征数据，该第一样本数据还包括第一实际路径数据；将第一特征数据输入深度强化学习网络，得到针对第一环境数据的预测路径数据；基于第一实际路径数据和针对第一环境数据的预测路径数据，对编码网络和深度强化学习网络进行训练。其中，编码网络是采用第二样本数据预训练得到的，第二样本数据包括第一样本数据所属的目标领域的数据及除目标领域外其他领域的数据。

Description

路径规划模型的训练方法和路径规划方法、装置

技术领域

本公开涉及人工智能领域，具体涉及深度学习和计算机视觉技术领域，可应用于自动驾驶和机械生产等场景。

背景技术

路径规划(Path Planning)是指在搜索区域内给出合理的目标函数，并在一定范围内找到目标函数的最优解，使得智能设备找到一条从起点到目标点的安全无障碍路径。路径规划方法在众多领域都有广泛的应用，例如可以采用路径规划方法为智能设备的机械手臂规划操作路径，可以采用路径规划方法为自动驾驶车辆、无人机或无人艇等规划行驶路径等。

发明内容

提供了一种提高鲁棒性和精度的路径规划模型的训练方法、路径规划方法、装置、电子设备和存储介质。

本公开的一个方面提供了一种路径规划模型的训练方法，该路径规划模型包括编码网络和深度强化学习网络；训练方法包括：采用编码网络对第一样本数据中的第一环境数据进行编码，获得第一环境数据的第一特征数据；其中，第一样本数据还包括第一实际路径数据；将第一特征数据输入深度强化学习网络，得到针对第一环境数据的预测路径数据；以及基于第一实际路径数据和针对第一环境数据的预测路径数据，对编码网络和深度强化学习网络进行训练，其中，编码网络是采用第二样本数据预训练得到的，第二样本数据包括：第一样本数据所属的目标领域的数据，以及除目标领域外其他领域的数据。

本公开的另一个方面提供了一种路径规划方法，包括：采用路径规划模型包括的编码网络对第三环境数据进行编码，获得第三环境数据的第三特征数据；以及将第三环境数据输入路径规划模型包括的深度强化学习网络，得到针对第三环境数据的规划路径数据，其中，路径规划模型是采用本公开提供的路径规划模型的训练方法训练得到的。

本公开的另一个方面提供了一种路径规划模型的训练装置，其中，路径规划模型包括编码网络和深度强化学习网络，该装置包括：第一编码模块，用于采用编码网络对第一样本数据中的第一环境数据进行编码，获得第一环境数据的第一特征数据；其中，第一样本数据还包括第一实际路径数据；第一路径预测模块，用于将第一特征数据输入深度强化学习网络，得到针对第一环境数据的预测路径数据；以及第一训练模块，用于基于第一实际路径数据和针对第一环境数据的预测路径数据，对编码网络和深度强化学习网络进行训练，其中，编码网络是采用第二样本数据预训练得到的，第二样本数据包括：第一样本数据所属的目标领域的数据，以及除目标领域外其他领域的数据。

本公开的另一个方面提供了一种路径规划装置，包括：第三编码模块，用于采用路径规划模型包括的编码网络对第三环境数据进行编码，获得第三环境数据的第三特征数据；以及路径规划模块，用于将第三环境数据输入路径规划模型包括的深度强化学习网络，得到针对第三环境数据的规划路径数据，其中，路径规划模型是采用本公开提供的路径规划模型的训练装置训练得到的。

本公开的另一个方面提供了一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行本公开提供的路径规划模型的训练方法和/或路径规划方法。

根据本公开的另一个方面提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，计算机指令用于使计算机执行本公开提供的路径规划模型的训练方法和/或路径规划方法。

根据本公开的另一个方面提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现本公开提供的路径规划模型的训练方法和/或路径规划方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开实施例的路径规划模型的训练方法和路径规划方法、装置的应用场景示意图；

图2是根据本公开实施例的路径规划模型的训练方法的流程示意图；

图3是根据本公开实施例的路径规划模型的训练方法的原理示意图；

图4是根据本公开实施例的预训练编码网络的原理示意图；

图5是根据本公开实施例的路径规划方法的流程示意图；

图6是根据本公开实施例的路径规划模型的训练装置的结构框图；

图7是根据本公开实施例的路径规划装置的结构框图；以及

图8是用来实施本公开实施例的路径规划模型的训练方法和/或路径规划方法的电子设备的结构框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

本公开提供了一种路径规划模型的训练方法，该路径规划模型包括编码网络和深度强化学习网络，训练方法包括特征提取阶段、路径预测阶段和模型训练阶段。在特征提取阶段中，采用编码网络对第一样本数据中的第一环境数据进行编码，获得第一环境数据的第一特征数据。其中，第一样本数据还包括第一实际路径数据。在路径预测阶段中，将第一特征数据输入深度强化学习网络，得到针对第一环境数据的预测路径数据。在模型训练阶段中，基于第一实际路径数据和针对第一环境数据的预测路径数据，对编码网络和深度强化学习网络进行训练。其中，编码网络是采用第二样本数据预训练得到的，第二样本数据包括：第一样本数据所属的目标领域的数据，以及除目标领域外其他领域的数据。

以下将结合图1对本公开提供的方法和装置的应用场景进行描述。

图1是根据本公开实施例的路径规划模型的训练方法和路径规划方法、装置的应用场景示意图。

如图1所示，该实施例的应用场景100可以包括自动驾驶车辆等智能设备110，除了自动驾驶车辆外，该智能设备110还可以为无人机、无人艇、智能加工设备的机械臂等能够自动移动的设备。

根据本公开的实施例，该智能设备110例如可以安装或携带有传感器，用于感测智能设备110的环境数据120。该环境数据120例如可以为图像数据，也可以为智能设备110的位置数据等。

如图1所示，该智能设备110中还可以携带有终端设备130，终端设备130可以通过网络与智能设备110的传感器通信，以获取感测到的环境数据120。

例如，该终端设备130可以为智能手机、平板电脑、便携式计算机、台式计算机或车载电脑等。该终端设备130可以根据获取的环境数据120为智能设备110规划路径。如此，智能设备110可以自动地根据终端设备130规划的路径移动，或者在用户操作下根据终端设备130规划的路径移动。

根据本公开的实施例，该终端设备130例如可以采用服务器140训练得到的路径规划模型150对获取的环境数据120进行处理，从而得到规划路径。该终端设备130例如可以通过网络与服务器140通信连接，以向服务器140发送模型获取请求，使得服务器140响应于该模型获取请求将路径规划模型150发送给终端设备130。

在一实施例中，如图1所示，该应用场景100还可以设置有数据库160，该数据库160中存储有地形图等环境数据序列，以及与环境数据序列对应的实际路径数据。服务器140可以访问该数据库160，例如可以从数据库160中获取环境数据序列及对应的实际路径数据，并将获取的数据作为样本数据，来对路径规划模型进行训练。

需要说明的是，本公开提供的路径规划模型的训练方法可以由服务器140执行，本公开提供的路径规划方法可以由终端设备130执行。相应地，本公开提供的路径规划模型的训练装置可以设置于服务器140中，本公开提供的路径规划装置可以设置于终端设备130中。

可以理解的是，图1中的智能设备、终端设备、服务器和数据库的数目和类型仅仅是示意性的。根据实现需要，该应用场景100可以具有任意数目和类型的智能设备、终端设备、服务器和数据库。

以下将结合图2～图4对本公开提供的路径规划模型的训练方法进行详细描述。

图2是根据本公开实施例的路径规划模型的训练方法的流程示意图。

如图2所示，该实施例的路径规划模型的训练方法200可以包括操作S210～操作S230。其中，路径规划模型包括编码网络和深度强化学习网络。

在操作S210，采用编码网络对第一样本数据中的第一环境数据进行编码，获得第一环境数据的第一特征数据。

根据本公开的实施例，第一样本数据例如可以包括垂直领域中，智能设备在移动过程中所采集的环境图像(即第一环境数据)。该第一样本数据例如还可以包括第一实际路径数据，该第一实际路径数据即为智能设备移动过程所产生的实际路径。该第一实际路径数据例如可以由智能设备在移动过程中移动单位距离的移动方向来表示。垂直领域例如可以为：机械加工领域、自动驾驶车辆领域或无人机领域等。

根据本公开的实施例，编码网络例如可以为递归神经网络，具体可以为循环神经网络RNN或基于自注意力机制的神经网络。其中，循环神经网络RNN可以包括长短期记忆网络LSTM等，基于自注意力机制的神经网络可以包括Transformer架构的编码器等。

该实施例中，可以将第一环境数据输入编码网络，由编码网络对该第一环境数据进行维度的变换等处理，实现对第一环境数据的特征的提取。由该编码网络输出第一特征数据。

根据本公开的实施例，编码网络可以是采用第二样本数据预训练得到的。其中的第二样本数据所涵盖领域大于第一样本数据所属领域。即第二样本数据不仅包括第一样本数据所属的目标领域的数据，还可以包括除目标领域外其他领域的数据。例如，目标领域可以为自动驾驶车辆领域，其他领域可以包括无人机领域和无人艇领域等。第二样本数据不仅包括地面地形图，还可以包括河流地形图和空中航道图等。通过采用预训练的编码网络，可以提高对路径规划模型的训练效率，且提高训练得到的路径规划模型的鲁棒性和稳定性等。

在操作S220，将第一特征数据输入深度强化学习网络，得到针对第一环境数据的预测路径数据。

根据本公开的实施例，深度强化学习网络(Deep Reinforcement Learning，DRL)结合了深度神经网络和强化学习算法的优点。该深度强化学习网络可以包括基于卷积神经网络的深度强化学习网络或基于递归神经网络的深度强化学习网络等。具体地，该深度强化学习网络可以包括深度Q网络(Deep Q Network，DQN)、深度注意力递归Q网络(DeepAttention Recurrent Q Network，DARQN)等。可以理解的是，上述深度强化学习网络仅作为示例以利于理解本公开，本公开对此不做限定。

其中，深度Q网络使用一个神经网络来模拟强化学习中的值函数，然后使用贪心算法做出动作决策。该网络可以被应用在单步的决策问题上。

该深度强化学习网络的输入为第一特征数据，输出为路径规划结果。该路径规划结果例如可以包括下一步的移动方向。该实施例可以将该路径规划结果作为预测路径数据。智能设备例如可以根据该路径规划结果移动单位距离。

在操作S230，基于第一实际路径数据和针对第一环境数据的预测路径数据，对编码网络和深度强化学习网络进行训练。

根据本公开的实施例，可以根据第一实际路径数据和预测路径数据之间的差异，来确定路径规划模型的损失。其中，可以采用Q网络的损失函数的取值来表示路径规划模型的损失。随后，通过反向传播方法来调整编码网络和深度强化学习网络中的权重参数，使得路径规划模型的损失最小。

在一实施例中，还可以采用经验回放(Experience Replay)的方法来对深度强化学习网络进行训练。以对训练过程中的样本数据进行存储，并在训练过程中进行实时采样。通过该方式，可以在一定程度上提高训练效率。

本公开实施例在采用预训练的编码网络的基础上，通过在训练深度强化学习网络时对编码网络进行同步训练，可以实现对编码网络的微调。如此，可以使得训练得到的编码网络在通过预训练学习到通用的环境数据的同时，能够在一定程度上加强对目标领域的环境数据的学习。如此，有助于更好的完成路径规划，在提高模型泛化性能和收敛速度的同时，可以提高路径规划的精度。

该实施例的方法相较于相关技术中直接以环境数据作为DQN输入的技术方案、通过采样方法进行路径规划的技术方案及基于搜索方法进行路径规划的技术方案，可以在解决复杂环境和高维空间状态下的路径规划问题的基础上，提高模型的稳定性和模型的训练效率。

图3是根据本公开实施例的路径规划模型的训练方法的原理示意图。

根据本公开的实施例，如图3所示，该实施例300在训练路径规划模型时，可以先从公开数据集中获取大规模的地形图及针对该地形图的实际路径作为第二样本数据。随后采用该第二样本数据对编码网络310进行预训练。

在一实施例中，第二样本数据例如可以包括第二环境数据301和第二实际路径数据302。在预训练时，例如可以先采用编码网络310对一批第二样本数据中的第二环境数据30l进行编码，得到第二环境数据的第二特征数据。该得到第二特征数据的实现原理与前文得到第一特征数据的原理类似，在此不再赘述。

在得到第二特征数据后，可以采用解码网络320来解码该第二特征数据，从而得到第二环境数据的预测路径数据303。其中，解码网络320与编码网络例如可以为RNN或者基于自注意力机制的神经网络。该解码网络320的结构可以与编码网络310的结构相对应。例如，若编码网络310为LSTM，则解码网络320也为LSTM。若编码网络310为Transformer架构的编码器，则解码网络320为Transformer架构的解码器。可以理解的是，解码网络320解码第二特征数据得到的数据可以为一个向量。该向量经由线性变换后可以得到预测路径数据303。

在得到预测路径数据303后，即可根据该预测路径数据303与第二实际路径数据302之间的差异，来确定由编码网络310和解码网络320构成的模型的第一损失304。该第一损失304例如可以由预测路径数据303与第二实际路径数据302之间的KL散度来表示，也可以由预测路径数据303与第二实际路径数据302之间的交叉熵来表示，本公开对此不做限定。

在得到该第一损失304后，可以采用反向传播算法来对编码网络310和解码网络320进行训练，完成一次迭代训练。可以对编码网络310和解码网络320进行多次的迭代训练，直至第一损失304小于预定值，从而完成对编码网络310的预训练，得到预训练后的编码网络310’。

在得到预训练后的编码网络310’后，可以将该预训练后的编码网络310’和深度Q网络330构成路径规划模型。并将从公开数据集中获取目标领域的地形图及针对该地形图的实际路径作为第一样本数据。该第一样本数据包括第一环境数据305和第一实际路径数据307。随后，可以采用预训练后的编码网络310’来对第一环境数据305进行编码。编码得到的第一特征数据被深度Q网络330解码后，可以得到针对第一环境数据305的预测路径数据306。随后，即可根据该预测路径数据306与第一实际路径数据307来确定路径规划模型的损失，作为第二损失308，并根据该第二损失308，采用前文描述的方法来训练路径规划模型。

本公开实施例在预训练编码网络310时采用与编码网络对应的解码网络，在构成路径规划模型时采用深度Q网络替代解码网络，可以使得路径规划模型能够更好地解决复杂环境和高维空间状态下的路径规划问题。

图4是根据本公开实施例的预训练编码网络的原理示意图。

在该实施例中，以编码网络为基于自注意力机制(Self-Attention)的Transformer架构的编码器为例，对编码网络的预训练原理进行详细描述。

在对编码网络进行预训练时，可以先确定第二环境数据的嵌入表示。例如，如图4所示，该实施例400可以采用线性层410来对作为第二环境数据的图像序列401进行线性转换，得到第二环境数据的第一嵌入特征。其中，线性层410例如可以采用线性嵌入算法来对第二环境数据进行降维表示，从而得到第一嵌入特征。

在得到第一嵌入特征的同时，例如还可以确定表示第二环境数据的第一位置特征402。该第一位置特征402例如可以基于变化频率的正弦的位置编码方法和/或基于变化频率的余弦的位置编码方法来得到，或者可以采用任意的方法编码得到第一位置特征，本公开对此不做限定。

随后可以将该第一位置特征402和第一嵌入特征拼接后得到第一拼接特征403。通过该方式，可以使得得到的拼接特征同时融合了位置特征。如此在编码时可以考虑环境数据的上下文信息，提高编码得到的特征数据的表达能力和精度。在得到第一拼接特征403后，可以将该第一拼接特征403输入编码网络420，经由编码网络420编码得到第二环境数据的第二特征数据404。例如，可以采用concat()函数来拼接第一位置特征和第一嵌入特征，也可以将第一位置特征作为第一嵌入特征的新增通道的特征，得到第一拼接特征。

在该实施例中，编码网络例如可以由多个Transformer编码器构成，每个Transformer编码器例如可以包括一个多头注意力层和一个前馈层，前馈层例如可以由两个前馈神经(Feed-Forward Neural，FFN)子层构成。该实施例可以根据第一拼接特征403得到查询(Query)特征、键(Key)特征和值(Value)特征。将Query、Key、Value输入多个Transformer编码器中第一个Transformer编码器的多头注意力层，通过依次经由该多个Transformer编码器处理后，可以由多个Transformer编码器中的最后一个Transformer编码器输出第二特征数据404。

其中，多头注意力层可以通过Query与Key之间的点积来计算得到环境数据中当前位置与其余位置之间的距离信息，使得智能设备行驶路径中的所有位置均包含来自其余位置的信息。随后，多头注意力层可以将Query与Key之间的点积与Value相乘从而得到加权的行驶路径中每个位置的输出得分。前馈层通过引入非线性激活函数来对经过多头注意力层的输出进行空间变换，从而提高得到的特征对环境数据的表达能力。

通过采用Transformer编码器来对环境数据进行编码，可以使得多头注意力层中不同的头观察到不同的注意力信息，从而综合考虑环境数据的局部信息和全局信息。如此，在使用预训练得到的编码网络进行路径规划时，可以使得编码得到的特征数据不仅能够表达当前位置周围的路径状况，更能够利用学习到的全局特征。

可以理解的是，该实施例可以采用图4描述的对第二环境数据编码得到第二特征数据的原理，来对第一环境数据编码从而得到第一特征数据。

在一实施例中，预训练编码网络时采用的解码网络可以采用与编码网络对应的基于自注意力机制的解码器，例如可以为Transformer架构的解码器。该解码器可以包括自注意力子网络和解码子网络。自注意力子网络例如可以包括掩膜多头注意力(Masked Multi-Head Attention)网络，解码子网络可以包括多头注意力解码层和前馈层。

如图4所示，实施例400中，可以在解码时，同时考虑第二实际路径数据，以此为解码第二特征数据404提供参考信息。同时，在考虑第二实际路径数据时，还可以考虑第二实际路径数据的位置特征。具体地，可以基于第二实际路径数据和第二实际路径数据的位置特征，采用自注意力子网络得到输入解码子网络的查询特征。通过该方式，可以提高得到的预测路径数据的精度。

例如，该实施例在采用解码网络解码第二特征数据时，可以将第二实际路径数据的嵌入特征和第二实际路径数据的位置特征拼接后得到特征405。随后将该特征405输入解码网络430中的自注意力子网络，经由该自注意力子网络处理后得到输入解码子网络的查询特征。同时，该实施例可以基于第二特征数据404，获得输入解码子网络的键特征和值特征。

在得到输入解码子网络的查询特征、键特征和值特征后，可以基于该查询特征、键特征和值特征，采用解码子网络得到针对第二环境数据的预测路径数据。具体地，可以将解码子网络的查询特征、键特征和值特征输入解码子网络，将经由解码子网络输出的特征406经由线性处理和逻辑回归处理后得到针对第二环境数据的预测路径数据。

在一实施例中，解码网络可以由多个Transformer解码器依次连接构成。多个Transformer解码器中的每个解码器均包括自注意力子网络和解码子网络。其中，自注意力子网络的作用是对第二实际路径信息中相较于当前输入的环境信息的未来路径数据进行遮盖，以此避免该未来路径数据对解码网络解码过程的干扰。解码子网络的作用即为依据输入解码子网络的查询特征，查询输入解码子网络的键特征和值特征的内积，从而查询得到表征预测路径数据的特征。

可以理解的是，编码网络420中包括的编码器个数和解码网络430中包括的解码器个数仅作为示例以利于理解本公开，根据实现需要，可以设置任意数目的编码器和解码器，编码器的个数例如可以与解码器的个数相同。

基于本公开提供的路径规划模型的训练方法，本公开还提供了一种路径规划方法，以下将结合图5对该方法进行详细描述。

图5是根据本公开实施例的路径规划方法的流程示意图。

如图5所示，该实施例的路径规划方法500可以包括操作S510～操作S520。

在操作S510，采用路径规划模型包括的编码网络对第三环境数据进行编码，获得第三环境数据的第三特征数据。

根据本公开的实施例，第三环境数据可以为智能设备实时采集的环境数据。路径规划模型可以是采用前文描述的路径规划模型的训练方法训练得到的。该操作S510与前文描述的操作S210类似，在此不再赘述。

在操作S520，将第三环境数据输入路径规划模型包括的深度强化学习网络，得到针对第三环境数据的规划路径数据。根据本公开的实施例，该操作S520与前文描述的操作S220类似，规划路径数据与前文描述的预测路径数据类似，可以为智能设备在当前位置的移动方向。如此，智能设备例如可以根据该移动方向向前移动单位距离。

根据本公开的实施例，上述编码网络可以包括基于注意力机制构建的编码器。在对第三环境数据进行编码时，可以先确定第三环境数据的第二嵌入特征和第二位置特征。随后拼接第二嵌入特征和第二位置特征，得到第二拼接特征。最后将第二拼接特征输入编码网络，得到第三环境数据的第三特征数据。可以理解的是，第二嵌入特征、第二位置特征的获得方式分别与前文描述的获得的第一嵌入特征、第一位置特征的方式类似，第三特征数据的获得方式和第一特征数据的获得方式类似，在此不再赘述。

基于本公开提供的路径规划模型的训练方法，本公开还提供了一种路径规划模型的训练装置，以下将结合图6对该装置进行详细描述。

图6是根据本公开实施例的路径规划模型的训练装置的结构框图。

如图6所示，该实施例的路径规划模型的训练装置600可以包括第一编码模块610、第一路径预测模块620和第一训练模块630。其中，路径规划模型包括编码网络和深度强化学习网络。

第一编码模块610用于采用编码网络对第一样本数据中的第一环境数据进行编码，获得第一环境数据的第一特征数据。其中，第一样本数据还包括第一实际路径数据。编码网络是采用第二样本数据预训练得到的，第二样本数据包括：第一样本数据所属的目标领域的数据，以及除目标领域外其他领域的数据。在一实施例中，第一编码模块610可以用于执行前文描述的操作S210，在此不再赘述。

第一路径预测模块620用于将第一特征数据输入深度强化学习网络，得到针对第一环境数据的预测路径数据。在一实施例中，第一路径预测模块620可以用于执行前文描述的操作S220，在此不再赘述。

第一训练模块630用于基于第一实际路径数据和针对第一环境数据的预测路径数据，对编码网络和深度强化学习网络进行训练。在一实施例中，第一训练模块630可以用于执行前文描述的操作S230，在此不再赘述。

根据本公开的实施例，上述路径规划模型的训练装置600还可以包括第二训练模块，用于预训练编码网络。该第二训练模块可以包括编码子模块、解码子模块和训练子模块。编码子模块用于采用编码网络对第二样本数据中的第二环境数据编码，得到第二环境数据的第二特征数据。其中，第二样本数据还包括第二实际路径数据。解码子模块用于采用解码网络解码第二特征数据，得到针对第二环境数据的预测路径数据。训练子模块用于基于第二实际路径数据和针对第二环境数据的预测路径数据，训练编码网络和解码网络。

根据本公开的实施例，上述编码网络包括基于自注意力机制构建的编码器。编码子模块可以包括特征确定单元、特征拼接单元和特征编码单元。特征确定单元用于确定表示第二环境数据的第一嵌入特征和第一位置特征。特征拼接单元用于拼接第一嵌入特征和第一位置特征，得到第一拼接特征。特征编码单元用于将第一拼接特征输入编码网络，得到第二环境数据的第二特征数据。

根据本公开的实施例，解码网络包括基于自注意力机制的解码器。解码网络包括自注意力子网络和解码子网络。上述解码子模块可以包括第一特征获得单元、第二特征获得单元和解码单元。第一特征获得单元用于基于第二实际路径数据和第二实际路径数据的位置特征，采用自注意力子网络得到查询特征。第二特征获得单元用于基于第二特征数据，获得键特征和值特征。解码单元用于基于查询特征、键特征和值特征，采用解码子网络得到针对第二环境数据的预测路径数据。

基于本公开提供的路径规划方法，本公开还提供了一种路径规划装置，以下将结合图7对该装置进行详细描述。

图7是根据本公开实施例的路径规划装置的结构框图。

如图7所示，该实施例的路径规划装置700可以包括第三编码模块710和路径规划模块720。

第三编码模块710用于采用路径规划模型包括的编码网络对第三环境数据进行编码，获得第三环境数据的第三特征数据。其中，路径规划模型可以是采用前文描述的路径规划模型的训练装置训练得到的。在一实施例中，第三编码模块710可以用于执行前文描述的操作S510，在此不再赘述。

路径规划模块720用于将第三环境数据输入路径规划模型包括的深度强化学习网络，得到针对第三环境数据的规划路径数据。在一实施例中，路径规划模块720可以用于执行前文描述的操作S520，在此不再赘述。

根据本公开的实施例，编码网络包括基于注意力机制构建的编码器。上述第三编码模块710可以包括特征确定子模块、特征拼接子模块和特征编码子模块。特征确定子模块用于确定第三环境数据的第二嵌入特征和第二位置特征。特征拼接子模块用于拼接第二嵌入特征和第二位置特征，得到第二拼接特征。特征编码子模块用于将第二拼接特征输入编码网络，得到第三环境数据的第三特征数据。

需要说明的是，本公开的技术方案中，所涉及的用户个人信息的获取、收集、存储、使用、加工、传输、提供和公开等处理，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图8示出了可以用来实施本公开实施例的路径规划模型的训练方法和/或路径规划方法的示例电子设备800的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图8所示，设备800包括计算单元801，其可以根据存储在只读存储器(ROM)802中的计算机程序或者从存储单元808加载到随机访问存储器(RAM)803中的计算机程序，来执行各种适当的动作和处理。在RAM 803中，还可存储设备800操作所需的各种程序和数据。计算单元801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。

设备800中的多个部件连接至I/O接口805，包括：输入单元806，例如键盘、鼠标等；输出单元807，例如各种类型的显示器、扬声器等；存储单元808，例如磁盘、光盘等；以及通信单元809，例如网卡、调制解调器、无线通信收发机等。通信单元809允许设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元801可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元801的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元801执行上文所描述的各个方法和处理，例如路径规划模型的训练方法和/或路径规划方法。例如，在一些实施例中，路径规划模型的训练方法和/或路径规划方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元808。在一些实施例中，计算机程序的部分或者全部可以经由ROM 802和/或通信单元809而被载入和/或安装到设备800上。当计算机程序加载到RAM 803并由计算单元801执行时，可以执行上文描述的路径规划模型的训练方法和/或路径规划方法的一个或多个步骤。备选地，在其他实施例中，计算单元801可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行路径规划模型的训练方法和/或路径规划方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。其中，服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务(″Virtual Private Server″，或简称″VPS″)中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种路径规划模型的训练方法，其中，所述路径规划模型包括编码网络和深度强化学习网络；所述方法包括：

采用所述编码网络对第一样本数据中的第一环境数据进行编码，获得所述第一环境数据的第一特征数据；其中，所述第一样本数据还包括第一实际路径数据；

将所述第一特征数据输入所述深度强化学习网络，得到针对所述第一环境数据的预测路径数据；以及

基于所述第一实际路径数据和针对所述第一环境数据的预测路径数据，对所述编码网络和所述深度强化学习网络进行训练；

其中，所述编码网络是采用第二样本数据预训练得到的，所述第二样本数据包括：所述第一样本数据所属的目标领域的数据，以及除所述目标领域外其他领域的数据。

2.根据权利要求1所述的方法，还包括：通过以下方式预训练所述编码网络：

采用所述编码网络对所述第二样本数据中的第二环境数据编码，得到所述第二环境数据的第二特征数据；所述第二样本数据还包括第二实际路径数据；

采用解码网络解码所述第二特征数据，得到针对所述第二环境数据的预测路径数据；以及

基于所述第二实际路径数据和针对所述第二环境数据的预测路径数据，训练所述编码网络和所述解码网络。

3.根据权利要求2所述的方法，其中，所述编码网络包括基于自注意力机制构建的编码器；所述采用所述编码网络对所述第二样本数据中的第二环境数据编码包括：

确定表示所述第二环境数据的第一嵌入特征和第一位置特征；

拼接所述第一嵌入特征和所述第一位置特征，得到第一拼接特征；以及

将所述第一拼接特征输入所述编码网络，得到所述第二环境数据的第二特征数据。

4.根据权利要求2或3所述的方法，其中，所述解码网络包括基于自注意力机制的解码器；所述解码网络包括自注意力子网络和解码子网络；所述采用解码网络解码所述第二特征数据包括：

基于所述第二实际路径数据和所述第二实际路径数据的位置特征，采用所述自注意力子网络得到查询特征；

基于所述第二特征数据，获得键特征和值特征；以及

基于所述查询特征、所述键特征和所述值特征，采用所述解码子网络得到针对所述第二环境数据的预测路径数据。

5.一种路径规划方法，包括：

采用路径规划模型包括的编码网络对第三环境数据进行编码，获得所述第三环境数据的第三特征数据；以及

将所述第三环境数据输入所述路径规划模型包括的深度强化学习网络，得到针对所述第三环境数据的规划路径数据；

其中，所述路径规划模型是采用权利要求1～4中任一项所述的方法训练得到的。

6.根据权利要求5所述的方法，其中，所述编码网络包括基于注意力机制构建的编码器；所述采用路径规划模型包括的编码网络对第三环境数据进行编码包括：

确定所述第三环境数据的第二嵌入特征和第二位置特征；

拼接所述第二嵌入特征和所述第二位置特征，得到第二拼接特征；以及

将所述第二拼接特征输入所述编码网络，得到所述第三环境数据的第三特征数据。

7.一种路径规划模型的训练装置，其中，所述路径规划模型包括编码网络和深度强化学习网络；所述装置包括：

第一编码模块，用于采用所述编码网络对第一样本数据中的第一环境数据进行编码，获得所述第一环境数据的第一特征数据；其中，所述第一样本数据还包括第一实际路径数据；

第一路径预测模块，用于将所述第一特征数据输入所述深度强化学习网络，得到针对所述第一环境数据的预测路径数据；以及

第一训练模块，用于基于所述第一实际路径数据和针对所述第一环境数据的预测路径数据，对所述编码网络和所述深度强化学习网络进行训练；

8.根据权利要求7所述的装置，还包括第二训练模块，用于预训练所述编码网络；所述第二训练模块包括：

编码子模块，用于采用所述编码网络对所述第二样本数据中的第二环境数据编码，得到所述第二环境数据的第二特征数据；所述第二样本数据还包括第二实际路径数据；

解码子模块，用于采用解码网络解码所述第二特征数据，得到针对所述第二环境数据的预测路径数据；以及

训练子模块，用于基于所述第二实际路径数据和针对所述第二环境数据的预测路径数据，训练所述编码网络和所述解码网络。

9.根据权利要求8所述的装置，其中，所述编码网络包括基于自注意力机制构建的编码器；所述编码子模块包括：

特征确定单元，用于确定表示所述第二环境数据的第一嵌入特征和第一位置特征；

特征拼接单元，用于拼接所述第一嵌入特征和所述第一位置特征，得到第一拼接特征；以及

特征编码单元，用于将所述第一拼接特征输入所述编码网络，得到所述第二环境数据的第二特征数据。

10.根据权利要求8或9所述的装置，其中，所述解码网络包括基于自注意力机制的解码器；所述解码网络包括自注意力子网络和解码子网络；所述解码子模块包括：

第一特征获得单元，用于基于所述第二实际路径数据和所述第二实际路径数据的位置特征，采用所述自注意力子网络得到查询特征；

第二特征获得单元，用于基于所述第二特征数据，获得键特征和值特征；以及

解码单元，用于基于所述查询特征、所述键特征和所述值特征，采用所述解码子网络得到针对所述第二环境数据的预测路径数据。

11.一种路径规划装置，包括：

第三编码模块，用于采用路径规划模型包括的编码网络对第三环境数据进行编码，获得所述第三环境数据的第三特征数据；以及

路径规划模块，用于将所述第三环境数据输入所述路径规划模型包括的深度强化学习网络，得到针对所述第三环境数据的规划路径数据；

其中，所述路径规划模型是采用权利要求7～10中任一项所述的装置训练得到的。

12.根据权利要求11所述的装置，其中，所述编码网络包括基于注意力机制构建的编码器；所述第三编码模块包括：

特征确定子模块，用于确定所述第三环境数据的第二嵌入特征和第二位置特征；

特征拼接子模块，用于拼接所述第二嵌入特征和所述第二位置特征，得到第二拼接特征；以及

特征编码子模块，用于将所述第二拼接特征输入所述编码网络，得到所述第三环境数据的第三特征数据。

13.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1～6中任一项所述的方法。

14.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1～6中任一项所述的方法。

15.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1～6中任一项所述的方法。