CN116412826A

CN116412826A - 路径规划方法、装置、电子设备及存储介质

Info

Publication number: CN116412826A
Application number: CN202111670914.5A
Authority: CN
Inventors: 蔡恒兴; 关珊; 潘幸如; 陆坤; 涂威威
Original assignee: 4Paradigm Beijing Technology Co Ltd
Current assignee: 4Paradigm Beijing Technology Co Ltd
Priority date: 2021-12-31
Filing date: 2021-12-31
Publication date: 2023-07-11

Abstract

本公开关于一种路径规划方法、装置、电子设备及存储介质，所述路径规划方法包括：获取起点、至少一个目标点和当前时间；基于起点、至少一个目标点和当前时间，执行目标搜索策略，得到至少一个目标点中的每个目标点的分数，其中，在目标搜索策略的执行过程中，基于至少一个目标点和当前时间预测每个目标点的第一时间开销，并结合每个目标点的第一时间开销得到每个目标点的分数，其中，第一时间开销是为进入任意一个目标点所付出的等待时间；基于至少一个目标点的分数，从至少一个目标点中确定下一个探访点。根据本公开的路径规划方法、装置、电子设备及存储介质，可在拜访时间一定的情况下，探访更多的目标点，提高了路径规划的实用性。

Description

路径规划方法、装置、电子设备及存储介质

技术领域

本公开涉及数据处理领域，更具体地说，涉及一种路径规划方法、装置、电子设备及存储介质。

背景技术

目前，路径规划技术被广泛应用于诸多领域，例如，可应用于机器人避障、智能交通、无人驾驶等领域。路径规划技术的核心是路径规划算法，不同的路径规划算法所使用的范围和领域也不尽相同，例如，在针对景区游览场景中，存在一些通用的路径规划方法，但这些方法未结合景区的实际情况，导致在实际执行过程中的执行效果不佳。

发明内容

本公开提供一种路径规划方法、装置、电子设备及存储介质，以至少解决上述相关技术中的问题。

根据本公开实施例的第一方面，提供一种路径规划方法，包括：获取起点、至少一个目标点和当前时间；基于所述起点、所述至少一个目标点以及所述当前时间，执行目标搜索策略，得到所述至少一个目标点中的每个目标点的分数，其中，在所述目标搜索策略的执行过程中，基于所述至少一个目标点和所述当前时间预测每个目标点的第一时间开销，并结合每个目标点的第一时间开销得到每个目标点的分数，其中，所述第一时间开销是为进入任意一个目标点所付出的等待时间；基于所述至少一个目标点的分数，从所述至少一个目标点中确定下一个探访点。

可选地，在所述目标搜索策略的执行过程中包括时间开销模型的运用，所述基于所述至少一个目标点和所述当前时间预测每个目标点的第一时间开销，包括：基于所述至少一个目标点和所述当前时间，通过所述时间开销模型，预测每个目标点的第一时间开销。

可选地，所述时间开销模型通过下述操作被预先训练好：获取训练数据集，所述训练数据集包括目标点、第一时间、第一时间开销、以及与所述第一时间开销具有相关性的第一参数，所述第一时间表示任意时间点，所述第一时间开销表示在所述第一时间为进入所述目标点所付出的等待时间；基于所述训练数据集中的各项数据，通过所述时间开销模型，获得估计的第一时间开销；根据所述第一时间开销以及所述估计的第一时间开销计算损失；通过根据所述损失调整所述时间开销模型的模型参数，训练所述时间开销模型。

可选地，所述目标搜索策略为蒙特卡洛树搜索，所述蒙特卡洛树搜索包括第一执行策略和第二执行策略，所述蒙特卡洛树搜索的执行过程包括：从所述至少一个目标点中确定当前目标点；判断所述当前目标点在所述蒙特卡洛树搜索执行过程中的被访问次数；在所述当前目标点的被访问次数为零的情况下，执行所述第一执行策略，获得所述当前目标点的当次访问分数；在所述当前目标点的被访问次数不为零的情况下，执行所述第二执行策略，获得所述当前目标点的当次访问分数。

可选地，所述执行所述第一执行策略，包括：随机生成一组由所述至少一个目标点组成的第一访问序列，其中，所述当前目标点作为所述第一访问序列的第一个访问对象；依次将所述第一访问序列中的每个目标点以及每个目标点对应的更新的当前时间输入所述时间开销模型，获得预测的每个目标点的第一时间开销；根据预测的每个目标点的第一时间开销以及在每个目标点的第二时间开销获取所述第一访问序列的总时间开销，其中，所述第二时间开销为在任意一个目标点的停留时间；根据所述第一访问序列的总时间开销以及所述第一访问序列的参考时间开销，获得所述当前目标点的当次访问分数。

可选地，所述执行所述第二执行策略，包括：获取所述当前目标点的从结点，所述从结点为所述至少一个目标点中除所述当前目标点之外的目标点；从所述从结点中随机选择一个从结点作为第二访问序列中的第一个执行对象，其中，所述第二访问序列中的其他执行对象由所述从结点中除所述第一个执行对象之外的其他从结点组成；依次将所述第二访问序列中的每个从结点以及每个从结点对应的更新的当前时间输入所述时间开销模型，获得预测的每个从结点的第一时间开销；根据预测的每个从结点的第一时间开销以及在每个从结点的第二时间开销获取所述第二访问序列的总时间开销，其中，所述第二时间开销为在任意一个从结点的停留时间；根据所述第二访问序列的总时间开销以及所述第二访问序列的参考时间开销，获得所述第一个执行对象的当次访问分数；将所述第一个执行对象的当次访问分数叠加至所述当前目标点，获得所述当前目标点的当次访问分数。

可选地，所述每个目标点的分数是通过每个目标点在所述蒙特卡洛树搜索执行过程中的被访问次数和历次访问分数得到的。

根据本公开实施例的第二方面，提供一种路径规划装置，包括：参数获取单元，被配置为：获取起点、至少一个目标点和当前时间；分数确定单元，被配置为：基于所述起点、所述至少一个目标点以及所述当前时间，执行目标搜索策略，得到所述至少一个目标点中的每个目标点的分数，其中，在所述目标搜索策略的执行过程中，基于所述至少一个目标点和所述当前时间预测每个目标点的第一时间开销，并结合每个目标点的第一时间开销得到每个目标点的分数，其中，所述第一时间开销是为进入任意一个目标点所付出的等待时间；探访点确定单元，被配置为：基于所述至少一个目标点的分数，从所述至少一个目标点中确定下一个探访点。

可选地，在所述目标搜索策略的执行过程中包括时间开销模型的运用，所述分数确定单元被配置为：基于所述至少一个目标点和所述当前时间，通过所述时间开销模型，预测每个目标点的第一时间开销。

可选地，所述目标搜索策略为蒙特卡洛树搜索，所述蒙特卡洛树搜索包括第一执行策略和第二执行策略，所述分数确定单元被配置为：从所述至少一个目标点中确定当前目标点；判断所述当前目标点在所述蒙特卡洛树搜索执行过程中的被访问次数；在所述当前目标点的被访问次数为零的情况下，执行所述第一执行策略，获得所述当前目标点的当次访问分数；在所述当前目标点的被访问次数不为零的情况下，执行所述第二执行策略，获得所述当前目标点的当次访问分数。

可选地，所述分数确定单元被配置为：随机生成一组由所述至少一个目标点组成的第一访问序列，其中，所述当前目标点作为所述第一访问序列的第一个访问对象；依次将所述第一访问序列中的每个目标点以及每个目标点对应的更新的当前时间输入所述时间开销模型，获得预测的每个目标点的第一时间开销；根据预测的每个目标点的第一时间开销以及在每个目标点的第二时间开销获取所述第一访问序列的总时间开销，其中，所述第二时间开销为在任意一个目标点的停留时间；根据所述第一访问序列的总时间开销以及所述第一访问序列的参考时间开销，获得所述当前目标点的当次访问分数。

可选地，所述分数确定单元被配置为：获取所述当前目标点的从结点，所述从结点为所述至少一个目标点中除所述当前目标点之外的目标点；从所述从结点中随机选择一个从结点作为第二访问序列中的第一个执行对象，其中，所述第二访问序列中的其他执行对象由所述从结点中除所述第一个执行对象之外的其他从结点组成；依次将所述第二访问序列中的每个从结点以及每个从结点对应的更新的当前时间输入所述时间开销模型，获得预测的每个从结点的第一时间开销；根据预测的每个从结点的第一时间开销以及在每个从结点的第二时间开销获取所述第二访问序列的总时间开销，其中，所述第二时间开销为在任意一个从结点的停留时间；根据所述第二访问序列的总时间开销以及所述第二访问序列的参考时间开销，获得所述第一个执行对象的当次访问分数；将所述第一个执行对象的当次访问分数叠加至所述当前目标点，获得所述当前目标点的当次访问分数。

根据本公开实施例的第三方面，提供一种电子设备，包括：至少一个处理器；至少一个存储计算机可执行指令的存储器，其中，所述计算机可执行指令在被所述至少一个处理器运行时，促使所述至少一个处理器执行根据本公开的路径规划方法。

根据本公开实施例的第四方面，提供一种存储指令的计算机可读存储介质，当所述指令被至少一个处理器运行时，促使所述至少一个处理器执行根据本公开的路径规划方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

根据本公开的路径规划方法、装置、电子设备及存储介质，通过结合为进入任意一个目标点所付出的等待时间来执行目标搜索策略，可从至少一个目标点中实时获取下一个探访点，由于考虑了在每个目标点的等待时间，因此根据规划出的路径探访确定的至少一个目标点，整体所花费的时间更少，从而可在探访时间一定的情况下，探访更多的目标点，改善了路径规划在实际场景中的执行效果，提高了路径规划的实用性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是示出根据本公开的示例性实施例的路径规划执行过程的示意图。

图2是示出根据本公开的示例性实施例的路径规划方法的流程图。

图3是示出根据本公开的示例性实施例的训练数据集示意图。

图4是示出根据本公开的示例性实施例的蒙特卡洛树搜索迭代逻辑的示意图。

图5是示出根据本公开的示例性实施例的执行初始化之后的蒙特卡洛树结构的示意图。

图6是示出根据本公开的示例性实施例的执行一次rollout之后的蒙特卡洛树结构的示意图。

图7是示出根据本公开的示例性实施例的对所有叶子结点分别执行一次rollout之后的蒙特卡洛树结构的示意图。

图8是示出根据本公开的示例性实施例的添加子结点之后的蒙特卡洛树结构的示意图。

图9是示出根据本公开的示例性实施例的对当前结点D执行一次探索之后的蒙特卡洛树结构的示意图。

图10是示出根据本公开的示例性实施例的执行一次完整的蒙特卡洛树搜索之后蒙特卡洛树结构的示意图。

图11是示出根据本公开的示例性实施例的路径规划装置的框图。

图12是根据本公开的示例性实施例的电子设备1200的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

在此需要说明的是，在本公开中出现的“若干项之中的至少一项”均表示包含“该若干项中的任意一项”、“该若干项中的任意多项的组合”、“该若干项的全体”这三类并列的情况。例如“包括A和B之中的至少一个”即包括如下三种并列的情况：(1)包括A；(2)包括B；(3)包括A和B。又例如“执行步骤一和步骤二之中的至少一个”，即表示如下三种并列的情况：(1)执行步骤一；(2)执行步骤二；(3)执行步骤一和步骤二。

为解决当前的部分路径规划在实际场景中的执行效果不佳的问题，本公开提出了一种路径规划方法、装置、电子设备及存储介质，具体来讲，通过结合为进入任意一个目标点所付出的等待时间来执行目标搜索策略，可从至少一个目标点中实时获取下一个探访点，由于考虑了在每个目标点的等待时间，因此根据规划出的路径探访确定的至少一个目标点，整体所花费的时间更少，从而可在探访时间一定的情况下，探访更多的目标点，改善了路径规划在实际场景中的执行效果，提高了路径规划的实用性。下面，将参照图1至图12具体描述根据本公开的示例性实施例的路径规划方法、装置、电子设备及存储介质。

参照图1，首先执行步骤101，确定待探访的至少一个目标点和当前时间，然后执行步骤102，执行本公开的路径规划方法，得到推荐的在当前时间优先探访的目标点，接下来，执行步骤103，在探访完推荐的目标点之后，更新待探访的目标点(即，确定剩下的待探访的目标点)和当前时间(即，探访完推荐的目标点后的时间)，接下来，执行步骤104，判断是否存在待探访的目标点，在存在待探访的目标点的情况下，重复执行步骤101～103，每重复执行一次，得到一个在当前时间推荐的优先探访的目标点，直到将确定出的至少一个待探访的目标点全部探访完，结束路径规划。也就是说，本公开示出的路径规划是跟随真实的探访情况实时做出的，每探访完一个目标点，实时提供下一个目标点。

参照图2，在步骤201，可获取起点、至少一个目标点和当前时间。这里，起点是当前所在位置，目标点是待探访的地点，例如，在景区中，起点是游客当前在景区中所处的位置，目标点是游客计划参观的至少一个景点。

在步骤202，可基于起点、至少一个目标点以及当前时间，执行目标搜索策略，得到至少一个目标点中的每个目标点的分数。这里，在目标搜索策略的执行过程中，可基于至少一个目标点和当前时间预测每个目标点的第一时间开销，并结合每个目标点的第一时间开销得到每个目标点的分数，其中，第一时间开销是为进入任意一个目标点所付出的等待时间。

在步骤203，可基于至少一个目标点的分数，从至少一个目标点中确定下一个探访点。

根据本公开的示例性实施例，在目标搜索策略的执行过程中包括时间开销模型的运用，可基于至少一个目标点和当前时间，通过该时间开销模型，得到每个目标点的第一时间开销。具体来讲，可将至少一个目标点中的每个目标点以及每个目标点对应的当前时间直接输入该时间开销模型，得到每个目标点的第一时间开销，或者，可对每个目标点或者其对应的当前时间作预设处理(例如，将当前时间2021-09-01 09:14:20处理为2021-09-0109:15:00等)之后输入该时间开销模型，得到每个目标点的第一时间开销，对此不作限制。时间开销模型可为任意一种可行的机器学习模型或者深度学习模型，例如，随机森林模型、支持向量机模型或者Wide And Deep模型等，对此不作限制。

根据本公开的示例性实施例，时间开销模型可通过下述操作被预先训练好：首先，获取训练数据集，其中，该训练数据集包括目标点、第一时间、第一时间开销、以及与第一时间开销具有相关性的第一参数。这里，第一时间表示任意时间点，第一时间开销表示在该第一时间为进入该目标点所付出的等待时间(例如，在景区中为进入某个景点游玩需要付出的排队时间)，第一参数是对第一时间开销具有影响性的参数，可包括探访该目标点当天的天气、气温、客流量、第一时间对应的星期、第一时间对应的工作日或者休息日、历史时间段内该目标点对应的平均第一时间开销、历史时间段内该目标点对应的最长第一时间开销以及历史时间段内该目标点对应的与第一时间的时刻相同的平均第一时间开销中的至少一个，这里，历史时间段包括在第一时间之前的一小时、一周或者一个月。目标点可以为一个，也可以为多个，示例性地，为获得良好的训练效果，目标点可以为多个。在一些实施例中，训练数据集可以为一张表格，例如，图3是示出根据本公开的示例性实施例的训练数据集示意图，参照图3，统计了景区中的两个景点的相关信息，包括时间(即，第一时间)、当天天气、当天的最高气温和最低气温、在当前时间点对应的客流量以及在第一景点的排队时间(即，第一时间开销)。在一些实施例中，可对训练数据集中的各项数据进行特征处理，得到与各项数据对应的数字形式的特征表达，具体来讲，训练数据集中的多项数据都为文字(例如，星期、工作日等)，为能够在时间开销模型中使用这些数据，需将其处理为数字形式的特征表达。然后，可基于训练数据集中的各项数据，通过时间开销模型，得到估计的第一时间开销，之后，可根据目标点对应的第一时间开销以及估计的第一时间开销，计算损失，这里，损失可通过损失函数来表示，而损失函数可以是常见的衡量两个参数之间差异的函数，例如，MAE(Mean Squared Error，均方误差)函数或者MSE(Mean Absolute Error，平均绝对误差)函数等，对此不作限制。最后，可通过根据损失调整时间开销模型的模型参数，训练时间开销模型。也就是说，可通过损失(例如，通过损失函数计算得到的值)反向传播来调整时间开销模型的模型参数。在模型训练过程中，以最小化损失为目标，迭代地调整(或更新)时间开销模型的模型参数，直至时间开销模型收敛。

根据本公开的示例性实施例，目标搜索策略为蒙特卡洛树搜索，该蒙特卡洛树搜索可包括第一执行策略和第二执行策略，蒙特卡洛树搜索的执行过程可包括：首先，从至少一个目标点中确定当前目标点，然后，判断该当前目标点在蒙特卡洛树搜索执行过程中的被访问次数，在该当前目标点的被访问次数为零的情况下，执行第一执行策略，获得该当前目标点的当次访问分数，在该当前目标点的被访问次数不为零的情况下，执行第二执行策略，获得该当前目标点的当次访问分数。这里，第一执行策略和第二执行策略皆为一次迭代搜索过程中的执行策略，其中，第一执行策略的执行过程可包括：首先，随机生成一组由至少一个目标点组成的第一访问序列，其中，该当前目标点作为第一访问序列的第一个访问对象，然后，依次将第一访问序列中的每个目标点以及每个目标点对应的更新的当前时间输入时间开销模型，获得预测的每个目标点的第一时间开销，之后，根据预测的每个目标点的第一时间开销以及在每个目标点的第二时间开销获取第一访问序列的总时间开销，其中，第二时间开销为在任意一个目标点的停留时间，最后，根据第一访问序列的总时间开销以及第一访问序列的参考时间开销(例如，可通过统计数据得到)，获得该当前目标点的当次访问分数。第二执行策略的执行过程可包括：首先，获取该当前目标点的从结点，其中，从结点为至少一个目标点中除该当前目标点之外的目标点，然后，从确定出的从结点中随机选择一个从结点作为第二访问序列中的第一个执行对象，这里，第二访问序列中的其他执行对象由确定出的从结点中除第一个执行对象之外的其他从结点组成，也就是说，第一个执行对象处于第二访问序列的首位，而第二访问序列中剩下的执行对象由确定出的从结点中除第一个执行对象之外的其他从结点随机生成。依次将第二访问序列中的每个从结点以及每个从结点对应的更新的当前时间输入时间开销模型，获得预测的每个从结点的第一时间开销，之后，根据预测的每个从结点的第一时间开销以及在每个从结点的第二时间开销获取第二访问序列的总时间开销，这里，第二时间开销同样为在任意一个从结点的停留时间，最后，根据第二访问序列的总时间开销以及第二访问序列的参考时间开销，获得第一个执行对象的当次访问分数，将第一个执行对象的当次访问分数叠加至该当前目标点，可获得当前目标点的当次访问分数。按照第一执行策略和第二执行策略迭代执行多次至最终状态(例如，达到目标迭代次数)，可得到每个目标点的累计访问分数(即，历次访问分数的加和)，根据该累计访问分数和每个目标点的被访问次数，可得到每个目标点在本次蒙特卡洛树搜索中的分数(例如，将每个目标点的累计访问分数与每个目标点的被访问次数相除)，即，每个目标点的分数是通过每个目标点在蒙特卡洛树搜索执行过程中的被访问次数和历次访问分数得到的。

在另一些实施例中，目标搜索策略也可以是随机搜索，例如遗传算法、模拟退火算法等，对此不作限制。

为使本公开的方案得到清晰的展示，下面结合具体的实施场景来具体描述本公开示出的路径规划方法。

参照图4，针对在景区中进行路径规划而言，在开始搜索之前，首先执行初始化，将起点作为蒙特卡洛树搜索过程中的根结点，并枚举起点对应的所有可能的景点(即，目标点)，这里，例如可能游览的景点有4个，分别为A、B、C和D，将所有可能的景点添加到根结点之下，作为叶子结点。对每一个结点做一个标记，标记包含两个数值Q和N，Q表示当前结点在搜索过程中的分数，N表示当前结点在搜索过程中的被访问次数，在初始化过程中，Q和N皆为0，初始化之后的蒙特卡洛树结构可如图5所示，图5是示出根据本公开的示例性实施例的执行初始化之后的蒙特卡洛树结构的示意图。然后，将起点作为当前结点，判断当前结点是否为叶子结点，如果不是，则更新当前结点，更新方法可以是将UCB(Upper ConfidenceBound，上限置信区间)值最大的叶子结点更新为当前结点，如果存在多个UCB值最大且相等时，从UCB值相等的叶子结点中随机选择一个叶子结点作为当前结点。这里，UCB值，例如，但不限于，可通过公式(1)得到：

其中，

表示某结点的平均分数；c为常数，通常取1；N表示总的探索次数(即，被访问次数，其值为起点处的N)；n_i表示当前结点的探索次数。

如果当前结点是叶子结点，则判断该当前结点的探索次数(即，被访问次数)，在探索次数为0的情况下，直接执行一次rollout，得到当前结点的分数(即，执行第一搜索策略)。这里，rollout是指尝试一次可能的路径规划方案。例如，在图5中，将起点作为当前结点开始执行搜索，此时当前结点不是叶子结点，计算出A、B、C和D四个叶子结点的UCB值均为0，则随机选择出A作为新的当前结点，此时当前结点是叶子结点，则继续判断A的N值为0，从A结点开始执行一次rollout，得到A的分数为30，此时，将A的Q记为30，N记为1，并将A的Q值和N值反向传播至起点，此时蒙特卡洛树中的标记改变，其结果可如图6所示，图6是示出根据本公开的示例性实施例的执行一次rollout之后的蒙特卡洛树结构的示意图。这里，rollout的具体执行过程为：随机生成一组景点游览序列，其中，将当前结点A设置为该序列中的第一个探访的景点，序列中的其他探访景点随机生成，例如，随机生成的景点游览序列为A→C→B→D。假设当前时间为10:00，将当前时间和景点A输入时间开销模型，得到景点A的排队时间(即，第一时间开销)为30分钟，而统计的景点A的游玩时间为70分钟(即，第二时间开销)，则景点A共耗时100分钟，然后更新当前时间为11:40(10:00过100分钟之后)，同样利用时间开销模型预测景点C的排队时间为20分钟，游玩时间为100分钟，则景点C共耗时120分钟，再次更新当前时间为13:40(11:40过120分钟之后)，利用时间开销模型预测13:40时景点B的排队时间并加上景点B的游玩时间，假设总共耗时110分钟，再次更新当前时间为14:50(13:40过110分钟之后)，利用时间开销模型预测14:50时景点D的排队时间并加上景点D的游玩时间，假设为120分钟，此时游览完毕。计算该景点游览序列的总时间为450分钟(100+120+110+120)，而统计的游览A、B、C、D四个景点总共耗时为480分钟(即，参考时间开销)，则当前游览序列的分数为30(480-450)，本次rollout执行完毕。需要说明的是，在本次rollout结束之后，再次从根结点开始执行搜索，此时叶子结点A的UCB值为30，叶子结点B、C、D的探索次数为0，故根据UCB值的计算公式，叶子结点B、C、D的UCB值为无穷大，因此从B、C、D中随机选择C作为当前结点，执行与前述的A作为当前结点时相同的操作，可得到叶子结点C的分数，同理，可得到叶子结点B和D的分数，此时，蒙特卡洛树中的标记可如图7所示，图7是示出根据本公开的示例性实施例的对所有叶子结点分别执行一次rollout之后的蒙特卡洛树结构的示意图，参照图7，此时，B的N和Q分别为1和10，C的N和Q分别为1和20，D的N和Q分别为1和40，起点的N和Q分别为4和100。

返回参照图4，同样从根结点开始执行搜索，判断当前结点不是叶子结点，则计算各叶子结点的UCB值，例如，参照图7示出的各叶子结点的N和Q，可得A、B、C、D的UCB值分别为31.17、11.17、21.17、41.17，则将UCB值最大的D点更新为当前结点。判断当前结点D的探索次数不为0，则执行第二执行策略，枚举当前结点D所有可能的子结点，并添加到蒙特卡洛树之中，这里，所有可能的子结点为A、B、C，此时，添加了子结点之后的蒙特卡洛树结构可如图8所示，图8是示出根据本公开的示例性实施例的添加子结点之后的蒙特卡洛树结构的示意图。之后，可从A、B、C中随机选择一个子结点(即，第二访问序列中的第一个执行对象)执行rollout，这里rollout过程与前述类似，首先将随机选择的子结点B作为第一个探访景点，随后的探访景点随机生成，例如，此时的景点游览序列为B→C→A，按照前述介绍的rollout流程依次确定该序列中每个景点对应的游览耗时，并与参考耗时相减，得到本次rollout的分数，例如为15，将该分数以及探访次数反向传播至当前结点D和起点，其结果可如图9所示，图9是示出根据本公开的示例性实施例的对当前结点D执行一次探索之后的蒙特卡洛树结构的示意图。

按照图4的迭代逻辑迭代目标次数(例如，1000次)，可得到本次蒙特卡洛树搜索的最终结果，例如，可如图10所示，图10是示出根据本公开的示例性实施例的执行一次完整的蒙特卡洛树搜索之后蒙特卡洛树结构的示意图。参照图10，起点对应的4个叶子结点A、B、C、D的平均分数分别为15、13.33、15、25。因此，在起点处，给用户推荐的下一个景点为景点D。

在检测到用户游览完景点D之后，可将景点D作为新的起点，将游览完景点D时的时间确定为新的当前时间，将剩下的景点A、B、C作为新起点的所有可能的叶子结点，再次执行蒙特卡洛树搜索，得到下一个推荐景点(例如A),以此类推，每游览完一个景点，实时推荐下一个景点，直到将景点游览完毕。

参照图11，根据本公开的示例性实施例的路径规划装置1100可包括参数获取单元1101、分数确定单元1102和探访点确定单元1103。

参数获取单元1101可获取起点、至少一个目标点和当前时间。分数确定单元1102可基于起点、至少一个目标点以及当前时间，执行目标搜索策略，得到至少一个目标点中的每个目标点的分数，这里，在目标搜索策略的执行过程中，可基于至少一个目标点和当前时间预测每个目标点的第一时间开销，并结合每个目标点的第一时间开销得到每个目标点的分数，第一时间开销是为进入任意一个目标点所付出的等待时间。探访点确定单元1103可基于至少一个目标点的分数，从至少一个目标点中确定下一个探访点。

根据本公开的示例性实施例，在目标搜索策略的执行过程中包括时间开销模型的运用，分数确定单元1102可基于至少一个目标点和当前时间，通过该时间开销模型，预测每个目标点的第一时间开销。这里，时间开销模型可以为任意一种可行的机器学习模型或者深度学习模型，例如，随机森林模型、支持向量机模型或者Wide And Deep模型等，对此不作限制。在一些实施例中，时间开销模型可通过下述操作被预先训练好：首先，获取训练数据集，其中，该训练数据集包括目标点、第一时间、第一时间开销、以及与第一时间开销具有相关性的第一参数。这里，第一时间表示任意时间点，第一时间开销表示在该第一时间为进入该目标点所付出的等待时间，第一参数是对第一时间开销具有影响性的参数，可包括拜访该目标点当天的天气、气温、客流量、第一时间对应的星期、第一时间对应的工作日或者休息日、历史时间段内该目标点对应的平均第一时间开销、历史时间段内该目标点对应的最长第一时间开销以及历史时间段内该目标点对应的与第一时间的时刻相同的平均第一时间开销中的至少一个，这里，历史时间段包括在第一时间之前的一小时、一周或者一个月。目标点可以为一个，也可以为多个，示例性地，为获得良好的训练效果，目标点可以为多个。在一些实施例中，训练数据集可以为一张表格，例如，图3是示出根据本公开的示例性实施例的训练数据集示意图，参照图3，统计了景区中的两个景点的相关信息，包括时间(即，第一时间)、当天天气、当天的最高气温和最低气温、在当前时间点对应的客流量以及在第一景点的排队时间(即，第一时间开销)。在一些实施例中，可对训练数据集中的各项数据进行特征处理，得到与各项数据对应的数字形式的特征表达，具体来讲，训练数据集中的多项数据都为文字(例如，星期、工作日等)，为能够在时间开销模型中使用这些数据，需将其处理为数字形式的特征表达。然后，可基于训练数据集中的各项数据，通过时间开销模型，得到估计的第一时间开销，之后，可根据目标点对应的第一时间开销以及估计的第一时间开销，计算损失，这里，损失可通过损失函数来表示，而损失函数可以是常见的衡量两个参数之间差异的函数，例如，MAE(Mean Squared Error，均方误差)函数或者MSE(Mean AbsoluteError，平均绝对误差)函数等，对此不作限制。最后，可通过根据损失调整时间开销模型的模型参数，训练时间开销模型。也就是说，可通过损失(例如，通过损失函数计算得到的值)反向传播来调整时间开销模型的模型参数。在模型训练过程中，以最小化损失为目标，迭代地调整(或更新)时间开销模型的模型参数，直至时间开销模型收敛。

根据本公开的示例性实施例，目标搜索策略为蒙特卡洛树搜索，该蒙特卡洛树搜索包括第一执行策略和第二执行策略，分数确定单元1102可首先从至少一个目标点中确定当前目标点，然后，判断该当前目标点在蒙特卡洛树搜索执行过程中的被访问次数，在该当前目标点的被访问次数为零的情况下，执行第一执行策略，获得该当前目标点的当次访问分数，而在该当前目标点的被访问次数不为零的情况下，执行第二执行策略，获得该当前目标点的当次访问分数。这里，第一执行策略和第二执行策略皆为一次迭代搜索过程中的执行策略，其中，分数确定单元1102在执行第一执行策略时可随机生成一组由至少一个目标点组成的第一访问序列，其中，该当前目标点作为第一访问序列的第一个访问对象，然后，依次将第一访问序列中的每个目标点以及每个目标点对应的更新的当前时间输入时间开销模型，获得预测的每个目标点的第一时间开销，之后，根据预测的每个目标点的第一时间开销以及在每个目标点的第二时间开销获取第一访问序列的总时间开销，其中，第二时间开销为在任意一个目标点的停留时间，最后，根据第一访问序列的总时间开销以及第一访问序列的参考时间开销(例如，可通过统计数据得到)，获得该当前目标点的当次访问分数。而分数确定单元1102在执行第二执行策略时可获取该当前目标点的从结点，其中，从结点为至少一个目标点中除该当前目标点之外的目标点，然后，从确定出的从结点中随机选择一个从结点作为第二访问序列中的第一个执行对象，这里，第二访问序列中的其他执行对象由确定出的从结点中除第一个执行对象之外的其他从结点组成，也就是说，第一个执行对象处于第二访问序列的首位，而第二访问序列中剩下的执行对象由确定出的从结点中除第一个执行对象之外的其他从结点随机生成。依次将第二访问序列中的每个从结点以及每个从结点对应的更新的当前时间输入时间开销模型，获得预测的每个从结点的第一时间开销，之后，根据预测的每个从结点的第一时间开销以及在每个从结点的第二时间开销获取第二访问序列的总时间开销，这里，第二时间开销同样为在任意一个从结点的停留时间，最后，根据第二访问序列的总时间开销以及第二访问序列的参考时间开销，获得第一个执行对象的当次访问分数，将第一个执行对象的当次访问分数叠加至该当前目标点，可获得当前目标点的当次访问分数。分数确定单元1102可迭代执行多次第一执行策略和第二执行策略至最终状态(例如，达到目标迭代次数)，从而得到每个目标点的累计访问分数(即，历次访问分数的加和)，根据该累计访问分数和每个目标点的被访问次数，可得到每个目标点在本次蒙特卡洛树搜索中的分数(例如，将每个目标点的累计访问分数与每个目标点的访问次数相除)，即，每个目标点的分数是通过每个目标点在蒙特卡洛树搜索执行过程中的被访问次数和历次访问分数得到的。

图12是根据本公开的示例性实施例的电子设备1200的框图。

参照图12，电子设备1200包括至少一个存储器1201和至少一个处理器1202，所述至少一个存储器1201中存储有计算机可执行指令集合，当计算机可执行指令集合被至少一个处理器1202执行时，执行根据本公开的示例性实施例的路径规划方法。

作为示例，电子设备1200可以是PC计算机、平板装置、个人数字助理、智能手机、或其他能够执行上述指令集合的装置。这里，电子设备1200并非必须是单个的电子设备，还可以是任何能够单独或联合执行上述指令(或指令集)的装置或电路的集合体。电子设备1200还可以是集成控制系统或系统管理器的一部分，或者可被配置为与本地或远程(例如，经由无线传输)以接口互联的便携式电子设备。

在电子设备1200中，处理器1202可包括中央处理器(CPU)、图形处理器(GPU)、可编程逻辑装置、专用处理器系统、微控制器或微处理器。作为示例而非限制，处理器还可包括模拟处理器、数字处理器、微处理器、多核处理器、处理器阵列、网络处理器等。

处理器1202可运行存储在存储器1201中的指令或代码，其中，存储器1201还可以存储数据。指令和数据还可经由网络接口装置而通过网络被发送和接收，其中，网络接口装置可采用任何已知的传输协议。

存储器1201可与处理器1202集成为一体，例如，将RAM或闪存布置在集成电路微处理器等之内。此外，存储器1201可包括独立的装置，诸如，外部盘驱动、存储阵列或任何数据库系统可使用的其他存储装置。存储器1201和处理器1202可在操作上进行耦合，或者可例如通过I/O端口、网络连接等互相通信，使得处理器1202能够读取存储在存储器中的文件。

此外，电子设备1200还可包括视频显示器(诸如，液晶显示器)和用户交互接口(诸如，键盘、鼠标、触摸输入装置等)。电子设备1200的所有组件可经由总线和/或网络而彼此连接。

根据本公开的示例性实施例，还可提供一种存储指令的计算机可读存储介质，其中，当指令被至少一个处理器运行时，促使至少一个处理器执行根据本公开的路径规划方法。这里的计算机可读存储介质的示例包括：只读存储器(ROM)、随机存取可编程只读存储器(PROM)、电可擦除可编程只读存储器(EEPROM)、随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、闪存、非易失性存储器、CD-ROM、CD-R、CD+R、CD-RW、CD+RW、DVD-ROM、DVD-R、DVD+R、DVD-RW、DVD+RW、DVD-RAM、BD-ROM、BD-R、BD-R LTH、BD-RE、蓝光或光盘存储器、硬盘驱动器(HDD)、固态硬盘(SSD)、卡式存储器(诸如，多媒体卡、安全数字(SD)卡或极速数字(XD)卡)、磁带、软盘、磁光数据存储装置、光学数据存储装置、硬盘、固态盘以及任何其他装置，所述任何其他装置被配置为以非暂时性方式存储计算机程序以及任何相关联的数据、数据文件和数据结构并将所述计算机程序以及任何相关联的数据、数据文件和数据结构提供给处理器或计算机使得处理器或计算机能执行所述计算机程序。上述计算机可读存储介质中的计算机程序可在诸如客户端、主机、代理装置、服务器等计算机设备中部署的环境中运行，此外，在一个示例中，计算机程序以及任何相关联的数据、数据文件和数据结构分布在联网的计算机系统上，使得计算机程序以及任何相关联的数据、数据文件和数据结构通过一个或多个处理器或计算机以分布式方式存储、访问和执行。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种路径规划方法，其特征在于，包括：

获取起点、至少一个目标点和当前时间；

基于所述起点、所述至少一个目标点以及所述当前时间，执行目标搜索策略，得到所述至少一个目标点中的每个目标点的分数，其中，在所述目标搜索策略的执行过程中，基于所述至少一个目标点和所述当前时间预测每个目标点的第一时间开销，并结合每个目标点的第一时间开销得到每个目标点的分数，其中，所述第一时间开销是为进入任意一个目标点所付出的等待时间；

基于所述至少一个目标点的分数，从所述至少一个目标点中确定下一个探访点。

2.如权利要求1所述的路径规划方法，其特征在于，在所述目标搜索策略的执行过程中包括时间开销模型的运用，所述基于所述至少一个目标点和所述当前时间预测每个目标点的第一时间开销，包括：

基于所述至少一个目标点和所述当前时间，通过所述时间开销模型，预测每个目标点的第一时间开销。

3.如权利要求2所述的路径规划方法，其特征在于，所述时间开销模型通过下述操作被预先训练好：

获取训练数据集，所述训练数据集包括目标点、第一时间、第一时间开销、以及与所述第一时间开销具有相关性的第一参数，所述第一时间表示任意时间点，所述第一时间开销表示在所述第一时间为进入所述目标点所付出的等待时间；

基于所述训练数据集中的各项数据，通过所述时间开销模型，获得估计的第一时间开销；

根据所述第一时间开销以及所述估计的第一时间开销计算损失；

通过根据所述损失调整所述时间开销模型的模型参数，训练所述时间开销模型。

4.如权利要求2所述的路径规划方法，其特征在于，所述目标搜索策略为蒙特卡洛树搜索，所述蒙特卡洛树搜索包括第一执行策略和第二执行策略，所述蒙特卡洛树搜索的执行过程包括：

从所述至少一个目标点中确定当前目标点；

判断所述当前目标点在所述蒙特卡洛树搜索执行过程中的被访问次数；

在所述当前目标点的被访问次数为零的情况下，执行所述第一执行策略，获得所述当前目标点的当次访问分数；

在所述当前目标点的被访问次数不为零的情况下，执行所述第二执行策略，获得所述当前目标点的当次访问分数。

5.如权利要求4所述的路径规划方法，其特征在于，所述执行所述第一执行策略，包括：

随机生成一组由所述至少一个目标点组成的第一访问序列，其中，所述当前目标点作为所述第一访问序列的第一个访问对象；

依次将所述第一访问序列中的每个目标点以及每个目标点对应的更新的当前时间输入所述时间开销模型，获得预测的每个目标点的第一时间开销；

根据预测的每个目标点的第一时间开销以及在每个目标点的第二时间开销获取所述第一访问序列的总时间开销，其中，所述第二时间开销为在任意一个目标点的停留时间；

根据所述第一访问序列的总时间开销以及所述第一访问序列的参考时间开销，获得所述当前目标点的当次访问分数。

6.如权利要求4所述的路径规划方法，其特征在于，所述执行所述第二执行策略，包括：

获取所述当前目标点的从结点，所述从结点为所述至少一个目标点中除所述当前目标点之外的目标点；

从所述从结点中随机选择一个从结点作为第二访问序列中的第一个执行对象，其中，所述第二访问序列中的其他执行对象由所述从结点中除所述第一个执行对象之外的其他从结点组成；

依次将所述第二访问序列中的每个从结点以及每个从结点对应的更新的当前时间输入所述时间开销模型，获得预测的每个从结点的第一时间开销；

根据预测的每个从结点的第一时间开销以及在每个从结点的第二时间开销获取所述第二访问序列的总时间开销，其中，所述第二时间开销为在任意一个从结点的停留时间；

根据所述第二访问序列的总时间开销以及所述第二访问序列的参考时间开销，获得所述第一个执行对象的当次访问分数；

将所述第一个执行对象的当次访问分数叠加至所述当前目标点，获得所述当前目标点的当次访问分数。

7.如权利要求4至6任一权利要求所述的路径规划方法，其特征在于，所述每个目标点的分数是通过每个目标点在所述蒙特卡洛树搜索执行过程中的被访问次数和历次访问分数得到的。

8.一种路径规划装置，其特征在于，包括：

参数获取单元，被配置为：获取起点、至少一个目标点和当前时间；

分数确定单元，被配置为：基于所述起点、所述至少一个目标点以及所述当前时间，执行目标搜索策略，得到所述至少一个目标点中的每个目标点的分数，其中，在所述目标搜索策略的执行过程中，基于所述至少一个目标点和所述当前时间预测每个目标点的第一时间开销，并结合每个目标点的第一时间开销得到每个目标点的分数，其中，所述第一时间开销是为进入任意一个目标点所付出的等待时间；

探访点确定单元，被配置为：基于所述至少一个目标点的分数，从所述至少一个目标点中确定下一个探访点。

9.一种电子设备，其特征在于，包括：

至少一个处理器；

至少一个存储计算机可执行指令的存储器，

其中，所述计算机可执行指令在被所述至少一个处理器运行时，促使所述至少一个处理器执行如权利要求1至7中的任一权利要求所述的路径规划方法。

10.一种存储指令的计算机可读存储介质，其特征在于，当所述指令被至少一个处理器运行时，促使所述至少一个处理器执行如权利要求1至7中的任一权利要求所述的路径规划方法。