CN116011693A

CN116011693A - 一种路径确定方法、装置、计算机设备和存储介质

Info

Publication number: CN116011693A
Application number: CN202310098690.8A
Authority: CN
Inventors: 谢海琴; 谈晟; 吴佳霖; 盛国军
Original assignee: Haier Digital Technology Qingdao Co Ltd; Haier Digital Technology Shanghai Co Ltd; Cosmoplat Industrial Intelligent Research Institute Qingdao Co Ltd
Current assignee: Haier Digital Technology Qingdao Co Ltd; Haier Digital Technology Shanghai Co Ltd; Cosmoplat Industrial Intelligent Research Institute Qingdao Co Ltd
Priority date: 2023-02-06
Filing date: 2023-02-06
Publication date: 2023-04-25

Abstract

本发明公开了一种路径确定方法、装置、计算机设备和存储介质，该方法包括：对当前运输环境进行状态表示，得到当前运输环境状态；将当前运输环境中的当前运输环境状态输入预先训练好的规则确定模型，以使规则确定模型根据当前运输环境状态，将第一插入规则、第二插入规则、第三插入规则或者第四插入规则中奖励值最大的确定为当前插入规则；基于当前插入规则在当前运输环境的未排布运输网点中确定待插入运输网点，并基于当前插入规则将待插入运输网点插入当前初始运输路径，得到目标运输路径。上述技术方案，解决运算量过大的问题，降低计算复杂度，缩短路径确定所需时间。

Description

一种路径确定方法、装置、计算机设备和存储介质

技术领域

本发明涉及路径确定技术领域，尤其涉及一种路径确定方法、装置、计算机设备和存储介质。

背景技术

对象(行人、车辆等)从一个空间点运动至另一个空间点时，可能存在多条可行的路径，这些路径的距离可能不同，在一些应用场景中，需要从多条路径中确定出最短路径，对运动路线进行优化。旅行商问题(traveling salesman problem，TSP)是组合优化领域的经典问题，核心是寻求遍历所有路径规划需求点的最小路径成本。

现有技术中，针对待确定路径的起始空间点和目的空间点，可以通过确定多个路径中每条路径的中间点是否属于已确定的同一最短路径来确定起始空间点和目的空间点的最短路径。

然而，现实生活中的旅行商问题规模较大，路径数量较多，求解过程中需要确定的中间点个数也较多，运算量过大，计算过程复杂，路径确定所需要的时间较长。

发明内容

本发明提供了一种路径确定方法、装置、计算机设备和存储介质，以解决路径确定中运算量过大的问题，降低计算复杂度，缩短路径确定所需时间。

根据本发明的一方面，提供了一种路径确定方法，包括：

对当前运输环境进行状态表示，得到当前运输环境状态，所述当前运输环境状态包括所述当前运输环境中已排布运输网点在所有运输网点中的占比，以及由所述已排布运输网点构成的当前初始运输路径的结构参数；

将所述当前运输环境中的当前运输环境状态输入预先训练好的规则确定模型，以使所述规则确定模型根据所述当前运输环境状态，将第一插入规则、第二插入规则、第三插入规则或者第四插入规则中奖励值最大的确定为当前插入规则；

基于所述当前插入规则在所述当前运输环境的未排布运输网点中确定待插入运输网点，并基于所述当前插入规则将所述待插入运输网点插入所述当前初始运输路径，得到目标运输路径。

进一步地，对运输环境状态进行表示，并构建奖励函数，得到待训练的规则确定模型，所述运输环境状态包括已排布运输网点在所有运输网点中的占比，以及由已排布运输网点构成的初始运输路径的结构参数；

对所述待训练的规则确定模型进行模型训练，使其学习到用于获得最大奖励值的规则确定策略，得到训练好的规则确定模型。

进一步地，所述初始运输路径的结构参数包括已排布运输网点中点的中介中心性、已排布运输网点中点到其他运输网点的距离的平均值的倒数、已排布运输网点中点的度中心性、已排布运输网点中点的特征向量中心性。

进一步地，所述第一插入规则为：将任一未排布运输网点插入任意两个相邻已排布运输网点之间；

所述第二插入规则为：将与所有已排布运输网点的距离最近的未排布运输网点插入任意两个相邻已排布运输网点之间；

所述第三插入规则为：将与所有已排布运输网点的距离最远的未排布运输网点插入任意两个相邻已排布运输网点之间；

所述第四插入规则为：将任一未排布运输网点插入任意两个已排布运输网点之间。

进一步地，所述奖励函数是由目标运输路径和所述初始运输路径的距离差值确定的。

进一步地，将所述当前运输环境中的当前运输环境状态输入预先训练好的规则确定模型，以使所述规则确定模型根据所述当前运输环境状态，将第一插入规则、第二插入规则、第三插入规则或者第四插入规则中奖励值最大的确定为当前插入规则，包括：

按照所述第一插入规则将任一未排布运输网点插入任意两个相邻已排布运输网点之间，得到第一运输路径，并根据所述第一运输路径和所述当前初始运输路径的距离差值确定第一奖励值；

按照所述第二插入规则将与所有已排布运输网点的距离最近的未排布运输网点插入任意两个相邻已排布运输网点之间，得到第二运输路径，并根据所述第二运输路径和所述当前初始运输路径的距离差值确定第二奖励值；

按照所述第三插入规则将与所有已排布运输网点的距离最远的未排布运输网点插入任意两个相邻已排布运输网点之间，得到第三运输路径，并根据所述第三运输路径和所述当前初始运输路径的距离差值确定第三奖励值；

按照所述第四插入规则将任一未排布运输网点插入任意两个已排布运输网点之间，得到第四运输路径，并根据所述第四运输路径和所述当前初始运输路径的距离差值确定第四奖励值；

比较所述第一奖励值、所述第二奖励值、所述第三奖励值和所述第四奖励值，并将最大奖励值对应的插入规则确定为当前插入规则。

进一步地，根据所述第一运输路径和所述当前初始运输路径的距离差值确定第一奖励值，包括：

将所述第一运输路径和所述当前初始运输路径的距离差值的相反数确定为所述第一奖励值；

根据所述第二运输路径和所述当前初始运输路径的距离差值确定第二奖励值，包括：

将所述第二运输路径和所述当前初始运输路径的距离差值的相反数确定为所述第二奖励值；

根据所述第三运输路径和所述当前初始运输路径的距离差值确定第三奖励值，包括：

将所述第三运输路径和所述当前初始运输路径的距离差值的相反数确定为所述第三奖励值；

根据所述第四运输路径和所述当前初始运输路径的距离差值确定第四奖励值，包括：

将所述第四运输路径和所述当前初始运输路径的距离差值的相反数确定为所述第四奖励值。

根据本发明的另一方面，提供了一种路径确定装置，包括：

状态确定模块，用于对当前运输环境进行状态表示，得到当前运输环境状态，所述当前运输环境状态包括所述当前运输环境中已排布运输网点在所有运输网点中的占比，以及由所述已排布运输网点构成的当前初始运输路径的结构参数；

规则确定模块，用于将所述当前运输环境中的当前运输环境状态输入预先训练好的规则确定模型，以使所述规则确定模型根据所述当前运输环境状态，将第一插入规则、第二插入规则、第三插入规则或者第四插入规则中奖励值最大的确定为当前插入规则；

路径确定模块，用于基于所述当前插入规则在所述当前运输环境的未排布运输网点中确定待插入运输网点，并基于所述当前插入规则将所述待插入运输网点插入所述当前初始运输路径，得到目标运输路径。

根据本发明的另一方面，提供了一种计算机设备，所述计算机设备包括：

至少一个处理器；以及与所述至少一个处理器通信连接的存储器；

其中，所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例所述的路径确定方法。

根据本发明的另一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使处理器执行时实现本发明任一实施例所述的路径确定方法。

本发明的技术方案，提供一种路径确定方法，包括：对当前运输环境进行状态表示，得到当前运输环境状态，当前运输环境状态包括当前运输环境中已排布运输网点在所有运输网点中的占比，以及由已排布运输网点构成的当前初始运输路径的结构参数；将当前运输环境中的当前运输环境状态输入预先训练好的规则确定模型，以使规则确定模型根据当前运输环境状态，将第一插入规则、第二插入规则、第三插入规则或者第四插入规则中奖励值最大的确定为当前插入规则；基于当前插入规则在当前运输环境的未排布运输网点中确定待插入运输网点，并基于当前插入规则将待插入运输网点插入当前初始运输路径，得到目标运输路径。上述技术方案，首先可以将运输环境状态作为深度强度学习模型的输入信息，将奖励函数作为深度强化学习模型的损失函数，可以构建用于确定任一运输环境状态下的运输网点插入规则的规则确定模型，其次可以对待训练的规则确定模型进行模型训练，得到的训练后的规则确定模型可以学习到将最大奖励值对应的插入规则确定为目标插入规则，可以用于根据当前运输环境状态确定运输网点插入所用的当前插入规则，进而可以将当前运输环境状态输入训练后的规则确定模型，训练后的规则确定模型可以确定当前运输环境状态下，将未排布运输网点插入初始运输路径所用的当前插入规则，进而可以基于当前插入规则在未排布运输网点中确定当前待插入运输网点，并基于当前插入规则将当前待插入运输网点插入初始运输路径，得到目标运输路径，训练好的规则确定模型降低了当前插入规则确定过程中大量计算所消耗的时间，加快了当前插入规则确定的速度，解决了路径确定过程中运算量过大的问题，进一步降低路径确定的计算复杂度，缩短路径确定所需要的时间。

应当理解，本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征，也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。

附图说明

为了更清楚地说明本发明中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本实施例一提供的一种路径确定方法的流程图；

图2是根据本实施例二提供的一种路径确定方法的流程图；

图3是根据本实施例三提供的一种路径确定装置的结构示意图；

图4是实现本实施例四提供的一种计算机设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

实施例一

图1为本实施例一提供的一种路径确定方法的流程图，本实施例可适用于旅行商问题规模较大且求解过程中需要大量的迭代过程情况，该方法可以由路径确定装置来执行，该路径确定装置可以采用硬件和/或软件的形式实现，该路径确定装置可配置于计算机设备中。如图1所示，该方法包括：

S110、对当前运输环境进行状态表示，得到当前运输环境状态。

其中，当前运输环境状态包括当前运输环境中已排布运输网点在所有运输网点中的占比，以及由已排布运输网点构成的当前初始运输路径的结构参数。

可选地，对运输环境状态进行表示，并构建奖励函数，得到待训练的规则确定模型。规则确定模型可以为深度强化学习模型，深度强化学习模型具备灵活的奖励机制和强大的学习能力，其中的奖励可以集成多种目标，从而确定损失最优化的目标。

具体地，需要对运输环境状态进行表示，以及确定构建规则确定模型所需的奖励函数。具体而言，运输环境状态下存在多个运输网点，运输网点可以为已排布运输网点或者未排布运输网点。对运输环境状态进行表示可以理解为确定已排布运输网点在所有运输网点中的占比，以及确定由已排布运输网点构成的初始运输路径的结构参数。其中，初始运输路径的结构参数可以包括初始运输路径中已排布运输网点中点的中介中心性、已排布运输网点中点到其他运输网点的距离的平均值的倒数、已排布运输网点中点的度中心性、已排布运输网点中点的特征向量中心性。奖励函数可以理解为目标运输路径和初始运输路径的距离差值的相反数，奖励值越大说明目标运输路径相对于初始运输路径增加的距离越小。

进而，可以将运输环境状态作为深度强化学习模型的输入信息，将奖励函数作为深度强化学习模型的损失函数，实现构建规则确定模型，此时构建的规则确定模型为待训练的规则确定模型。

待训练的规则确定模型中可以内置有多种插入规则，例如，可以内置有第一插入规则、第二插入规则、第三插入规则和第四插入规则。所述第一插入规则为：将任一未排布运输网点插入任意两个相邻已排布运输网点之间；所述第二插入规则为：将与所有已排布运输网点的距离最近的未排布运输网点插入任意两个相邻已排布运输网点之间；所述第三插入规则为：将与所有已排布运输网点的距离最远的未排布运输网点插入任意两个相邻已排布运输网点之间；所述第四插入规则为：将任一未排布运输网点插入任意两个已排布运输网点之间。

基于任一种插入规则将未排布运输网点插入初始运输路径得到目标运输路径之后，存在一个目标运输路径相对于初始运输路径的距离差值。由前述步骤可知，奖励函数为目标运输路径和初始运输路径的距离差值的相反数。

本实施例中，将运输环境状态作为深度强度学习模型的输入信息，将奖励函数作为深度强化学习模型的损失函数，可以构建用于确定任一运输环境状态下的运输网点插入规则的规则确定模型，待训练的规则确定模型中可以内置有多种插入规则。

S120、将当前运输环境中的当前运输环境状态输入预先训练好的规则确定模型，以使规则确定模型根据当前运输环境状态，将第一插入规则、第二插入规则、第三插入规则或者第四插入规则中奖励值最大的确定为当前插入规则。

具体地，可以对待训练的规则确定模型进行训练，具体可以将训练运输环境状态和训练插入规则作为输入信息输入待训练的规则确定模型，训练插入规则可以理解为基于该插入规则将未排布运输网点插入初始运输路径时，得到的目标运输路径相对于初始运输路径的距离差值的相反数最大。待训练的规则确定模型可以确定基于多种插入规则将未排布运输网点插入初始运输路径时，得到的多种目标运输路径相对于初始运输路径的距离差值的相反数，即得到多种奖励值。此时待训练的规则确定模型的精确度较低，难以将最大奖励值对应的插入规则确定为目标插入规则。因此，可以基于输入至待训练的规则确定模型的训练插入规则对其确定的目标插入规则进行修正，实现对待训练的规则确定模型的参数的更新，得到训练后的规则确定模型。

具体而言，确定历史运输环境状态，以及将历史运输环境状态中各历史未排布运输网点的插入历史初始运输路径时对应的历史奖励值。将多个历史运输环境状态及其对应的历史奖励值作为训练数据集对待训练的规则确定模型进行训练。可以将多个历史运输环境状态及其对应的历史奖励值作为训练数据集输入待训练的规则确定模型中，待训练的规则确定模型可以基于内置的四种插入规则确定历史运输环境状态中的历史未排布运输网点以及基于各种插入规则将历史未排布运输网点插入历史初始运输路径后对应的四种奖励值，并将最大奖励值确定为训练奖励值。基于训练奖励值和历史奖励值计算损失函数；基于反向传播算法进行模型优化，直至损失函数收敛，得到训练后的规则确定模型。

训练后的规则确定模型已经学习到了将最大奖励值对应的插入规则确定为目标插入规则，因此，训练后的规则确定模型可以用于根据当前运输环境状态确定运输网点插入所用的当前插入规则。

具体地，将当前运输环境状态输入训练后的规则确定模型后，规则确定模型可以基于第一插入规则确定各未排布运输网点的第一上一运输网点和第一下一运输网点，也可以基于第二插入规则确定各未排布运输网点的第二上一运输网点和第二下一运输网点，也可以基于第三插入规则确定各未排布运输网点的第三上一运输网点和第三下一运输网点，也可以基于第四插入规则确定各未排布运输网点的第四上一运输网点和第四下一运输网点。进而，可以确定未排布运输网点按照第一插入规则插入初始运输路径得到目标运输路径后，目标运输路径相对于初始运输路径增加的第一距离，并根据第一距离确定第一奖励值；确定未排布运输网点按照第二插入规则插入初始运输路径得到目标运输路径后，目标运输路径相对于初始运输路径增加的第二距离，并根据第二距离确定第二奖励值；确定未排布运输网点按照第三插入规则插入初始运输路径得到目标运输路径后，目标运输路径相对于初始运输路径增加的第三距离，并根据第三距离确定第三奖励值；确定未排布运输网点按照第四插入规则插入初始运输路径得到目标运输路径后，目标运输路径相对于初始运输路径增加的第四距离，并根据第四距离确定第四奖励值。未排布运输网点按照插入规则插入初始运输路径得到目标运输路径后，目标运输路径相对于初始运输路径增加的距离越小，即奖励值越大，表明该插入规则越合适。因此，比较第一奖励值、第二奖励值、第三奖励值和第四奖励值，并将最大奖励值对应的插入规则确定为当前插入规则。

本实施例中，对待训练的规则确定模型进行模型训练得到的训练后的规则确定模型可以学习到将最大奖励值对应的插入规则确定为目标插入规则，可以用于根据运输环境状态确定运输网点插入所用的插入规则。将当前运输环境状态输入训练后的规则确定模型，训练后的规则确定模型可以确定当前运输环境状态下，将未排布运输网点插入初始运输路径所用的当前插入规则，进而可以基于当前插入规则将未排布运输网点插入初始运输路径，降低路径确定的计算复杂度，缩短路径确定所需要的时间。

S130、基于当前插入规则在当前运输环境的未排布运输网点中确定待插入运输网点，并基于当前插入规则将待插入运输网点插入当前初始运输路径，得到目标运输路径。

具体地，当前插入规则为第一插入规则时，将任一未排布运输网点确定为当前待插入运输网点，并将当前待插入运输网点插入任意两个相邻已排布运输网点之间，根据初始运输路径以及当前待插入运输网点与任意两个相邻已排布运输网点之间的路径确定目标运输路径。当前插入规则为第二插入规则时，将与所有已排布运输网点的距离最近的未排布运输网点确定为当前待插入运输网点，并将当前待插入运输网点插入任意两个相邻已排布运输网点之间，根据初始运输路径以及当前待插入运输网点与任意两个相邻已排布运输网点之间的路径确定目标运输路径。当前插入规则为第三插入规则时，将与所有已排布运输网点的距离最远的未排布运输网点确定为当前待插入运输网点，并将当前待插入运输网点插入任意两个相邻已排布运输网点之间，根据初始运输路径以及当前待插入运输网点与任意两个相邻已排布运输网点之间的路径确定目标运输路径。当前插入规则为第四插入规则时，将任一未排布运输网点确定为当前待插入运输网点，并将当前待插入运输网点插入任意两个已排布运输网点之间，根据初始运输路径以及当前待插入运输网点与任意两个已排布运输网点之间的路径确定目标运输路径。

本实施例中，在根据训练好的规则确定模型确定当前插入规则后，可以基于当前插入规则在未排布运输网点中确定当前待插入运输网点，并基于当前插入规则将当前待插入运输网点插入初始运输路径，得到目标运输路径，实现路径确定。

本实施例提供的路径确定方法，包括：对当前运输环境进行状态表示，得到当前运输环境状态，当前运输环境状态包括当前运输环境中已排布运输网点在所有运输网点中的占比，以及由已排布运输网点构成的当前初始运输路径的结构参数；将当前运输环境中的当前运输环境状态输入预先训练好的规则确定模型，以使规则确定模型根据当前运输环境状态，将第一插入规则、第二插入规则、第三插入规则或者第四插入规则中奖励值最大的确定为当前插入规则；基于当前插入规则在当前运输环境的未排布运输网点中确定待插入运输网点，并基于当前插入规则将待插入运输网点插入当前初始运输路径，得到目标运输路径。上述技术方案，首先可以将运输环境状态作为深度强度学习模型的输入信息，将奖励函数作为深度强化学习模型的损失函数，可以构建用于确定任一运输环境状态下的运输网点插入规则的规则确定模型，其次可以对待训练的规则确定模型进行模型训练，得到的训练后的规则确定模型可以学习到将最大奖励值对应的插入规则确定为目标插入规则，可以用于根据当前运输环境状态确定运输网点插入所用的当前插入规则，进而可以将当前运输环境状态输入训练后的规则确定模型，训练后的规则确定模型可以确定当前运输环境状态下，将未排布运输网点插入初始运输路径所用的当前插入规则，进而可以基于当前插入规则在未排布运输网点中确定当前待插入运输网点，并基于当前插入规则将当前待插入运输网点插入初始运输路径，得到目标运输路径，训练好的规则确定模型降低了当前插入规则确定过程中大量计算所消耗的时间，加快了当前插入规则确定的速度，解决了路径确定过程中运算量过大的问题，进一步降低路径确定的计算复杂度，缩短路径确定所需要的时间。

实施例二

图2为本实施例二提供的一种路径确定方法的流程图，进一步说明本实施例提供的路径确定方法。如图2所示，该方法包括：

步骤210、对运输环境状态进行表示。

一种实施方式中，步骤210具体可以包括：

根据已排布运输网点确定初始运输路径；根据所述已排布运输网点的占比以及所述初始运输路径的结构参数确定运输环境状态。

其中，所述初始运输路径的结构参数包括已排布运输网点中点的中介中心性、已排布运输网点中点到其他运输网点的距离的平均值的倒数、已排布运输网点中点的度中心性、已排布运输网点中点的特征向量中心性。

具体地，可以根据已排运输网点数与总运输网点数的比值已排布运输网点的占比

其中，n_t表示初始运输路径中已排运输网点的数量，n表示总运输网点数量；可以确定已排运输网点中点的中介中心性

其中，i、j表示初始运输路径中任意两个运输网点，k表示已排运输网点中点，d_i→k→j表示运输网点i到运输网点k到运输网点j的距离，V表示初始运输路径中已排运输网点数量；可以确定已排运输网点中点到其他运输网点的距离的平均值的倒数

其中，V表示初始运输路径中已排运输网点数量，i表示初始运输路径中任意一个运输网点，k表示已排运输网点中点，d_ik为运输网点i到运输网点k点的距离；可以确定已排运输网点中点的度中心性

其中，N_degree表示已排运输网点中点的度，n表示总运输网点数量；可以确定已排运输网点中点的特征向量中心性

其中，c为比例常数，n表示总运输网点数量，i、j表示初始运输路径中任意两个运输网点，a_ij表示矩阵，x_j表示运输网点j的重要性。

本实施例中，通过已排布运输网点的占比以及初始运输路径的结构参数实现对运输环境状态的表示。

步骤220、构建奖励函数。

其中，奖励函数是由目标运输路径和初始运输路径的差值确定的。

具体地,确定当前待插入运输网点插入初始运输路径得到目标运输路径后，增加的距离为d_ik+d_kj-d_ij，其中，d_ik表示目标运输路径中已排布运输网点i与当前待插入运输网点k之间的距离，d_kj表示目标运输路径中已排布运输网点j与当前待插入运输网点k之间的距离，d_ij表示初始运输路径中已排布运输网点i与j之间的距离，d_ik+d_kj-d_ij表示将当前待插入运输网点插入初始运输路径得到目标运输路径后，目标运输路径相比于初始运输路径所增加的距离。确定奖励函数为-(d_ik+d_kj-d_ij)，奖励函数可以理解为将当前待插入运输网点插入初始运输路径得到目标运输路径后，目标运输路径相比于初始运输路径所增加的距离的相反数，奖励值越大，目标运输路径相比于初始运输路径所增加的距离越小，插入规则越符合实际需求。

本实施例中，根据当前待插入运输网点插入初始运输路径得到的目标运输路径相比于初始运输路径所增加的距离可以构建奖励函数。

步骤230、根据运输环境状态和奖励函数，构建待训练的规则确定模型。

步骤240、对待训练的规则确定模型进行模型训练，使其学习到用于获得最大奖励值的规则确定策略，得到训练好的规则确定模型。

可以基于第一插入规则确定各未排布运输网点的第一上一运输网点和第一下一运输网点，也可以基于第二插入规则确定各未排布运输网点的第二上一运输网点和第二下一运输网点，也可以基于第三插入规则确定各未排布运输网点的第三上一运输网点和第三下一运输网点，也可以基于第四插入规则确定各未排布运输网点的第四上一运输网点和第四下一运输网点。进而，可以确定未排布运输网点按照第一插入规则插入时增加的第一距离，并确定第一奖励值，可以确定未排布运输网点按照第二插入规则插入时增加的第二距离，并确定第二奖励值，确定未排布运输网点按照第三插入规则插入时增加的第三距离，并确定第三奖励值，确定未排布运输网点按照第四插入规则插入时增加的第四距离，并确定第四奖励值。未排布运输网点按照插入规则插入时增加的距离越小，表明该插入规则越合适。本申请中的训练后的规则确定模型已经学习到将最大奖励值对应的插入规则确定为目标插入规则的规则确定策略，因此，可以基于训练后的规则确定模型确定运输环境状态对应的插入规则。

本实施例中，对待训练的规则确定模型进行模型训练得到的训练后的规则确定模型可以学习到将最大奖励值对应的插入规则确定为目标插入规则，可以用于根据运输环境状态确定运输网点插入所用的插入规则。

步骤250、将当前运输环境中的当前运输环境状态输入预先训练好的规则确定模型，以使规则确定模型根据当前运输环境状态，将第一插入规则、第二插入规则、第三插入规则或者第四插入规则中奖励值最大的确定为当前插入规则。

其中，所述第一插入规则为：将任一未排布运输网点插入任意两个相邻已排布运输网点之间；所述第二插入规则为：将与所有已排布运输网点的距离最近的未排布运输网点插入任意两个相邻已排布运输网点之间；所述第三插入规则为：将与所有已排布运输网点的距离最远的未排布运输网点插入任意两个相邻已排布运输网点之间；所述第四插入规则为：将任一未排布运输网点插入任意两个已排布运输网点之间。

一种实施方式中，步骤250具体可以包括：

按照所述第一插入规则将任一未排布运输网点插入任意两个相邻已排布运输网点之间，得到第一运输路径，并根据所述第一运输路径和所述初始运输路径的差值确定第一奖励值；按照所述第二插入规则将与所有已排布运输网点的距离最近的未排布运输网点插入任意两个相邻已排布运输网点之间，得到第二运输路径，并根据所述第二运输路径和所述初始运输路径的差值确定第二奖励值；按照所述第三插入规则将与所有已排布运输网点的距离最远的未排布运输网点插入任意两个相邻已排布运输网点之间，得到第三运输路径，并根据所述第三运输路径和所述初始运输路径的差值确定第三奖励值；按照所述第四插入规则将任一未排布运输网点插入任意两个已排布运输网点之间，得到第四运输路径，并根据所述第四运输路径和所述初始运输路径的差值确定第四奖励值；比较所述第一奖励值、所述第二奖励值、所述第三奖励值和所述第四奖励值，并将最大奖励值对应的插入规则确定为当前插入规则。

具体地，基于第一插入规则确定各未排布运输网点的第一上一运输网点和第一下一运输网点，再根据第一上一运输网点和第一下一运输网点确定未排布运输网点按照第一插入规则插入初始运输路径得到的第一运输路径的第一距离；基于第二插入规则确定各未排布运输网点的第二上一运输网点和第二下一运输网点，再根据第二上一运输网点和第二下一运输网点确定未排布运输网点按照第二插入规则插入初始运输路径得到的第二运输路径的第二距离；基于第三插入规则确定各未排布运输网点的第三上一运输网点和第三下一运输网点，再根据第三上一运输网点和第三下一运输网点确定未排布运输网点按照第三插入规则插入初始运输路径得到的第三运输路径的第三距离；基于第四插入规则确定当前时刻各未排布运输网点的第四上一运输网点和第四下一运输网点，再根据第四上一运输网点和第四下一运输网点确定未排布运输网点按照第四插入规则插入初始运输路径得到的第四运输路径的第四距离。

可选的，根据所述第一运输路径和所述初始运输路径的差值确定第一奖励值，包括：将所述第一运输路径和所述初始运输路径的差值的相反数确定为所述第一奖励值。

可选的，根据所述第二运输路径和所述初始运输路径的差值确定第二奖励值，包括：将所述第二运输路径和所述初始运输路径的差值的相反数确定为所述第二奖励值。

可选的，根据所述第三运输路径和所述初始运输路径的差值确定第三奖励值，包括：将所述第三运输路径和所述初始运输路径的差值的相反数确定为所述第三奖励值。

可选的，根据所述第四运输路径和所述初始运输路径的差值确定第四奖励值，包括：将所述第四运输路径和所述初始运输路径的差值的相反数确定为所述第四奖励值。

进而，可以比较第一奖励值、第二奖励值、第三奖励值和第四奖励值，并将最大奖励值对应的插入规则确定为当前插入规则。

本实施例中，将当前运输环境状态输入训练后的规则确定模型，训练后的规则确定模型可以确定当前运输环境状态下，将未排布运输网点插入初始运输路径所用的当前插入规则，以基于当前插入规则将未排布运输网点插入初始运输路径，降低路径确定的计算复杂度，缩短路径确定所需要的时间。

步骤260、基于当前插入规则在当前运输环境的未排布运输网点中确定待插入运输网点，并基于当前插入规则将待插入运输网点插入当前初始运输路径，得到目标运输路径。

在通过规则确定模型确定当前插入规则后，基于当前插入规则在未排布运输网点中确定当前待插入运输网点，以将任一未排布运输网点，与所有已排布运输网点的距离最近的未排布运输网点，或者，与所有已排布运输网点的距离最远的未排布运输网点确定为当前待插入运输网点，进而，可以基于当前插入规则将当前插入规则插入任意两个相邻已排布运输网点之间，或者，任意两个已排布运输网点之间，得到目标运输路径。

实施例三

图3为本实施例三提供的一种路径确定装置的结构示意图，该装置可以适用于执行本实施例提供的路径确定方法。解决了运算量过大的问题，降低了计算复杂度，缩短了路径确定所需要的时间。该装置可以通过软件和/或硬件实现，并一般集成在计算机设备中。

如图3所示，该装置包括：

状态确定模块310，用于对当前运输环境进行状态表示，得到当前运输环境状态，所述当前运输环境状态包括所述当前运输环境中已排布运输网点在所有运输网点中的占比，以及由所述已排布运输网点构成的当前初始运输路径的结构参数；

规则确定模块320，用于将所述当前运输环境中的当前运输环境状态输入预先训练好的规则确定模型，以使所述规则确定模型根据所述当前运输环境状态，将第一插入规则、第二插入规则、第三插入规则或者第四插入规则中奖励值最大的确定为当前插入规则；

路径确定模块330，用于基于所述当前插入规则在所述当前运输环境的未排布运输网点中确定待插入运输网点，并基于所述当前插入规则将所述待插入运输网点插入所述当前初始运输路径，得到目标运输路径。

本实施例提供的路径确定装置，通过对当前运输环境进行状态表示，得到当前运输环境状态，当前运输环境状态包括当前运输环境中已排布运输网点在所有运输网点中的占比，以及由已排布运输网点构成的当前初始运输路径的结构参数；将当前运输环境中的当前运输环境状态输入预先训练好的规则确定模型，以使规则确定模型根据当前运输环境状态，将第一插入规则、第二插入规则、第三插入规则或者第四插入规则中奖励值最大的确定为当前插入规则；基于当前插入规则在当前运输环境的未排布运输网点中确定待插入运输网点，并基于当前插入规则将待插入运输网点插入当前初始运输路径，得到目标运输路径。上述技术方案，首先可以将运输环境状态作为深度强度学习模型的输入信息，将奖励函数作为深度强化学习模型的损失函数，可以构建用于确定任一运输环境状态下的运输网点插入规则的规则确定模型，其次可以对待训练的规则确定模型进行模型训练，得到的训练后的规则确定模型可以学习到将最大奖励值对应的插入规则确定为目标插入规则，可以用于根据当前运输环境状态确定运输网点插入所用的当前插入规则，进而可以将当前运输环境状态输入训练后的规则确定模型，训练后的规则确定模型可以确定当前运输环境状态下，将未排布运输网点插入初始运输路径所用的当前插入规则，进而可以基于当前插入规则在未排布运输网点中确定当前待插入运输网点，并基于当前插入规则将当前待插入运输网点插入初始运输路径，得到目标运输路径，训练好的规则确定模型降低了当前插入规则确定过程中大量计算所消耗的时间，加快了当前插入规则确定的速度，解决了路径确定过程中运算量过大的问题，进一步降低路径确定的计算复杂度，缩短路径确定所需要的时间。

可选的，状态确定模块310，具体用于：对运输环境状态进行表示，并构建奖励函数，得到待训练的规则确定模型，所述运输环境状态包括已排布运输网点在所有运输网点中的占比，以及由已排布运输网点构成的初始运输路径的结构参数；

可选的，所述初始运输路径的结构参数包括已排布运输网点中点的中介中心性、已排布运输网点中点到其他运输网点的距离的平均值的倒数、已排布运输网点中点的度中心性、已排布运输网点中点的特征向量中心性。

可选的，所述第一插入规则为：将任一未排布运输网点插入任意两个相邻已排布运输网点之间；所述第二插入规则为：将与所有已排布运输网点的距离最近的未排布运输网点插入任意两个相邻已排布运输网点之间；所述第三插入规则为：将与所有已排布运输网点的距离最远的未排布运输网点插入任意两个相邻已排布运输网点之间；所述第四插入规则为：将任一未排布运输网点插入任意两个已排布运输网点之间。

可选的，所述奖励函数是由目标运输路径和所述初始运输路径的距离差值确定的。

可选的，规则确定模块320，具体用于：按照所述第一插入规则将任一未排布运输网点插入任意两个相邻已排布运输网点之间，得到第一运输路径，并根据所述第一运输路径和所述当前初始运输路径的距离差值确定第一奖励值；按照所述第二插入规则将与所有已排布运输网点的距离最近的未排布运输网点插入任意两个相邻已排布运输网点之间，得到第二运输路径，并根据所述第二运输路径和所述当前初始运输路径的距离差值确定第二奖励值；按照所述第三插入规则将与所有已排布运输网点的距离最远的未排布运输网点插入任意两个相邻已排布运输网点之间，得到第三运输路径，并根据所述第三运输路径和所述当前初始运输路径的距离差值确定第三奖励值；按照所述第四插入规则将任一未排布运输网点插入任意两个已排布运输网点之间，得到第四运输路径，并根据所述第四运输路径和所述当前初始运输路径的距离差值确定第四奖励值；比较所述第一奖励值、所述第二奖励值、所述第三奖励值和所述第四奖励值，并将最大奖励值对应的插入规则确定为当前插入规则。

可选的，根据所述第一运输路径和所述当前初始运输路径的距离差值确定第一奖励值，包括：将所述第一运输路径和所述当前初始运输路径的距离差值的相反数确定为所述第一奖励值；根据所述第二运输路径和所述当前初始运输路径的距离差值确定第二奖励值，包括：将所述第二运输路径和所述当前初始运输路径的距离差值的相反数确定为所述第二奖励值；根据所述第三运输路径和所述当前初始运输路径的距离差值确定第三奖励值，包括：将所述第三运输路径和所述当前初始运输路径的距离差值的相反数确定为所述第三奖励值；根据所述第四运输路径和所述当前初始运输路径的距离差值确定第四奖励值，包括：将所述第四运输路径和所述当前初始运输路径的距离差值的相反数确定为所述第四奖励值。

本实施例所提供的路径确定装置可执行本发明任意实施例所提供的路径确定方法，具备执行方法相应的功能模块和有益效果。

值得注意的是，上述路径确定装置的实施例中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

实施例四

图4是实现本实施例四提供的一种计算机设备的结构示意图。计算机设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备(如头盔、眼镜、手表等)和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本发明的实现。

如图4所示，计算机设备4包括至少一个处理器11，以及与至少一个处理器11通信连接的存储器，如只读存储器(ROM)12、随机访问存储器(RAM)13等，其中，存储器存储有可被至少一个处理器执行的计算机程序，处理器11可以根据存储在只读存储器(ROM)12中的计算机程序或者从存储单元18加载到随机访问存储器(RAM)13中的计算机程序，来执行各种适当的动作和处理。在RAM 13中，还可存储计算机设备4操作所需的各种程序和数据。处理器11、ROM 12以及RAM 13通过总线14彼此相连。输入/输出(I/O)接口15也连接至总线14。

计算机设备4中的多个部件连接至I/O接口15，包括：输入单元16，例如键盘、鼠标等；输出单元17，例如各种类型的显示器、扬声器等；存储单元18，例如磁盘、光盘等；以及通信单元19，例如网卡、调制解调器、无线通信收发机等。通信单元19允许计算机设备4通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

处理器11可以是各种具有处理和计算能力的通用和/或专用处理组件。处理器11的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的处理器、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。处理器11执行上文所描述的各个方法和处理，例如路径确定方法。

在一些实施例中，路径确定方法可被实现为计算机程序，其被有形地包含于计算机可读存储介质，例如存储单元18。在一些实施例中，计算机程序的部分或者全部可以经由ROM 12和/或通信单元19而被载入和/或安装到计算机设备4上。当计算机程序加载到RAM13并由处理器11执行时，可以执行上文描述的路径确定方法的一个或多个步骤。备选地，在其他实施例中，处理器11可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行路径确定方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本发明的方法的计算机程序可以采用一个或多个编程语言的任何组合来编写。这些计算机程序可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器，使得计算机程序当由处理器执行时使流程图和/或框图中所规定的功能/操作被实施。计算机程序可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本发明的上下文中，计算机可读存储介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的计算机程序。计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。备选地，计算机可读存储介质可以是机器可读信号介质。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在电子设备上实施此处描述的系统和技术，该电子设备具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给电子设备。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)、区块链网络和互联网。

计算系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务中，存在的管理难度大，业务扩展性弱的缺陷。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发明中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本发明的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

Claims

1.一种路径确定方法，其特征在于，包括：

2.根据权利要求1所述的路径确定方法，其特征在于，还包括：

对运输环境状态进行表示，并构建奖励函数，得到待训练的规则确定模型，所述运输环境状态包括已排布运输网点在所有运输网点中的占比，以及由已排布运输网点构成的初始运输路径的结构参数；

3.根据权利要求2所述的路径确定方法，其特征在于，所述初始运输路径的结构参数包括已排布运输网点中点的中介中心性、已排布运输网点中点到其他运输网点的距离的平均值的倒数、已排布运输网点中点的度中心性、已排布运输网点中点的特征向量中心性。

4.根据权利要求3所述的路径确定方法，其特征在于，

所述第一插入规则为：将任一未排布运输网点插入任意两个相邻已排布运输网点之间；

5.根据权利要求4所述的路径确定方法，其特征在于，所述奖励函数是由目标运输路径和所述初始运输路径的距离差值确定的。

6.根据权利要求5所述的路径确定方法，其特征在于，将所述当前运输环境中的当前运输环境状态输入预先训练好的规则确定模型，以使所述规则确定模型根据所述当前运输环境状态，将第一插入规则、第二插入规则、第三插入规则或者第四插入规则中奖励值最大的确定为当前插入规则，包括：

7.根据权利要求6所述的路径确定方法，其特征在于，

根据所述第一运输路径和所述当前初始运输路径的距离差值确定第一奖励值，包括：

8.一种路径确定装置，其特征在于，包括：

9.一种计算机设备，其特征在于，所述计算机设备包括：

其中，所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-7中任一项所述的路径确定方法。

10.一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1-7中任一所述的路径确定方法。