CN112525213A

CN112525213A - Eta的预测方法、模型训练方法、装置及存储介质

Info

Publication number: CN112525213A
Application number: CN202110183799.2A
Authority: CN
Inventors: 姜正申
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-02-10
Filing date: 2021-02-10
Publication date: 2021-03-19
Anticipated expiration: 2041-02-10
Also published as: CN112525213B

Abstract

本申请实施例提供了一种ETA的预测方法、模型训练方法、装置及存储介质，涉及机器学习技术、地图、智慧交通、智慧出行等应用领域。该方法包括：获取目标用户在当前时间步的行程特征；行程特征包括当前时间步对应的时刻以及剩余导航路线的路线特征；将目标用户在当前时间步的行程特征输入至预先训练的ETA预测模型，获得当前时间步的ETA；预测模型在训练时的奖励函数的输入包括训练样本的ATA以及每一时间步的历史预测ETA序列；每一时间步的预测ETA是根据预测模型的策略函数在强化学习过程中根据每一时间步的行程特征预测出的ETA的概率分布获得的。本申请实施例考虑行程不断变化对ETA预测的影响，预测结果更加准确。

Description

ETA的预测方法、模型训练方法、装置及存储介质

技术领域

本申请涉及机器学习技术领域，具体而言，本申请涉及一种ETA的预测方法、模型训练方法、装置及存储介质。

背景技术

预计到达时间（Estimated Time of Arrival, ETA）是地图软件中的一个基础功能，它所完成的功能是：给定地图上的一条路线和出发时间，预估出走完这条路线所需要的时间。

目前预测ETA最常用的算法包括基于规则的逐路段累加方法和基于树模型的方法，其中：

基于规则的逐路段累加方法依赖人工经验，根据每个路段的长度、速度、红绿灯等状况，估计出每个路段的通过时间，再加上每个路口的通过时间，这样累加起来，就构成了整条路线的总时间。这种方法对人工经验的依赖很强，并且，现实路况十分复杂，人为设定的规则无法覆盖各种情形，导致给出的时间常常不准。更关键的是，这种方法将各路段的预估时间进行累加，因此每个路段预估时间的误差也会进行累积，这就使得最终结果很难取得令人满意的准确率。

基于树模型的方法先提取出整条路线的特征，例如全程总路程、出发时刻的全程平均速度、全程红绿灯总数、全程拥堵里程占比等，然后将这些特征输入到基于树模型的机器学习算法中，进行训练。目前，这一类算法中最常用的就是梯度提升决策树（GradientBoosting Decision Tree, GBDT）算法。这类算法的问题是，它只考虑了路线的整体特征，而忽略了各路段的特征。然而，现实当中，某一个路段的极度拥堵，对整条路线的到达时间影响巨大，只考虑整体特征会导致预测ETA不准确。

发明内容

本发明实施例提供一种克服上述问题或者至少部分地解决上述问题的ETA的预测方法、模型训练方法、装置、电子设备及存储介质。

第一方面，提供了一种预计到达时间ETA的预测方法，该方法包括：

获取目标用户在当前时间步的行程特征；行程特征包括当前时间步对应的时刻以及剩余导航路线的路线特征；

将目标用户在当前时间步的行程特征输入至预先训练的ETA预测模型，获得ETA预测模型输出的当前时间步的ETA；

其中，ETA预测模型在训练时的奖励函数的输入包括训练样本的实际到达时间ATA以及每一时间步的历史预测ETA序列，奖励函数的输出用于表征对每一时间步的预测ETA的准确性的评价结果；

历史预测ETA序列包括每一时间步之前的至少一个时间步的预测ETA；每一时间步的预测ETA是根据ETA预测模型的策略函数在强化学习过程中根据每一时间步的行程特征预测出的ETA的概率分布获得的。

在一个可能的实现方式中，将所述目标用户在当前时间步的行程特征输入至预先训练的ETA预测模型，获得所述ETA预测模型输出的所述当前时间步的ETA，包括：

对所述当前时间步的行程特征进行编码，获得当前时间步的特征向量；

将所述当前时间步的特征向量输入至所述策略函数，获得所述策略函数输出的当前时间步的ETA的概率分布；

根据所述当前时间步的ETA的概率分布进行采样，根据采样结果，得到当前时间步的ETA。

在一个可能的实现方式中，训练后的ETA预测模型通过如下方式训练得到：

获取训练样本的每一时间步的行程特征以及ATA；

将每一时间步的行程特征输入至待训练的ETA预测模型的策略函数，获得策略函数输出的每一时间步的ETA的概率分布；

根据ETA的概率分布进行采样，获得每一时间步的预测ETA；

根据ATA以及每一时间步的历史预测ETA序列输入奖励值函数，获得奖励值函数输出的每一时间步的奖励值；

根据每一时间步的奖励值以及预测ETA的概率分布，对策略函数的参数进行训练，将训练完成的策略函数作为训练后的ETA预测模型。

在一个可能的实现方式中，根据ATA以及每一时间步的历史预测ETA序列输入奖励值函数，获得奖励值函数输出的每一时间步的奖励值，包括：

将每一时间步的预测ETA与ATA输入至奖励值函数，获得奖励值函数输出的每一时间步的预测ETA的准确性奖励值；准确性奖励值用于表征每一时间步的预测ETA的准确程度；

将每一时间步的预测ETA与历史预测ETA序列输入至奖励值函数，获得奖励值函数输出的每一时间步的平稳性奖励值；平稳性奖励值用于表征每一时间步的预测ETA相对于历史预测ETA序列的平稳下降程度；

结合每一时间步的准确性奖励值和平稳性奖励值，获得每一时间步的奖励值。

在一个可能的实现方式中，根据每一时间步的奖励值以及预测ETA的概率分布，对策略函数的参数进行训练，包括：

根据每一时间步之后的所有时间步的奖励值之和，获得每一时间步的累加奖励值；

根据每一时间步的累加奖励值以及ETA的概率分布，通过梯度下降法对策略函数的参数进行训练。

在一个可能的实现方式中，对策略函数的参数进行训练，包括：

将策略函数的所有参数划分为第一组参数和第二组参数，第一组参数和第二组参数中不存在相同的参数；

根据行程特征生成特征向量；

根据特征向量与第一组参数的内积拟合正态分布的均值，根据特征向量与第二组参数的内积拟合正态分布的标准差，以完成对策略函数的参数的训练。

在一个可能的实现方式中，行程特征还包括当前时间步之前的各时间步的ETA。

在一个可能的实现方式中，每一时间步的准确性奖励值通过以下方式获得：

根据每一时间步对应的时刻以及ATA，确定每一时间步的剩余导航路线的实际耗时；

确定每一时间步的预测ETA与剩余导航路线的实际耗时的差值，根据差值获得每一时间步的准确性奖励值。

在一个可能的实现方式中，每一时间步的平稳性奖励值通过以下方式获得：

对于每一时间步之前的至少一个时间步中的任意一个时间步，确定任意一个时间步与任意一个时间步相邻的前一个时间步的预测ETA间的大小关系；

若确定任意一个时间步的预测ETA大于任意一个时间步相邻的前一个时间步的预测ETA，则任意一时间步的平稳性奖励子值为第一预设值；若确定任意一个时间步的预测ETA不大于任意一个时间步相邻的前一个时间步的预测ETA，则每一时间步的平稳性奖励子值为第二预设值，第一预设值小于第二预设值；

根据每一时间步之前的至少一个时间步中的所有时间步的平稳性奖励子值，获得每一时间步的平稳性奖励值。

在一个可能的实现方式中，剩余导航路线的路线特征包括剩余里程、平均限速、平均实时车速、拥堵里程和畅通里程中的一种或多种。

第二方面，提供一种ETA预测模型的训练方法，包括：

获取至少一个训练样本，所述训练样本包括一次历史导航过程中每一时间步的行程特征以及ATA；

将所述训练样本中所述每一时间步的行程特征输入至待训练的ETA预测模型的策略函数，获得所述策略函数输出的所述每一时间步的ETA的概率分布；

根据所述ETA的概率分布进行采样，获得所述每一时间步的预测ETA；

根据所述训练样本中的ATA以及每一时间步的历史预测ETA序列输入奖励值函数，获得所述奖励值函数输出的所述每一时间步的奖励值；

根据所述每一时间步的奖励值以及预测ETA的概率分布，对所述策略函数的参数进行训练，将训练完成的策略函数作为训练后的ETA预测模型。

第三方面，提供了一种预计到达时间ETA的预测装置，包括：

行程特征获取模块，用于获取目标用户在当前时间步的行程特征；行程特征包括当前时间步对应的时刻以及剩余导航路线的路线特征；

预测模块，用于将目标用户在当前时间步的行程特征输入至预先训练的ETA预测模型，获得ETA预测模型输出的当前时间步的ETA；

其中，ETA预测模型的奖励函数的输入包括训练样本的实际到达时间ATA以及每一时间步的历史预测ETA序列，历史预测ETA序列包括每一时间步之前的至少一个时间步的预测ETA；

每一时间步的预测ETA是根据ETA预测模型的策略函数在强化学习过程中根据每一时间步的行程特征预测出的ETA的概率分布获得的。

在一个可能的实现方式中，预测模块包括：

编码子模块，用于对当前时间步的行程特征进行编码，获得当前时间步的特征向量；

概率预测子模块，用于将当前时间步的特征向量输入至策略函数，获得策略函数输出的当前时间步的ETA的概率分布；

ETA预测子模块，用于根据当前时间步的ETA的概率分布进行采样，获得当前时间步的ETA。

在一个可能的实现方式中，预计到达时间ETA的预测装置还包括ETA预测模型训练模块，ETA预测模型训练模块包括：

样本获取子模块，用于获取训练样本的每一时间步的行程特征以及ATA；

概率获取子模块，用于将每一时间步的行程特征输入至待训练的ETA预测模型的策略函数，获得策略函数输出的每一时间步的ETA的概率分布；

采样子模块，用于根据ETA的概率分布进行采样，获得每一时间步的预测ETA；

奖励值计算子模块，用于根据ATA以及每一时间步的历史预测ETA序列输入奖励值函数，获得奖励值函数输出的每一时间步的奖励值；

参数调节子模块，用于根据每一时间步的奖励值以及预测ETA的概率分布，对策略函数的参数进行训练，将训练完成的策略函数作为训练后的ETA预测模型。

在一个可能的实现方式中，奖励值计算子模块包括：

准确奖励计算单元，用于将每一时间步的预测ETA与ATA输入至奖励值函数，获得奖励值函数输出的每一时间步的预测ETA的准确性奖励值；准确性奖励值用于表征每一时间步的预测ETA的准确程度；

平稳奖励计算单元，用于将每一时间步的预测ETA与历史预测ETA序列输入至奖励值函数，获得奖励值函数输出的每一时间步的平稳性奖励值；平稳性奖励值用于表征每一时间步的预测ETA相对于历史预测ETA序列的平稳下降程度；

奖励结合单元，用于结合每一时间步的准确性奖励值和平稳性奖励值，获得每一时间步的奖励值。

在一个可能的实现方式中，参数调节子模块包括：

累加奖励计算单元，用于根据每一时间步之后的所有时间步的奖励值之和，获得每一时间步的累加奖励值；

参数训练单元，用于根据每一时间步的累加奖励值以及ETA的概率分布，通过梯度下降法对策略函数的参数进行训练。

在一个可能的实现方式中，参数调节子模块包括：

参数划分单元，用于将策略函数的所有参数划分为第一组参数和第二组参数，第一组参数和第二组参数中不存在相同的参数；

特征向量生成单元，用于根据行程特征生成特征向量；

拟合单元，用于根据特征向量与第一组参数的内积拟合正态分布的均值，根据特征向量与第二组参数的内积拟合正态分布的标准差，以完成对策略函数的参数的训练。

在一个可能的实现方式中，准确奖励计算单元包括：

实际耗时计算子单元，用于根据每一时间步对应的时刻以及ATA，确定每一时间步的剩余导航路线的实际耗时；

差值计算子单元，用于确定每一时间步的预测ETA与剩余导航路线的实际耗时的差值，根据差值获得每一时间步的准确性奖励值。

在一个可能的实现方式中，平稳奖励计算单元包括：

大小关系确定子单元，用于对于每一时间步之前的至少一个时间步中的任意一个时间步，确定任意一个时间步与任意一个时间步相邻的前一个时间步的预测ETA间的大小关系；

奖励子值计算子单元，用于若确定任意一个时间步的预测ETA大于任意一个时间步相邻的前一个时间步的预测ETA，则任意一时间步的平稳性奖励子值为第一预设值；若确定任意一个时间步的预测ETA不大于任意一个时间步相邻的前一个时间步的预测ETA，则每一时间步的平稳性奖励子值为第二预设值，第一预设值小于第二预设值；

融合子单元，用于根据每一时间步之前的至少一个时间步中的所有时间步的平稳性奖励子值，获得每一时间步的平稳性奖励值。

第四方面，提供一种ETA预测模型的训练装置，包括：

训练样本获取模块，用于获取至少一个训练样本，训练样本包括一次历史导航过程中每一时间步的行程特征以及ATA；

概率分布获取模块，用于将训练样本中每一时间步的行程特征输入至待训练的ETA预测模型的策略函数，获得策略函数输出的每一时间步的ETA的概率分布；

采样模块，用于根据ETA的概率分布进行采样，获得每一时间步的预测ETA；

奖励计算模块，用于根据训练样本中的ATA以及每一时间步的历史预测ETA序列输入奖励值函数，获得奖励值函数输出的每一时间步的奖励值；

参数训练模块，用于根据每一时间步的奖励值以及预测ETA的概率分布，对策略函数的参数进行训练，将训练完成的策略函数作为训练后的ETA预测模型。

第五方面，本发明实施例提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行程序时实现如第一或第二方面所提供的方法的步骤。

第六方面，本发明实施例提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如第一方或第二方面所提供的方法的步骤。

第七方面，本发明实施例提供一种计算机程序，该计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中，当计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行实现如第一或第二方面所提供的方法的步骤。

本发明实施例提供的ETA的预测方法、模型训练方法、装置、电子设备及存储介质，通过获取目标用户在当前时间步的行程特征，行程特征包括当前时间步对应的时刻以及剩余导航路线的路线特征，能够供ETA预测模型根据时间和路况两个因素更准确地预测ETA，更重要的是，ETA预测模型训练时的奖励函数的输入包括ATA以及每一时间步的历史预测ETA，相比现有技术只根据历史导航数据中的出发时刻的路线特征和最终的ATA进行训练，本申请实施例利用ATA和每一步的ETA确定奖励值进行强化学习，考虑行程不断变化对ETA预测的影响，预测结果更加准确。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对本申请实施例描述中所需要使用的附图作简单地介绍。

图1为本申请实施例提供的一种ETA的预测方法的应用场景示意图；

图2为本申请实施例提供的ETA的预测方法的流程示意图；

图3为本申请实施例提供的基于强化学习的模型训练的流程架构图；

图4为本申请实施例提供的一种ETA预测模型的结构示意图；

图5为本申请实施例提供的ETA预测模型的训练流程示意图；

图6为本申请实施例提供一次训练样本的采集过程的示意图；

图7为本申请实施例提供的策略梯度算法的原理示意图；

图8为本申请另一个实施例提供的待训练的ETA预测模型的结构示意图；

图9为本申请实施例提供的一种预计到达时间ETA的预测装置的结构示意图；

图10为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

下面详细描述本申请的实施例，实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本申请，而不能解释为对本发明的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”和“该”也可包括复数形式。应该进一步理解的是，本申请的说明书中使用的措辞“包括”是指存在特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

相关技术中存在的一个共性问题是：只考虑了出发时的路况状态，而没有考虑后续可能发生的路况变化以及可能发生的拥堵风险。此外，实际导航中，每次ETA刷新所蕴含的信息是比较丰富的，相关技术都没有考虑到这些信息。

本申请提供的ETA的预测方法、装置，旨在解决现有技术的如上技术问题。

首先对本申请涉及的几个名词进行介绍和解释：

导航路线：在地图应用中，导航路线是一条完整的连接起终点的线路，实际场景中，通常一条路线的长度在一公里到几十公里的范围内。

路段（link）：在地图应用中，路线是用路段（link）的序列来表达的。在地图数据中，道路被划分为一段一段的线段，这些线段的长度在几十米到几公里不等，每个线段称为一个路段，并被赋予一个全局唯一的id。因此，地图中的一条导航路线，就是这条导航路线中所有路段组成的序列。

实际到达时间（Actual Time of Arrival，ATA），在一次导航过程中实际的到达时间。

ETA刷新，在一次导航过程中，不止出发前规划时会给出ETA，在途中，每隔一段时间还会重新请求剩余路线的ETA，这称为ETA刷新。

时间步，可以理解为真正的时间区间，是将一个持续性的过程分解成小段，每一小段即为一个时间步，时间步长即一个时间步的持续时长，在本申请实施例中，每一次ETA刷新即对应一个时间步，相邻两次ETA刷新的时间即为时间步长。

强化学习(reinforcement learning)：又称再励学习、评价学习，是智能体(Agent)以“试错”的方式进行学习，通过与环境进行交互获得的奖赏指导行为，目标是使智能体获得最大的奖励值。强化学习与监督学习的不同之处在于，它不需要标记输入输出对，并且不需要明确校正次优动作。

策略梯度法，是强化学习中的一类方法，它的特点是可以基于当前所处状态，直接输出动作，而不必评估各动作的价值或潜在收益。

幕（episode）：类似于棋类游戏中“局”的概念，一局棋称为一幕；类似的，游戏中从开始到胜利/失败也称为一幕。在本申请实施例的ETA预测过程中，一幕就是从用户出发，到用户行驶完整条路线，到达目的地的整个过程。这个过程中时间步的个数（即ETA刷新的次数）记为

。

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本申请的实施例进行描述。

可选地，本申请提供的预计到达时间ETA的预测方法的应用场景包括但不限于以下几种中的至少一种：

1、导航场景，用户在发起导航时，后台首先提供若干候选路线，然后利用本申请计算出每条候选路线的预计到达时间，然后从中选择一条最快的路线，提供给用户，在导航过程中，每隔一定时间，可以利用本申请计算剩余导航路线的预计到达时间，方便用户安排行程。

2、外卖派送场景，通过获取候选派送员的当前位置、取餐店铺的位置以及派送目的地的位置，利用本申请计算出各候选派送员派送的耗时，从而更好地从候选派送员中选择出目标派送员进行派单，提高派送的效率。

3、打车场景，平台在选择司机禁行派单的原理与上述外卖派送场景类似，通过获取候选司机以及打车用户当前的位置，利用本申请计算出各候选司机到达打车用户位置处的预计到达时间，从而选择出具有最短预计到达时间的候选司机作为目标司机，并向目标司机派单。在打车用户乘车后，每隔一段时间可以利用本申请计算剩余导航路线的预计到达时间，方便用户安排行程，也可以每隔一段时间规划出多条候选导航路线，并利用本申请计算出每条候选导航路线的预计到达时间，从而供司机选择最优的导航路线行驶，提高客运效率。

4、路段拥堵程度估计场景，利用本申请计算出不同路段的预计到达时间，从而进一步获得各路段对预计到达时间的影响权重，供上游服务使用，例如用于躲避拥堵、对预估时间进行解释等。

当然，除了上述需要实时进行ETA预测的应用场景，本申请实施例也可以适用于对时限要求不高的应用场景，例如：

5、兴趣地点推荐场景，兴趣地点是指用户感兴趣的地点，例如可以是商圈、学校、地铁站、办公楼、医院、景区等等。兴趣地点推荐平台可以获取用户选择的基准位置，基准位置可以是用户的家庭住址等常用地址，也可以是用户感兴趣的地址，例如用户对某一楼盘感兴趣，可以将该楼盘的位置作为基准位置，兴趣地点推荐平台可以利用本申请计算出等式可达圈，例如半小时可达圈、一小时可达圈等，方便用户了解基准位置的生活半径以及生活半径内的兴趣地点。

当然，本申请提供的预计到达时间ETA的预测方法的应用场景不限于上述情况，其它需要进行ETA的预测的应用场景也在本申请的保护范围之内。

在本申请实施例中，ETA的预测方法涉及人工智能领域中的大数据处理技术，大数据（Big data）是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。随着云时代的来临，大数据也吸引了越来越多的关注，大数据需要特殊的技术，以有效地处理大量的容忍经过时间内的数据。

本申请实施例通过大数据技术可对发起ETA预测请求的大量用户设备的定位数据进行分析处理，以及时预测出ETA，在定位服务方面的应用中具有较高的应用价值。

本申请实施例提供的ETA的预测方法，具体可以包括：获取目标用户在当前时间步的行程特征；行程特征包括当前时间步对应的时刻以及剩余导航路线的路线特征；将目标用户在当前时间步的行程特征输入至预先训练的ETA预测模型，获得ETA预测模型输出的当前时间步的ETA；其中，ETA预测模型在训练时的奖励函数的输入包括训练样本的实际到达时间ATA以及每一时间步的历史预测ETA序列，奖励函数的输出用于表征对每一时间步的预测ETA的准确性的评价结果；历史预测ETA序列包括每一时间步之前的至少一个时间步的预测ETA；每一时间步的预测ETA是根据ETA预测模型的策略函数在强化学习过程中根据每一时间步的行程特征预测出的ETA的概率分布获得的。

应理解，本申请实施例提供的目标区域内人数确定方法可以应用于数据处理设备，如终端设备、服务器等；其中，终端设备具体可以为智能手机、计算机、个人数字助理(Personal Digital Assitant，PDA)、平板电脑、车载终端、车机设备、可穿戴设备等；服务器具体可以为应用服务器，也可以为Web服务器，在实际部署时，该服务器可以为独立服务器，也可以为集群服务器或者云服务器。

当本申请实施例提供的预计到达时间ETA的预测方法由终端设备执行时，则终端设备可以基于获取到的发起的ETA预测请求的目标用户在当前时间步的行程特征获得当前时间步的ETA，并进一步对当前时间步的ETA进行显示。

当本申请实施例提供的ETA预测方法由服务器执行时，则服务器可以先基于获取到的终端设备在当前时间步的行程特征获得当前时间步的ETA，再将ETA发送给终端设备进行显示。

请参阅图1，其示例性地示出了本申请实施例提供的ETA的预测方法的应用场景示意图，如图1所示，该应用场景包括：服务器100和多个用户设备200。

用户设备是指用户使用的终端设备，终端设备可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、便携式计算机、可穿戴设备、车机设备、车载终端等等。用户设备上安装有服务器100提供服务的目标应用程序，目标应用程序可以为应用程序或者操作系统，目标应用程序为导航服务的实现提供运行环境。例如，目标应用程序可以为导航应用，导航服务可以基于目标应用程序实现，目标应用程序为导航服务提供运行环境。再如，目标应用程序可以为安卓（Android）操作系统，导航服务可以基于目标应用程序的快应用实现，目标应用程序为用于提供导航服务的快应用提供运行环境。用户可以借助用户设备200向服务器100发送ETA预测请求，ETA预测请求中包括当前时间步的行程特征。

当任一用户在用户设备上触发了ETA预测请求之后，该用户设备将该ETA预测请求发送至服务器100，以使服务器100能够基于该ETA预测请求确定该用户的ETA。

可选地，用户设备在发送ETA预测请求前，还可以向服务器100发送定位请求，服务器根据定位请求确定用户终端的定位坐标，并将该定位坐标给该用户设备，以使该用户设备能够使用该定位坐标执行相应的定位服务，定位服务可以包括ETA预测服务。

本申请实施例的服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络（Content DeliveryNetwork，CDN）、以及大数据和人工智能平台等基础云计算服务的云服务器，还可以是提供车联网服务、路网协同、车路协同、智能交通、自动驾驶、工业互联网服务、数据通信（如4G、5G等）等专门或平台服务器等。

本申请实施例的服务器的执行方法可以以云计算（Cloud Computing）的形式完成，云计算是一种计算模式，它将计算任务分布在大量计算机构成的资源池上，使各种应用系统能够根据需要获取计算力、存储空间和信息服务。提供资源的网络被称为“云”。“云”中的资源在使用者看来是可以无限扩展的，并且可以随时获取，按需使用，随时扩展，按使用付费。

作为云计算的基础能力提供商，会建立云计算资源池(简称云平台，一般称为IaaS(Infrastructure as a Service，基础设施即服务)平台，在资源池中部署多种类型的虚拟资源，供外部客户选择使用。云计算资源池中主要包括：计算设备(为虚拟化机器，包含操作系统)、存储设备、网络设备。

按照逻辑功能划分,在IaaS（Infrastructure as a Service，基础设施即服务）层上可以部署PaaS(Platform as a Service,平台即服务)层，PaaS层之上再部署SaaS(Software as a Service,软件即服务)层，也可以直接将SaaS部署在IaaS上。PaaS为软件运行的平台，如数据库、web容器等。SaaS为各式各样的业务软件，如web门户网站、短信群发器等。一般来说，SaaS和PaaS相对于IaaS是上层。

服务器100用于执行本申请实施例提供的ETA的预测方法，根据用户设备发送的当前时间步的行程特征，获得当前时间步的ETA，并将当前时间步的ETA发送至用户设备进行显示。

应理解，上述提供的应用场景仅为示例，在实际应用中，本申请实施例提供的ETA的预测方法还可以应用于其他需要进行ETA预测的应用场景，在此不对本申请实施例提供的ETA的预测方法的应用场景的组成部分做任何限定。

请参阅图2，其示例性地示出了本申请实施例提供的ETA的预测方法的流程示意图，如图2所示，包括：

S101、获取目标用户在当前时间步的行程特征。

行程特征包括当前时间步对应的时刻以及剩余导航路线的路线特征。

当前时间步对应当前ETA刷新的时刻，当前时间步对应的时刻也即当前ETA刷新的时刻。考虑到不同时间的路况并不一样，即使是同一路向所需的实际到达时间也存在差异，因此本申请将当前时间步对应的时刻作为一个重要的形成特征进行采集。

剩余导航路线即目标用户从当前时间步的所在位置至目的地的导航路线，本申请实施例的剩余导航路线既可以是在当前时间步实时规划出的导航路线，也可以是目标用户在导航起点规划的完整导航路线中除已经行驶的导航路线指纹的路线。例如，目标用户在导航起点时规划的初始导航路线为A-B-C-D，也就是说完整导航路线是由A开始，先后经过B点和C点，最终到达D点的路线，当目标用户在某一时间步到达B点后，可以沿着初始导航路线继续前往目的地D，那么在该时间步的剩余导航路线为B-C-D，如果目标用户在该时间步重新规划导航路线，那么剩余导航路线即为重新规划的导航路线。

路线特征可以是剩余里程、平均限速、平均实时车速、拥堵里程和畅通里程中的一种或多种。剩余里程，即导航路线中的目标用户在当前时刻所在的位置至目的地的路段的长度；平均限速即在剩余导航路线中各路段的限速值的平均值，平均实时车速是通过大数据获得的、各个车辆在剩余导航路线上的平均车速，平均限速和平均实时车速能够不同程度地反映出目标用户在剩余里程可能到达的车速。拥堵里程即剩余导航路线中出现拥堵的路段的长度，路段是否发生拥堵可以根据该路段中车辆的行驶速度进行确定，如果车辆的行驶速度普遍低于第一预设速度（例如5Km/h），那么可以确定该路段发生拥堵，畅通里程即剩余导航路线中通畅的路段的长度，路段是否通畅可以根据该路段中车辆的行驶速度进行确定，如果车辆的行驶速度普遍高于第二预设速度（例如30Km/h），那么可以确定该路段通畅。

S102、将目标用户在当前时间步的行程特征输入至预先训练的ETA预测模型，获得ETA预测模型输出的当前时间步的ETA。

本申请实施例在获得当前时间步的行程特征后，通过将当前时间步的行车特征输入至预先训练的ETA预测模型中，即可获得目标用户在当前时间步的ETA。

本申请实施例的ETA预测模型是通过强化学习的方式训练而成的，一般地，对于强化学习模型的训练过程，为了训练得到一个较好的策略，通过智能体需要与环境进行持续的交互即可。在本申请实施例中，智能体可以理解为ETA预测模型，环境即导航过程。

请参阅图3，为本申请实施例提供的一种基于强化学习的模型训练的流程架构图，即智能体(Agent)通过策略函数输出一个动作（actor）并作用于环境（Environment），环境接受该动作后状态(State)发生变化，同时根据奖励函数产生一个奖励值(Reward)，环境将当前状态和奖励值反馈给Agent，Agent根据奖励值和环境当前状态再输出下一个动作，输出动作的原则是使受到正向奖励值的概率增大。选择的动作不仅影响当前的奖励值，而且影响环境下一时刻的状态及最终的奖励值，从而实现循环的响应过程。

状态（state）：以围棋为例，棋盘当前黑子、白子的分布情况，就是当前的状态。此外，一局中之前各棋手的下棋位置也可以作为当前的状态。在本申请实施例的ETA预测过程中，状态可以为当前时刻、剩余导航路线的路线特征等，t时间步的状态记为

；此外，本申请实施例的ETA预测过程中的状态还包括之前各时间步中，已给出的预测ETA序列，记为

。

动作（action）：棋类中棋手的每一个下棋决策（落子位置），都是动作。本申请实施例的ETA预测过程中，动作为当前时刻预估的剩余时间，即剩余全程的ETA。

策略函数：通常用

表示，其中

表示状态，

表示动作，

为需要学习的参数，其输出为

这个动作的概率。棋类游戏中，这一函数用来决定当前棋盘状态下，接下来要如何落子。ETA问题中，使用这一函数决定剩余路线的ETA。

奖励值（reward）：奖励值并不总是在一幕结束后才可获得。通常，一个动作不止影响当前的奖励值，还会影响后续的奖励值，但奖励值随时间有折扣，即相比于即时的奖励值，多步之后才获得的奖励值影响更弱，即“折扣”。这一折扣通常用

表示，

个时间步后的奖励值为

，当

时，表示当前时刻的奖励值与未来的奖励值同样重要，即没有折扣。本申请实施例的ETA预测过程中，奖励值是通过奖励函数获得的，奖励值可以分为两部分，第一个部分是每个时间步预估的ETA准确性，第二个部分是当前时间步预估的ETA与之前所有时间步的ETA构成序列的平稳下降程度。

本申请实施例的ETA预测模型在训练时的奖励函数的输入包括训练样本的实际到达时间ATA以及每一时间步的历史预测ETA序列，奖励函数的输出用于表征对每一时间步的预测ETA的准确性的评价结果。历史预测ETA序列包括每一时间步之前的至少一个时间步的预测ETA；每一时间步的预测ETA是根据ETA预测模型的策略函数在强化学习过程中根据每一时间步的行程特征预测出的ETA的概率分布获得的。

请参阅图4，为本申请实施例提供的一种ETA预测模型的结构示意图，如图4所示，ETA预测模型包括策略函数和奖励函数，训练样本的每一时间步的行程特征即为状态，若训练样本中共存在T个时间步，则具有T个状态，将每个状态作为策略函数的输入，策略函数基于输入的状态，输出动作：每一时间步的ETA的概率分布；针对每一时间步的ETA的概率分布进行随机采样即可获得采样结果：每一时间步的预测ETA，这样针对每一时间步，将该时间步之前的至少一个时间步的预测ETA组成历史预测ETA序列，将实际到达时间ATA以及每一时间步的历史预测ETA序列作为奖励函数的输入，奖励函数基于输入产生用于评价每一时间步的预测ETA的准确性的评价结果，基于这样的评价结果，调整ETA预测模型中的策略函数，使得增加评价结果好的预测ETA的输出概率，并降低评价结果差的预测ETA的输出概率，这样，训练完成的策略函数将学会正确的ETA预测行为。

需要注意的是，本申请实施例的奖励函数的输入包括训练样本的实际到达时间ATA以及每一时间步的历史预测ETA序列。其中实际到达时间ATA为每一时间步的预测ETA的准确性的评价提供依据，而通过构建每一时间步的历史预测ETA序列，又考虑了ETA的平稳下降情况，也就是说，本申请实施例的奖励函数能够从准确性和平稳性两个方面评价ETA，从而为实际应用时预估出更符合高准确性和用户习惯的ETA奠定基础。

本申请实施例的ETA的预测方法，通过获取目标用户在当前时间步的行程特征，行程特征包括当前时间步对应的时刻以及剩余导航路线的路线特征，能够供ETA预测模型根据时间和路况两个因素更准确地预测ETA，更重要的是，ETA预测模型训练时的奖励函数的输入包括ATA以及每一时间步的历史预测ETA，相比现有技术只根据历史导航数据中的出发时刻的路线特征和最终的ATA进行训练，本申请实施例利用ATA和每一步的ETA确定奖励值进行强化学习，考虑行程不断变化对ETA预测的影响，预测结果更加准确。

在上述各实施例的基础上，作为一种可选实施例，将目标用户在当前时间步的行程特征输入至预先训练的ETA预测模型，获得ETA预测模型输出的所述当前时间步的ETA，包括：

S1021、对当前时间步的行程特征进行编码，获得当前时间步的特征向量。可以理解的是，特征向量是对行程特征的内容表示。

S1022、将当前时间步的特征向量输入至策略函数，获得策略函数输出的当前时间步的ETA的概率分布；

S1023、根据当前时间步的ETA的概率分布进行采样，获得当前时间步的ETA。

请参阅图5，其示例性地示出了本申请实施例的ETA预测模型的训练流程示意图，如图5所示，该流程包括：

S201、获取训练样本的每一时间步的行程特征以及ATA。

强化学习的训练是按照“幕”（episode）进行的，在本申请实施例中，每一幕即一次完整的导航过程，也即一个训练样本，一个训练样本中包括导航过程中每一时间步的行程特征以及最终的ATA。

请参见图6，其示例性示出了本申请实施例中一次训练样本的采集过程的示意图，如图所示，样本用户在导航起点A发起导航，时间步为1，行程特征记为X₁，导航目的地为C，样本用户在导航过程中持续刷新ETA，当样本用户行驶到地点B时，对应的时间步为n，行程特征记为X_n，若在整个导航过程中时间步的个数为T，则该训练样本可记为｛X₁,X₂,…,X_n,..,X_T｝，其中n和T均为正整数，且n小于T。

S202、将每一时间步的行程特征输入至待训练的ETA预测模型的策略函数，获得策略函数输出的每一时间步的ETA的概率分布。

本申请实施例的策略函数基于策略梯度算法的思想，输出的是状态下执行各种动作的概率值，即每一时间步的行程特征下的ETA的概率分布

策略梯度算法的原理可如图7所示，即向策略函数输入第n个时间步的行程特征X_n，策略函数输出第n个时间步的ETA为ETA_n1的概率、ETA_n2的概率、…、ETA_nm的概率，其中ETA_nm表示ETA_n的第m种预测值。此时的神经网络输出层的作用类似于多分类问题的softmax回归，输出的是一个概率分布，只不过这里的概率分布不是用来进行分类。

S203、根据ETA的概率分布进行采样，获得每一时间步的预测ETA。

通过根据ETA的概率分布进行随机采样，将采样值作为每一时间步的预测ETA，本申请实施例训练的目的就是通过调整策略函数的参数，使得ETA的采样结果能够尽可能接近或等于使得每一步的奖励值最优的ETA。

S204、根据ATA以及每一时间步的历史预测ETA序列输入奖励值函数，获得奖励值函数输出的每一时间步的奖励值。

具体的，步骤S204可用公式

进行表示；其中，R _t表示第t时间步的奖励值，

(.)表示奖励值函数，

表示第1时间步的预测ETA，

表示第t时间步的预测ETA，

至

构成了第t时间步的历史预测ETA序列，ATA表示该训练样本的实际ATA。

S205、根据每一时间步的奖励值以及预测ETA的概率分布，对策略函数的参数进行训练，将训练完成的策略函数作为训练后的ETA预测模型。

具体的，步骤S205进一步包括：

根据每一时间步之后的所有时间步的奖励值之和，获得每一时间步的累加奖励值，可用以下公式进行表示：

其中，G表示第t时间步的累加奖励值，k表示从第t+1时间步至第T时间步，其中第T时间步是指该训练样本的最后一个时间步，γ表示折扣。

根据每一时间步的累加奖励值以及ETA的概率分布，通过梯度下降法对策略函数的参数进行训练，可以用以下公式进行表示：

其中，

表示策略函数中的参数，

表示学习速率，

表示梯度，

表示根据策略函数中的参数

以及第t时间步的行程特征获得的第t时间步的ETA的概率分布。

在上述各实施例的基础上，作为一种可选实施例，根据ATA以及每一时间步的历史预测ETA序列输入奖励值函数，获得奖励值函数输出的每一时间步的奖励值，包括：

S301、将每一时间步的预测ETA与ATA输入至奖励值函数，获得奖励值函数输出的每一时间步的预测ETA的准确性奖励值；准确性奖励值用于表征每一时间步的预测ETA的准确程度；

本申请实施例在计算奖励值的过程中，将奖励值分为了用于表征每一时间步的预测ETA的准确程度的准确性奖励值和用于表征每一时间步的预测ETA相对于历史预测ETA序列的平稳下降程度的平稳性奖励值。

对于准确性奖励值而言，其是根据每一时间步的预测ETA和ATA进行评价，具体的，

S301a、根据每一时间步对应的时刻以及ATA，确定每一时间步的剩余导航路线的实际耗时，由于每一时间步对应的时刻是训练样本采集记录的，而ATA中记录了实际到达的时间，因此根据上述两个信息就可以获得剩余导航路线的实际耗时。

S301b、确定每一时间步的预测ETA与剩余导航路线的实际耗时的差值，根据差值获得每一时间步的准确性奖励值。

例如，训练样本的导航起始时刻是某日的13点01分，ATA为3小时15分，若第t时间步的时刻为当天的14点01分，预测ETA为2小时18分，那么剩余导航路线的实际耗时为3小时15分减去1小时，为2小时15分，也就是说，在第t时间步后实际需要2小时15分可到达导航目的地，进一步结合第t时间步的预测ETA为2小时18分，可知预测ETA与实际耗时的差值为3分钟，根据3分钟这一结果即可进一步确定第t时间步的准确性奖励值。

由于实际耗时与预测ETA的差值越小意味着ETA的准确性越高，因此本申请实施例可以根据不同的区间来确定不同差值的准确性奖励值，例如差值在0-1分钟奖励值为1，差值大于1分钟奖励值为0，所以上述第t时间步的准确性奖励值为0。需要注意的是，本申请对于区间的数量以及不同区间对应的奖励值的具体数值不作具体的限定。

S302、将每一时间步的预测ETA与历史预测ETA序列输入至奖励值函数，获得奖励值函数输出的每一时间步的平稳性奖励值；平稳性奖励值用于表征每一时间步的预测ETA相对于历史预测ETA序列的平稳下降程度。

最好的ETA预测情况是真实时间每流逝1秒，则ETA也下降一秒，而如果一段时间内随着用户行驶，ETA反而变得越来越大，或者固定不变，对于用户来说是不好的体验，因此本申请在评价ETA预测准确性的同事，还进一步需要对ETA序列的平稳下降程度进行评价。具体地：

S302a、对于每一时间步之前的至少一个时间步中的任意一个时间步，确定任意一个时间步与任意一个时间步相邻的前一个时间步的预测ETA间的大小关系。

S302b、若确定任意一个时间步的预测ETA大于任意一个时间步相邻的前一个时间步的预测ETA，则任意一时间步的平稳性奖励子值为第一预设值；若确定任意一个时间步的预测ETA不大于任意一个时间步相邻的前一个时间步的预测ETA，则每一时间步的平稳性奖励子值为第二预设值，第一预设值小于第二预设值。

S302c、根据每一时间步之前的至少一个时间步中的所有时间步的平稳性奖励子值，获得每一时间步的平稳性奖励值。

S303、结合每一时间步的准确性奖励值和平稳性奖励值，获得每一时间步的奖励值。

也就是说，在计算平稳性奖励值时，对于每一时间步，首先确定任意两个相邻时间步的预测ETA间的大小关系，例如，若计算第5时间步的平稳性奖励值，则分别确定ETA5和ETA4间的大小关系、ETA4和ETA3间的大小关系、ETA3和ETA2间的大小关系、ETA2和ETA1间的大小关系，其中ETAn表示第n时间步的预测ETA。

若确定ETA5大于ETA4，则ETA5的平稳性奖励子值为0，若确定ETA5小于ETA4，则ETA5的平稳性奖励子值为1。需要注意的是，本申请实施例对于平稳性奖励子值的具体数值不作具体限定。基于相同的计算方式，若计算出ETA2~ETA4的平稳性奖励子值为0、1和1，那么第5时间步的平稳性奖励子值可以为0+1+1+1=3。当然，除了以对所有时间步的平稳性奖励子值求和的方式计算平稳性奖励值，本申请实施例还可以对求和结果进一步求取平均值的方式作为平稳性奖励值，还可以以加权求和再平均的方式计算平稳性奖励值，本申请实施例对于根据每一时间步之前的至少一个时间步中的所有时间步的平稳性奖励子值，获得每一时间步的平稳性奖励值的具体方式不作具体的限定。

在上述各实施例的基础上，第t时间步的奖励值的计算公式可以为：

其中，

函数为示性函数，当

为真时，

，当

为假时，

。

在上述各实施例的基础上，对策略函数的参数进行训练，包括：

S401、将策略函数的所有参数划分为第一组参数和第二组参数，第一组参数和第二组参数中不存在相同的参数；

S402、根据行程特征生成特征向量；

具体地，可以根据每一类行程特征的数值生成该类别对应的向量，例如，某一时间步的时刻为14点25分，剩余里程、平均限速、平均实时车速、拥堵里程和畅通里程分别为100km、60km/h、50km/h、3km、40km，那么特征向量表示为[1425,100,60,50,3,40]。当然本申请实施例还可以对行程特征的各数值进行归一化处理，把数值映射到0～1范围之内处理，从而在后续对ETA预测模型进行训练和应用时更加便捷快速。

S403、根据特征向量与第一组参数的内积拟合正态分布的均值，根据特征向量与第二组参数的内积拟合正态分布的标准差，以完成对策略函数的参数的训练。

具体的，本申请实施例的策略模型可以采用以下公式进行表示：

其中，

和

是将策略函数的所有参数划分为的第一组参数和第二组参数，上述公式中使用两组参数

和

分别拟合正态分布的均值和标准差，上述模型的一个特例为线性模型，即：

其中，粗体表示向量，

表示由行程特征生成的特征向量，点号表示向量内积。

在上述各实施例的基础上，本申请实施例的行程特征还可以包括当前时间步之前的各时间步的ETA。通过将每一时间步之前的各时间步的ETA也作为行程特征，使得ETA预测模型在预测过程中能够重复学习各时间步的ETA的动态变化信息，从而提升ETA预测的精度。

由于每一时间步之前的各时间步是不断变化的，因此每一时间步的各时间步的ETA在作为行程特征后的特征向量也不再是定长的向量，在这种情况下不再适用上述线性的策略函数，而可以适用更复杂的模型，例如循环神经网络（Recurrent Neural Network,RNN）、长短期记忆网络（LSTM，Long Short-Term Memory）或者GRU（Gate Recurrent Unit）。

请参阅图8，其示例性地示出了本申请另一个实施例提供的待训练的ETA预测模型的结构示意图，如图8所示：

ETA预测模型的输入层110用于接收输入的训练样本的行程特征和ATA，行程特征包括以每一时间步的时刻以及剩余导航路线的路线特征，还可以包括每一时间步之前的各时间步的ETA；

ETA预测模型可以利用ETA预测层120以每一步的行程特征为输入，输出每一时间步的预测ETA，具体的，特征提取层1201提取行程特征以及ATA的特征向量，进而通过概率分布获取层1202对行程特征的特征向量进行处理，获得每一时间步的ETA的概率分布，再通过采样层1203根据每一时间步的ETA的概率分布进行随机采用，获得每一时间步的预测ETA；

通过奖励获取层130以ATA以及预测ETA作为输入，获得每一时间步的奖励值，具体的：通过准确奖励计算层1301以每一时间步的预测ETA与ATA的特征向量为输入，输出时间步的预测ETA的准确性奖励值；并且还通过信息融合层1302根据每一时间步的预测ETA获得每一时间步的历史预测ETA序列，每一时间步的历史预测ETA序列包括根据时间步顺序依次排列的、该时间步之前的至少一个时间步的预测ETA，进一步通过平稳奖励计算层1303以每一时间步的预测ETA与历史预测ETA序列为输入，输出每一时间步的平稳性奖励值，最后通过奖励融合层1304根据结合每一时间步的准确性奖励值和平稳性奖励值，获得每一时间步的奖励值；

通过隐含层140根据每一时间步的奖励值以及预测ETA的概率分布对ETA预测层120中的参数进行调节，具体的，通过累加奖励层1401以每一时间步之后的所有时间步的奖励值为输入，通过求和的方式获得每一时间步的累加奖励值，之后通过梯度训练层1402以每一时间步的累加奖励值以及ETA的概率分布，通过梯度下降法对ETA预测层中的参数进行训练。在训练完成后，保留输入层和ETA预测层即可获得训练完成的ETA预测模型。

本申请实施例提供了一种预计到达时间ETA的训练方法，包括：

S501、获取至少一个训练样本，训练样本包括一次历史导航过程中每一时间步的行程特征以及ATA；

S502、将训练样本中每一时间步的行程特征输入至待训练的ETA预测模型的策略函数，获得策略函数输出的每一时间步的ETA的概率分布；

S503、根据ETA的概率分布进行采样，获得每一时间步的预测ETA；

S504、根据训练样本中的ATA以及每一时间步的历史预测ETA序列输入奖励值函数，获得奖励值函数输出的每一时间步的奖励值；

S505、根据所述每一时间步的奖励值以及预测ETA的概率分布，对策略函数的参数进行训练，将训练完成的策略函数作为训练后的ETA预测模型。

本申请实施例提供了一种预计到达时间ETA的预测装置，如图9所示，该装置可以包括：行程特征获取模块101和预测模块102，具体地：

行程特征获取模块101，用于获取目标用户在当前时间步的行程特征；行程特征包括当前时间步对应的时刻以及剩余导航路线的路线特征；

预测模块102，用于将目标用户在当前时间步的行程特征输入至预先训练的ETA预测模型，获得ETA预测模型输出的当前时间步的ETA；

本发明实施例提供的预计到达时间ETA的预测装置，具体执行上述方法实施例流程，具体请详见上述预计到达时间ETA的预测方法实施例的内容，在此不再赘述。本发明实施例提供的预计到达时间ETA的预测装置，通过获取目标用户在当前时间步的行程特征，行程特征包括当前时间步对应的时刻以及剩余导航路线的路线特征，能够供ETA预测模型根据时间和路况两个因素更准确地预测ETA，更重要的是，ETA预测模型训练时的奖励函数的输入包括ATA以及每一时间步的历史预测ETA，相比现有技术只根据历史导航数据中的出发时刻的路线特征和最终的ATA进行训练，本申请实施例利用ATA和每一步的ETA确定奖励值进行强化学习，考虑行程不断变化对ETA预测的影响，预测结果更加准确。

在上述各实施例的基础上，作为一种可选实施例，预测模块包括：

在上述各实施例的基础上，作为一种可选实施例，预计到达时间ETA的预测装置还包括ETA预测模型训练模块，ETA预测模型训练模块包括：

在上述各实施例的基础上，作为一种可选实施例，奖励值计算子模块包括：

在上述各实施例的基础上，作为一种可选实施例，参数调节子模块包括：

特征向量生成单元，用于根据行程特征生成特征向量；

在上述各实施例的基础上，作为一种可选实施例，行程特征还包括当前时间步之前的各时间步的ETA。

在上述各实施例的基础上，作为一种可选实施例，准确奖励计算单元包括：

在上述各实施例的基础上，作为一种可选实施例，平稳奖励计算单元包括：

在上述各实施例的基础上，作为一种可选实施例，剩余导航路线的路线特征包括剩余里程、平均限速、平均实时车速、拥堵里程和畅通里程中的一种或多种。

本申请实施例还提供一种ETA预测模型的训练装置，包括：

本申请实施例中提供了一种电子设备，该电子设备包括：存储器和处理器；至少一个程序，存储于存储器中，用于被处理器执行时，与现有技术相比可实现：通过获取目标用户在当前时间步的行程特征，行程特征包括当前时间步对应的时刻以及剩余导航路线的路线特征，能够供ETA预测模型根据时间和路况两个因素更准确地预测ETA，更重要的是，ETA预测模型训练时的奖励函数的输入包括ATA以及每一时间步的历史预测ETA，相比现有技术只根据历史导航数据中的出发时刻的路线特征和最终的ATA进行训练，本申请实施例利用ATA和每一步的ETA确定奖励值进行强化学习，考虑行程不断变化对ETA预测的影响，预测结果更加准确。

在一个可选实施例中提供了一种电子设备，如图10所示，图10所示的电子设备4000包括：处理器4001和存储器4003。其中，处理器4001和存储器4003相连，如通过总线4002相连。可选地，电子设备4000还可以包括收发器4004。需要说明的是，实际应用中收发器4004不限于一个，该电子设备4000的结构并不构成对本申请实施例的限定。

处理器4001可以是CPU（Central Processing Unit，中央处理器），通用处理器，DSP（Digital Signal Processor，数据信号处理器），ASIC（Application SpecificIntegrated Circuit，专用集成电路），FPGA（Field Programmable Gate Array，现场可编程门阵列）或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器4001也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等。

总线4002可包括一通路，在上述组件之间传送信息。总线4002可以是PCI（Peripheral Component Interconnect，外设部件互连标准）总线或EISA（ExtendedIndustry Standard Architecture，扩展工业标准结构）总线等。总线4002可以分为地址总线、数据总线、控制总线等。为便于表示，图10中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器4003可以是ROM（Read Only Memory，只读存储器）或可存储静态信息和指令的其他类型的静态存储设备，RAM（Random Access Memory，随机存取存储器）或者可存储信息和指令的其他类型的动态存储设备，也可以是EEPROM（Electrically ErasableProgrammable Read Only Memory，电可擦可编程只读存储器）、CD-ROM（Compact DiscRead Only Memory，只读光盘）或其他光盘存储、光碟存储（包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等）、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。

存储器4003用于存储执行本申请方案的应用程序代码，并由处理器4001来控制执行。处理器4001用于执行存储器4003中存储的应用程序代码，以实现前述方法实施例所示的内容。

本申请实施例提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，当其在计算机上运行时，使得计算机可以执行前述方法实施例中相应内容。与现有技术相比，通过获取目标用户在当前时间步的行程特征，行程特征包括当前时间步对应的时刻以及剩余导航路线的路线特征，能够供ETA预测模型根据时间和路况两个因素更准确地预测ETA，更重要的是，ETA预测模型训练时的奖励函数的输入包括ATA以及每一时间步的历史预测ETA，相比现有技术只根据历史导航数据中的出发时刻的路线特征和最终的ATA进行训练，本申请实施例利用ATA和每一步的ETA确定奖励值进行强化学习，考虑行程不断变化对ETA预测的影响，预测结果更加准确。

本申请实施例提供了一种计算机程序，该计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中，当计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行如前述方法实施例所示的内容。与现有技术相比，通过获取目标用户在当前时间步的行程特征，行程特征包括当前时间步对应的时刻以及剩余导航路线的路线特征，能够供ETA预测模型根据时间和路况两个因素更准确地预测ETA，更重要的是，ETA预测模型训练时的奖励函数的输入包括ATA以及每一时间步的历史预测ETA，相比现有技术只根据历史导航数据中的出发时刻的路线特征和最终的ATA进行训练，本申请实施例利用ATA和每一步的ETA确定奖励值进行强化学习，考虑行程不断变化对ETA预测的影响，预测结果更加准确。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

以上仅是本发明的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种预计到达时间ETA的预测方法，其特征在于，包括：

获取目标用户在当前时间步的行程特征；所述行程特征包括所述当前时间步对应的时刻以及剩余导航路线的路线特征；

将所述目标用户在当前时间步的行程特征输入至预先训练的ETA预测模型，获得所述ETA预测模型输出的所述当前时间步的ETA；

其中，所述ETA预测模型在训练时的奖励函数的输入包括训练样本的实际到达时间ATA以及每一时间步的历史预测ETA序列，所述奖励函数的输出用于表征对所述每一时间步的预测ETA的准确性的评价结果；

所述历史预测ETA序列包括所述每一时间步之前的至少一个时间步的预测ETA；所述每一时间步的预测ETA是根据所述ETA预测模型的策略函数在强化学习过程中根据所述每一时间步的所述行程特征预测出的ETA的概率分布获得的。

2.根据权利要求1所述的预计到达时间ETA的预测方法，其特征在于，所述将所述目标用户在当前时间步的行程特征输入至预先训练的ETA预测模型，获得所述ETA预测模型输出的所述当前时间步的ETA，包括：

根据所述当前时间步的ETA的概率分布进行采样，基于采样结果，得到当前时间步的ETA。

3.根据权利要求1所述的预计到达时间ETA的预测方法，其特征在于，所述训练后的ETA预测模型通过如下方式训练得到：

获取所述训练样本的每一时间步的行程特征以及ATA；

将所述每一时间步的行程特征输入至待训练的ETA预测模型的策略函数，获得所述策略函数输出的所述每一时间步的ETA的概率分布；

根据所述ATA以及每一时间步的历史预测ETA序列输入所述奖励值函数，获得所述奖励值函数输出的所述每一时间步的奖励值；

4.根据权利要求3所述的预计到达时间ETA的预测方法，其特征在于，所述根据所述ATA以及每一时间步的历史预测ETA序列输入所述奖励值函数，获得所述奖励值函数输出的所述每一时间步的奖励值，包括：

将所述每一时间步的预测ETA与所述ATA输入至所述奖励值函数，获得所述奖励值函数输出的所述每一时间步的预测ETA的准确性奖励值；所述准确性奖励值用于表征所述每一时间步的预测ETA的准确程度；

将所述每一时间步的预测ETA与历史预测ETA序列输入至所述奖励值函数，获得所述奖励值函数输出的所述每一时间步的平稳性奖励值；所述平稳性奖励值用于表征所述每一时间步的预测ETA相对于所述历史预测ETA序列的平稳下降程度；

结合所述每一时间步的准确性奖励值和平稳性奖励值，获得所述每一时间步的奖励值。

5.根据权利要求3所述的预计到达时间ETA的预测方法，其特征在于，所述根据所述每一时间步的奖励值以及预测ETA的概率分布，对所述策略函数的参数进行训练，包括：

根据所述每一时间步之后的所有时间步的奖励值之和，获得所述每一时间步的累加奖励值；

根据所述每一时间步的累加奖励值以及ETA的概率分布，通过梯度下降法对所述策略函数的参数进行训练。

6.根据权利要求3至5任意一项所述的预计到达时间ETA的预测方法，其特征在于，所述对所述策略函数的参数进行训练，包括：

将所述策略函数的所有参数划分为第一组参数和第二组参数，所述第一组参数和所述第二组参数中不存在相同的参数；

根据所述行程特征生成特征向量；

根据所述特征向量与所述第一组参数的内积拟合正态分布的均值，根据所述特征向量与所述第二组参数的内积拟合正态分布的标准差，以完成对所述策略函数的参数的训练。

7.根据权利要求1-5任意一项所述的预计到达时间ETA的预测方法，其特征在于，所述行程特征还包括所述当前时间步之前的各时间步的ETA。

8.根据权利要求4所述的预计到达时间ETA的预测方法，其特征在于，所述每一时间步的准确性奖励值通过以下方式获得：

根据所述每一时间步对应的时刻以及所述ATA，确定所述每一时间步的剩余导航路线的实际耗时；

确定所述每一时间步的预测ETA与所述剩余导航路线的实际耗时的差值，根据所述差值获得所述每一时间步的准确性奖励值。

9.根据权利要求4所述的预计到达时间ETA的预测方法，其特征在于，所述每一时间步的平稳性奖励值通过以下方式获得：

对于所述每一时间步之前的至少一个时间步中的任意一个时间步，确定所述任意一个时间步与所述任意一个时间步相邻的前一个时间步的预测ETA间的大小关系；

若确定所述任意一个时间步的预测ETA大于所述任意一个时间步相邻的前一个时间步的预测ETA，则所述任意一时间步的平稳性奖励子值为第一预设值；若确定所述任意一个时间步的预测ETA不大于所述任意一个时间步相邻的前一个时间步的预测ETA，则所述每一时间步的平稳性奖励子值为第二预设值，所述第一预设值小于所述第二预设值；

根据所述每一时间步之前的至少一个时间步中的所有时间步的平稳性奖励子值，获得所述每一时间步的平稳性奖励值。

10.根据权利要求1所述的预计到达时间ETA的预测方法，其特征在于，所述剩余导航路线的路线特征包括剩余里程、平均限速、平均实时车速、拥堵里程和畅通里程中的一种或多种。

11.一种预计到达时间ETA预测模型的训练方法，其特征在于，包括：

获取至少一个训练样本，所述训练样本包括一次历史导航过程中每一时间步的行程特征以及实际到达时间ATA；

12.一种预计到达时间ETA的预测装置，其特征在于，包括：

行程特征获取模块，用于获取目标用户在当前时间步的行程特征；所述行程特征包括所述当前时间步对应的时刻以及剩余导航路线的路线特征；

预测模块，用于将所述目标用户在当前时间步的行程特征输入至预先训练的ETA预测模型，获得所述ETA预测模型输出的所述当前时间步的ETA；

其中，所述ETA预测模型的奖励函数的输入包括训练样本的实际到达时间ATA以及每一时间步的历史预测ETA序列，所述历史预测ETA序列包括所述每一时间步之前的至少一个时间步的预测ETA；

所述每一时间步的预测ETA是根据所述ETA预测模型的策略函数在强化学习过程中根据所述每一时间步的所述行程特征预测出的ETA的概率分布获得的。

13.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1至10任一项所述预计到达时间ETA的预测方法或权利要求11所述预计到达时间ETA预测模型的训练方法的步骤。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行权利要求1至10中任意一项所述预计到达时间ETA的预测方法或权利要求11所述预计到达时间ETA预测模型的训练方法的步骤。

15.一种计算机程序，其特征在于，该计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中，当计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行权利要求1-10任一项所述预计到达时间ETA的预测方法或权利要求11所述预计到达时间ETA预测模型的训练方法的步骤。