CN110163405A

CN110163405A - 通行时间确定方法、装置、终端及存储介质

Info

Publication number: CN110163405A
Application number: CN201810814290.1A
Authority: CN
Inventors: 刘雨亭
Original assignee: Tencent Technology Shenzhen Co Ltd; Tencent Dadi Tongtu Beijing Technology Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd; Tencent Dadi Tongtu Beijing Technology Co Ltd
Priority date: 2018-07-23
Filing date: 2018-07-23
Publication date: 2019-08-23
Anticipated expiration: 2038-07-23
Also published as: US20200393262A1; CN110163405B; WO2020019901A1; US11846519B2

Abstract

本发明实施例公开了一种通行时间确定方法、装置、终端及存储介质，属于计算机技术领域。该方法包括：获取待通行的目标路线；从多个路段中的第一个路段开始，对于任意两个位置上相邻的第一路段和第二路段，根据第一路段的第一状态数据，基于通行时间选取模型和状态数据预测模型，确定第一路段的通行时间，以及在第一状态数据下按照通行时间通过第一路段后第二路段的第二状态数据；根据第二状态数据，继续基于通行时间选取模型和状态数据预测模型确定第二路段的通行时间，直至确定多个路段中每个路段的通行时间，能够以路段为单位来预测通行时间和状态数据，充分考虑了路线的局部信息，提高了预测准确度。

Description

通行时间确定方法、装置、终端及存储介质

技术领域

本发明实施例涉及计算机技术领域，特别涉及一种通行时间确定方法、装置、终端及存储介质。

背景技术

随着互联网技术的发展和移动终端的普及，导航功能广泛应用于日常生活中，当用户要通过一段路线时，利用移动终端的导航功能可以预测路线的通行时间，从而预测用户到达目的地的时间点，为用户的出行带来了很多便利。

相关技术中通常采用时间点预测模型来确定用户到达目的地的时间点。在模型训练阶段，获取至少一条样本路线的样本数据，样本数据中包括对应样本路线的路线描述数据和历史通行数据，该路线描述数据用于描述样本路线的地理情况，历史通行数据至少包括该样本路线的通行时间。根据获取到的多个样本数据进行训练，得到时间点预测模型，该时间点预测模型模型可以用于预测任一条路线的预计到达时间。那么，当用户要通过目标路线时，可以将该目标路线的路线描述数据和当前时间点输入至时间点预测模型中，基于该时间点预测模型确定该目标路线的预计到达时间，即为用户到达该目标路线的目的地的时间点。

但是，上述方案中仅根据路线的全局信息来训练时间点预测模型，未考虑到路线的局部信息，导致基于时间点预测模型仅能根据路线的全局信息来确定预计到达时间，预测不够准确。

发明内容

本发明实施例提供了一种通行时间确定方法、装置、终端及存储介质，可以解决相关技术中的缺陷。所述技术方案如下：

一方面，提供了一种通行时间确定方法，所述方法包括：

获取待通行的目标路线，所述目标路线包括按照顺序排列的多个路段；

从所述多个路段中的第一个路段开始，对于任意两个位置上相邻的第一路段和第二路段，根据所述第一路段的第一状态数据，基于通行时间选取模型和状态数据预测模型，确定所述第一路段的通行时间，以及在所述第一状态数据下按照所述通行时间通过所述第一路段后所述第二路段的第二状态数据；

根据所述第二状态数据，继续基于所述通行时间选取模型和所述状态数据预测模型确定所述第二路段的通行时间，直至确定所述多个路段中每个路段的通行时间；

其中，所述通行时间选取模型用于根据任一路段的状态数据确定所述任一路段的通行时间，所述状态数据预测模型用于根据所述任一路段的状态数据和通行时间，确定所述任一路段的下一路段的状态数据。

再一方面，提供了一种通行时间确定装置，所述装置包括：

路线获取模块，用于获取待通行的目标路线，所述目标路线包括按照顺序排列的多个路段；

策略确定模块，用于从所述多个路段中的第一个路段开始，对于任意两个位置上相邻的第一路段和第二路段，根据所述第一路段的第一状态数据，基于通行时间选取模型和状态数据预测模型，确定所述第一路段的通行时间，以及在所述第一状态数据下按照所述通行时间通过所述第一路段后所述第二路段的第二状态数据；

所述策略确定模块，还用于根据所述第二状态数据，继续基于所述通行时间选取模型和所述状态数据预测模型确定所述第二路段的通行时间，直至确定所述多个路段中每个路段的通行时间；

再一方面，提供了一种用于确定通行时间的终端，所述终端包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述指令、所述程序、所述代码集或所述指令集由所述处理器加载并执行以实现所述的通行时间确定方法中所执行的操作。

另一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述指令、所述程序、所述代码集或所述指令集由处理器加载并执行以实现所述的通行时间确定方法中所执行的操作。

本发明实施例提供的方法、装置、终端及存储介质，通过训练得到针对路段的通行时间选取模型和状态数据预测模型，基于通行时间选取模型和状态数据预测模型，能够以路段为单位来预测通行时间和状态数据，充分考虑了路线的局部信息，提高了预测准确度，能够弥补传统预测模型的缺点。

并且，通过训练得到针对路段的收益数值预测模型，基于收益数值预测模型能够以路段为单位来预测每个状态数据的收益数值，以收益数值来衡量状态数据的准确程度，从而根据状态数据确定更为合理的通行时间，提高了准确度。

并且，相关技术采用的预测模型对路线的交通状况基本没有预测能力，仅根据出发时间点的交通状况来进行预测，对到达终点的通行时间与实际通行时间会有很大的出入。而本发明实施例通过训练第一速度预测模型和第二速度预测模型中的至少一个，可以预测出路段的实时通行速度，实时通行速度能够表示路段在到达该路段时的交通状况，因此在预测通行时间时能够考虑到实时交通状况的影响，预测更为准确。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种模型训练方法的流程图；

图2是本发明实施例提供的一种实时通行速度预测示意图；

图3是本发明实施例提供的一种剩余路段的实时通行速度预测示意图；

图4是本发明实施例提供的一种历史通行数据示意图；

图5是本发明实施例提供的一种状态转换示意图；

图6是本发明实施例提供的一种通行时间确定方法的流程图；

图7是本发明实施例提供的一种通行时间确定装置的结构示意图；

图8是本发明实施例提供的一种终端的结构示意图；

图9是本发明实施例提供的一种服务器的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在对本发明实施例进行详细说明之前，首先对涉及到的概念进行如下介绍：

1、强化学习框架：包括Agent(智能体)、状态、动作、激励、价值和马尔科夫决策过程等成员。

一般的监督学习框架应用于预测ETA(Estimated Time of Arrival，预计到达时间)的场景时，在训练阶段会训练出一个预测模型，该预测模型实质上是一种路线特征与ETA的映射关系，通过样本数据进行训练可以使预测模型尽可能地与样本数据相符，准确度更高。在预测阶段，根据路线特征以及预测模型中确定的映射关系即可得到路线特征对应的ETA。

而强化学习框架不同于一般的监督学习框架，在强化学习框架中，Agent通过反馈机制，在不同的状态下反复尝试做出不同的动作，并根据做出的每个动作得到的收益，一步一步优化反馈机制，最终在马尔科夫决策过程(Markov Decision Process，简称MDP)中找到能够得到最大收益的决策序列。因此，强化学习框架的训练结果并不是一个数值，而是在状态-动作空间下的收益分布。

那么，将强化学习框架应用于预测ETA的场景时，其输入为包括多个路段的目标路线，其输出为决策出的最优策略，该最优策略中包括每个路段的通行时间。

2、路段：用来描述路线的最小单元，一条路线由多个路段组成，每个路段采用一组结构化的物理描述数据进行描述，包括但不限于路段的长度、宽度、包含红绿灯的个数、道路等级等。

3、路段的状态数据：可以包括以下至少一项：

3-1、初始速度：是指处于目标路线的起点时第一个路段的实时通行速度，同一路线中的不同路段对应的初始速度相等。

3-2、历史统计速度：根据路段的历史通行数据进行统计，得到路段在某一时间点的通行速度的统计值。对于同一路段来说，不同时间点的历史统计速度可能不同。

3-3累积通行时间：在路段之前的一个或多个路段累积的总通行时间。

3-4、路段的实时数据：包括实时通行速度、统计数据和物理描述数据；

其中，路段的实时通行速度是指在路段起点时路段的实时通行速度，同一个路段在不同时间点的实时通行速度可能不同。

路段的统计数据是指针对路段的历史通行情况统计出的数据，包括但不限于路段在畅通通行时的通行速度以及在某段时间区间内的多个历史统计速度。

路段的物理描述数据用于描述路段的地理情况，包括路段的长度、宽度、包含的红绿灯个数、道路等级等。

3-5、剩余路段的实时数据：包括路段之后的每个剩余路段的实时通行速度、统计数据和物理描述数据，具体的数据格式与路段的实时数据类似，在此不再赘述。

4、动作：是指按照一定的通行时间来通过某一路段的动作，每个路段的动作采用通行时间来表示。

每次执行一个动作，即按照一定的通行时间通过某一路段后，Agent所处的状态会发生变化，该变化包括：历史统计速度会切换为下一个路段的历史统计速度、累积通行时间会增加新通过路段的通行时间、路段的实时数据会切换为下一个路段的实时数据、剩余路段的实时数据中会将新通过路段的实时数据去除。

5、即时激励数值：在通过某一路段后，针对该路段的通行时间反馈的激励，以R_each来表示。

最终激励数值：通过一条路线、到达该路线的目的地后，针对该整条路线的通行时间反馈的激励，以R_finish来表示。

状态数据的收益数值：是指在某一时间点处于某种状态时未来能获得收益的期望，该收益数值可以用来衡量状态数据的预测准确程度，收益数值越高，表示当前时间点处于当前状态的情况与实际情况越相符，带来的误差越小，所制定的策略越准确。

通行时间的收益数值：是指在某一时间点处于某种状态时按照某一通行时间通过当前路段的条件下，未来能获得收益的期望，该收益数值越高，表示当前时间点处于当前状态的情况下，按照该通行时间通过当前路段时，期望获得的收益越大，即该情况与实际情况越相符，带来的误差越小，所制定的策略越准确。

根据状态数据的收益数值和通行时间的收益数值，可以决定是否要按照制定的通行时间通过当前路段。

6、马尔科夫决策过程：MDP<S，A，P，R，γ>，其中S表示状态数据的集合，A表示通行时间的集合，P表示状态转移概率矩阵，状态转移概率矩阵中的每个元素表示由前一组状态数据转移到下一组状态数据的概率，R表示激励，γ表示折扣因子，用来计算累积的收益数值。

在预测ETA的场景下，一个马尔科夫决策过程可以如下：

Agent处于S集合中的某一状态s时可能会执行A集合中的n个动作a。对于每一个不同的动作a，Agent模拟执行动作a后会对状态s产生影响，达到新状态s’。在此过程中，Agent会收到动作a对应的即时激励，并计算新状态s’的收益数值，最终选择n个动作中即时激励与收益数值的总和最大的动作来执行。

7、通行时间选取模型：根据路段的状态数据确定该路段通行时间的模型。

状态数据预测模型：根据上一个路段的状态数据和通行时间，预测下一个路段状态数据的模型。

状态数据预测模型可以包括第一速度预测模型和第二速度预测模型中的至少一个，第一速度预测模型用于根据路段的实时通行速度和通行时间预测当到达下一个路段时下一个路段的实时通行速度，第二速度预测模型用于根据当前路段的通行时间和当前路段之后的剩余路段的实时通行速度预测当到达下一个路段时，下一个路段之后的剩余路段的实时通行速度。

收益数值预测模型：根据状态数据获取收益数值的模型，以收益数值来表示在当前所处状态下未来期望获得的收益。

相关技术中提出了一种基于监督学习的机器学习方案，可以用于确定路线的通行时间。在该方案中，根据多条样本路线的样本数据训练出时间点预测模型，对于用户待通过的目标路线，可以基于该时间点预测模型确定该目标路线的预计到达时间。

但是，由于训练过程中采用的样本数据实仅能体现样本路线的全局信息，能够从全局的角度来描述样本路线，但是无法从局部的角度来样本路线，也即是训练时间点预测模型时未考虑路线的局部信息，这会导致基于时间点预测模型仅能根据路线的全局信息来确定预计到达时间，而丢失了路线的局部信息，因此预测不够准确。

为了提高预测准确度，本发明实施例提出了一种确定通行时间的方案，先训练出以路段为单位的通行时间选取模型和状态数据预测模型，针对用户待通行的目标路线，可以根据目标路线中的每个路段，基于通行时间选取模型和状态数据预测模型，确定每个路段的通行时间，充分考虑了目标路线中每个路段的局部信息，分别预测每个路段的通行时间，提高了预测准确度。

本发明实施例应用于预测目标路线的通行时间的场景下，例如，在地图导航的场景下，当用户要出发去往目的地时，可以根据用户当前所在的位置和该目的地确定多条路线，并采用本发明实施例提供的方法预测每条路线中每个路段的通行时间，从而预测出每条路线的总通行时间，由用户选择总通行时间较短的路线。当然，本发明实施例还可以应用于其他需要预测目标路线的通行时间的场景下。

在一种可能实现方式中，终端可以安装地图导航应用，在地图导航应用中可以采用本发明实施例提供的方法，预测目标路线的通行时间。

图1是本发明实施例提供的一种模型训练方法的流程图，该模型训练方法的执行主体为训练装置，对训练模型的过程进行说明。其中，该训练装置可以为具备导航功能的手机、计算机等终端或者服务器等。参见图1，该方法包括：

101、获取至少一条样本路线中每个路段的历史通行数据。

每条样本路线包括按照顺序排列的多个路段，每条样本路线中每个路段的历史通行数据可以根据对样本设备的移动过程进行收集得到。该样本设备可以包括手机、车载电脑、平板电脑等多种类型的设备。

收集过程中，可以获取电子地图，该电子地图包括多个路段，在任一样本设备移动的过程中，可以对样本设备进行定位，实时确定样本设备所在的位置，并根据该电子地图、样本设备所在的位置以及对应的时间点，收集该样本设备在每个路段的历史通行数据，从而得到一条样本路线中每个路段的历史通行数据。采用此种收集方式可以针对多个样本设备收集到多条样本路线中每个路段的历史通行数据。

其中，路段的历史通行数据包括路段的通行时间和状态数据。该通行时间即为样本设备通过该路段所耗费的时间，该状态数据可以包括初始速度、历史统计速度、累积通行时间、路段的实时数据、剩余路段的实时数据中的至少一项，另外还可以包括其他能够表示样本设备当前所处状态的数据。

例如，路段i的状态数据为S_i＝<V₀，V_hts，i，T_sum，i，L_i，L_left，i>。

其中，V₀表示初始速度，即处于路线起点时的实时通行速度；

V_hts，i表示当前从路线起点出发，当处于路段i的起点时的时间点路段i的历史统计速度；

T_sum，i表示当前从路线的起点出发，当处于路段i的起点时的时间点，路段i之前的路段累积的总通行时间，即为路段i之前的每个路段的通行时间的总和；

L_i表示路段i的实时数据，包括实时通行速度、统计数据和物理描述数据。其中实时通行速度是指当前从路线的起点出发，当处于路段i的起点时的时间点路段i的实时通行速度，统计数据包括路段i在畅通通行时的通行速度以及在至少一段时间区间内的多个历史统计速度，物理描述数据用于描述路段i的地理情况，可以包括路段i的长度、宽度、包含的红绿灯个数、道路等级等。

L_left，i表示路段i之后每个路段的实时数据，包括之后每个路段的实时通行速度、统计数据和物理描述数据。

实际上，训练装置直接收集到的每个路段的历史通行数据包括样本设备经过某一地点的时间点和通行速度，则对于电子地图中的每个路段来说，根据样本设备经过路段起点时的时间点与经过路段终点时的时间点可以确定路段的通行时间。并且，根据该路段的历史通行数据以及该路段之后的各个路段的历史通行数据，可以获取到在该路段起点时的各项状态数据，即为该路段的状态数据。

102、对于每条样本路线，根据样本路线中每个路段的历史通行数据，构造多组第一样本数据，每组第一样本数据中包括一组状态数据以及与一组状态数据对应的路段的通行时间；根据多组第一样本数据进行训练，得到通行时间选取模型。

其中，通行时间选取模型用于根据任一路段的状态数据确定任一路段的通行时间。对于任一路段，基于通行时间选取模型可以根据该路段的状态数据，预测出该路段的通行时间。

当获取到一条样本路线中每个路段的历史通行数据，即可获取到该路段的状态数据以及通行时间，也即是获取到了状态数据与通行时间的对应关系，将该对应关系作为一组第一样本数据，从而得到多组第一样本数据。例如，以i表示上一个路段，以i+1表示下一个路段，i为整数，根据历史通行数据可以获取到在路段i起点的时间点t时，路段i的状态数据s_i,t和路段i的通行时间a_i。

在训练最初采用随机值设置通行时间选取模型的模型参数，之后对于每组第一样本数据，采用第一训练算法，将第一样本数据中的状态数据作为模型的输入，将第一样本数据中的通行时间作为模型的输出，根据第一样本数据进行训练即可得到通行时间选取模型。后续过程中针对下一组样本数据，还可以继续对通行时间选取模型进行训练，提高通行时间选取模型的准确度。

其中，该第一训练算法可以为深度网络训练算法、循环神经网络算法、决策树算法等多种类型的算法，相应的，所训练的通行时间选取模型可以为深度网络模型、循环神经网络模型、决策树模型等多种类型的模型。

在一种可能实现方式中，该通行时间选取模型用于根据任一路段的状态数据确定多个通行时间的概率，也即是确定了一组概率分布，该概率分布中的每个概率表示按照对应通行时间通过该路段的概率，概率越大，表示越有可能按照该通行时间通过该路段，则根据多个通行时间的概率可以确定该路段的通行时间。

103、根据样本路线中每个路段的历史通行数据，构造多组第二样本数据，每组第二样本数据中包括一组状态数据、与一组状态数据对应的路段的通行时间以及一组状态数据的下一组状态数据；根据多组第二样本数据进行训练，得到状态数据预测模型。

其中，状态数据预测模型用于根据任一路段的状态数据和通行时间，确定任一路段的下一路段的状态数据。对于任一路段，基于状态数据预测模型可以根据该路段的状态数据和通行时间，预测出该路段的下一个路段的状态数据。

当获取到一条样本路线中每个路段的历史通行数据，即可获取到在每个路段的起点的状态数据、该路段的通行时间以及按照该通行时间通过该路段后在该路段终点的状态数据，也即是获取到了路段的状态数据、该路段的通行时间与该路段的下一个路段的状态数据的对应关系，将该对应关系作为一组第二样本数据，从而得到多组第二样本数据。例如，以i表示上一个路段，以i+1表示下一个路段，i为整数，根据历史通行数据可以获取到在路段i起点的时间点t时，路段i的状态数据s_i,t和路段i的通行时间a_i，并且假设按照该通行时间a_i通过路段i后，会在时间点t+1到达路段i的终点，即路段i+1的起点，此时会获取到路段i+1的状态数据s_i+1,t+1。

在训练最初采用随机值设置状态数据预测模型的模型参数，之后对于每组第二样本数据，采用第二训练算法，将第二样本数据中的状态数据和通行时间作为模型的输入，将第二样本数据中的下一组状态数据作为模型的输出，根据第二样本数据进行训练，即可得到状态数据预测模型。后续过程中针对下一组样本数据，还可以继续对状态数据预测模型进行训练，提高状态数据预测模型的准确度。

其中，该第二训练算法可以为深度网络训练算法、循环神经网络算法、决策树算法等多种类型的算法，相应的，所训练的状态数据预测模型可以为深度网络模型、循环神经网络模型、决策树模型等多种类型的模型。尤其是，在一条路线中，具有拓扑结构特征恒的路段串在状态数据上具有关联关系，因此采用循环神经网络算法训练模型会更符合实际情况，更能学习到前后路段在不同时间点的状态数据转换情况，从而提高了模型的准确度。

由于训练过程可以获取到大量的样本路线，而每一条样本路线由多个路段组成，这样可以得到大量在位置上相邻的两个路段，由于路段组合过多，直接根据大量路段组合的样本数据进行训练，会导致计算量过大，超出内存空间和运算效率的限制。而通过观察发现，位置上相邻的两个路段的状态数据，之间的差异仅在于路段的实时通行速度和剩余路段的实时通行速度，因此，除这两项状态数据之外，下一个路段的其他项状态数据均可通过上一个路段的相应状态数据计算得到，无需通过模型进行预测。为此，可以针对路段的实时通行速度和剩余路段的实时通行速度这两项状态数据训练模型。

在一种可能实现方式中，任一路段的状态数据包括该路段的实时数据，该实时数据是指该路段的实时通行速度。则状态数据预测模型包括第一速度预测模型，第一速度预测模型用于根据在路段起点时的时间点该路段的实时通行速度以及该路段的通行时间，确定按照该通行时间通过该路段之后在该路段终点时的时间点下一个路段的实时通行速度。

相应地，步骤103可以包括：根据获取到的历史通行数据，构造多组样本数据，每组样本数据中包括一个路段的实时通行速度、该路段的通行时间和下一个路段的实时通行速度，根据每组样本数据进行训练，可以得到第一速度预测模型。

参见图2，通过在状态数据预测模型中设置第一速度预测模型，可以保证基于状态数据预测模型进行预测时，根据任一路段的状态数据和下一路段除实时通行速度之外的其他项状态数据，即可预测出下一路段的实时通行速度，从而将下一路段的其他项状态数据与实时通行速度整合，得到下一路段完整的状态数据。

在另一种可能实现方式中，任一路段的状态数据包括剩余路段的实时数据，该剩余路段的实时数据是指该路段之后的每个路段的实时通行速度，即在该路段的起点时，该路段之后的每个路段的实时通行速度。则状态数据预测模型包括第二速度预测模型，第二速度预测模型用于根据在路段起点时的时间点该路段之后的每个路段的实时通行速度以及该路段的通行时间，确定按照该通行时间通过该路段之后在该路段终点时的时间点下一个路段之后的每个路段的实时通行速度。

相应地，步骤103可以包括：根据获取到的历史通行数据，构造多组样本数据，每组样本数据中包括一个路段之后的每个路段的实时通行速度、该路段的通行时间以及该路段的下一个路段之后的每个路段的实时通行速度，根据每组样本数据进行训练，可以得到第二速度预测模型。

参见图3，通过在状态数据预测模型中设置第二速度预测模型，可以保证基于状态数据预测模型进行预测时，根据任一路段的状态数据和下一路段除之后每个路段的实时通行速度之外的其他项状态数据，即可预测出下一路段之后每个路段的实时通行速度，从而将下一路段的其他项状态数据与之后每个路段的实时通行速度整合，得到下一路段完整的状态数据。

对于除上述路段的实时数据和剩余路段的实时数据之外的其他项状态数据，也可以不训练模型，后续预测过程中可以采用其他方式来预测这些状态数据。

104、获取样本路线的全局激励数值和样本路线中每个路段的局部激励数值。

其中，全局激励数值用于衡量样本路线的通行时间的准确程度，全局激励数值越高，表示为样本路线预测出的通行时间越准确，越符合实际情况。局部激励数值用于衡量对应路段的通行时间的准确程度，局部激励数值越高，表示为路段预测出的通行时间越准确，越符合实际情况。

在一种可能实现方式中，该步骤104可以包括以下步骤1041-1043：

1041、基于当前训练的通行时间选取模型和状态数据预测模型，确定样本路线中每个路段的预测通行时间。

通过上述步骤102和103可以训练出通行时间选取模型和状态数据预测模型，则对于样本路线中的每个路段，可以基于通行时间选取模型，根据路段的状态数据确定路段的预测通行时间，基于状态数据预测模型又可以根据路段的通行时间确定下一个路段的状态数据，以此类推，即可确定样本路线中每个路段的预测通行时间。

在一种可能实现方式中，考虑到如果仅按照价值最优的方向制定通行策略，很可能会陷入局部最优而失去其他获得最大收益的机会。因此，为了防止局部最优的问题，在为每个路段预测通行时间时，先基于通行时间选取模型确定路段的最优通行时间，另外再结合路段的其他因素引入噪声，确定路段其他的通行时间，如次优的通行时间、其他可能的通行时间等。这样可以扩大搜索范围，保证搜索更加全面，使最终制定的通行策略更为合理。例如，可以加入蒙特卡洛树搜索策略来进行搜索，并采用随机采样的思想尽可能地降低搜索空间，提高搜索效率。

1042、根据每个路段的预测通行时间，获取样本路线的预测总通行时间，根据样本路线的预测总通行时间与样本路线的实际总通行时间之间的第一误差，确定样本路线的全局激励数值，全局激励数值与第一误差呈反比关系。

样本路线中每个路段的预测通行时间之和即为样本路线的预测总通行时间。该样本路线的历史通行数据中包括该样本路线的实际总通行时间，预测总通行时间与实际总通行时间之间的第一误差越大，表示样本路线预测的总通行时间越不准确，因此全局激励数值与第一误差呈反比关系，可以根据第一误差确定全局激励数值。

例如，采用以下公式，根据样本路线的预测总通行时间和实际总通行时间确定第一误差：

采用以下公式，根据第一误差确定全局激励数值：

其中，mape_Traj表示第一误差，T表示预测总通行时间，Traj表示实际总通行时间，abs表示取整后求绝对值的函数，R_finish表示全局激励数值，α表示权重系数。

通过将第一误差与全局激励数值关联起来，使两者呈反比关系可以保证误差越小全局激励数值越大，因此根据全局激励数值计算得到收益数值，可以保证模型尽量在路段级别上实现收益数值的准确预测。

1043、根据每个路段的通行时间与每个路段的实际通行时间之间的第二误差，确定每个路段的局部激励数值，局部激励数值与第二误差呈反比关系。

该样本路线的历史通行数据中包括每个路段的实际通行时间，对于该样本路线中的每个路段来说，预测通行时间与实际通行时间之间的差值即为第二误差，该第二误差越大表示路段预测的通行时间越不准确，因此局部激励数值与第二误差呈反比关系，可以根据第二误差确定局部激励数值。

例如，采用以下公式，根据第二误差确定局部激励数值：

其中，R_each表示局部激励数值，β表示权重系数，mape_link表示第二误差。

通过将第二误差与局部激励数值关联起来，使两者呈反比关系可以保证误差越小局部激励数值越大，因此根据局部激励数值计算得到收益数值，可以保证模型尽量在路段级别上实现收益数值的准确预测。

105、对于样本路线中的任一路段的第一样本状态数据，根据第一样本状态数据在每条样本路线中的下一样本状态数据的收益数值、从第一样本状态数据转换到下一样本状态数据的概率和从第一样本状态数据转换到下一样本状态数据的条件下该下一样本状态数据的收益数值，获取第一样本状态数据的收益数值，直至获取到样本路线中每个状态数据的收益数值。

其中，任一样本路线中最后一个状态数据的收益数值等于样本路线的全局激励数值与样本路线中每个路段的局部激励数值的总和。

那么，对于每条样本路线来说，可以先根据该样本路线的全局激励数值和每个路段的局部激励数值的总和，确定最后一个状态数据的收益数值。

对于样本路线中任两个位置上相邻的第一路段和第二路段来说，由于基于通行时间选取模型并根据第一路段的状态数据可以确定第一路段的通行时间的概率，基于状态数据预测模型并根据第一路段的状态数据和通行时间可以确定第二路段的状态数据。也即是，从第一路段的状态数据转换到第二路段的状态数据的概率等于该第一路段的通行时间的概率，而从第一路段的状态数据转换到第二路段的状态数据的条件下第二路段的状态数据的收益数值等于该第一路段的局部激励数值。

因此，从最后一个状态数据开始，对于任一路段的第一样本状态数据，根据下一样本状态数据的收益数值、从第一样本状态数据转换到下一样本状态数据的概率和从第一样本状态数据转换到下一样本状态数据的条件下该下一样本状态数据的收益数值，即可获取到第一样本状态数据的收益数值，从而得到样本路线中每个状态数据的收益数值。

在一种可能实现方式中，采用以下公式，获取第一样本状态数据的收益数值：

其中，s_i表示第一样本状态数据，V^π(s_i)表示第一样本状态数据的收益数值，s_i+1表示下一样本状态数据，V^π(s_i+1)表示下一样本状态数据的收益数值，S表示第一样本状态数据在至少一条样本路线中所有的下一样本状态数据构成的集合；π表示由多个路段的通行时间构成的通行策略；

P(s_i+1|s_i,a_i)表示从第一样本状态数据转换到下一样本状态数据的概率，且等于从第一样本状态数据转换到下一样本状态数据时按照的通行时间的概率，R(s_i+1|s_i,a_i)表示从第一样本状态数据转换到下一样本状态数据的条件下该下一样本状态数据的收益数值，且等于从第一样本状态数据转换到下一样本状态数据时所通过路段的局部激励数值，γ表示折扣因子。

通过贝尔曼方程(Bellman Equation)可知，从当前的决策时间点(可以认为是出发时间点)至整条路线的决策结束时间点，每个路段的状态数据的收益数值为：

即，假设在π策略下状态数据s的收益数值为后续每一步的收益数值与γ^j的乘积的累积和的期望，以第一个状态数据s0为例，该公式可以写为：

V^π(s)＝E_π[V₀+γV₁+γ²V₂+γ³V₃+…|s＝s₀]

＝E_π[V₀+γE_π[V₁+γ¹V₂+γ²V₃+…]|s＝s₀]

＝E_π[R(s₁|s₀,a₀)+γV^π(s₁)|s＝s₀]

对于任一状态数据s_i，

举例来说，多条样本路段中路段1和路段2的历史通行数据如图4所示，在状态s0时按照通行时间a1通过路段1，之后出现了6种通行时间来通过路段2，每种通行时间的概率各不相同，且总和为100％。基于图4所示的历史通行数据可以得到如图5所示的状态转换示意图。

参见图5，由于路段2出现了6种通行时间，因此构成了6条样本路线，每条样本路线中包括路段1和路段2，每条样本路线中，可以计算出激励数值为全局激励数值R_finish和两个路段的局部激励数值R_each的总和，且最后一个状态数据的收益数值与激励数值相等，因此可以计算得到状态数据s11至s16的收益数值。之后，状态数据s1的收益数值可以采用以下公式计算得到：

V(s1)＝P(s11|s1,a21)[R(s11|s1,a21)+γV(s11)+…

+P(s16|s1,a26)[R(s11|s1,a26)+γV(s11)

其中，P(s11|s1,a21)为状态数据s1按照通行时间a21通过路段1，转换为状态数据s11的概率，即通行时间a21的概率，R(s11|s1,a21)为状态数据s1按照通行时间a21通过路段1，转换为状态数据s11的条件下，状态数据s11的收益数值，即s11的收益数值。其他路段类似，在此不再赘述。

之后，采用类似的方式也可以计算出状态数据s0的收益数值，进而得到每个状态数据的收益数值。

106、根据每个状态数据以及每个状态数据的收益数值进行训练，得到收益数值预测模型。

通过上述步骤106可以确定状态数据与收益数值的对应关系，将该对应关系作为一组样本数据，则根据每组样本数据进行训练，可以得到收益数值预测模型，该收益数值预测模型用于根据任一状态数据获取该状态数据的收益数值，以收益数值来表示在当前所处状态下未来期望获得的收益。

在一种可能实现方式中，可以采用深度神经网络算法来训练收益数值预测模型。该收益数值预测模型最初采用随机值预设，通过不断地尝试学习，该收益数值预测模型能够学习到状态数据对应的收益数值的规则，并更新收益数值预测模型中的模型参数，保持模型随着试错学习而不断进行更新，使得模型的准确度不断提高，进而从一个随机初始化的模型不断优化直至收敛，此时基于收益数值预测模型做出的决策才会更加趋于最优。

本发明实施例提供的方法，获取至少一条样本路线中每个路段的历史通行数据，能够从局部的角度来描述样本路线，根据获取到的历史通行数据进行训练得到针对路段的通行时间选取模型和状态数据预测模型，基于通行时间选取模型和状态数据预测模型，能够以路段为单位来预测通行时间和状态数据，充分考虑了路线的局部信息，提高了预测准确度。

并且，根据获取到的历史通行数据以及训练出的通行时间选取模型和状态数据预测模型，可以训练收益数值预测模型，基于收益数值预测模型能够以路段为单位来预测每个状态数据的收益数值，以收益数值来衡量状态数据的准确程度，从而根据状态数据确定更为合理的通行时间，提高了准确度。

图6是本发明实施例提供的一种通行时间确定方法的流程图，该通行时间确定方法的执行主体为预测装置，对预测目标路线的通行时间的过程进行说明。其中，该预测装置可以为具备导航功能的手机、计算机等终端或者服务器等，且预测装置与上述实施例中的训练装置可以为相同装置，或者也可以为不同装置，当预测装置与训练装置为不同装置时，训练装置可以将训练完成的模型提供给预测装置，供预测装置使用。参见图6，该方法包括：

601、获取待通行的目标路线。

其中，目标路线包括按照顺序排列的多个路段，任意两个在位置上相邻的路段相连，上一个路段的终点即为下一个路段的起点。

该目标路线可以由用户选择，或者由预测装置根据起点和终点在电子地图中选择。例如，当用户要出发去往某一目的地时，预测装置可以将用户当前所在的位置作为路线起点，将目的地作为路线终点，将电子地图中从起点到终点的一条或多条路线均作为目标路线，以预测每条目标路线的总通行时间。

602、从多个路段中的第一个路段开始，对于任意两个位置上相邻的第一路段和第二路段，将第一路段的第一状态数据输入至通行时间选取模型中，基于通行时间选取模型确定多个通行时间的概率，根据多个通行时间的概率从多个通行时间中选取第一路段的多个备选通行时间。

本发明实施例中，通行时间选取模型用于根据路段的状态数据确定多个通行时间的概率，则将第一路段的第一状态数据输入至通行时间选取模型中，基于通行时间选取模型确定多个通行时间的概率，此时可以根据多个通行时间的概率，从多个通行时间中选取多个备选通行时间。如按照概率从大到小的顺序选取预设数量的通行时间，作为备选通行时间，从而得到多个备选通行时间，该预设数量可以根据准确度需求确定，或者根据多个通行时间的数量和固定的选取比例确定。

例如，将路段i的状态数据s_i,t输入至通行时间选取模型中可以得到路段i的备选通行时间a_i。

603、对于每个备选通行时间，将第一状态数据和备选通行时间输入至状态数据预测模型中，基于状态数据预测模型确定在第一状态数据下按照备选通行时间通过第一路段后第二路段的备选状态数据。

例如，将路段i的状态数据s_i,t和备选通行时间a_i输入至状态数据预测模型中，可以得到在时间点t之后按照备选通行时间a_i通过路段i，在时间点t+1时到达路段i+1时，路段i+1的备选状态数据s_i+1,t+1。

在一种可能实现方式中，任一路段的状态数据包括该路段的实时数据，该实时数据是指该路段的实时通行速度，即在该路段起点时该路段的实时通行速度。则将在第一路段起点时的时间点该第一路段的实时通行速度以及该第一路段的备选通行时间输入至第一速度预测模型，基于第一速度预测模型确定按照备选通行时间通过第一路段后在该第一路段终点时的时间点第二路段的实时通行速度。

例如，以i表示上一个路段，以i+1表示下一个路段，i为整数，基于第一速度预测模型，可以根据在路段i起点的时间点t时，路段i的实时通行速度V_i,t和路段i的通行时间a_i，预测出按照该通行时间a_i通过路段i后，在时间点t+1时到达路段i+1的起点时，路段i+1的实时通行速度V_i+1,t+1。

可选地，为了提高准确度，还可以将在第一路段起点时的时间点该第一路段的实时通行速度和该第二路段的实时通行速度，以及该第一路段的备选通行时间输入至第一速度预测模型，基于第一速度预测模型确定按照备选通行时间通过第一路段后在该第一路段终点时的时间点第二路段的实时通行速度。

例如，基于第一速度预测模型，可以根据在路段i起点的时间点t时，路段i的实时通行速度V_i,t、路段i+1的实时通行速度V_i+1,t和路段i的通行时间a_i，预测出按照该通行时间a_i通过路段i后，在时间点t+1时到达路段i+1的起点时，路段i+1的实时通行速度V_i+1,t+1。

在另一种可能实现方式中，当任一路段的状态数据包括剩余路段的实时数据，该剩余路段的实时数据是指该路段之后的每个路段的实时通行速度，即在该路段的起点时，该路段之后的每个路段的实时通行速度。则将在第一路段起点时的时间点该第一路段之后每个路段的实时通行速度以及该第一路段的备选通行时间输入至第二速度预测模型，基于第二速度预测模型确定按照备选通行时间通过第一路段后在该第一路段终点时的时间点第二路段之后每个路段的实时通行速度。

例如，以i表示上一个路段，以i+1表示下一个路段，i为整数，基于第二速度预测模型，可以根据在路段i起点的时间点t时，路段i之后每个路段的实时通行速度V_left,i,t和路段i的通行时间a_i，预测出按照该通行时间a_i通过路段i后，在时间点t+1时到达路段i+1的起点时，路段i+1之后每个路段的实时通行速度V_left,i+1,t+1。

可选地，为了提高准确度，还可以将在第一路段起点时的时间点该第一路段之后每个路段的实时通行速度和该第二路段之后每个路段的实时通行速度，以及该第一路段的备选通行时间输入至第二速度预测模型，基于第二速度预测模型确定按照备选通行时间通过第一路段后在该第一路段终点时的时间点第二路段之后每个路段的实时通行速度。

例如，基于第二速度预测模型，可以根据在路段i起点的时间点t时，路段i之后每个路段的实时通行速度V_left,i,t、路段i+1之后每个路段的实时通行速度V_left,i+1,t和路段i的通行时间a_i，预测出按照该通行时间a_i通过路段i后，在时间点t+1时到达路段i+1的起点时，路段i+1之后每个路段的实时通行速度V_left,i+1,t+1。

另外，第一状态数据转换到第二状态数据时，对于除上述路段的实时数据和剩余路段的实时数据之外的其他项状态数据，第二状态数据中的初始速度与第一状态数据的初始速度相等，因此初始速度不变；由于路段和时间点均发生变化，因此历史统计速度更换为在该第一路段终点时的时间点第二路段的历史统计速度，累积通行时间需要在原有累积通行时间的基础上增加该第一路段的通行时间。

例如在时间点t时路段i的状态数据为s_i,t＝<V₀，V_hts,i,t，T_sum,i,t，L_i,t，L_left,i,t>，当按照通行时间通过路段i到达路段i+1时，在时间点t+1时路段i+1的状态数据为S_i+1,t+1＝<V₀，V_hts,i+1,t+1，T_sum,i+1,t+1，L_i+1,t+1，L_left,i+1,t+1>。

604、根据多个备选通行时间对应的备选状态数据，确定第一路段的通行时间，以及在第一状态数据下按照通行时间通过第一路段后第二路段的第二状态数据。

在一种可能实现方式中，将每个备选通行时间对应的备选状态数据输入至收益数值预测模型中，基于收益数值预测模型，获取每个备选状态数据的收益数值，收益数值用于衡量对应状态数据的预测准确程度，则从多个备选通行时间对应的备选状态数据中，选取收益数值最大的备选状态数据，确定为第二状态数据，将第二状态数据对应的备选通行时间确定为第一路段的通行时间。

需要说明的是，预测装置获取到目标路线后，对于任意两个位置上相邻的第一路段和第二路段，根据第一路段的第一状态数据，基于通行时间选取模型和状态数据预测模型，确定第一路段的通行时间，以及在第一状态数据下按照通行时间通过第一路段后第二路段的第二状态数据。而上述步骤602-604为可选步骤，预测装置也可以采用其他方式来确定第一路段的通行时间和第二状态数据。

在另一实施例中，该通行时间选取模型用于根据任一路段的状态数据确定该任一路段的通行时间，因此，将第一状态数据输入至通行时间选取模型中，基于通行时间选取模型确定第一路段的通行时间，将第一状态数据和通行时间输入至状态数据预测模型中，基于状态数据预测模型确定第二状态数据。

605、根据第二状态数据，继续基于通行时间选取模型和状态数据预测模型确定第二路段的通行时间，直至确定多个路段中每个路段的通行时间。

获取到第二状态数据之后，可以对第二路段和第二路段的下一个路段，继续执行上述步骤602-604确定第二路段的通行时间，以此类推，即可确定目标路线中每个路段的通行时间。

606、根据多个路段的通行时间，确定目标路线的总通行时间，根据当前时间点和总通行时间，确定到达时间点。

将目标路线中多个路段的通行时间的总和确定为目标路线的总通行时间，将当前时间点作为用户的出发时间点，则出发时间点经过该总通行时间后达到的时间点即为到达时间点。

本发明实施例提供的方法，通过训练得到针对路段的通行时间选取模型和状态数据预测模型，基于通行时间选取模型和状态数据预测模型，能够以路段为单位来预测通行时间和状态数据，充分考虑了路线的局部信息，提高了预测准确度，能够弥补传统预测模型的缺点。

总结来说，本发明实施例中将通行时间选取模型和状态数据预测模型共同组成了预测方案中的策略网络，通行时间选取模型用于判断在当前状态下，为当前路段预估多少通行时间最为恰当，而状态数据预测模型基于通行时间选取模型的输出，对下一状态数据进行预测，预测下一状态最大可能是什么样的，具体的状态数据是什么。

本发明实施例中将收益数值预测模型组成了估值网络，为每个通行时间达到的状态数据的收益进行估算，得到估值网络与最佳策略之间的关联关系。

通过根据大量的历史通行数据进行训练，使模型学习到基于时间、路段及实时通行速度的变化与道路通行能力变化之间的关联关系，进而基于模型为每个路段的通行时间进行预测时，将学习到的变化考虑进来，综合策略网络和估值网络给出的结果确定预测结果。

本发明实施例通过通行时间选取模型、状态数据预测模型和收益数值预测模型，提供了一种基于强化学习框架的预测方案，通过样本数据训练得到最佳决策过程，最终可以输出预测结果。该预测方案无需进行详细的规则设计，通过路段级别的建模，能够保留路线的局部信息，而且具有一定的推理能力，理论上能够解决对交通状况变化的预测问题。而且利用了强化学习框架可以在线更新的特性，对样本数据具有很好的敏感性，可以对用户的通行情况、用户分布变化、交通状况等数据做到实时更新。

图7是本发明实施例提供的一种通行时间确定装置的结构示意图。参见图7，该装置包括：

路线获取模块701，用于执行上述实施例中获取目标路线的步骤；

策略确定模块702，用于执行上述实施例中确定第一路段的通行时间，以及第二状态数据的步骤；

策略确定模块702，还用于执行上述实施例中根据第二状态数据，继续确定第二路段的通行时间，直至确定多个路段中每个路段的通行时间的步骤。

可选地，策略确定模块702，包括：

时间确定单元，用于执行上述实施例中基于通行时间选取模型确定第一路段的通行时间的步骤；

状态确定单元，用于执行上述实施例中基于状态数据预测模型确定第二状态数据的步骤。

可选地，策略确定模块702，包括：

备选时间确定单元，用于执行上述实施例中基于通行时间选取模型确定多个通行时间的概率，选取第一路段的多个备选通行时间的步骤；

备选状态确定单元，用于执行上述实施例中对于每个备选通行时间，基于状态数据预测模型确定在第一状态数据下按照备选通行时间通过第一路段后第二路段的备选状态数据的步骤；

策略确定单元，用于执行上述实施例中根据多个备选通行时间对应的备选状态数据，确定第一路段的通行时间，以及通行时间对应的第二状态数据的步骤。

可选地，策略确定单元，还用于执行上述实施例中基于收益数值预测模型获取备选状态数据的收益数值，选取收益数值最大的备选状态数据，确定为第二状态数据，并确定第一路段的通行时间的步骤。

可选地，策略确定单元，还用于执行上述实施例中获取第一路段在第一时间点的实时通行速度，基于第一速度预测模拟性确定第二路段在第二时间点的实时通行速度的步骤。

可选地，策略确定单元，还用于执行上述实施例中获取第一路段之后的每个路段在第一时间点的实时通行速度，基于第二速度预测模型确定第二路段之后的每个路段在第二时间点的实时通行速度的步骤。

可选地，装置还包括：

样本获取模块，用于执行上述实施例中获取至少一条样本路线中每个路段的历史通行数据的步骤；

第一训练模块，用于执行上述实施例中根据获取到的历史通行数据，构造多组第一样本数据，进行训练得到通行时间选取模型的步骤；

第二训练模块，用于执行上述实施例中根据获取到的历史通行数据，构造多组第二样本数据，进行训练得到状态数据预测模型的步骤。

可选地，装置还包括：

激励获取模块，用于执行上述实施例中对于每条样本路线，获取样本路线的全局激励数值和样本路线中每个路段的局部激励数值的步骤；

收益获取模块，用于执行上述实施例中对于至少一条样本路线中的任一路段的第一样本状态数据，获取第一样本状态数据的收益数值，直至获取到至少一条样本路线中每个状态数据的收益数值的步骤；

第三训练模块，用于执行上述实施例中根据每个状态数据以及每个状态数据的收益数值进行训练，得到收益数值预测模型的步骤。

可选地，激励获取模块，包括：

时间预测单元，用于执行上述实施例中基于当前训练的通行时间选取模型和状态数据预测模型，确定样本路线中每个路段的预测通行时间的步骤；

全局激励获取单元，用于执行上述实施例中根据每个路段的预测通行时间，获取样本路线的预测总通行时间，根据样本路线的预测总通行时间与样本路线的实际总通行时间之间的第一误差，确定样本路线的全局激励数值的步骤；

局部激励获取单元，用于执行上述实施例中根据每个路段的预测通行时间与每个路段的实际通行时间之间的第二误差，确定每个路段的局部激励数值的步骤。

可选地，收益获取模块，用于执行上述实施例中采用以下公式获取第一样本状态数据的收益数值：

需要说明的是：上述实施例提供的通行时间确定装置在确定通行时间时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将训练装置或预测装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的通行时间确定装置与通行时间确定方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图8示出了本发明一个示例性实施例提供的终端800的结构框图。该终端800可以是便携式移动终端，比如：智能手机、平板电脑、MP3播放器(Moving Picture ExpertsGroup Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving PictureExperts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑、台式电脑、头戴式设备，或其他任意智能终端。终端800还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，终端800包括有：处理器801和存储器802。

处理器801可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器801可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器801也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器801可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器801还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器802可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器802还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器802中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器801所具有以实现本申请中方法实施例提供的通行时间确定方法。

在一些实施例中，终端800还可选包括有：外围设备接口803和至少一个外围设备。处理器801、存储器802和外围设备接口803之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口803相连。具体地，外围设备包括：射频电路804、触摸显示屏805、摄像头806、音频电路807、定位组件808和电源809中的至少一种。

外围设备接口803可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器801和存储器802。在一些实施例中，处理器801、存储器802和外围设备接口803被集成在同一芯片或电路板上；在一些其他实施例中，处理器801、存储器802和外围设备接口803中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路804用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路804通过电磁信号与通信网络以及其他通信设备进行通信。射频电路804将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路804包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路804可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：城域网、各代移动通信网络(2G、3G、4G及8G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路804还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

显示屏805用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏805是触摸显示屏时，显示屏805还具有采集在显示屏805的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器801进行处理。此时，显示屏805还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏805可以为一个，设置终端800的前面板；在另一些实施例中，显示屏805可以为至少两个，分别设置在终端800的不同表面或呈折叠设计；在再一些实施例中，显示屏805可以是柔性显示屏，设置在终端800的弯曲表面上或折叠面上。甚至，显示屏805还可以设置成非矩形的不规则图形，也即异形屏。显示屏805可以采用LCD(LiquidCrystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。

摄像头组件808用于采集图像或视频。可选地，摄像头组件808包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件808还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路807可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器801进行处理，或者输入至射频电路804以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端800的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器801或射频电路804的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路807还可以包括耳机插孔。

定位组件808用于定位终端800的当前地理位置，以实现导航或LBS(LocationBased Service，基于位置的服务)。定位组件808可以是基于美国的GPS(GlobalPositioning System，全球定位系统)、中国的北斗系统、俄罗斯的格雷纳斯系统或欧盟的伽利略系统的定位组件。

电源809用于为终端800中的各个组件进行供电。电源809可以是交流电、直流电、一次性电池或可充电电池。当电源809包括可充电电池时，该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。

在一些实施例中，终端800还包括有一个或多个传感器810。该一个或多个传感器810包括但不限于：加速度传感器811、陀螺仪传感器812、压力传感器813、指纹传感器814、光学传感器815以及接近传感器816。

加速度传感器811可以检测以终端800建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器811可以用于检测重力加速度在三个坐标轴上的分量。处理器801可以根据加速度传感器811采集的重力加速度信号，控制触摸显示屏805以横向视图或纵向视图进行用户界面的显示。加速度传感器811还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器812可以检测终端800的机体方向及转动角度，陀螺仪传感器812可以与加速度传感器811协同采集用户对终端800的3D动作。处理器801根据陀螺仪传感器812采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器813可以设置在终端800的侧边框和/或触摸显示屏805的下层。当压力传感器813设置在终端800的侧边框时，可以检测用户对终端800的握持信号，由处理器801根据压力传感器813采集的握持信号进行左右手识别或快捷操作。当压力传感器813设置在触摸显示屏805的下层时，由处理器801根据用户对触摸显示屏805的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器814用于采集用户的指纹，由处理器801根据指纹传感器814采集到的指纹识别用户的身份，或者，由指纹传感器814根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器801授权该用户具有相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器814可以被设置终端800的正面、背面或侧面。当终端800上设置有物理按键或厂商Logo时，指纹传感器814可以与物理按键或厂商标志集成在一起。

光学传感器815用于采集环境光强度。在一个实施例中，处理器801可以根据光学传感器815采集的环境光强度，控制触摸显示屏805的显示亮度。具体地，当环境光强度较高时，调高触摸显示屏805的显示亮度；当环境光强度较低时，调低触摸显示屏805的显示亮度。在另一个实施例中，处理器801还可以根据光学传感器815采集的环境光强度，动态调整摄像头组件808的拍摄参数。

接近传感器816，也称距离传感器，通常设置在终端800的前面板。接近传感器816用于采集用户与终端800的正面之间的距离。在一个实施例中，当接近传感器816检测到用户与终端800的正面之间的距离逐渐变小时，由处理器801控制触摸显示屏805从亮屏状态切换为息屏状态；当接近传感器816检测到用户与终端800的正面之间的距离逐渐变大时，由处理器801控制触摸显示屏805从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图8中示出的结构并不构成对终端800的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

图9是本发明实施例提供的一种服务器的结构示意图，该服务器900可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processingunits，CPU)901和一个或一个以上的存储器902，其中，所述存储器902中存储有至少一条指令，所述至少一条指令由所述处理器901加载并执行以实现上述各个方法实施例提供的方法。当然，该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器还可以包括其他用于实现设备功能的部件，在此不做赘述。

服务器900可以用于执行上述通行时间确定中预测装置所执行的步骤。

本发明实施例还提供了一种用于确定通行时间的终端，该终端包括处理器和存储器，存储器中存储有至少一条指令、至少一段程序、代码集或指令集，指令、程序、代码集或指令集由处理器加载并执行以实现上述实施例的通行时间确定方法中所执行的操作。

本发明实施例还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，该指令、该程序、该代码集或该指令集由处理器加载并执行以实现上述实施例的通行时间确定方法中所执行的操作。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种通行时间确定方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述第一路段的第一状态数据，基于通行时间选取模型和状态数据预测模型，确定所述第一路段的通行时间，以及在所述第一状态数据下按照所述通行时间通过所述第一路段后所述第二路段的第二状态数据，包括：

将所述第一状态数据输入至所述通行时间选取模型中，基于所述通行时间选取模型确定所述第一路段的通行时间；

将所述第一状态数据和所述通行时间输入至所述状态数据预测模型中，基于所述状态数据预测模型确定所述第二状态数据。

3.根据权利要求1所述的方法，其特征在于，所述根据所述第一路段的第一状态数据，基于通行时间选取模型和状态数据预测模型，确定所述第一路段的通行时间，以及在所述第一状态数据下按照所述通行时间通过所述第一路段后所述第二路段的第二状态数据，包括：

将所述第一状态数据输入至所述通行时间选取模型中，基于所述通行时间选取模型确定多个通行时间的概率，根据所述多个通行时间的概率从所述多个通行时间中选取所述第一路段的多个备选通行时间；

对于每个备选通行时间，将所述第一状态数据和所述备选通行时间输入至所述状态数据预测模型中，基于所述状态数据预测模型确定在所述第一状态数据下按照所述备选通行时间通过所述第一路段后所述第二路段的备选状态数据；

根据所述多个备选通行时间对应的备选状态数据，确定所述第一路段的通行时间，以及所述通行时间对应的所述第二状态数据。

4.根据权利要求3所述的方法，其特征在于，所述根据所述多个备选通行时间对应的备选状态数据，确定所述第一路段的通行时间，以及所述通行时间对应的所述第二状态数据，包括：

将每个备选通行时间对应的备选状态数据输入至收益数值预测模型中，基于所述收益数值预测模型，获取每个备选状态数据的收益数值，所述收益数值用于衡量对应状态数据的预测准确程度；

从所述多个备选通行时间对应的备选状态数据中，选取收益数值最大的备选状态数据，确定为所述第二状态数据；

将所述第二状态数据对应的备选通行时间确定为所述第一路段的通行时间。

5.根据权利要求1-4任一项所述的方法，其特征在于，所述任一路段的状态数据包括所述任一路段的实时通行速度，所述状态数据预测模型包括第一速度预测模型；

所述根据所述第一路段的第一状态数据，基于通行时间选取模型和状态数据预测模型，确定所述第一路段的通行时间，以及在所述第一状态数据下按照所述通行时间通过所述第一路段后所述第二路段的第二状态数据，包括：

根据所述第一状态数据，基于所述通行时间选取模型和所述状态数据预测模型，确定所述第一路段的通行时间；

根据当前时间点以及所述第一路段之前的每个路段的通行时间，确定到达所述第一路段起点时的第一时间点，获取所述第一路段在所述第一时间点的实时通行速度；

将所述第一路段在所述第一时间点的实时通行速度以及所述第一路段的通行时间输入至所述第一速度预测模型中，基于所述第一速度预测模型确定所述第二路段在第二时间点的实时通行速度，所述第二时间点根据所述第一时间点和所述通行时间确定。

6.根据权利要求1-4任一项所述的方法，其特征在于，所述任一路段的状态数据包括所述任一路段之后的每个路段的实时通行速度，所述状态数据预测模型包括第二速度预测模型；

根据当前时间点以及所述第一路段之前的每个路段的通行时间，确定到达所述第一路段起点时的第一时间点，获取所述第一路段之后的每个路段在所述第一时间点的实时通行速度；

将所述第一路段之后的每个路段在所述第一时间点的实时通行速度以及所述第一路段的通行时间输入至所述第二速度预测模型中，基于所述第二速度预测模型确定所述第二路段之后的每个路段在第二时间点的实时通行速度，所述第二时间点根据所述第一时间点和所述通行时间确定。

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取至少一条样本路线中每个路段的历史通行数据，所述路段的历史通行数据包括所述路段的通行时间和所述路段的状态数据；

根据获取到的历史通行数据，构造多组第一样本数据，每组第一样本数据中包括一组状态数据以及与所述一组状态数据对应的路段的通行时间；根据所述多组第一样本数据进行训练，得到所述通行时间选取模型；

根据获取到的历史通行数据，构造多组第二样本数据，每组第二样本数据中包括一组状态数据、与所述一组状态数据对应的路段的通行时间以及所述一组状态数据的下一组状态数据；根据所述多组第二样本数据进行训练，得到所述状态数据预测模型。

8.根据权利要求7所述的方法，其特征在于，所述方法还包括：

对于每条样本路线，获取所述样本路线的全局激励数值和所述样本路线中每个路段的局部激励数值，所述全局激励数值用于衡量所述样本路线的通行时间的准确程度，所述局部激励数值用于衡量对应路段的通行时间的准确程度；

对于所述至少一条样本路线中任一路段的第一样本状态数据，根据所述第一样本状态数据在每条样本路线中的下一样本状态数据的收益数值、从所述第一样本状态数据转换到所述下一样本状态数据的概率和从所述第一样本状态数据转换到所述下一样本状态数据的条件下所述下一样本状态数据的收益数值，获取所述第一样本状态数据的收益数值，直至获取到所述至少一条样本路线中每个状态数据的收益数值；

其中，任一样本路线中最后一个状态数据的收益数值等于所述样本路线的全局激励数值与所述样本路线中每个路段的局部激励数值的总和；

根据所述每个状态数据以及所述每个状态数据的收益数值进行训练，得到收益数值预测模型，所述收益数值预测模型用于根据任一状态数据获取所述任一状态数据的收益数值。

9.根据权利要求8所述的方法，其特征在于，所述获取所述样本路线的全局激励数值和所述样本路线中每个路段的局部激励数值，包括：

基于当前训练的所述通行时间选取模型和所述状态数据预测模型，确定所述样本路线中每个路段的预测通行时间；

根据所述每个路段的预测通行时间，获取所述样本路线的预测总通行时间，根据所述样本路线的预测总通行时间与所述样本路线的实际总通行时间之间的第一误差，确定所述样本路线的全局激励数值，所述全局激励数值与所述第一误差呈反比关系；

根据所述每个路段的预测通行时间与所述每个路段的实际通行时间之间的第二误差，确定所述每个路段的局部激励数值，所述局部激励数值与所述第二误差呈反比关系。

10.根据权利要求8所述的方法，其特征在于，所述根据所述第一样本状态数据在每条样本路线中的下一样本状态数据的收益数值、从所述第一样本状态数据转换到所述下一样本状态数据的概率和从所述第一样本状态数据转换到所述下一样本状态数据的条件下所述下一样本状态数据的收益数值，获取所述第一样本状态数据的收益数值，包括：

采用以下公式，获取所述第一样本状态数据的收益数值：

其中，s_i表示所述第一样本状态数据，V^π(s_i)表示所述第一样本状态数据的收益数值，s_i+1表示所述下一样本状态数据，V^π(s_i+1)表示所述下一样本状态数据的收益数值，S表示所述第一样本状态数据在所述至少一条样本路线中所有的下一样本状态数据构成的集合，π表示由多个路段的通行时间构成的通行策略；；

P(s_i+1|s_i,a_i)表示从所述第一样本状态数据转换到所述下一样本状态数据的概率，且等于从所述第一样本状态数据转换到所述下一样本状态数据时按照的通行时间的概率，R(s_i+1|s_i,a_i)表示从所述第一样本状态数据转换到所述下一样本状态数据的条件下所述下一样本状态数据的收益数值，且等于从所述第一样本状态数据转换到所述下一样本状态数据时所通过路段的局部激励数值，γ表示折扣因子。

11.一种通行时间确定装置，其特征在于，所述装置包括：

12.根据权利要求11所述的装置，其特征在于，所述策略确定模块，包括：

备选时间确定单元，用于将所述第一状态数据输入至所述通行时间选取模型中，基于所述通行时间选取模型确定多个通行时间的概率，根据所述多个通行时间的概率从所述多个通行时间中选取所述第一路段的多个备选通行时间；

备选状态确定单元，用于对于每个备选通行时间，将所述第一状态数据和所述备选通行时间输入至所述状态数据预测模型中，基于所述状态数据预测模型确定在所述第一状态数据下按照所述备选通行时间通过所述第一路段后所述第二路段的备选状态数据；

策略确定单元，用于根据所述多个备选通行时间对应的备选状态数据，确定所述第一路段的通行时间，以及所述通行时间对应的所述第二状态数据。

13.根据权利要求12所述的装置，其特征在于，所述策略确定单元，还用于：

14.一种用于确定通行时间的终端，其特征在于，所述终端包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述指令、所述程序、所述代码集或所述指令集由所述处理器加载并执行以实现如权利要求1至10任一权利要求所述的通行时间确定方法中所执行的操作。

15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述指令、所述程序、所述代码集或所述指令集由处理器加载并执行以实现如权利要求1至10任一权利要求所述的通行时间确定方法中所执行的操作。