CN111007858A

CN111007858A - 车辆行驶决策模型的训练方法、行驶决策确定方法及装置

Info

Publication number: CN111007858A
Application number: CN201911338944.9A
Authority: CN
Inventors: 丁曙光; 何毅晨; 任冬淳
Original assignee: Beijing Sankuai Online Technology Co Ltd
Current assignee: Beijing Sankuai Online Technology Co Ltd
Priority date: 2019-12-23
Filing date: 2019-12-23
Publication date: 2020-04-14
Anticipated expiration: 2039-12-23
Also published as: CN111007858B

Abstract

本说明书公开了车辆行驶决策模型的训练方法、行驶决策确定方法及装置。本说明书实施例中的方法及装置，在训练决策模型的过程中，根据当前时刻的各信息得出当前时刻的额外奖励。额外奖励区别于一般奖励，该额外奖励是根据历史上的至少部分观测特征得到的。额外奖励与当前观测特征与预存的历史观测特征的可达性负相关。则训练后的决策模型更加关注历史上未被训练到的观测特征，能够对输入决策模型的数据进行更加全面的处理，也能够降低决策模型对历史上已经被训练到的观测特征的关注程度，提高决策模型的训练效率。此外，即使在某一方面的信息有限的情况下，通过训练后的决策模型也能够敏感的识别出该方面的信息并将其作为确定行驶决策的依据。

Description

车辆行驶决策模型的训练方法、行驶决策确定方法及装置

技术领域

本说明书涉及无人驾驶技术领域，尤其涉及一种车辆行驶决策模型的训练方法、行驶决策确定方法及装置。

背景技术

目前，车辆的智能化作为人工智能技术的重要组成部分，在社会生产、生活中的作用日益凸显，成为引导交通技术发展的主要方向之一。

在现有技术中，无人车及具有辅助驾驶功能的车辆(以下统称“车辆”)多采用预设的决策模型，根据在预设时间段内对环境中的障碍物的观测结果，对车辆所处的环境的分析，得出与该环境相适应的行驶决策，使得车辆能够根据该行驶决策行驶。可见，对决策模型的训练决定了决策模型所输出的行驶决策的准确性。

然而，现有的决策模型的训练方法无法根据预设时间段内采集的有限的环境信息，对环境信息进行高效、全面地处理。例如，若当前环境中的障碍物多处于高速运动的状态，“障碍物的速度”这一特征相较于环境信息中的其他特征更加突出，则“障碍物的速度”将对行驶策略的确定起主导作用；而诸如“障碍物距该车辆的距离”这样的相较于“障碍物的速度”较为不突出的特征，在决策模型的训练过程中发挥的作用，将一定程度的被稀释掉。

并且，现有的决策模型的训练方法也无法敏锐的识别出环境中的突发事件。例如，车辆长时间在较为稳定的环境中行驶时，突然有行人闯入车辆行驶前方的车道，由于该“突然闯入”的行为难以预料，则在决策模型的训练过程中，也往往无法对此种突发事件进行及时的处理。特别是当该车辆处于高速行驶的状态时，对环境信息处理的低效性、片面性和不敏感性将会严重影响决策模型的训练效果。使得根据该训练后的决策模型无法输出适应于车辆所处的环境和车辆行驶状态的行驶决策，危及车辆的行驶安全。在车辆处于交通状况较为复杂的环境中时，上述弊端将更加明显。

发明内容

本说明书实施例提供一种车辆行驶决策模型的训练方法、行驶决策确定方法及装置，以部分的解决现有技术存在的上述问题。

本说明书实施例采用下述技术方案：

本说明书提供的一种车辆行驶决策模型的训练方法，所述方法包括：

确定车辆当前所处环境的环境信息和车辆当前的行驶状态信息；

根据所述环境信息和行驶状态信息，确定当前观测特征；

将所述当前观测特征以及所述车辆当前正在执行的动作输入至待训练的决策模型，得到所述待训练的决策模型输出的行驶策略以及所述行驶策略对应的一般奖励；并且，根据所述当前观测特征与预存的历史观测特征的可达性，得到所述行驶策略对应的额外奖励，其中，所述可达性与所述额外奖励负相关；

根据确定出的一般奖励和额外奖励，确定所述行驶策略对应的综合奖励；

以所述综合奖励最大化为训练目标，对所述决策模型进行训练。

可选地，所述环境信息包括：所述车辆感知的环境中的各障碍物的状态信息。

可选地，根据所述当前观测特征与预存的历史观测特征的可达性，得到所述行驶策略对应的额外奖励，具体包括：

确定所述当前观测特征与满足预设条件的历史观测特征的可达性；所述满足预设条件的历史观测特征是预先存储在缓存中的；

根据确定出的所述可达性，确定车辆当前的额外奖励。

可选地，确定所述当前观测特征与满足预设条件的历史观测特征的可达性，具体包括：

确定当前观测特征和满足第一预设条件的历史观测特征的第一可达性，所述满足第一预设条件的各历史观测特征是预先存储在第一缓存中的；并且，确定当前观测特征和满足第二预设条件的历史观测特征的第二可达性，所述满足第二预设条件的各历史观测特征是预先存储在第二缓存中的；

根据确定出的所述可达性，确定车辆当前的额外奖励，具体包括：

根据确定出的第一可达性、第二可达性、预设的第一可达性的权重以及预设的第二可达性的权重，确定车辆当前的额外奖励；所述第一可达性的权重大于第二可达性的权重。

可选地，满足第一预设条件的历史观测特征至少包括历史上所述车辆的行驶速度大于预设的速度阈值时的观测特征，和/或，所述车辆感知到的障碍物包括行人时的观测特征。

可选地，根据确定出的第一可达性、第二可达性、预设的第一可达性的权重以及预设的第二可达性的权重，确定车辆当前的额外奖励，具体包括：

根据车辆当前的行驶状态信息以及所述环境信息，确定可达性阈值；

根据确定出的第一可达性、第二可达性、预设的第一可达性的权重以及预设的第二可达性的权重，对所述第一可达性和第二可达性进行加权求和；

将所述加权求和的结果与所述可达性阈值进行比较，根据比较的结果确定出第三可达性；

根据所述第三可达性，确定当前的额外奖励，所述第三可达性与所述额外奖励负相关。

可选地，根据车辆当前的行驶状态信息以及所述环境信息，确定可达性阈值，具体包括：

确定车辆当前的速率和该车辆预设的最大速率的比值，根据所述比值确定可达性阈值，所述可达性阈值与所述比值负相关；和/或，

确定车辆当前的速度和环境中的与所述车辆距离最近的障碍物的速度的差值的绝对值，根据所述绝对值，确定可达性阈值，所述可达性阈值与所述绝对值均负相关。

可选地，所述可达性采用特征向量表征；

根据所述当前观测特征与预存的历史观测特征的可达性，得到所述行驶策略对应的额外奖励，具体包括：

将用于表征所述可达性的特征向量输入预设的额外奖励确定子单元，得到所述额外奖励确定子单元输出的所述行驶策略对应的额外奖励。

可选地，所述决策模型为强化学习模型。

可选地，对所述决策模型进行训练之后，所述方法还包括：

在所述当前观测特征满足所述第一预设条件时，确定所述当前观测特征是否满足预设的第一更新条件；若是，则将所述当前观测特征存入所述第一缓存中；

并且，在所述当前观测特征满足所述第二预设条件时，确定所述当前观测特征是否满足预设的第二更新条件；若是，则将所述当前观测特征存入所述第二缓存中。

本说明书提供的一种车辆行驶决策确定方法，所述方法包括：

确定车辆当前所处环境的环境信息和车辆当前的行驶状态信息，并确定所述车辆当前正在执行的动作；

根据所述环境信息和行驶状态信息，确定当前观测特征；

将所述当前观测特征和所述车辆当前正在执行的动作输入至采用前述的车辆行驶决策模型的训练方法训练得到的决策模型，得到所述决策模型输出的行驶策略。

本说明书提供的一种车辆行驶决策模型的训练装置，所述训练装置包括：

信息确定模块，用于确定车辆当前所处环境的环境信息和车辆当前的行驶状态信息；

当前观测特征确定模块，用于根据所述环境信息和行驶状态信息，确定当前观测特征；

奖励确定第一模块，用于将所述当前观测特征以及所述车辆当前正在执行的动作输入至待训练的决策模型，得到所述待训练的决策模型输出的行驶策略以及所述行驶策略对应的一般奖励；并且，根据所述当前观测特征与预存的历史观测特征的可达性，得到所述行驶策略对应的额外奖励，其中，所述可达性与所述额外奖励负相关；

奖励确定第二模块，用于根据确定出的一般奖励和额外奖励，确定所述行驶策略对应的综合奖励；

训练模块，用于以所述综合奖励最大化为训练目标，对所述决策模型进行训练。

本说明书提供的一种车辆行驶决策确定装置，所述装置包括：

行驶状态信息确定模块，用于确定车辆当前所处环境的环境信息和车辆当前的行驶状态信息；

动作确定模块，用于确定所述车辆当前正在执行的动作；

观测特征模块，用于根据所述环境信息和行驶状态信息，确定当前观测特征；

行驶策略确定模块，用于将所述当前观测特征和所述车辆当前正在执行的动作输入至根据前述的车辆行驶决策模型的训练方法训练得到的决策模型，得到所述决策模型输出的行驶策略。

本说明书提供的第一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述的车辆行驶决策模型的训练方法。

本说明书提供的第二种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述的车辆行驶决策确定方法。

本说明书提供的第一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述的车辆行驶决策模型的训练方法。

本说明书提供的第二种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述的车辆行驶决策确定方法。

本说明书实施例采用的上述至少一个技术方案能够达到以下有益效果：

本说明书实施例中的车辆行驶决策模型的训练方法、车辆行驶决策确定方法及装置，在训练决策模型的过程中，根据当前时刻的各种信息确定出当前时刻的额外奖励。该额外奖励区别于一般奖励，该额外奖励是根据历史上的至少部分观测特征得到的。在确定额外奖励时，需要以当前观测特征与预存的历史观测特征的可达性为依据。具体地，当前观测特征与预存的历史观测特征的可达性越高，表明车辆当前观测到的环境和车辆当前的行驶状态，已经在历史的决策模型训练过程中被关注过(例如，历史上观测到了环境中的障碍物多处于高速运动的状态，即该“障碍物的速度”形成的历史观测特征所表达的内容已经被决策模型学习到了)，在确定下一时刻的行驶策略时应该更多的考虑历史上未被关注过或未被充分关注过的、影响该车辆行驶的因素(例如，被“障碍物的速度”稀释的“障碍物距该车辆的距离”)。此外，确定出的可达性越高，表明车辆曾经经历过与车辆当前所处环境和车辆当前的行驶状态相像的场景，即车辆当前处于较为稳定的环境中，无需对该为稳定的环境投入过多的关注，使得获得相应的额外奖励较低。可见，通过本说明书中的方法及装置，能够在决策模型的训练过程中，使得决策模型更加关注在历史上未被训练到的观测特征，使得训练后的决策模型能够对输入决策模型的数据进行更加全面的处理。并且，也能够降低决策模型对历史上已经被训练到的观测特征的关注程度，提高决策模型的训练效率。此外，即使在观测到的某一方面的信息有限的情况下，通过训练后的决策模型也能够敏感的识别出该方面的信息并将其作为确定行驶决策的依据。

附图说明

此处所说明的附图用来提供对本说明书的进一步理解，构成本说明书的一部分，本说明书的示意性实施例及其说明用于解释本说明书，并不构成对本说明书的不当限定。在附图中：

图1为本说明书实施例提供的一种车辆行驶决策模型的训练过程；

图2为本说明书提供的一种车辆行驶决策模型的训练过程示意图；

图3为本说明书提供的另一种车辆行驶决策模型的训练装置的部分结构示意图；

图4为本说明书实施例提供的对应于图1的电子设备示意图；

图5为本说明书提供的一种车辆行驶决策确定过程；

图6为本说明书提供的车辆行驶决策确定装置的部分结构示意图；

图7为本说明书实施例提供的对应于图5的电子设备示意图。

具体实施方式

为使本说明书的目的、技术方案和优点更加清楚，下面将结合本说明书具体实施例及相应的附图对本说明书技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本说明书一部分实施例，而不是全部的实施例。基于说明书中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本说明书保护的范围。

以下结合附图，详细说明本说明书各实施例提供的技术方案。

图1为本说明书实施例提供的一种车辆行驶决策模型的训练过程，具体可包括以下步骤：

S100：确定车辆当前所处环境的环境信息和车辆当前的行驶状态信息。

如图2所示，本说明书实施例中的决策模型的训练过程涉及的环境信息I_e ^t可以为该车辆上设置的传感器在t时刻(当前时刻)感知到的环境的信息。

环境信息可以包括环境中的各障碍物的状态信息。障碍物的状态信息可以包括：障碍物的速率(障碍物的速率可以为障碍物相对于该车辆的移动速度的绝对值)、速度方向、障碍物距该车辆的距离、障碍物相对于该车辆的位置等。障碍物可以包括：动态障碍物(例如，车辆、行人等)和/或静态障碍物(例如，建筑物、路障等)。

此外，环境信息还可以包括环境中的各障碍物的属性信息。障碍物的属性信息可以包括：障碍物的类别(例如，交通工具类、人类、建筑物类)、障碍物的尺寸(例如，车辆的尺寸)等。可选地，环境信息还可以包括根据所述环境为该车辆规划的行驶轨迹。

车辆当前的行驶状态信息I_d ^t可以包括：该车辆当前的速率、速度方向、当前的时间、位姿、位置、线控底盘的工作状态等。该车辆当前的行驶状态信息I_d ^t可以由该车辆上设置的传感器感知得到，也可以从该车辆的控制系统中直接读取。

S102：根据所述环境信息和行驶状态信息，确定当前观测特征。

本说明实施例中的确定当前观测特征F_o ^t的方式可为多种。例如，可以通过“先特征提取、后融合”的方式得到当前观测特征F_o ^t。具体地，首先对环境信息I_e ^t进行特征提取，得到环境特征F_e ^t；并且，对行驶状态信息I_d ^t进行特征提取，得到行驶状态特征F_d ^t。然后，对得到的环境特征I_d ^t和行驶状态特征F_d ^t进行拼接，得到当前观测特征。

此外，当前观测特征F_o ^t还可以通过“先融合、后特征提取”的方式得到，在此不做赘述。

S104：将所述当前观测特征以及所述车辆当前正在执行的动作输入至待训练的决策模型，得到所述待训练的决策模型输出的行驶策略以及所述行驶策略对应的一般奖励。

本说明实施例中的待训练的决策模型的结构可以为多种，后文以强化学习模型为例进行说明。该强化学习模型可以为闭环马尔科夫强化学习模型。

如图2所示，该待训练的决策模型可以根据输入的当前观测特征F_o ^t、车辆当前正在执行的动作和该车辆当前时刻执行的动作在该车辆当前时刻所处的环境中获得一般奖励R_g ^t，得到该车辆下一时刻的行驶决策。

其中，车辆当前正在执行的动作，可以根据决策模型在上一时刻确定的当前的行驶策略得到，例如，从执行该车辆当前的行驶策略的运动控制(Motion Control)器中得到；也可为由车辆上的传感器感知获得。该动作可以包括：车辆的位姿、速度等。为便于决策模型对车辆当前正在执行的动作进行处理，可先对车辆当前正在执行的动作进行特征提取，得到该动作的动作特征A^t，然后将动作特征A^t输入的待训练的决策模型。

行驶策略对应的一般奖励R_g ^t可以由模型训练过程所需的预设的一般奖励子模块确定。该一般奖励R_g ^t的确定过程可以与现有的确定方法相同。

S106：根据所述当前观测特征与预存的历史观测特征的可达性，得到所述行驶策略对应的额外奖励，其中，所述可达性与所述额外奖励负相关。

在本说明书中，若该车辆在历史上经历过(该历史上的经历形成的观测特征，已作为历史观测特征被存储在缓存中)与车辆当前所处环境和车辆当前的行驶状态较为相像，则该车辆的当前观测特征F_o ^t与预存的历史观测特征的可达性(Reachability)较高。反之，则该车辆的当前观测特征F_o ^t与预存的历史观测特征的可达性较低。

可见，当前观测特征F_o ^t与预存的历史观测特征的可达性至少可以表征：当前观测特征F_o ^t与该预存的历史观测特征的相似度。

为了训练出能够全面地、高效地对输入的信息进行处理的决策模型，并为了使得训练后的模型能够敏感的应对突发事件，本说明书实施例中的训练过程，将至少部分的历史时刻的观测特征存储在缓存中，作为决策模型的训练依据。则在训练的过程中，使得与历史观测特征的可达性较高的当前观测特征能够获得较低额外奖励，以表明车辆在历史中有过“类似的经历”，决策模型已经具备了针对该“类似的经历”的决策能力，无需对该“类似的经历”进行过多的关注。以避免训练的过程中对该“类似的经历”的过多的关注，进而避免影响到决策模型对历史中“未曾有过的经历”的决策能力。

并且，本说明书中的决策模型的训练过程，使得决策模型能够察觉到当前观测特征中较为“隐蔽”的环境特征和行驶状态特征。例如，当前环境中的障碍物多处于高速运动的状态，“障碍物的速度”这一特征相较于环境信息中的其他特征较为突出。而诸如“障碍物距该车辆的距离”这样的相较于“障碍物的速度”较为“隐蔽”的特征，在现有的方法中往往很难察觉到。但是通过本说明的训练过程，能够通过增加额外奖励的方式，提高决策模型对该较为“隐蔽”的特征的关注程度。

在本说明书一个可选的实施例中，步骤S104和S106的执行顺序不做限制，可根据实际的使用场景进行调整。

S108：根据确定出的一般奖励和额外奖励，确定所述行驶策略对应的综合奖励。

根据一般奖励R_g ^t和额外奖励R_e ^t，确定综合奖励R^t的方式可以为多种。例如，可以通过对一般奖励R_g ^t和额外奖励R_e ^t加权求和的方式，得到综合奖励R^t。

可选地，可根据实际的对决策模型的训练效率的需求，对一般奖励R_g ^t和额外奖励R_e ^t各自的权重进行设置。例如，可一定程度地提高额外奖励R_e ^t的权重，以提高决策模型的训练效率。

S110：以所述综合奖励最大化为训练目标，对所述决策模型进行训练。

由前述介绍可知，本说明书实施例中的综合奖励R^t可以由一般奖励R_g ^t和额外奖励R_e ^t两部分构成。其中的额外奖励R_e ^t，是本步骤在追求综合奖励R^t最大化时主要关注的对象。

训练模型所采用的当前时刻的环境信息I_e ^t和当前时刻的行驶状态信息I_d ^t，均不同程度的受到决策模型在上一时刻作出的行驶决策的影响。则上一时刻作出的行驶决策的优劣，可以通过当前时刻的各信息一定程度的予以表达。在具体的训练过程中，该上一时刻作出的行驶决策的优劣，可以通过由当前时刻的各信息得到的综合奖励R^t的程度来衡量。

进而，在决策模型的训练过程中，决策模型可以根据当前时刻综合奖励R^t的程度对其自身进行调整。则通过追求综合奖励R^t最大化，即可实现对所述决策模型进行训练。

下面对本说明书中所述的车辆行驶决策模型的训练进行详细说明。

由于额外奖励在本说明书实施例的决策模型的训练过程中发挥着至关重要的作用，下文将按照时间顺序(如有例外，将明确指出)，对额外奖励的确定过程进行详细的说明。

一、确定训练决策模型所需的历史观测特征。

通过上述内容可知，本说明书实施例中的训练过程，能够以满足预设条件的历史的观测特征为参照，提高决策模型对“陌生环境”、“突发事件”的应对能力。此外，为进一步提高决策模型对信息处理的全面性，本说明书实施例中的决策模型训练过程，按照历史观测特征所体现出的信息应当被决策模型关注的程度，通过预设条件对各历史上的各观测特征进行筛选，以将至少部分的历史观测特征区分为关注程度较高的高优先级历史观测特征和关注程度较低的低优先级历史观测特征。

具体地，如图2所示，可以首先确定出历史上的满足第一预设条件的观测特征，作为高优先级历史观测特征，并将高优先级历史观测特征存储在第一缓存B₁中。然后，在历史上的除高优先级历史观测特征以外的观测特征中，确定满足第二预设条件的观测特征，作为低优先级历史观测特征，并将低优先级历史观测特征存储在第二缓存B₂中。

其中，第一预设条件可以根据用户最为关注的行驶目标设定。例如，用户所关注的行驶目标中，行驶安全的优先级(关注程度)高于其他行驶目标的优先级(例如，该车辆为日常交通用车，道路上可能有行人)，则包含用户最为关注的行驶目标(行驶安全)的因素的观测特征，即为满足第一预设条件的观测特征。即，可在历史上的各观测特征中，确定出包含对行驶安全影响明显的因素的观测特征(满足第一预设条件)，作为高优先级历史观测特征。

对行驶安全影响明显的因素(该因素可以由该车辆自行感知)可以为：该车辆的行驶速度大于预设的速度阈值、环境中有行人、当前天气为阴雨天气等。

进一步地，第二预设条件可以根据用户关注度相对较低的行驶目标设定。在除用户最为关注的行驶目标(行驶安全)以外的行驶目标中，确定出用户关注度相对较低的行驶目标，例如行驶效率，则包含对行驶效率影响明显的因素(例如，环境中的动态障碍物的数量大于相应的阈值)的观测特征，即为满足第二预设条件的观测特征，可以作为低优先级历史观测特征。

在本说明书一个可选的场景中，第一缓存中的高优先级历史观测特征的数量可以为多个，和/或第二缓存中的低优先级历史观测特征的数量可以为多个。

可选地，该确定训练决策模型所需的历史观测特征的过程，可以在对决策模型的训练之前进行。则将模型训练所需的各历史观测特征预先的存储在缓存中，能够提高模型训练的效率。或者，还可以在第一缓存B₁和/或第二缓存B₂中预先存储模型训练所需的部分的历史观测特征；然后，在模型训练的过程中，确定出模型训练所需的其余的历史观测特征(该其余的历史观测特征可以根据当前观测特征确定得出)，并将该确定出的历史观测特征存储入缓存中。再或者，该确定训练决策模型所需的各历史观测特征的过程，可以与对决策模型的训练同步进行。

进一步地，在第一缓存B₁中存储的高优先级历史观测特征的数量达到预设的第一数量阈值之前，历史上的满足第一预设条件的各观测特征，均可以作为高优先级历史观测特征输入第一缓存B₁中并存储。和/或，在第二缓存B₂中存储的低优先级历史观测特征的数量达到预设的第二数量阈值之前，历史上的满足第二预设条件的各观测特征，均可以作为低优先级历史观测特征输入第二缓存B₂中并存储。

二、确定当前观测特征与各级别的历史观测特征的可达性。

在本说明书一个可选的场景中，当前观测特征F_o ^t、历史观测特征和可达性均可以采用特征向量的方式予以表示。

则在确定当前观测特征F_o ^t与满足预设条件的历史观测特征的可达性时，可以首先确定出该当前观测特征向量与该历史观测特征向量之间的距离(例如余弦距离、欧式距离)。然后根据确定出的该距离，确定该当前观测特征向量与该历史观测特征向量的可达性，可达性与所述距离负相关。

或者，可以将该当前观测特征向量与该历史观测特征向量作差，得到差值向量；根据所述差值向量，确定当前观测特征F_o ^t与历史观测特征的可达性。

如图2所示，由于本说明书将历史观测特征划分为高优先级历史观测特征和低优先级历史观测特征，并分别存储在不同的缓存中。则在确定当前观测特征F_o ^t与历史观测特征的可达性时，需从第一缓存B₁中调取高优先级历史观测特征，确定当前观测特征F_o ^t和高优先级历史观测特征的第一可达性R_r ^f；并且，从第二缓存B₂中调取低优先级历史观测特征，确定当前观测特征和低优先级历史观测特征的第二可达性R_r ^s。

在本说明书一个可选的场景中，第一缓存B₁中存储的高优先级历史观测特征的数量可以为多个，则可以分别确定该当前观测特征F_o ^t与每个高优先级历史观测特征的可达性，然后将确定出的该当前观测特征F_o ^t与各高优先级历史观测特征的各可达性中的最大值(在可达性为特征向量时，可达性的“大小”，可以通过该可达性的模加以衡量)，作为该当前观测特征对应的第一可达性R_r ^f。

若该确定出的第一可达性R_r ^f较小，则表明，相较于各高优先级历史观测特征对应的历史上的场景，该车辆对其当前所处的场景较为“陌生”和/或车辆当前所处的环境中发生“突发事件”的概率较大；且该“陌生”的场景和/或“突发事件”对用户最为关注的行驶目标(例如，前述例举的“行驶安全”为用户最为关注的行驶目标)的影响明显。决策模型应该提高对该“陌生”的场景和/或“突发事件”的关注程度。

确定第二可达性R_r ^s的过程可以遵循与确定第一可达性相同的思路，在此不做赘述。

可选地，该确定第一可达性R_r ^f和第二可达性R_r ^s的过程，可以由预设的比较器网络(Comparator Network)实现。该比较器网络可以包括图3中所示的第一可达性子单元和第二可达性子单元。具体地，该比较器网络可以为深度比较器网络(Deep ComparatorNetwork，DCN)

三、确定当前观测特征的额外奖励。

本说明书实施例的训练过程在根据第一可达性R_r ^f和第二可达性R_r ^s，确定额外奖励R_e ^t时，可以以可达性阈值T^t为依据，确定该当前观测特征F_o ^t应当获得何种程度的额外奖励R_e ^t。其中，可达性阈值T^t可以为用户自行设定的值；也可以为根据车辆当前所处的环境信息I_e ^t和/或车辆当前的行驶状态信息I_d ^t确定的值。

可选地，在根据环境信息I_e ^t和/或车辆当前的行驶状态信息I_d ^t确定可达性阈值时，可遵循以下过程：确定车辆当前的速率和该车辆额定的最大速率的比值，根据所述比值确定可达性阈值T^t，所述可达性阈值T^t与所述比值负相关。则可达性阈值T^t可以根据公式(1)计算获得。

其中，step_fix为预设的可达性步长，step_fix大于零；ε为预设的系数，ε小于零；v_car为该车辆当前的行驶速率；v_max为该车辆额定的最大行驶速率。

或者，在根据环境信息I_e ^t和/或车辆当前的行驶状态信息I_d ^t确定可达性阈值T^t时，可遵循以下过程：确定车辆当前的速度和环境中的与所述车辆距离最近的障碍物的速度的差值的绝对值，根据所述绝对值，确定可达性阈值T^t，所述可达性阈值T^t与所述绝对值均负相关。则可达性阈值T^t可以根据公式(2)计算获得。

T^t＝step_fix+μ|V_car-V_obs| 公式(2)

其中，V_car为该车辆当前的行驶速度；V_obs为当前环境中与所述车辆距离最近的障碍物的速度。μ为预设的系数，μ小于零。

此外，还可以将公式(1)和公式(2)中的所表达的内容相结合，此时可达性阈值T^t可以根据公式(3)计算获得。

在确定出可达性阈值T^t之后，即可根据前述步骤中确定出的第一可达性R_r ^f、第二可达性R_r ^s、预设的第一可达性R_r ^f的权重、预设的第二可达性R_r ^s的权重以及可达性阈值T^t，确定车辆当前的额外奖励R_e ^t。为提高决策模型对当前观测特征F_o ^t中应当被优先关注的行驶目标的关注程度，第一可达性R_r ^f的权重可以大于第二可达性R_r ^s的权重。

第一可达性R_r ^f和第二可达性R_r ^s分别与额外奖励R_e ^t负相关。

具体地，在本说明书另外一个可选的实施例中，根据第一可达性R_r ^f、第二可达性R_r ^s确定额外奖励R_e ^t的过程，可以为：首先根据确定出的第一可达性R_r ^f、第二可达性R_r ^s、预设的第一可达性R_r ^f的权重以及预设的第二可达性R_r ^s的权重，对第一可达性R_r ^f和第二可达性R_r ^s进行加权求和。然后，将加权求和的结果与预先确定出的可达性阈值T^t进行比较，根据比较的结果确定出第三可达性R_r ^t。之后，根据第三可达性R_r ^t，确定当前的额外奖励R_e ^t，第三可达性R_r ^t与额外奖励R_e ^t负相关。

或者，在本说明书另外一个可选的实施例中，根据第一可达性R_r ^f、第二可达性R_r ^s确定额外奖励R_e ^t的过程，可以为：首先根据预设的第一可达性R_r ^f的权重，对确定出的第一可达性R_r ^f进行加权，然后将加权后的第一可达性R_r ^f和可达性阈值T^t进行比较，根据比较的结果，确定用于表征第一可达性R_a ^f对额外奖励R_e ^t的影响程度的第一影响量。同理，根据预设的第二可达性R_r ^s的权重，对确定出的第二可达性R_r ^s进行加权，然后将加权后的第二可达性R_r ^s和可达性阈值T^t进行比较，根据比较的结果，确定用于表征第二可达性R_r ^s对额外奖励R_e ^t的影响程度的第二影响量。然后，根据第一影响量和第二影响量确定第三可达性R_r ^t。之后，根据第三可达性R_r ^t，确定当前的额外奖励R_e ^t，第三可达性R_r ^t与额外奖励R_e ^t负相关。

可选地，第一影响量、第二影响量、第三可达性R_r ^t、额外奖励R_e ^t中的至少一种为特征向量。

进一步地，该确定可达性阈值T^t以及确定第三可达性R_r ^t的过程，可以由预设的可达性缓存(Reachability Buffer)区实现。该可达性缓存区可以包括图3中所示的可达性阈值子单元和第三可达性子单元。

根据第三可达性R_r ^t确定额外奖励R_e ^t的过程，可以由预设的奖励估算组件(RewardBonus Estimation Module)实现。该奖励估算组件可以包括图3中所示的额外奖励确定子单元。

四、更新训练决策模型所需的历史观测特征。

为提高模型训练的效率、提高决策模型对“新鲜事物”的应对能力，应尽量避免采用多个同样的或者相似的历史观测特征对决策模型进行训练。在本说明书中，较为“重复”的模型训练过程对提高决策模型的敏感性是有害的。

因此，应尽量使得存储在同一缓存中的各历史观测特征之间的可达性不可以太高。则可以在缓存中存储有模型训练所需的足够数量的历史观测特征之后(可选地，此时对决策模型的训练还未结束)，通过确定出的各当前观测特征F_o ^t，对第一缓存B₁中的历史观测特征进行更新；和/或，通过确定出的各当前观测特征F_o ^t，对第二缓存B₂中的历史观测特征进行更新。可选地，所述更新可以为实时的更新。

各储存在同一缓存中的各历史观测特征之间的可达性的允许范围，可以通过预设的更新条件加以规范。

具体地，可以在第一缓存B₁中的历史观测特征(高优先级历史观测特征)的数量达到第一数量阈值(可选地，该第一数量阈值为第一缓存B₁中能够存储的历史观测特征的最大值，该最大值可以由第一缓存B₁的容量确定)之后，确定当前观测特征F_o ^t是否满足第一预设条件；若是(表明该当前观测特征F_o ^t包含用户最为关注的行驶目标)，则确定当前观测特征F_o ^t是否满足预设的第一更新条件；若当前观测特征F_o ^t满足所述第一更新条件，则将所述当前观测特征F_o ^t存入所述第一缓存B₁中；可选地，在将该满足所述第一更新条件的当前观测特征F_o ^t存入所述第一缓存B₁中之前，根据所述第一更新条件，删除至少一个预先储存在所述第一缓存B₁中的历史观测特征。

可选地，第一更新条件至少可以用于：限定能够作为高优先级历史观测特征的当前观测特征F_o ^t与预先存储在第一缓存B₁中的各高优先级历史观测特征的可达性。和/或，该第一更新条件至少可以用于：在更新第一缓存B₁中的历史观测特征时，限定应该被删除的高优先级历史观测特征与其余的高优先级历史观测特征的可达性。

则确定当前观测特征是否满足预设的第一更新条件的过程，具体可以为：确定所述当前观测特征F_o ^t与第一缓存B₁中的各历史观测特征的各可达性中的最大值，将所述该当前观测特征F_o ^t与第一缓存B₁中的各历史观测特征的各可达性中的最大值与所述第一更新条件的第一阈值进行比较，若该最大值是否小于所述第一阈值，则表明该当前观测特征F_o ^t与第一缓存B₁中的各历史观测特征均差异较大，该当前观测特征F_o ^t满足第一更新条件。

可选地，在将该满足所述第一更新条件的当前观测特征F_o ^t存入所述第一缓存B₁中之前，针对存储在所述第一缓存B₁中的每个历史观测特征，确定该历史观测特征与第一缓存B₁中的其余历史观测特征的各可达性中的最大值，作为该历史观测特征衡量值。将所述第一缓存B₁的各衡量值中最大的值对应的历史观测特征，作为应该被删除的历史观测特征。

进一步地，可以在第二缓存B₂中的历史观测特征(低优先级历史观测特征)的数量达到第二数量阈值(可选地，该第二数量阈值为第二缓存B₂中能够存储的历史观测特征的最大值，该最大值可以由第二缓存B₂的容量确定)之后，在当前观测特征F_o ^t不满足第一预设条件时，确定该当前观测特征F_o ^t是否满足第二预设条件；若是(表明该当前观测特征F_o ^t包含用户关注度相对较低的行驶目标，且不包含用户最为关注的行驶目标)，则确定当前观测特征F_o ^t是否满足预设的第二更新条件；若当前观测特征满足所述第二更新条件，则将所述当前观测特征F_o ^t存入所述第二缓存B₂中；可选地，在将该满足所述第二更新条件的当前观测特征F_o ^t存入所述第二缓存B₂中之前，根据所述第二更新条件，删除至少一个预先储存在所述第二缓存B₂中的历史观测特征。

可选地，第二更新条件至少可以用于：限定能够作为低优先级历史观测特征的当前观测特征F_o ^t与预先存储在第二缓存B₂中的各低优先级历史观测特征的可达性。和/或，该第二更新条件至少可以用于：在更新第二缓存B₂中的历史观测特征时，限定应该被删除的低优先级历史观测特征与其余的低优先级历史观测特征的可达性。

则确定该当前观测特征F_o ^t是否满足第二预设条件的过程，具体可以为：确定所述当前观测特征F_o ^t与第二缓存B₂中的各历史观测特征的各可达性中的最大值，将所述该当前观测特征F_o ^t与第二缓存B₂中的各历史观测特征的各可达性中的最大值与所述第二更新条件的第二阈值进行比较，若该最大值是否小于所述第二阈值，则表明该当前观测特征F_o ^t与第二缓存B₂中的各历史观测特征均差异较大，该当前观测特征F_o ^t满足第二更新条件。

可选地，在将该满足所述第二更新条件的当前观测特征F_o ^t存入所述第二缓存B₂中之前，针对存储在所述第二缓存B₂中的每个历史观测特征，确定该历史观测特征与第二缓存B₂中的其余历史观测特征的各可达性中的最大值，作为该历史观测特征衡量值。将所述第二缓存B₂的各衡量值中最大的值对应的历史观测特征，作为应该被删除的历史观测特征。

此外，第一更新条件还可以用于：限定当前观测特征F_o ^t的生成时间，与第一缓存B₁中的各历史观测特征各自的生成时间的时间差的最大值。若该时间差的最大值大于第一更新条件的第一时间阈值，则删除该时间差的最大值对应的、预先存储在第一缓存B₁中的历史观测特征，并将该当前观测特征F_o ^t存储入第一缓存B₁中。

和/或，第二更新条件还可以用于：限定当前观测特征F_o ^t的生成时间，与第二缓存B₂中的各历史观测特征各自的生成时间的时间差的最大值。若该时间差的最大值大于第二更新条件的第二时间阈值，则删除该时间差的最大值对应的、预先存储在第二缓存B₂中的历史观测特征，并将该当前观测特征F_o ^t存储入第二缓存B₂中。

为提高决策模型对用户最为关注的行驶目标的敏感程度，可以设置第一阈值小于第二阈值。

此后，在确定出一般奖励R_g ^t和额外奖励R_e ^t之后，即可根据步骤S108和步骤S110中介绍的过程，继续进行对所述决策模型的训练。在此不做赘述。

在通过上述步骤完成针对决策模型的训练之后，即可获得训练后的决策模型。

在实际使用过程中，可将车辆当前正在执行的动作和当前观测特征输入训练后的决策模型，即可得到该训练后的决策模型输出的下一时刻的行驶决策。该行驶决策可以为具体指导该车辆下一时刻应该如何行驶的信息，例如，该下一时刻的行驶决策可以为：车辆下一时刻的速度、车辆下一时刻的位姿等。

此外，本说明书提供的上述车辆行驶决策模型的训练过程具体可应用于针对无人车的行驶决策模型的训练。该无人车可以为无人配送车。该无人配送车可以应用于使用无人配送车进行配送的领域，如，使用无人配送车进行快递、外卖等配送的场景。具体的，在上述的场景中，可使用多个无人配送车所构成的自动驾驶车队进行配送。

进一步地，如图5所示，本说明书提供了一种采用前述的车辆行驶决策模型的训练过程训练得到的决策模型，确定车辆的行驶决策的过程。该车辆行驶决策确定过程可以包括：

S500：确定车辆当前所处环境的环境信息和车辆当前的行驶状态信息。

S502：确定所述车辆当前正在执行的动作。

车辆的当前正在执行的动作，可根据上一时刻的行驶决策得到。

S504：根据所述环境信息和行驶状态信息，确定当前观测特征。

S506：将所述当前观测特征和所述车辆当前正在执行的动作输入至采用前述的车辆行驶决策模型的训练方法训练得到的决策模型，得到所述决策模型输出的行驶策略。

其中，步骤S500与步骤S502的执行顺序不做限制，且步骤S502与步骤S504的执行顺序不做限制，可根据实际的使用场景进行调整。

基于同样的思路，本说明书实施例还提供了相应的车辆行驶决策模型的训练装置部分结构如图3所示。

图3为本说明书实施例提供的车辆行驶决策模型的训练装置的部分结构示意图。该训练装置可以包括：

信息确定模块300，用于确定车辆当前所处环境的环境信息和车辆当前的行驶状态信息；

当前观测特征确定模块302，用于根据所述环境信息和行驶状态信息，确定当前观测特征；

奖励确定第一模块304，可以包括一般奖励子模块3040和额外奖励子模块3042。

一般奖励子模块3040用于将所述当前观测特征以及所述车辆当前正在执行的动作输入至待训练的决策模型，得到所述待训练的决策模型输出的行驶策略以及所述行驶策略对应的一般奖励；额外奖励子模块3042用于根据所述当前观测特征与预存的历史观测特征的可达性，得到所述行驶策略对应的额外奖励，其中，所述可达性与所述额外奖励负相关。可选地，一般奖励子模块3040和额外奖励子模块3042并联。

奖励确定第二模块306，用于根据确定出的一般奖励和额外奖励，确定所述行驶策略对应的综合奖励；

训练模块308，用于以所述综合奖励最大化为训练目标，对所述决策模型进行训练。

其中，所述信息确定模块300、当前观测特征确定模块302、奖励确定第一模块304、奖励确定第二模块306和训练模块308依次电连接。当前观测特征确定模块302还与训练模块308电连接。可选地，信息确定模块300还与训练模块308电连接。

可选地，所述车辆感知的环境中的各障碍物的状态信息。

可选地，额外奖励子模块3042具体用于确定所述当前观测特征与满足预设条件的历史观测特征的可达性；所述满足预设条件的历史观测特征是预先存储在缓存中的。根据确定出的所述可达性，确定车辆当前的额外奖励。

可选地，额外奖励子模块3042可以包括可达性单元3042a和额外奖励单元3042b。可达性单元3042a和额外奖励单元3042b电连接。

可达性单元3042a可以包括第一可达性子单元和第二可达性子单元。可选地，第一可达性子单元和第二可达性子单元并联或者串联。

第一可达性子单元用于确定当前观测特征和满足第一预设条件的历史观测特征的第一可达性，所述满足第一预设条件的各历史观测特征是预先存储在第一缓存中的。

第二可达性子单元用于确定当前观测特征和满足第二预设条件的历史观测特征的第二可达性，第一预设条件是预先存储在第二缓存中的，所述满足第二预设条件的各历史观测特征是预先存储在第二缓存中的。

可选地，额外奖励单元3042b具体用于根据确定出的第一可达性、第二可达性、预设的第一可达性的权重以及预设的第二可达性的权重，确定车辆当前的额外奖励；所述第一可达性的权重大于第二可达性的权重。

可选地，额外奖励单元3042b可以包括可达性阈值子单元、第三可达性子单元和额外奖励确定子单元。额外奖励确定子单元分别与可达性阈值子单元、第三可达性子单元电连接。

可达性阈值子单元用于根据车辆当前的行驶状态信息以及所述环境信息，确定可达性阈值。

第三可达性子单元用于根据确定出的第一可达性、第二可达性、预设的第一可达性的权重以及预设的第二可达性的权重，对所述第一可达性和第二可达性进行加权求和；将所述加权求和的结果与所述可达性阈值进行比较，根据比较的结果确定出第三可达性。

额外奖励确定子单元用于根据所述第三可达性，确定当前的额外奖励，所述第三可达性与所述额外奖励负相关。

可选地，可达性阈值子单元具体用于确定车辆当前的速率和该车辆预设的最大速率的比值，根据所述比值确定可达性阈值，所述可达性阈值与所述比值负相关；和/或，

确定车辆当前的速率和环境中的与所述车辆距离最近的障碍物的速度的差值的绝对值，根据所述绝对值，确定可达性阈值，所述可达性阈值与所述绝对值均负相关。

可选地，训练模块308具体用于将所述综合奖励、当前观测特征和车辆当前正在执行的动作输入所述强化学习模型，使得所述决策预测模块以综合奖励最大化为训练目标，对所述决策模型进行训练。

可选地，可达性单元3042a还可以包括更新子单元。更新子单元分别与第一可达性子单元、第二可达性子单元电连接。

可选地，额外奖励子模块3042具体可以用于将用于表征所述可达性的特征向量输入预设的额外奖励确定子单元，得到所述额外奖励确定子单元输出的所述行驶策略对应的额外奖励。

更新子单元用于根据所述当前观测特征的第一可达性与所述第一预设条件，确定所述当前观测特征是否满足第一预设条件；并且，根据所述当前观测特征的第二可达性与所述第二预设条件，确定所述当前观测特征是否满足第二预设条件；

若当前观测特征满足第一预设条件，则将所述当前观测特征存入所述决策模型的第一缓存中，作为所述第一缓存中的历史观测特征；若当前观测特征满足第二预设条件，则将所述当前观测特征存入所述决策模型的第二缓存中，作为所述第二缓存中的历史观测特征。

进一步地，本说明书实施例还提供了相应的车辆行驶决策确定装置部分结构如图6所示。

图6为本说明书实施例提供的车辆行驶决策确定装置的部分结构示意图。

该训练装置可以包括：

行驶状态信息确定模块600，用于确定车辆当前所处环境的环境信息和车辆当前的行驶状态信息；

动作确定模块602，用于确定所述车辆当前正在执行的动作；

观测特征模块604，用于根据所述环境信息和行驶状态信息，确定当前观测特征；

行驶策略确定模块606，用于将所述当前观测特征和所述车辆当前正在执行的动作输入至根据前述的车辆行驶决策模型的训练方法训练得到的决策模型，得到所述决策模型输出的行驶策略。

其中，所述行驶状态信息确定模块600、观测特征模块604和行驶策略确定模块606依次电连接。动作确定模块602与行驶策略确定模块606电连接。

本说明书实施例还提供了第一种计算机可读存储介质，该存储介质存储有计算机程序，计算机程序可用于执行上述图1提供的车辆行驶决策模型的训练过程。

本说明书实施例还提供了第二种计算机可读存储介质，该存储介质存储有计算机程序，计算机程序可用于执行上述图5提供的车辆行驶决策确定过程。

本说明书实施例还提出了如图4所示的第一种电子设备的示意结构图。如图4，在硬件层面，该电子设备可以包括处理器、内部总线、网络接口、内存以及非易失性存储器，当然还可能包括其他业务所需要的硬件。处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行，以实现上述图1所示的车辆行驶决策模型的训练过程。当然，除了软件实现方式之外，本说明书并不排除其他实现方式，比如逻辑器件抑或软硬件结合的方式等等，也就是说以下处理流程的执行主体并不限定于各个逻辑单元，也可以是硬件或逻辑器件。

本说明书实施例还提出了如图7所示的第二种电子设备的示意结构图。如图7，在硬件层面，该电子设备可以包括处理器、内部总线、网络接口、内存以及非易失性存储器，当然还可能包括其他业务所需要的硬件。处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行，以实现上述图5所示的车辆行驶决策确定过程。当然，除了软件实现方式之外，本说明书并不排除其他实现方式，比如逻辑器件抑或软硬件结合的方式等等，也就是说以下处理流程的执行主体并不限定于各个逻辑单元，也可以是硬件或逻辑器件。

在20世纪90年代，对于一个技术的改进可以很明显地区分是硬件上的改进(例如，对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而，随着技术的发展，当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此，不能说一个方法流程的改进就不能用硬件实体模块来实现。例如，可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray，FPGA))就是这样一种集成电路，其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上，而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且，如今，取代手工地制作集成电路芯片，这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现，它与程序开发撰写时所用的软件编译器相类似，而要编译之前的原始代码也得用特定的编程语言来撰写，此称之为硬件描述语言(Hardware Description Language，HDL)，而HDL也并非仅有一种，而是有许多种，如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等，目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚，只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中，就可以很容易得到实现该逻辑方法流程的硬件电路。

控制器可以按任何适当的方式实现，例如，控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程逻辑控制器和嵌入微控制器的形式，控制器的例子包括但不限于以下微控制器：ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320，存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本说明书时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本说明书的实施例可提供为方法、系统或计算机程序产品。因此，本说明书可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本说明书可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本说明书的实施例而已，并不用于限制本说明书。对于本领域技术人员来说，本说明书可以有各种更改和变化。凡在本说明书的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本说明书的权利要求范围之内。

Claims

1.一种车辆行驶决策模型的训练方法，其特征在于，所述方法包括：

根据所述环境信息和行驶状态信息，确定当前观测特征；

2.如权利要求1所述的方法，其特征在于，所述环境信息包括：所述车辆感知的环境中的各障碍物的状态信息。

3.如权利要求1所述的方法，其特征在于，根据所述当前观测特征与预存的历史观测特征的可达性，得到所述行驶策略对应的额外奖励，具体包括：

根据确定出的所述可达性，确定车辆当前的额外奖励。

4.如权利要求3所述的方法，其特征在于，确定所述当前观测特征与满足预设条件的历史观测特征的可达性，具体包括：

5.如权利要求4所述的方法，其特征在于，满足第一预设条件的历史观测特征至少包括历史上所述车辆的行驶速度大于预设的速度阈值时的观测特征，和/或，所述车辆感知到的障碍物包括行人时的观测特征。

6.如权利要求4所述的方法，其特征在于，根据确定出的第一可达性、第二可达性、预设的第一可达性的权重以及预设的第二可达性的权重，确定车辆当前的额外奖励，具体包括：

7.如权利要求6所述的方法，其特征在于，根据车辆当前的行驶状态信息以及所述环境信息，确定可达性阈值，具体包括：

8.如权利要求1所述的方法，其特征在于，所述可达性采用特征向量表征；

9.如权利要求1所述的方法，其特征在于，所述决策模型为强化学习模型。

10.如权利要求4所述的方法，其特征在于，对所述决策模型进行训练之后，所述方法还包括：

11.一种车辆行驶决策确定方法，其特征在于，所述方法包括：

根据所述环境信息和行驶状态信息，确定当前观测特征；

将所述当前观测特征和所述车辆当前正在执行的动作输入至采用权利要求1至10任一项所述的训练方法得到的决策模型，得到所述决策模型输出的行驶策略。

12.一种车辆行驶决策模型的训练装置，其特征在于，所述训练装置包括：

13.一种计算机可读存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述权利要求1-10任一所述的方法或权利要求11所述的方法。

14.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现上述权利要求1-10所述的方法或权利要求11所述的方法。