CN111832652B

CN111832652B - 决策模型的训练方法及装置

Info

Publication number: CN111832652B
Application number: CN202010675622.XA
Authority: CN
Inventors: 段雄; 郎咸朋; 吴伟
Original assignee: Beijing Co Wheels Technology Co Ltd
Current assignee: Beijing Co Wheels Technology Co Ltd
Priority date: 2020-07-14
Filing date: 2020-07-14
Publication date: 2023-12-19
Anticipated expiration: 2040-07-14
Also published as: CN111832652A

Abstract

本发明公开一种决策模型的训练方法及装置，涉及自动驾驶技术领域。本发明的方法包括：S1：基于预置强化学习算法建立智能体，智能体包含决策模型和评价模型；S2：从仿真平台中获取当前时刻仿真车辆对应的第一环境模型、第一高精地图、第一车辆信息和标准位置；S3：根据第一环境模型、第一高精地图、第一车辆信息、标准位置和评价模型确定奖励函数，基于奖励函数对决策模型和评价模型进行训练；S4：判断累计训练次数是否达到预设训练次数及累计训练时长是否达到预设训练时长；若累计训练次数未达到预设训练次数且累计训练时长未达到预设训练时长，则回到步骤S2；若累计训练次数达到预设训练次数和/或累计训练时长达到预设训练时长，则停止训练。

Description

决策模型的训练方法及装置

技术领域

本发明涉及自动驾驶技术领域，特别是涉及一种决策模型的训练方法及装置。

背景技术

随着社会的不断发展，人们生活水平的不断提高，人们对汽车的需求与日俱增。伴随着汽车保有量的快速增长，汽车给人们日常生活带来的问题也日益明显，其中，交通安全问题尤为突出。为了有效解决交通安全问题，自动驾驶技术应运而生，汽车基于决策模型便可实现自动驾驶。为了保证决策模型生成的决策的准确性，需要预先对决策模型进行训练，即对决策模型的模型参数进行优化调整。

目前，通常是采用逆向强化学习法对决策模型的模型参数进行优化调整。然而,采用逆向强化学习法对决策模型的模型参数进行优化调整，需要进行大量的计算，从而使得训练决策模型的训练效率较低。

发明内容

有鉴于此，本发明提供一种决策模型的训练方法及装置，主要目的在于提高训练决策模型的训练效率。

为了达到上述目的，本发明主要提供如下技术方案：

第一方面，本发明提供了一种决策模型的训练方法，该方法包括：

步骤S1：基于预置强化学习算法建立智能体，所述智能体包含决策模型和评价模型；

步骤S2：从仿真平台中获取当前时刻仿真车辆对应的第一环境模型、第一高精地图、第一车辆信息和标准位置；

步骤S3：根据所述第一环境模型、所述第一高精地图、所述第一车辆信息、所述标准位置和所述评价模型确定奖励函数，并基于所述奖励函数对所述决策模型和所述评价模型进行训练；

步骤S4：判断累计训练次数是否达到预设训练次数及累计训练时长是否达到预设训练时长；若累计训练次数未达到所述预设训练次数且累计训练时长未达到所述预设训练时长，则回到步骤S2；若累计训练次数达到所述预设训练次数和/或累计训练时长达到所述预设训练时长，则停止训练。

可选的，所述步骤S3：根据所述第一环境模型、所述第一高精地图、所述第一车辆信息、所述标准位置和所述评价模型确定奖励函数，并基于所述奖励函数对所述决策模型和所述评价模型进行训练，包括：

根据所述第一环境模型和所述第一高精地图生成第一状态向量；

将所述第一状态向量和所述第一车辆信息输入至所述决策模型中，所述决策模型输出第一决策向量；

在使用所述第一决策向量控制所述仿真车辆中的各个目标控制器后，获取所述仿真车辆对应的实际位置；

将所述实际位置和所述标准位置输入至所述评价模型中，所述评价模型输出所述奖励函数；

基于所述奖励函数对所述决策模型的模型参数和所述评价模型的模型参数进行优化调整。

可选的，在所述若累计训练次数达到所述预设训练次数和/或累计训练时长达到所述预设训练时长，则停止训练之后，所述方法还包括：

S5：基于预置分类算法建立二分类模型；

S6：在预置专家数据中提取多个第二状态向量和每个所述第二状态向量对应的第二决策向量，以及在预置真实驾驶数据中提取多个第三状态向量和每个所述第三状态向量对应的第三决策向量，其中，多个所述第二状态向量为在所述预置专家数据中提取得到多个环境模型和每个所述环境模型对应的高精地图后，分别对每个所述环境模型和其对应的高精地图进行连立处理得到的，每个所述第二状态向量对应的第二决策向量为在所述预置专家数据中提取得到的，多个所述第三状态向量为在所述预置真实驾驶数据中提取得到多个环境模型和每个所述环境模型对应的高精地图后，分别对每个所述环境模型和其对应的高精地图进行连立处理得到的，每个所述第三状态向量对应的第三决策向量为在所述预置真实驾驶数据中提取得到的；

S7：从所述仿真平台中获取多个第四状态向量，并基于所述决策模型生成每个所述第四状态向量对应的第四决策向量，其中，多个所述第四状态向量为在所述仿真平台中获取多个任意时刻所述仿真车辆对应的第二环境模型、第二高精地图和第二车辆信息后，根据多个所述任意时刻对应的第二环境模型和第二高精地图生成的，所述第四状态向量对应的第四决策向量为根据所述第四状态向量、所述第四状态向量对应的第二车辆信息和所述决策模型确定的；

S8：基于多个所述第二状态向量、每个所述第二状态向量对应的第二决策向量、多个所述第三状态向量、每个所述第三状态向量对应的第三决策向量、多个所述第四状态向量和每个所述第四状态向量对应的第四决策向量，对所述二分类模型进行训练，以获得仲裁模型。

可选的，所述S7：从所述仿真平台中获取多个第四状态向量，并基于所述决策模型生成每个所述第四状态向量对应的第四决策向量，包括：

从所述仿真平台中获取多个任意时刻所述仿真车辆对应的第二环境模型、第二高精地图和第二车辆信息；

根据每个所述任意时刻对应的第二环境模型和第二高精地图，生成每个所述任意时刻对应的第四状态向量；

将多个所述第四状态向量和每个所述第四状态向量对应的第二车辆信息分别输入至所述决策模型中，所述决策模型输出每个所述第四状态向量对应的第四决策向量。

可选的，所述S8：基于多个所述第二状态向量、每个所述第二状态向量对应的第二决策向量、多个所述第三状态向量、每个所述第三状态向量对应的第三决策向量、多个所述第四状态向量和每个所述第四状态向量对应的第四决策向量，对所述二分类模型进行训练，以获得仲裁模型，包括：

S81：为每个所述第二状态向量添加正确决策标签，并将多个所述第二状态向量、每个所述第二状态向量对应的第二决策向量和正确决策标签确定为第一训练样本集；

S82：为每个所述第三状态向量添加正确决策标签，并将多个所述第三状态向量、每个所述第三状态向量对应的第三决策向量和正确决策标签确定为第二训练样本集；

S83：为每个所述第四状态向量添加错误决策标签，并将多个所述第四状态向量、每个所述第四状态向量对应的第四决策向量和错误决策标签确定为第三训练样本集；

S84：使用所述第一训练样本集、所述第二训练样本集和所述第三训练样本集对所述二分类模型进行训练；

S85：将训练过程中无法进行分类的多个目标训练样本确定为第四训练样本集，并使用所述第四训练样本集对所述决策模型进行模仿学习训练；所述使用所述第四训练样本集对所述决策模型进行模仿学习训练，包括：根据所述第四训练样本集包含的每个目标训练样本中记录的状态向量和决策向量之间的映射关系，对所述决策模型的模型参数进行优化调整；

S86：从所述仿真平台中获取多个第五状态向量，并基于所述决策模型生成每个所述第五状态向量对应的第五决策向量；再为每个所述第五状态向量添加错误决策标签，以及将多个所述第五状态向量、每个所述第五状态向量对应的第五决策向量和错误决策标签确定为第五训练样本集；

S87：使用所述第一训练样本集、所述第二训练样本集和所述第五训练样本集对所述二分类模型进行训练；

S88：判断将任意一个训练样本输入至所述二分类模型中，所述二分类模型是否均能输出正确决策标签；若将任意一个训练样本输入至所述二分类模型中，所述二分类模型输出错误决策标签，或无法输出决策标签，则回到步骤S85；若将任意一个训练样本输入至所述二分类模型中，所述二分类模型均能输出正确决策标签，则停止训练，并将所述二分类模型确定为所述仲裁模型。

可选的，所述方法还包括：

在所述仿真平台中测试所述决策模型和所述仲裁模型的性能；

若所述决策模型和所述仲裁模型的性能达到预设标准，则将所述决策模型部署在真实车辆上，以进行在线影子测试。

可选的，所述预置强化学习算法具体为：蒙特卡罗算法、时序差分算法或Q-learning算法中的任意一种算法。

第二方面，本发明还提供一种决策模型的训练装置，该装置包括：

第一建立单元，用于基于预置强化学习算法建立智能体，所述智能体包含决策模型和评价模型；

获取单元，用于从仿真平台中获取当前时刻仿真车辆对应的第一环境模型、第一高精地图、第一车辆信息和标准位置；

第一训练单元，用于根据所述第一环境模型、所述第一高精地图、所述第一车辆信息、所述标准位置和所述评价模型确定奖励函数，并基于所述奖励函数对所述决策模型和所述评价模型进行训练；

判断单元，用于判断累计训练次数是否达到预设训练次数及累计训练时长是否达到预设训练时长；当累计训练次数未达到所述预设训练次数且累计训练时长未达到所述预设训练时长时，控制所述获取单元和所述第一训练单元继续对所述决策模型和所述评价模型进行训练；当累计训练次数达到所述预设训练次数和/或累计训练时长达到所述预设训练时长时，停止训练。

可选的，所述第一训练单元包括：

第一生成模块，用于根据所述第一环境模型和所述第一高精地图生成第一状态向量；

第一输入模块，用于将所述第一状态向量和所述第一车辆信息输入至所述决策模型中，所述决策模型输出第一决策向量；

第一获取模块，用于在使用所述第一决策向量控制所述仿真车辆中的各个目标控制器后，获取所述仿真车辆对应的实际位置；

第二输入模块，用于将所述实际位置和所述标准位置输入至所述评价模型中，所述评价模型输出所述奖励函数；

调整模块，用于基于所述奖励函数对所述决策模型的模型参数和所述评价模型的模型参数进行优化调整。

可选的，所述装置还包括：

第二建立单元，用于在所述判断单元停止训练之后，基于预置分类算法建立二分类模型；

提取单元，用于在预置专家数据中提取多个第二状态向量和每个所述第二状态向量对应的第二决策向量，以及在预置真实驾驶数据中提取多个第三状态向量和每个所述第三状态向量对应的第三决策向量，其中，多个所述第二状态向量为在所述预置专家数据中提取得到多个环境模型和每个所述环境模型对应的高精地图后，分别对每个所述环境模型和其对应的高精地图进行连立处理得到的，每个所述第二状态向量对应的第二决策向量为在所述预置专家数据中提取得到的，多个所述第三状态向量为在所述预置真实驾驶数据中提取得到多个环境模型和每个所述环境模型对应的高精地图后，分别对每个所述环境模型和其对应的高精地图进行连立处理得到的，每个所述第三状态向量对应的第三决策向量为在所述预置真实驾驶数据中提取得到的；

生成单元，用于从所述仿真平台中获取多个第四状态向量，并基于所述决策模型生成每个所述第四状态向量对应的第四决策向量，其中，多个所述第四状态向量为在所述仿真平台中获取多个任意时刻所述仿真车辆对应的第二环境模型、第二高精地图和第二车辆信息后，根据多个所述任意时刻对应的第二环境模型和第二高精地图生成的，所述第四状态向量对应的第四决策向量为根据所述第四状态向量、所述第四状态向量对应的第二车辆信息和所述决策模型确定的；

第二训练单元，用于基于多个所述第二状态向量、每个所述第二状态向量对应的第二决策向量、多个所述第三状态向量、每个所述第三状态向量对应的第三决策向量、多个所述第四状态向量和每个所述第四状态向量对应的第四决策向量，对所述二分类模型进行训练，以获得仲裁模型。

可选的，所述生成单元包括：

第二获取模块，用于从所述仿真平台中获取多个任意时刻所述仿真车辆对应的第二环境模型、第二高精地图和第二车辆信息；

第二生成模块，用于根据每个所述任意时刻对应的第二环境模型和第二高精地图，生成每个所述任意时刻对应的第四状态向量；

第三输入模块，用于将多个所述第四状态向量和每个所述第四状态向量对应的第二车辆信息分别输入至所述决策模型中，所述决策模型输出每个所述第四状态向量对应的第四决策向量。

可选的，所述第二训练单元包括：

第一确定模块，用于为每个所述第二状态向量添加正确决策标签，并将多个所述第二状态向量、每个所述第二状态向量对应的第二决策向量和正确决策标签确定为第一训练样本集；

第二确定模块，用于为每个所述第三状态向量添加正确决策标签，并将多个所述第三状态向量、每个所述第三状态向量对应的第三决策向量和正确决策标签确定为第二训练样本集；

第三确定模块，用于为每个所述第四状态向量添加错误决策标签，并将多个所述第四状态向量、每个所述第四状态向量对应的第四决策向量和错误决策标签确定为第三训练样本集；

第一训练模块，用于使用所述第一训练样本集、所述第二训练样本集和所述第三训练样本集对所述二分类模型进行训练；

第二训练模块，用于将训练过程中无法进行分类的多个目标训练样本确定为第四训练样本集，并使用所述第四训练样本集对所述决策模型进行模仿学习训练；

所述第二训练模块，具体用于根据所述第四训练样本集包含的每个目标训练样本中记录的状态向量和决策向量之间的映射关系，对所述决策模型的模型参数进行优化调整；

第四确定模块，用于从所述仿真平台中获取多个第五状态向量，并基于所述决策模型生成每个所述第五状态向量对应的第五决策向量；再为每个所述第五状态向量添加错误决策标签，以及将多个所述第五状态向量、每个所述第五状态向量对应的第五决策向量和错误决策标签确定为第五训练样本集；

第三训练模块，用于使用所述第一训练样本集、所述第二训练样本集和所述第五训练样本集对所述二分类模型进行训练；

判断模块，用于判断将任意一个训练样本输入至所述二分类模型中，所述二分类模型是否均能输出正确决策标签；当将任意一个训练样本输入至所述二分类模型中，所述二分类模型输出错误决策标签，或无法输出决策标签时，控制所述第二训练模块、所述第四确定模块和所述第三训练模块继续对所述二分类模型和所述决策模型进行训练；当将任意一个训练样本输入至所述二分类模型中，所述二分类模型均输出正确决策标签时，停止训练，并将所述二分类模型确定为所述仲裁模型。

可选的，所述装置还包括：

测试单元，用于在所述仿真平台中测试所述决策模型和所述仲裁模型的性能；

部署单元，用于当所述决策模型和所述仲裁模型的性能达到预设标准时，将所述决策模型部署在真实车辆上，以进行在线影子测试。

第三方面，本发明的实施例提供了一种存储介质，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行第一方面所述的决策模型的训练方法。

第四方面，本发明的实施例提供了一种决策模型的训练装置，所述装置包括存储介质；及一个或者多个处理器，所述存储介质与所述处理器耦合，所述处理器被配置为执行所述存储介质中存储的程序指令；所述程序指令运行时执行第一方面所述的决策模型的训练方法。

借由上述技术方案，本发明提供的技术方案至少具有下列优点：

本发明提供一种决策模型的训练方法及装置，与现有技术中采用逆向强化学习法对决策模型的模型参数进行优化调整相比，本发明首先基于预置强化学习算法建立包含决策模型和评价模型的智能体；然后，在仿真平台中加载仿真场景(或真实场景)，并控制仿真车辆在仿真场景(或真实场景)中进行仿真行驶，从而获取当前时刻仿真车辆对应的环境模型(即第一环境模型)、高精地图(即第一高精地图)、车辆信息(即第一车辆信息)和标准位置；其次，根据第一环境模型、第一高精地图、第一车辆信息、标准位置和评价模型确定奖励函数，并基于奖励函数对决策模型和评价模型进行训练；本轮训练结束后，判断累计训练次数是否达到预设训练次数，以及判断累计训练时长是否达到预设训练时长，当累计训练次数达到预设训练次数和/或累计训练时长达到预设训练时长时，停止对决策模型和评价模型的训练；当累计训练次数未达到预设训练次数，且累计训练时长未达到预设训练时长时，再次采用上述方法对决策模型和评价模型进行训练，直至累计训练次数达到预设训练次数和/或累计训练时长达到预设训练时长。由于，根据仿真车辆在仿真行驶过程中某一时刻对应的环境模型、高精地图、车辆信息、标准位置和评价模型确定奖励函数，无需进行大量计算；基于奖励函数对决策模型进行训练，同样无需进行大量计算，因此，可以有效提高训练决策模型的训练效率。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了本发明实施例提供的一种决策模型的训练方法流程图；

图2示出了本发明实施例提供的另一种决策模型的训练方法流程图；

图3示出了本发明实施例提供的一种决策模型的训练装置的组成框图；

图4示出了本发明实施例提供的另一种决策模型的训练装置的组成框图。

具体实施方式

下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例，然而应当理解，可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本发明，并且能够将本发明的范围完整的传达给本领域的技术人员。

本发明实施例提供一种决策模型的训练方法，如图1所示，该方法包括：

101、基于预置强化学习算法建立智能体。

其中，智能体具体包含决策模型和评价模型；其中，预置强化学习算法具体可以为：蒙特卡罗算法、时序差分算法或Q-learning算法中的任意一种算法。本发明实施例中，各个步骤中的执行主体为运行在终端设备中的模型训练应用程序，其中，终端设备可以但不限于为：计算机、服务器等等。

在本发明实施例中，模型训练应用程序首先需要基于预置强化学习算法建立智能体，即基于预置强化学习算法建立决策模型和评价模型。

102、从仿真平台中获取当前时刻仿真车辆对应的第一环境模型、第一高精地图、第一车辆信息和标准位置。

其中，仿真车辆为在仿真平台加载的仿真场景(或真实场景)中进行仿真行驶的车辆；当前时刻仿真车辆对应的第一环境模型用于对当前时刻仿真车辆的周围环境进行描述，其可以但不限于包括：当前时刻仿真车辆周围的其他车辆的状态信息(如位置、速度、行驶方向等)，当前时刻仿真车辆周围的行人的状态信息，当前时刻仿真车辆的导航路线、当前时刻仿真车辆所在车道的道路信息(如红绿灯、限速标识、交通标识、车道线等)，以及当前时刻仿真车辆周围的静态障碍物的状态信息等等；当前时刻仿真车辆对应的第一高精地图为包含仿真车辆当前时刻所处位置的、精度较高的电子地图；当前时刻仿真车辆对应的第一车辆信息可以但不限于为：当前时刻仿真车辆的刹车踏板的状态信息、当前时刻仿真车辆的油门踏板的状态信息、当前时刻仿真车辆的方向盘的状态信息等；当前时刻仿真车辆对应的标准位置为仿真车辆在仿真行驶的过程中，下一时刻应该到达的位置。

在本发明实施例中，模型训练应用程序在基于预置强化学习算法建立决策模型和评价模型后，便可在仿真平台中加载仿真场景(或真实场景)，并控制仿真车辆在仿真场景(或真实场景)中进行仿真行驶，以及获取当前时刻仿真车辆对应的环境模型(即第一环境模型)、高精地图(即第一高精地图)、车辆信息(即第一车辆信息)和标准位置。

103、根据第一环境模型、第一高精地图、第一车辆信息、标准位置和评价模型确定奖励函数，并基于奖励函数对决策模型和评价模型进行训练。

在本发明实施例中，模型训练应用程序在仿真平台中获取得到仿真车辆对应的第一环境模型、第一高精地图、第一车辆信息和标准位置后，便可根据第一环境模型、第一高精地图、第一车辆信息、标准位置和评价模型确定奖励函数，并基于奖励函数对决策模型和评价模型进行训练。

具体的，在本步骤中，模型训练应用程序可以采用以下方式根据第一环境模型、第一高精地图、第一车辆信息、标准位置和评价模型确定奖励函数：首先，根据第一环境模型、第一高精地图、第一车辆信息和决策模型生成决策向量；其次，在使用生成的决策向量控制仿真车辆中的各个控制器后，获取仿真车辆实际到达的位置(即仿真车辆对应的实际位置)；最后，将仿真车辆对应的标准位置和实际位置输入至评价模型中，评价模型根据标准位置和实际位置的差值，便能输出奖励函数，但不限于此。

104、判断累计训练次数是否达到预设训练次数及累计训练时长是否达到预设训练时长；若累计训练次数未达到预设训练次数且累计训练时长未达到预设训练时长，则回到步骤102；若累计训练次数达到预设训练次数和/或累计训练时长达到预设训练时长，则停止训练。

在本发明实施例中，本轮训练结束后，模型训练应用程序需要判断累计训练次数是否达到预设训练次数，以及需要判断累计训练时长是否达到预设训练时长，当累计训练次数未达到预设训练次数，且累计训练时长未达到预设训练时长时，模型训练应用程序需要再次采用上述步骤102和步骤103记录的方法对决策模型和评价模型进行训练，直至累计训练次数达到预设训练次数和/或累计训练时长达到预设训练时长；当累计训练次数达到预设训练次数和/或累计训练时长达到预设训练时长时，模型训练应用程序便可停止对决策模型和评价模型的训练。

需要进行说明是，本发明实施例对预设训练次数的取值和预设训练时长的取值，不进行具体限定。

本发明实施例提供一种决策模型的训练方法，与现有技术中采用逆向强化学习法对决策模型的模型参数进行优化调整相比，本发明实施例首先基于预置强化学习算法建立包含决策模型和评价模型的智能体；然后，在仿真平台中加载仿真场景(或真实场景)，并控制仿真车辆在仿真场景(或真实场景)中进行仿真行驶，从而获取当前时刻仿真车辆对应的环境模型(即第一环境模型)、高精地图(即第一高精地图)、车辆信息(即第一车辆信息)和标准位置；其次，根据第一环境模型、第一高精地图、第一车辆信息、标准位置和评价模型确定奖励函数，并基于奖励函数对决策模型和评价模型进行训练；本轮训练结束后，判断累计训练次数是否达到预设训练次数，以及判断累计训练时长是否达到预设训练时长，当累计训练次数达到预设训练次数和/或累计训练时长达到预设训练时长时，停止对决策模型和评价模型的训练；当累计训练次数未达到预设训练次数，且累计训练时长未达到预设训练时长时，再次采用上述方法对决策模型和评价模型进行训练，直至累计训练次数达到预设训练次数和/或累计训练时长达到预设训练时长。由于，根据仿真车辆在仿真行驶过程中某一时刻对应的环境模型、高精地图、车辆信息、标准位置和评价模型确定奖励函数，无需进行大量计算；基于奖励函数对决策模型进行训练，同样无需进行大量计算，因此，可以有效提高训练决策模型的训练效率。

以下为了更加详细地说明，本发明实施例提供了另一种决策模型的训练方法，具体如图2所示，该方法包括：

201、基于预置强化学习算法建立智能体。

其中，关于步骤201、基于预置强化学习算法建立智能体，可以参考图1对应部分的描述，本发明实施例此处将不再赘述。

202、从仿真平台中获取当前时刻仿真车辆对应的第一环境模型、第一高精地图、第一车辆信息和标准位置。

其中，关于步骤202、从仿真平台中获取当前时刻仿真车辆对应的第一环境模型、第一高精地图、第一车辆信息和标准位置，可以参考图1对应部分的描述，本发明实施例此处将不再赘述。

203、根据第一环境模型、第一高精地图、第一车辆信息、标准位置和评价模型确定奖励函数，并基于奖励函数对决策模型和评价模型进行训练。

具体的，在本步骤中，模型训练应用程序可以采用以下方式根据第一环境模型、第一高精地图、第一车辆信息、标准位置和评价模型确定奖励函数，并基于奖励函数对决策模型和评价模型进行训练：

首先，模型训练应用程序根据第一环境模型和第一高精地图生成第一状态向量，即对第一环境模型和第一高精地图进行连立处理，从而获得第一状态向量；

然后，模型训练应用程序将第一状态向量和第一车辆信息输入至决策模型中，以便决策模型输出第一状态向量对应的决策向量(即第一决策向量)；

其次，在使用第一决策向量控制仿真车辆中的各个目标控制器后，模型训练应用程序获取仿真车辆实际到达的位置(即仿真车辆对应的实际位置)，其中，多个目标控制器可以但不限于为：仿真车辆的刹车踏板对应的控制器，仿真车辆的油门踏板对应的控制器，仿真车辆的方向盘对应的控制器等等；

再次，模型训练应用程序将仿真车辆对应的实际位置和标准位置输入至评价模型中，以便评价模型根据标准位置和实际位置的差值，输出奖励函数；

最后，模型训练应用程序基于评价模型输出的奖励函数对决策模型的模型参数和评价模型的模型参数进行优化调整。

204、判断累计训练次数是否达到预设训练次数及累计训练时长是否达到预设训练时长；若累计训练次数未达到预设训练次数且累计训练时长未达到预设训练时长，则回到步骤202；若累计训练次数达到预设训练次数和/或累计训练时长达到预设训练时长，则停止训练。

其中，关于步骤204、判断累计训练次数是否达到预设训练次数及累计训练时长是否达到预设训练时长；若累计训练次数未达到预设训练次数且累计训练时长未达到预设训练时长，则回到步骤202；若累计训练次数达到预设训练次数和/或累计训练时长达到预设训练时长，则停止训练，可以参考图1对应部分的描述，本发明实施例此处将不再赘述。

205、建立二分类模型，并基于决策模型对二分类模型进行训练，以获得仲裁模型。

在本发明实施例中，模型训练应用程序在完成决策模型和评价模型的训练后，还可以建立二分类模型，并基于决策模型对二分类模型进行训练，从而获得仲裁模型。以下将对模型训练应用程序如何建立二分类模型，以及模型训练应用程序如何基于决策模型对二分类模型进行训练，从而获得仲裁模型进行详细说明。

(1)基于预置分类算法建立二分类模型，其中，预置分类算法可以但不限于为：决策树算法、贝叶斯算法、支持向量机算法等等，本发明实施例中对此不进行限定。

(2)在预置专家数据中提取多个第二状态向量和每个第二状态向量对应的第二决策向量，以及在预置真实驾驶数据中提取多个第三状态向量和每个第三状态向量对应的第三决策向量。

其中，预置专家数据为利用自动驾驶专家系统对仿真场景进行决策判断生成的数据；预置真实驾驶数据为工作人员驾驶真实车辆行驶过程中采集得到的数据。

具体的，在本步骤中，模型训练应用程序可以先在预置专家数据中提取多个环境模型及每个环境模型对应的高精地图和决策向量(即第二决策向量)，再分别对每个环境模型和其对应的高精地图进行连立处理，从而获得每个环境模型对应的状态向量(即第二状态向量)；同理，模型训练应用程序可以先在预置真实驾驶数据中提取多个环境模型及每个环境模型对应的高精地图和决策向量(即第三决策向量)，再分别对每个环境模型和其对应的高精地图进行连立处理，从而获得每个环境模型对应的状态向量(即第三状态向量)，但不限于此。

(3)从真平台中获取多个第四状态向量，并基于决策模型生成每个第四状态向量对应的第四决策向量。

具体的，在本步骤中，模型训练应用程序需要先从仿真平台中获取多个任意时刻仿真车辆对应的第二环境模型、第二高精地图和第二车辆信息；然后，根据每个任意时刻对应的第二环境模型和第二高精地图，生成每个任意时刻对应的第四状态向量，即分别对每个任意时刻对应的第二环境模型和第二高精地图进行连立处理，从而获得每个任意时刻对应的状态向量(即第四状态向量)；最后，将多个第四状态向量和每个第四状态向量对应的第二车辆信息分别输入至决策模型中，以便决策模型输出每个第四状态向量对应的决策向量(即第四决策向量)。

(4)基于多个第二状态向量、每个第二状态向量对应的第二决策向量、多个第三状态向量、每个第三状态向量对应的第三决策向量、多个第四状态向量和每个第四状态向量对应的第四决策向量，对二分类模型进行训练，从而获得仲裁模型。

具体的，在本步骤中，模型训练应用程序可以采用以下方式基于多个第二状态向量、多个第二决策向量、多个第三状态向量、多个第三决策向量、多个第四状态向量和多个第四决策向量，对二分类模型进行训练：

1、为每个第二状态向量添加正确决策标签，并将多个第二状态向量、每个第二状态向量对应的第二决策向量和正确决策标签确定为第一训练样本集，即第一训练样本集中包含多个第一训练样本，每个第一训练样本由第二状态向量、第二状态向量对应的第二决策向量和正确决策标签组成。

2、为每个第三状态向量添加正确决策标签，并将多个第三状态向量、每个第三状态向量对应的第三决策向量和正确决策标签确定为第二训练样本集，即第二训练样本集中包含多个第二训练样本，每个第二训练样本由第三状态向量、第三状态向量对应的第三决策向量和正确决策标签组成。

3、为每个第四状态向量添加错误决策标签，并将多个第四状态向量、每个第四状态向量对应的第四决策向量和错误决策标签确定为第三训练样本集，即第三训练样本集中包含多个第三训练样本，每个第三训练样本由第四状态向量、第四状态向量对应的第四决策向量和错误决策标签组成。

4、使用第一训练样本集、第二训练样本集和第三训练样本集对二分类模型进行训练，即使用多个第一训练样本、多个第二训练样本和多个第三训练样本对二分类模型中的模型参数进行优化调整。

5、将训练二分类模型过程中无法进行分类的多个目标训练样本确定为第四训练样本集，并使用第四训练样本集对决策模型进行模仿学习训练，即根据每个目标训练样本中记录的状态向量和决策向量之间的映射关系，对决策模型的模型参数进行优化调整。

6、从仿真平台中获取多个第五状态向量，并基于决策模型生成每个第五状态向量对应的第五决策向量，再为每个第五状态向量添加错误决策标签，以及将多个第五状态向量、每个第五状态向量对应的第五决策向量和错误决策标签确定为第五训练样本集，即第五训练样本集中包含多个第五训练样本，每个第五训练样本由第五状态向量、第五状态向量对应的第五决策向量和错误决策标签组成。

具体的，在本步骤中，可以采用上述步骤(3)记录的方法从仿真平台中获取多个第五状态向量，并基于决策模型生成每个第五状态向量对应的第五决策向量，但不限于此。

7、使用第一训练样本集、第二训练样本集和第五训练样本集对二分类模型进行训练，即使用多个第一训练样本、多个第二训练样本和多个第五训练样本对二分类模型中的模型参数进行优化调整。

8、在使用第一训练样本集、第二训练样本集和第五训练样本集对二分类模型进行训练后，判断将任意一个训练样本输入至二分类模型中，二分类模型是否均能输出正确决策标签，若将任意一个训练样本(第一训练样本、第二训练样本或第五训练样本)输入至二分类模型中，二分类模型输出错误决策标签，或无法输出决策标签，则模型训练应用程序需要再次采用上述步骤5-7记录的方法对二分类模型和决策模型进行训练，直至将任意一个训练样本(第一训练样本、第二训练样本或第五训练样本)输入至二分类模型中，二分类模型均输出正确决策标签；若将任意一个训练样本(第一训练样本、第二训练样本或第五训练样本)输入至二分类模型中，二分类模型均输出正确决策标签，则停止训练，并将二分类模型确定为仲裁模型。

需要进行说明的是，在按照上述步骤1-8记录的方法对二分类模型进行训练，从而获得仲裁模型的过程中，可以进一步对决策模型进行训练，从而可以有效提高决策模型输出决策向量的准确性。

进一步的，在本发明实施例中，模型训练应用程序在完成决策模型和二分类模型的训练，从而获得仲裁模型后，还可以在仿真平台中测试决策模型和仲裁模型的性能。

具体的，在本步骤中，模型训练应用程序可以采用以下方式在仿真平台中测试决策模型和仲裁模型的性能：首先，通过在仿真平台中加载仿真场景(或真实场景)，并控制仿真车辆在仿真场景(或真实场景)中进行仿真行驶，来获取多个环境模型及每个环境模型对应的高精地图和车辆信息；然后，根据多个环境模型和每个环境模型对应的高精地图，生成多个状态向量，即分别对每个环境模型和其对应的高精地图进行连立处理，从而获得多个状态向量；其次，将多个状态向量和每个状态向量对应的车辆信息分别输入至决策模型中，以便决策模型输出每个状态向量对应的决策向量；再次，分别将每个决策向量输入至仲裁模型中，以便仲裁模型输出每个决策向量对应的仲裁结果(即使用仲裁模型判断各个决策向量是否正确)；最后，当某个决策向量对应的仲裁结果为正确决策标签时，模型训练应用程序便可使用该决策向量控制仿真车辆中的各个目标控制器，当某个决策向量对应的仲裁结果为错误决策标签时，模型训练应用程序需要将该决策向量对应的状态向量输入至自动驾驶专家系统中，以便自动驾驶专家系统输出正确的决策向量，此时，模型训练应用程序便可使用自动驾驶专家系统输出的决策向量控制仿真车辆中的各个目标控制器。

进一步的，在本发明实施例中，模型训练应用程序在仿真平台中完成决策模型和仲裁模型的性能测试后，需要判断决策模型和仲裁模型的性能是否达到预设标准，当决策模型和/或仲裁模型的性能未达到预设标准时，需要对决策模型和/或仲裁模型进行针对性的重新训练；当决策模型和仲裁模型的性能均达到预设标准时，便可将决策模型部署在真实车辆上，从而对决策模型进行在线影子测试：通过判断决策模型输出的决策向量与驾驶员的决策进行比对，确定决策模型的准确性；在进行在线影子测试的过程中，真实车辆可以将比对结果不一致的决策向量上传至云端服务器中，以便后续模型训练应用程序基于这些决策向量，再次对决策模型进行优化训练；当决策模型输出决策的准确率和召回率大于预设阈值时，便可将决策模型部署在车载平台上。

具体的，在本步骤中，决策模型对应的预设标准具体可以为：决策模型输出正确决策向量的概率大于预设阈值，仲裁模型对应的预设标准具体可以为：仲裁模型输出的仲裁结果的准确率大于预设阈值，但不限于此。具体的，在本步骤中，模型训练应用程序可以将多个决策向量和每个决策向量对应的仲裁结果进行输出显示，以便工作人员确定仲裁模型输出的仲裁结果的准确率，但不限于此。

为了实现上述目的，根据本发明的另一方面，本发明实施例还提供了一种存储介质，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行上述所述的决策模型的训练方法。

为了实现上述目的，根据本发明的另一方面，本发明实施例还提供了一种决策模型的训练装置，所述装置包括存储介质；及一个或者多个处理器，所述存储介质与所述处理器耦合，所述处理器被配置为执行所述存储介质中存储的程序指令；所述程序指令运行时执行上述所述的决策模型的训练方法。

进一步的，作为对上述图1及图2所示方法的实现，本发明另一实施例还提供了一种决策模型的训练装置。该装置实施例与前述方法实施例对应，为便于阅读，本装置实施例不再对前述方法实施例中的细节内容进行逐一赘述，但应当明确，本实施例中的装置能够对应实现前述方法实施例中的全部内容。该装置应用于提高训练决策模型的训练效率，具体如图3所示，该装置包括：

第一建立单元301，用于基于预置强化学习算法建立智能体，所述智能体包含决策模型和评价模型；

获取单元302，用于从仿真平台中获取当前时刻仿真车辆对应的第一环境模型、第一高精地图、第一车辆信息和标准位置；

第一训练单元303，用于根据所述第一环境模型、所述第一高精地图、所述第一车辆信息、所述标准位置和所述评价模型确定奖励函数，并基于所述奖励函数对所述决策模型和所述评价模型进行训练；

判断单元304，用于判断累计训练次数是否达到预设训练次数及累计训练时长是否达到预设训练时长；当累计训练次数未达到所述预设训练次数且累计训练时长未达到所述预设训练时长时，控制获取单元302和第一训练单元303继续对所述决策模型和所述评价模型进行训练；当累计训练次数达到所述预设训练次数和/或累计训练时长达到所述预设训练时长时，停止训练。

进一步的，如图4所示，第一训练单元303包括：

第一生成模块3031，用于根据所述第一环境模型和所述第一高精地图生成第一状态向量；

第一输入模块3032，用于将所述第一状态向量和所述第一车辆信息输入至所述决策模型中，所述决策模型输出第一决策向量；

第一获取模块3033，用于在使用所述第一决策向量控制所述仿真车辆中的各个目标控制器后，获取所述仿真车辆对应的实际位置；

第二输入模块3034，用于将所述实际位置和所述标准位置输入至所述评价模型中，所述评价模型输出所述奖励函数；

调整模块3035，用于基于所述奖励函数对所述决策模型的模型参数和所述评价模型的模型参数进行优化调整。

进一步的，如图4所示，该装置还包括：

第二建立单元305，用于在判断单元304停止训练之后，基于预置分类算法建立二分类模型；

提取单元306，用于在预置专家数据中提取多个第二状态向量和每个所述第二状态向量对应的第二决策向量，以及在预置真实驾驶数据中提取多个第三状态向量和每个所述第三状态向量对应的第三决策向量；

生成单元307，用于从所述仿真平台中获取多个第四状态向量，并基于所述决策模型生成每个所述第四状态向量对应的第四决策向量；

第二训练单元308，用于基于多个所述第二状态向量、每个所述第二状态向量对应的第二决策向量、多个所述第三状态向量、每个所述第三状态向量对应的第三决策向量、多个所述第四状态向量和每个所述第四状态向量对应的第四决策向量，对所述二分类模型进行训练，以获得仲裁模型。

进一步的，如图4所示，生成单元307包括：

第二获取模块3071，用于从所述仿真平台中获取多个任意时刻所述仿真车辆对应的第二环境模型、第二高精地图和第二车辆信息；

第二生成模块3072，用于根据每个所述任意时刻对应的第二环境模型和第二高精地图，生成每个所述任意时刻对应的第四状态向量；

第三输入模块3073，用于将多个所述第四状态向量和每个所述第四状态向量对应的第二车辆信息分别输入至所述决策模型中，所述决策模型输出每个所述第四状态向量对应的第四决策向量。

进一步的，如图4所示，第二训练单元308包括：

第一确定模块3081，用于为每个所述第二状态向量添加正确决策标签，并将多个所述第二状态向量、每个所述第二状态向量对应的第二决策向量和正确决策标签确定为第一训练样本集；

第二确定模块3082，用于为每个所述第三状态向量添加正确决策标签，并将多个所述第三状态向量、每个所述第三状态向量对应的第三决策向量和正确决策标签确定为第二训练样本集；

第三确定模块3083，用于为每个所述第四状态向量添加错误决策标签，并将多个所述第四状态向量、每个所述第四状态向量对应的第四决策向量和错误决策标签确定为第三训练样本集；

第一训练模块3084，用于使用所述第一训练样本集、所述第二训练样本集和所述第三训练样本集对所述二分类模型进行训练；

第二训练模块3085，用于将训练过程中无法进行分类的多个目标训练样本确定为第四训练样本集，并使用所述第四训练样本集对所述决策模型进行模仿学习训练；

第四确定模块3086，用于从所述仿真平台中获取多个第五状态向量，并基于所述决策模型生成每个所述第五状态向量对应的第五决策向量；再为每个所述第五状态向量添加错误决策标签，以及将多个所述第五状态向量、每个所述第五状态向量对应的第五决策向量和错误决策标签确定为第五训练样本集；

第三训练模块3087，用于使用所述第一训练样本集、所述第二训练样本集和所述第五训练样本集对所述二分类模型进行训练；

判断模块3088，用于判断将任意一个训练样本输入至所述二分类模型中，所述二分类模型是否均能输出正确决策标签；当将任意一个训练样本输入至所述二分类模型中，所述二分类模型输出错误决策标签，或无法输出决策标签时，控制第二训练模块3085、第四确定模块3086和第三训练模块3087继续对所述二分类模型和所述决策模型进行训练；当将任意一个训练样本输入至所述二分类模型中，所述二分类模型均输出正确决策标签时，停止训练，并将所述二分类模型确定为所述仲裁模型。

进一步的，如图4所示，该装置还包括：

测试单元309，用于在所述仿真平台中测试所述决策模型和所述仲裁模型的性能；

部署单元310，用于当所述决策模型和所述仲裁模型的性能达到预设标准时，将所述决策模型部署在真实车辆上，以进行在线影子测试。

进一步的，如图4所示，所述预置强化学习算法具体为：蒙特卡罗算法、时序差分算法或Q-learning算法中的任意一种算法。

本发明实施例提供一种决策模型的训练方法及装置，与现有技术中采用逆向强化学习法对决策模型的模型参数进行优化调整相比，本发明实施例首先基于预置强化学习算法建立包含决策模型和评价模型的智能体；然后，在仿真平台中加载仿真场景(或真实场景)，并控制仿真车辆在仿真场景(或真实场景)中进行仿真行驶，从而获取当前时刻仿真车辆对应的环境模型(即第一环境模型)、高精地图(即第一高精地图)、车辆信息(即第一车辆信息)和标准位置；其次，根据第一环境模型、第一高精地图、第一车辆信息、标准位置和评价模型确定奖励函数，并基于奖励函数对决策模型和评价模型进行训练；本轮训练结束后，判断累计训练次数是否达到预设训练次数，以及判断累计训练时长是否达到预设训练时长，当累计训练次数达到预设训练次数和/或累计训练时长达到预设训练时长时，停止对决策模型和评价模型的训练；当累计训练次数未达到预设训练次数，且累计训练时长未达到预设训练时长时，再次采用上述方法对决策模型和评价模型进行训练，直至累计训练次数达到预设训练次数和/或累计训练时长达到预设训练时长。由于，根据仿真车辆在仿真行驶过程中某一时刻对应的环境模型、高精地图、车辆信息、标准位置和评价模型确定奖励函数，无需进行大量计算；基于奖励函数对决策模型进行训练，同样无需进行大量计算，因此，可以有效提高训练决策模型的训练效率。

所述决策模型的训练装置包括处理器和存储器，上述第一建立单元、获取单元、第一训练单元和判断单元等均作为程序单元存储在存储器中，由处理器执行存储在存储器中的上述程序单元来实现相应的功能。

处理器中包含内核，由内核去存储器中调取相应的程序单元。内核可以设置一个或以上，通过调整内核参数来提高训练决策模型的训练效率。

本发明实施例提供了一种存储介质，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行上述所述的决策模型的训练方法。

存储介质可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)，存储器包括至少一个存储芯片。

本发明实施例还提供了一种决策模型的训练装置，所述装置包括存储介质；及一个或者多个处理器，所述存储介质与所述处理器耦合，所述处理器被配置为执行所述存储介质中存储的程序指令；所述程序指令运行时执行上述所述的决策模型的训练方法。

本发明实施例提供了一种设备，设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序，处理器执行程序时实现以下步骤：

进一步的，所述步骤S3：根据所述第一环境模型、所述第一高精地图、所述第一车辆信息、所述标准位置和所述评价模型确定奖励函数，并基于所述奖励函数对所述决策模型和所述评价模型进行训练，包括：

进一步的，在所述若累计训练次数达到所述预设训练次数和/或累计训练时长达到所述预设训练时长，则停止训练之后，所述方法还包括：

S5：基于预置分类算法建立二分类模型；

S6：在预置专家数据中提取多个第二状态向量和每个所述第二状态向量对应的第二决策向量，以及在预置真实驾驶数据中提取多个第三状态向量和每个所述第三状态向量对应的第三决策向量；

S7：从所述仿真平台中获取多个第四状态向量，并基于所述决策模型生成每个所述第四状态向量对应的第四决策向量；

进一步的，所述S7：从所述仿真平台中获取多个第四状态向量，并基于所述决策模型生成每个所述第四状态向量对应的第四决策向量，包括：

进一步的，所述S8：基于多个所述第二状态向量、每个所述第二状态向量对应的第二决策向量、多个所述第三状态向量、每个所述第三状态向量对应的第三决策向量、多个所述第四状态向量和每个所述第四状态向量对应的第四决策向量，对所述二分类模型进行训练，以获得仲裁模型，包括：

S85：将训练过程中无法进行分类的多个目标训练样本确定为第四训练样本集，并使用所述第四训练样本集对所述决策模型进行模仿学习训练；

进一步的，所述方法还包括：

进一步的，所述预置强化学习算法具体为：蒙特卡罗算法、时序差分算法或Q-learning算法中的任意一种算法。

本申请还提供了一种计算机程序产品，当在数据处理设备上执行时，适于执行初始化有如下方法步骤的程序代码：步骤S1：基于预置强化学习算法建立智能体，所述智能体包含决策模型和评价模型；步骤S2：从仿真平台中获取当前时刻仿真车辆对应的第一环境模型、第一高精地图、第一车辆信息和标准位置；步骤S3：根据所述第一环境模型、所述第一高精地图、所述第一车辆信息、所述标准位置和所述评价模型确定奖励函数，并基于所述奖励函数对所述决策模型和所述评价模型进行训练；步骤S4：判断累计训练次数是否达到预设训练次数及累计训练时长是否达到预设训练时长；若累计训练次数未达到所述预设训练次数且累计训练时长未达到所述预设训练时长，则回到步骤S2；若累计训练次数达到所述预设训练次数和/或累计训练时长达到所述预设训练时长，则停止训练。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种决策模型的训练方法，其特征在于，包括：

步骤S4：判断累计训练次数是否达到预设训练次数及累计训练时长是否达到预设训练时长；若累计训练次数未达到所述预设训练次数且累计训练时长未达到所述预设训练时长，则回到步骤S2；若累计训练次数达到所述预设训练次数和/或累计训练时长达到所述预设训练时长，则停止训练；

在所述若累计训练次数达到所述预设训练次数和/或累计训练时长达到所述预设训练时长，则停止训练之后，还包括：

S5：基于预置分类算法建立二分类模型；

2.根据权利要求1所述的方法，其特征在于，所述步骤S3：根据所述第一环境模型、所述第一高精地图、所述第一车辆信息、所述标准位置和所述评价模型确定奖励函数，并基于所述奖励函数对所述决策模型和所述评价模型进行训练，包括：

3.根据权利要求1所述的方法，其特征在于，所述S7：从所述仿真平台中获取多个第四状态向量，并基于所述决策模型生成每个所述第四状态向量对应的第四决策向量，包括：

4.根据权利要求1所述的方法，其特征在于，所述S8：基于多个所述第二状态向量、每个所述第二状态向量对应的第二决策向量、多个所述第三状态向量、每个所述第三状态向量对应的第三决策向量、多个所述第四状态向量和每个所述第四状态向量对应的第四决策向量，对所述二分类模型进行训练，以获得仲裁模型，包括：

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

6.根据权利要求1所述的方法，其特征在于，所述预置强化学习算法具体为：蒙特卡罗算法、时序差分算法或Q-learning算法中的任意一种算法。

7.一种决策模型的训练装置，其特征在于，包括：

判断单元，用于判断累计训练次数是否达到预设训练次数及累计训练时长是否达到预设训练时长；当累计训练次数未达到所述预设训练次数且累计训练时长未达到所述预设训练时长时，控制所述获取单元和所述第一训练单元继续对所述决策模型和所述评价模型进行训练；当累计训练次数达到所述预设训练次数和/或累计训练时长达到所述预设训练时长时，停止训练；

8.根据权利要求7所述的装置，其特征在于，所述第一训练单元包括：

9.根据权利要求7所述的装置，其特征在于，所述生成单元包括：

10.根据权利要求7所述的装置，其特征在于，所述第二训练单元包括：

11.根据权利要求7所述的装置，其特征在于，所述装置还包括：

12.根据权利要求7所述的装置，其特征在于，所述预置强化学习算法具体为：蒙特卡罗算法、时序差分算法或Q-learning算法中的任意一种算法。

13.一种存储介质，其特征在于，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行权利要求1至6中任一项所述的决策模型的训练方法。

14.一种决策模型的训练装置，其特征在于，所述装置包括存储介质；及一个或者多个处理器，所述存储介质与所述处理器耦合，所述处理器被配置为执行所述存储介质中存储的程序指令；所述程序指令运行时执行权利要求1至6中任一项所述的决策模型的训练方法。