CN113238970B

CN113238970B - 自动驾驶模型的训练方法、评测方法、控制方法及装置

Info

Publication number: CN113238970B
Application number: CN202110774790.9A
Authority: CN
Inventors: 胡太群
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-07-08
Filing date: 2021-07-08
Publication date: 2021-10-22
Anticipated expiration: 2041-07-08
Also published as: CN113238970A

Abstract

本发明公开了一种自动驾驶模型的训练方法、评测方法、控制方法及装置，本发明通过该仿真系统，可以映射实际交通场景下各车辆的行驶轨迹和行驶行为，进而能够获取实际交通场景下大量车辆的行驶信息，增大模型的训练数据量；在训练自动驾驶模型的过程中不断计算各个目标仿真车辆与各个自动驾驶车辆之间的偏差值均值，能够在偏差值均值小于第一阈值时及时确定目标自动驾驶模型，当偏差值均值不小于第一阈值时也无需重新部署训练环境，提高了训练效率，减少了运算量且大大降低了成本,可广泛应用于自动驾驶技术领域。

Description

自动驾驶模型的训练方法、评测方法、控制方法及装置

技术领域

本发明涉及自动驾驶技术领域，尤其是一种自动驾驶模型的训练方法、评测方法、控制方法及装置。

背景技术

自动驾驶技术通常包括高精地图、环境感知、路径规划、路径追踪控制等技术。在路径规划技术中，驾驶模型的训练是自动驾驶中重要一环，自动驾驶的安全行驶依赖于驾驶策略的准确性和稳定性。而驾驶策略的效果又取决于自动驾驶模型的训练质量，因此，如何提高自动驾驶模型的训练质量显得尤为重要。

相关技术在训练自动驾驶模型时，需要自主驾车采集相关行车数据，该方式导致人力成本高且数据量小，例如只能采集某个司机驾驶习惯下的行车数据，且只能采集少量行车的数据，进而影响自动驾驶模型的训练质量。

另外，相关技术在评测自动驾驶模型的训练质量时，一般通过测试用例对训练好的模型进行测试，以验证该模型是否合格，当测试用例确认模型不合格之后，需要收集新的训练数据重新部署训练环境，以再次对模型进行训练，工作量大且工作效率低；况且，相关技术无法及时把握模型测试时机，经常出现模型尚未训练完，就启动测试过程，繁多的测试过程进一步加大了工作量。

发明内容

有鉴于此，本发明实施例提供一种自动驾驶模型的训练方法、评测方法、控制方法及装置，以降低工作量，提高自动驾驶模型的训练质量。

本发明实施例一方面提供了一种自动驾驶模型的训练方法，包括：

获取现实交通信息，并根据所述现实交通信息构建仿真系统；其中，所述仿真系统包含多辆仿真车辆，每辆所述仿真车辆的行驶信息与现实交通场景下对应车辆的行驶信息相同；

从所述仿真系统中选取目标仿真车辆集合，获取所述目标仿真车辆集合中各辆目标仿真车辆的第一行驶信息；

将所述仿真系统中的目标仿真车辆替换为自动驾驶车辆，获取各辆所述自动驾驶车辆在所述仿真系统中行驶产生的第二行驶信息；其中，所述自动驾驶车辆在自动驾驶模型的控制下运行于所述仿真系统中；

根据所述各辆目标仿真车辆的第一行驶信息和所述各辆自动驾驶车辆的第二行驶信息，计算偏差值均值；其中，所述偏差值均值用于表征所述目标仿真车辆与所述自动驾驶车辆之间的行驶信息相似度；

根据所述偏差值均值对所述自动驾驶模型进行参数调整，直至所述偏差值均值小于第一阈值时，确定所述自动驾驶模型的训练完成。

本发明实施例另一方面提供了一种自动驾驶模型的评测方法，包括：

当所述偏差值均值小于第一阈值时，确定所述自动驾驶模型合格；或者，将若干个自动驾驶模型控制自动驾驶车辆后得到的若干个偏差值均值进行比较，将所述偏差值最小的所述自动驾驶模型确定为最优的自动驾驶模型。

本发明实施例另一方面提供了一种自动驾驶控制方法，包括：

根据所述自动驾驶模型的训练方法训练得到目标自动驾驶模型；

根据所述自动驾驶模型控制目标车辆进行自动驾驶。

本发明实施例另一方面提供了一种自动驾驶模型的训练装置，包括：

第一模块，用于获取现实交通信息，并根据所述现实交通信息构建仿真系统；其中，所述仿真系统包含多辆仿真车辆，每辆所述仿真车辆的行驶信息与现实交通场景下对应车辆的行驶信息相同；

第二模块，用于从所述仿真系统中选取目标仿真车辆集合，获取所述目标仿真车辆集合中各辆目标仿真车辆的第一行驶信息；

第三模块，用于将所述仿真系统中的目标仿真车辆替换为自动驾驶车辆，获取各辆所述自动驾驶车辆在所述仿真系统中行驶产生的第二行驶信息；其中，所述自动驾驶车辆在自动驾驶模型的控制下运行于所述仿真系统中；

第四模块，用于根据所述各辆目标仿真车辆的第一行驶信息和所述各辆自动驾驶车辆的第二行驶信息，计算偏差值均值；其中，所述偏差值均值用于表征所述目标仿真车辆与所述自动驾驶车辆之间的行驶信息相似度；

第五模块，用于根据所述偏差值均值对所述自动驾驶模型进行参数调整，直至所述偏差值均值小于第一阈值时，确定所述自动驾驶模型的训练完成。

本发明实施例另一方面提供了一种自动驾驶评测装置，包括：

第六模块，用于获取现实交通信息，并根据所述现实交通信息构建仿真系统；其中，所述仿真系统包含多辆仿真车辆，每辆所述仿真车辆的行驶信息与现实交通场景下对应车辆的行驶信息相同；

第七模块，用于从所述仿真系统中选取目标仿真车辆集合，获取所述目标仿真车辆集合中各辆目标仿真车辆的第一行驶信息；

第八模块，用于将所述仿真系统中的目标仿真车辆替换为自动驾驶车辆，获取各辆所述自动驾驶车辆在所述仿真系统中行驶产生的第二行驶信息；其中，所述自动驾驶车辆在自动驾驶模型的控制下运行于所述仿真系统中；

第九模块，用于根据所述各辆目标仿真车辆的第一行驶信息和所述各辆自动驾驶车辆的第二行驶信息，计算偏差值均值；其中，所述偏差值均值用于表征所述目标仿真车辆与所述自动驾驶车辆之间的行驶信息相似度；

第十模块，用于当所述偏差值均值小于第一阈值时，确定所述自动驾驶模型合格；或者，将若干个自动驾驶模型控制自动驾驶车辆后得到的若干个偏差值均值进行比较，将所述偏差值最小的所述自动驾驶模型确定为最优的自动驾驶模型。

本发明实施例另一方面提供了一种自动驾驶控制装置，包括：

第十一模块，用于根据所述自动驾驶模型的训练方法训练得到目标自动驾驶模型；

第十二模块，用于根据所述自动驾驶模型控制目标车辆进行自动驾驶。

本发明实施例另一方面提供了一种电子设备，包括处理器以及存储器；

所述存储器用于存储程序；

所述处理器执行所述程序实现如前面所述的方法。

本发明另一方面还提供了一种计算机可读存储介质，所述存储介质存储有程序，所述程序被处理器执行实现如前面所述的方法。

本发明另一方面还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行前面的方法。

本发明的实施例获取现实交通信息，并根据所述交通信息构建仿真系统，该仿真系统包含多辆仿真车辆，每辆所述仿真车辆的行驶信息与现实交通场景下对应车辆的行驶信息相同，进而能够获取实际交通场景下大量车辆的行驶信息，增大模型的训练数据量；接着，从所述仿真系统中选取目标仿真车辆集合，获取所述目标仿真车辆集合中各辆目标仿真车辆的第一行驶信息；然后，将所述仿真系统中的目标仿真车辆替换为自动驾驶车辆，获取各辆所述自动驾驶车辆在所述仿真系统中行驶产生的第二行驶信息；其中，所述自动驾驶车辆在自动驾驶模型的控制下运行于所述仿真系统中；最后根据所述各辆目标仿真车辆的第一行驶信息和所述各辆自动驾驶车辆的第二行驶信息，计算偏差值均值；其中，所述偏差值均值用于表征所述目标仿真车辆与所述自动驾驶车辆之间的行驶信息相似度，根据所述偏差值均值对所述自动驾驶模型进行参数调整，直至所述偏差值均值小于第一阈值时，确定所述自动驾驶模型的训练完成。本发明在训练自动驾驶模型的过程中不断计算各个目标仿真车辆与各个自动驾驶车辆之间的偏差值均值，能够在偏差值均值小于第一阈值时及时确定目标自动驾驶模型，当偏差值均值不小于第一阈值时继续保持训练，无需重新部署训练环境，提高了训练效率，减少了运算量且大大降低了成本。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的自动驾驶模型的训练方法的实施环境示意图；

图2为本发明实施例提供的自动驾驶模型的训练方法的流程图；

图3为本发明实施例提供的构建仿真系统的步骤流程图；

图4为本发明实施例提供的仿真系统的显示页面示意图；

图5为本发明实施例提供的获取第二行驶信息的步骤流程图；

图6为本发明实施例提供的自动驾驶车辆与人行横道的示意图；

图7为本发明实施例提供的自动驾驶模型的评测方法的步骤流程图；

图8为本发明实施例提供的自动驾驶控制方法的步骤流程图；

图9为本发明实施例自动驾驶模型的训练方法的步骤流程图；

图10为本发明实施例提供的自动驾驶模型的训练装置的结构示意图；

图11为本发明实施例提供的自动驾驶模型评测装置的结构示意图；

图12为本发明实施例提供的自动驾驶控制装置的结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

首先，对本发明实施例中涉及的相关名词术语进行介绍和说明：

人工智能(Artificial Intelligence, AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。

机器学习(Machine Learning, ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

强化学习（Reinforcement Learning，简称RL）：是机器学习中的一个领域，强调如何基于环境而行动，以取得最大化的预期利益。其灵感来源于心理学中的行为主义理论，即有机体如何在环境给予的奖励或惩罚的刺激下，逐步形成对刺激的预期，产生能获得最大利益的习惯性行。

监督训练：利用一组已知类别的样本调整分类器的参数，使其达到所要求性能的过程，也称为监督学习或有教师学习。

自动驾驶技术通常包括高精地图、环境感知、行为决策、路径规划、运动控制等技术，自定驾驶技术有着广泛的应用前景。

数字孪生：数字孪生是充分利用物理模型、传感器更新、运行历史等数据，集成多学科、多物理量、多尺度、多概率的仿真过程，在虚拟空间中完成映射，从而反映相对应的实体装备的全生命周期过程。

仿真：利用模型复现实际系统中发生的本质过程，并通过对系统模型的实验来研究存在的或设计中的系统，又称模拟。这里所指的模型包括物理的和数学的，静态的和动态的，连续的和离散的各种模型。

自动驾驶汽车：又称无人驾驶汽车、电脑驾驶汽车、或轮式移动机器人，是一种通过电脑系统实现无人驾驶的智能汽车，它依靠人工智能、视觉计算、雷达、监控装置和全球定位系统协同合作，让电脑可以在没有任何人类主动的操作下，自动安全地操作机动车辆。

相关技术在训练自动驾驶模型时，需要自主驾车采集相关行车数据，一方面人力成本高，需要大量的成本投入，另一方面，采集的数据量小，只能采集某个司机的少量行车数据，且少量行车数据也只能反映某个司机的驾驶习惯，因此若利用这些行车数据进行自动驾驶模型的训练，会影响自动驾驶模型的训练质量。

另外，相关技术在评测自动驾驶模型的训练质量时，一般通过测试用例对训练好的模型进行测试，以验证该模型是否合格，当测试用例确认模型不合格之后，由于是通过自主驾车的方式采集数据，因此需要再次自主驾车采集新的训练数据，然后利用新的训练数据重新部署训练环境，再次对模型进行训练，成本高、工作量大且效率低；再者，相关技术无法及时把握模型测试时机，经常出现模型尚未训练完，就启动测试过程，繁多的测试过程也进一步加大了工作量。

而本发明实施例获取现实交通信息，并根据交通信息构建仿真系统，其中，仿真系统包含多辆仿真车辆，每辆仿真车辆的行驶信息与现实交通场景下对应车辆的行驶信息相同，进而能够获取实际交通场景下大量车辆的行驶信息，相对于相关技术中自主驾车采集相关行车数据的方案，能够增大模型的训练数据量；然后，从仿真系统中选取目标仿真车辆集合，获取目标仿真车辆集合中各个目标仿真车辆的第一行驶信息，将仿真系统中的目标仿真车辆替换为自动驾驶车辆，获取各辆自动驾驶车辆在仿真系统中行驶产生的第二行驶信息；其中，自动驾驶车辆在自动驾驶模型的控制下运行于仿真系统中，在训练自动驾驶模型的过程中不断计算各个目标仿真车辆与各个自动驾驶车辆之间的偏差值均值，最后确定各个自动驾驶车辆的第二行驶信息与对应的多个第一行驶信息的偏差值均值，根据偏差值均值对自动驾驶模型进行参数调整，当偏差值均值小于第一阈值时，能够及时确定目标自动驾驶模型，当偏差值均值不小于第一阈值时保持训练，无需重新部署训练环境，而能够利用仿真系统中的大量车辆的行驶信息继续对自动驾驶模型进行训练，提高了训练效率，减少了运算量且大大降低了成本。同时，通过仿真系统提供的大量复杂真实的训练场景，能够更好地训练自动驾驶模型的各种适应能力，增加自动驾驶模型的泛化能力。

本发明实施例提供的一种自动驾驶模型的训练方法，可应用于终端中，也可应用于服务器中，还可以是运行于终端或服务器中的软件。参考图1，其示出了本发明实施例提供的一种自动驾驶模型的训练方法的实施环境示意图，在该实施环境中，终端101可以执行自动驾驶模型的训练方法，确定目标自动驾驶模型。在一些实施例中，终端101可以获取现实交通信息，并通过网络102将获取的现实交通信息传输至服务器103进行处理，由服务器103进行自动驾驶模型中的训练，确定目标自动驾驶模型。可选地，该终端101可以为例如个人计算机 (Personal Computer，PC)、手机、智能手机、个人数字助手 (Personal DigitalAssistant，PDA)、可穿戴设备、掌上电脑PPC(Pocket PC)、平板电脑、具有拍摄功能的拍摄设备、采集设备等。该实施环境中，服务器103也可以执行自动驾驶模型的训练方法，从而确定目标自动驾驶模型。可选地，服务器103可以是一台独立的服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN以及大数据和人工智能平台等基础云计算服务的云服务器,而软件可以是训练模型的应用程序等，但并不局限于以上形式。需要说明的是，通过训练确定的目标自动驾驶模型能够应用于自动驾驶，例如当终端101或者服务器103存储有目标自动驾驶模型，自动驾驶车辆可以通过网络与终端101或者服务器103连接，从而通过目标自动驾驶模型为自动驾驶车辆提供功能支持。在一些实施例中，目标自动驾驶模型也可以传输至自动驾驶车辆中，供自动驾驶车辆利用，不作具体限制。

基于图1的实施环境，如图2所示，本发明实施例提供了一种自动驾驶模型的训练方法，该训练方法具体包括但不限于步骤S100-S500：

S100、获取现实交通信息，并根据交通信息构建仿真系统；其中，仿真系统包含多辆仿真车辆，每辆仿真车辆的行驶信息与现实交通场景下对应车辆的行驶信息相同。

本发明实施例中，现实交通信息为实际交通场景的真实信息，交通信息可以包括历史交通数据和实时采集的实时交通数据，交通数据包括但不限于各个区域的环境信息和车辆信息，车辆信息包括但不限于轨迹信息、行车信息、方位信息等等，环境信息包括但不限于道路状况、道路周边环境、人流等等。需要说明的是，仿真系统指的是根据交通信息构建，能够对交通信息进行处理，映射实际交通场景下各车辆的行驶轨迹和行驶行为的系统。其中，行驶轨迹可以指的是一段时间内的行驶轨迹或者行驶一段距离的行驶轨迹；行驶行为包括但不限于变向、加速、减速、停车等等。

需要说明的是，交通信息可以采用固定采集设备放置在各个区域获取，也可以与交通部门合作，共享各个区域的监控摄像头，或者也可以通过车载的摄像头获取，而通过上述方式获取各个区域的交通信息，一次性就能够采集到大量的数据，采集的数据包括不同区域、不同场景的数据，并且可以实时采集和更新数据，提高了数据的获取量和获取效率，并且能够保证数据的时效性，从而使得所构建的仿真系统能够模拟不同区域、不同场景下的车辆行驶轨迹和行驶行为。可选地，固定采集设备包括但不限于全球定位系统、惯性测量单元(Inertial Measurement Unit，IMU)、激光雷达、摄像头等等，固定采集设备可以在区域中间隔设置多个，确保能够覆盖尽量多的车辆以及行人。

S200、从仿真系统中选取目标仿真车辆集合，获取目标仿真车辆集合中各个目标仿真车辆的第一行驶信息。

本发明实施例中，仿真系统通过对交通信息进行处理后，将实际交通场景下的各个车辆进行映射，确定每一车辆对应的仿真车辆，车辆对应的仿真车辆能够反映该车辆的行驶轨迹和行驶行为，而每一车辆对应的仿真车辆构成仿真车辆集合，目标仿真车辆集合从仿真车辆集合中选取，例如可以将仿真车辆集合作为目标仿真车辆集合，或者也可以从仿真车辆集合中选取部分仿真车辆作为目标仿真车辆集合，不作具体限定。需要说明的是，目标仿真车辆集合中的仿真车辆作为目标仿真车辆。其中，第一行驶信息指的是能够反映实际交通场景下的车辆以及该车辆对应的目标仿真车辆的行驶行为或者行驶状态的信息。可选地，第一行驶信息包括但不限于经纬度坐标位置信息、速度信息、加速度信息以及车头朝向信息。

S300、将仿真系统中的目标仿真车辆替换为自动驾驶车辆，获取各辆自动驾驶车辆在仿真系统中行驶产生的第二行驶信息；其中，自动驾驶车辆在自动驾驶模型的控制下运行于仿真系统中。

本发明实施例中，将由自动驾驶模型控制的自动驾驶车辆反向映射到仿真系统中，利用自动驾驶车辆将各个目标仿真车辆进行替换，后续能够获取自动驾驶模型所控制的自动驾驶车辆在仿真系统中的行为。其中，自动驾驶车辆可以为虚拟的具有自动驾驶功能的车辆，而自动驾驶模型能够为自动驾驶车辆提供自动驾驶功能，自动驾驶模型能够根据输入的数据控制自动驾驶车辆进行相应的行驶行为，改变或维持自动驾驶车辆的行驶状态。需要说明的是，第二行驶信息指的是自动驾驶车辆在目标仿真车辆所处的交通环境下的行驶行为或者行驶状态的信息。同样地，第二行驶信息包括但不限于经纬度坐标位置信息、速度信息、加速度信息以及车头朝向信息。本发明实施例中，自动驾驶模型包括但不限于通过强化学习方式进行训练，例如强化学习中的Q-Learning算法、SARSA（state-action-reward-state-action）算法、Sarsa-Lambda算法进行训练，或者也可以基于深度神经网络进行训练，比如DQN（深度Q网络）， Double DQN（DDQN）算法等，其中本发明实施例中以Q-Learning算法进行举例说明。需要说明的是，仿真系统中所需的车辆数据可以通过道路交通系统提供的API接口获取。

S400、根据各辆目标仿真车辆的第一行驶信息和各辆自动驾驶车辆的第二行驶信息，计算偏差值均值；其中，偏差值均值用于表征目标仿真车辆与自动驾驶车辆之间的行驶信息相似度。

本发明实施例中，计算每一自动驾驶车辆的第二行驶信息与对应的每一第一行驶信息的偏差值，偏差值能够反映每一第二行驶信息与对应的每一第一行驶信息存在的偏差，偏差表征第二行驶信息与第一行驶信息的差异程度或者相似度，而偏差值均值即根据上述所有偏差的和与偏差个数的比值，能够反映第二行驶信息与第一行驶信息的整体偏差。

S500、根据偏差值均值对自动驾驶模型进行参数调整，直至偏差值均值小于第一阈值时，确定自动驾驶模型的训练完成。

本发明实施例中，第一阈值可以根据实际需要设定，当偏差值均值小于第一阈值确定目标自动驾驶模型，使得目标自动驾驶模型在一定程度上满足实际需要。需要说明的是，目标自动驾驶模型为自动驾驶模型经过训练以及参数调整后确定的模型，能够为自动驾驶车辆提供自动驾驶功能。

如图3所示，可选地，上述步骤S100包括以下步骤S110-S140：

S110、获取目标区域的环境信息和目标区域的车辆信息。

具体地，目标区域可以从交通信息中的各个区域进行选取，将选取的区域作为目标区域，并将选取的区域的环境信息作为目标区域的环境信息。可以理解的是，选取的区域的车辆信息即为目标区域的车辆信息，包括但不限于目标区域内车辆的行车信息、方位信息和轨迹信息。需要说明的是目标区域内车辆指的是驾驶人员所驾驶的车辆，行车信息包括但不限于速度、加速度、转向等等；方位信息包括但不限于朝向、经纬度位置等等；轨迹信息可以包括车辆的一段时间或者一段距离内的行驶轨迹。

S120、根据目标区域的环境信息构建目标区域地图。

具体地，利用目标区域的环境信息通过地图制作工具，制作目标区域的高精地图，得到目标区域地图。可选地，目标区域的环境信息传输至服务器，由服务器进行目标区域地图的构建。

S130、根据目标区域的车辆信息构建目标区域的交通流信息。

具体地，将获取的目标区域的车辆信息实时上传至服务器，服务器对目标区域的车辆信息进行处理，构建目标区域的交通流信息，交通流信息指的是目标区域内各车辆所形成的车流信息以及行人形成的人流信息。其中，服务器对目标区域的车辆信息进行的处理包括但不限于图像检测、物体识别、物体分类等。需要说明的是，目标区域的环境信息以及目标区域的车辆信息上传至服务器时，各个区域的监控摄像头的视频数据可以附加监控摄像头编号、安装位置坐标、时间戳等信息，结合视频数据一并上传至服务器中。

S140、将交通流信息映射到目标区域地图，得到仿真系统。

具体地，将步骤S130得到的交通流信息映射至目标区域地图中，并在目标区域地图上实时显示，从而得到仿真系统。需要说明的是，仿真系统中，交通流信息映射至目标区域地图可以为交通流信息映射至三维的目标区域地图，或者将交通流信息转换为二维平面信息映射至二维的目标区域地图中进行显示。如图4所示，为仿真系统的显示页面400，显示页面400中显示选取的目标区域中的仿真车辆集合，该仿真车辆集合中具有10辆仿真车辆，可以进行编号并显示，例如分别为C1、C2、C3、C4、C5、C6、C7、C8、C9和C10，其中显示页面400还可以显示每一仿真车辆的车辆信息，显示页面400中以仿真车辆C5为例, 仿真车辆C5的车辆信息包括行车信息、方位信息以及轨迹信息，其中行车信息包括但不限于速度和加速度，行车信息包括但不限于经纬度坐标，轨迹信息包括但不限于仿真车辆在目标区域内的行车轨迹M。

可选地，上述步骤S200包括以下步骤S210-S230：

S210、确定仿真系统中所有车辆的车辆编号，得到仿真系统中的车辆数目。

具体地，可以对仿真系统中的所有车辆，即仿真车辆进行编号，通过统计编号的数量即可以得到仿真系统中的车辆数目，即仿真车辆的数目。其中，以显示页面400为例，对每一仿真车辆进行编号，得到编号C1-C10，或者也可以编号为1-10，由此得出车辆数目为10。需要说明的是，编号的方式不作具体限定，每一仿真车辆的配置唯一的编号。

S220、根据第一比率从所有车辆中选取相应数目的车辆，得到目标仿真车辆集合。

具体地，第一比率λ可以根据仿真系统中的车辆数目确定，使得最终选择的目标仿真车辆集合中目标仿真车辆的数目为整数，例如，第一比率λ可以为1%-10%,

当仿真系统中车辆总数为100辆，当第一比率λ为10%时，此时10辆仿真车辆被确定为目标仿真车辆集合中的目标仿真车辆。需要说明的是，上述第一比率λ的数值只是示例性的进行说明，不作具体限定。以上述显示页面400中仿真车辆C1-C5确定为目标仿真车辆为例，目标仿真车辆集合T包括仿真车辆C1-C5，此时仿真车辆C1-C5即为目标仿真车辆，目标仿真车辆的数目为5。

S230、获取目标仿真车辆集合中各个目标仿真车辆的第一行驶信息。

具体地，从目标仿真车辆集合中获取每一个目标仿真车辆的第一行驶信息。其中，第一行驶信息包括但不限于经纬度坐标位置信息、速度信息、加速度信息以及车头朝向信息。具体地，经纬度坐标位置信息即目标仿真车辆的经纬度坐标，例如通过经度与纬度所表示的目标仿真车辆的位置；速度信息即目标仿真车辆的速度，即车速；加速度信息即目标仿真车辆的加速度；车头朝向信息即车头朝向，包括但不限于设定基准点、线或者面，通过角度表示车头的朝向。需要说明的是，经纬度坐标位置信息可以包括目标仿真车辆初始的经纬度坐标、目标仿真车辆在目标区域的行驶轨迹中各个时刻的经纬度坐标；速度信息可以包括目标仿真车辆初始的速度、目标仿真车辆在目标区域的行驶轨迹中各个时刻的速度；加速度信息可以包括目标仿真车辆初始的加速度、目标仿真车辆在目标区域的行驶轨迹中各个时刻的加速度；车头朝向信息可以包括目标仿真车辆初始的车头朝向、目标仿真车辆在目标区域的行驶轨迹中各个时刻的车头朝向。

如图5所示，可选地，上述步骤S300包括以下步骤S310-S350：

S310、逐一选取目标仿真车辆集合中各个目标仿真车辆。

具体地，可以按照编号顺序逐一选取各个目标仿真车辆，或者按照显示页面中的排列顺序进行目标仿真车辆的逐一选取，不作具体限定。以上述显示页面中的目标仿真车辆集合T为例，逐一选取目标仿真车辆C1-C5，直至所有目标仿真车辆均被选取。

S320、将选中的目标仿真车辆的车辆状态作为自动驾驶车辆的初始状态。

具体地，将选中的目标仿真车辆当前的车辆状态作为自动驾驶车辆的初始状态，例如在显示页面400中，将显示页面400中当前目标仿真车辆的车辆状态作为自动驾驶车辆的初始状态。需要说明的是，每一辆目标仿真车辆具有对应的车辆状态，车辆状态包括但不限于纬度坐标位置信息、速度信息、加速度信息以及车头朝向信息。

S330、确定被选中的目标仿真车辆的行驶动作集合。

具体地，行驶动作集合指的是目标仿真车辆可以执行的动作集合，行驶动作集合包括多个行驶动作，行驶动作包括但不限于车辆的加速、减速、左转或者右转等等，当执行行驶动作后，可以改变纬度坐标位置信息、速度信息、加速度信息以及车头朝向信息中的一种或多种。

S340、在自动驾驶车辆的初始状态下，逐一遍历行驶动作集合中各个行驶动作，确定自动驾驶车辆执行每个行驶动作对应的奖励值。

本发明实施例中，在自动驾驶车辆处于初始状态下，逐一遍历行驶动作集合中各个行驶动作，每一个行驶动作具有可以计算确定的对应的奖励值，而奖励值用于表征自动驾驶车辆的行驶动作与目标仿真车辆的行驶动作之间的相似度，相似度越高说明自动驾驶车辆的行驶动作与目标仿真车辆的行驶动作越相似，差异越小；而相似度越小说明自动驾驶车辆的行驶动作与目标仿真车辆的行驶动作越不相似，差异越大。

S350、根据不同初始状态下自动驾驶车辆执行行驶动作对应的奖励值，确定最优奖励值对应的自动驾驶车辆的第二行驶信息。

具体地，当自动驾驶车辆将不同的目标仿真车辆的车辆状态作为初始状态时，自动驾驶车辆具有不同的初始状态，例如显示页面400中的5个目标仿真车辆对应具有5个不同的初始状态，因此在5个不同的初始状态下自动驾驶车辆执行行驶动作会具有对应的奖励值，可以在执行行驶动作集合中各个行驶动作确定多个奖励值后，将奖励值最大的值作为最优奖励值。需要说明的是，第二行驶信息包括自动驾驶车辆在每一初始状态下执行行驶动作分别达到最优奖励值的自动驾驶车辆信息，自动驾驶车辆信息包括但不限于自动驾驶车辆的经纬度坐标位置信息、速度信息、加速度信息以及车头朝向信息。

本发明实施例中，根据Q-Learning算法的Q函数进行行驶动作集合中各个行驶动作的选取，以根据Q函数的值来选取能获得最大收益的行驶动作。具体地，将所有非终止状态的Q函数Q(s,a)初始化为任意值，终止状态初始化为0，其中s为车辆状态，例如车辆可以为目标仿真车辆或者自动驾驶车辆，a为行驶动作，以车辆行驶在某一个区域或者某一个路段为例，终止状态可以为车辆行驶至该路段的终点或者在该路段中停止行驶时的状态，非终止状态指的是终止状态之前的状态。然后，从状态集合中选择一个起始状态s，从行驶动作集合选取一个行驶动作a，状态集合可以为车辆在某一个区域或者某一个路段中车辆所有的车辆状态，其中行驶动作可以通过贪心策略进行选择，执行选择后的行驶动作a即可以得到奖励值R以及起始状态s的下一状态s'，然后对Q函数进行更新：

Q ' (s,a)←Q(s,a)+

[R+γmaxa' Q(s'，a' )− Q(s,a)]

在更新后令s'= s，即将当前状态作为新的初始状态，直至新的初始状态为终止状态则结束循环。其中，需要说明的是，在完成一个循环后，可以进行预设次数的循环迭代，预设次数不做具体限定。Q(s,a)为当前Q函数的值，Q ' (s,a)为更新后的Q函数的值，

为学习速率，是[0, 1]之间的实数，例如可取值为0.1，可以根据实际情况调整不作限定；γ为折扣因子，是[0, 1]之间的实数，可以根据实际情况调整不作限定；R为奖励值；a' 为下一行驶动作；maxa' Q(s'，a' )代表下一状态s'中最大的Q函数的值。可选地，本实施例在具体实现时，将所有车辆状态和行驶动作存储在一个二维表格Q(s, a)中，在确认车辆的初始化状态之后，通过二维表格Q(s, a)来匹配对应的行驶动作，并在执行该形式动作后更新二维表格Q(s, a)的值，直到收敛完成所有车辆状态和所有车辆动作的执行，进而可以在状态s执行行驶动作a时，方便地查找出Q(s'，a' )的值以及相应的最大值。

可以理解的是，本实施例以Q-Learning算法为例对自动驾驶训练模型的训练过程进行说明，具体的训练算法还可以选取SARSA（state-action-reward-state_-action_）算法、Sarsa-Lambda算法等，在此不作限定。

具体地，步骤S340包括以下步骤S341-S344：

S341、获取自动驾驶车辆在执行行驶动作时，与对应的目标仿真车辆执行该行驶动作的横向距离值。

具体地，当确定自动驾驶车辆执行的行驶动作，确定自动驾驶车辆在执行行驶动作时，以及确定与自动驾驶车辆对应的目标仿真车辆执行该行驶动作时自动驾驶车辆与该目标仿真车辆之间的横向距离值。例如，当自动驾驶车辆以目标仿真车辆C5的车辆状态为初始状态，此时自动驾驶车辆对应的目标仿真车辆则为目标仿真车辆C5，假设当目标仿真车辆C5左转时，自动驾驶车辆执行左转动作，此时计算自动驾驶车辆与标仿真车辆C5之间的横向距离值。可选地，横向距离值可以为利用自动驾驶车辆与目标仿真车辆的经度或者维度所计算出的距离值，即自动驾驶车辆与目标仿真车辆的横向距离偏差。

S342、获取自动驾驶车辆在执行行驶动作时与对应的目标仿真车辆执行该行驶动作的纵向距离值。

类似地，当确定自动驾驶车辆在执行行驶动作时，本发明实施例计算自动驾驶车辆与该目标仿真车辆之间的纵向距离值。同样地，纵向距离值可以为利用自动驾驶车辆与目标仿真车辆的经度或者维度所计算出的距离值，即自动驾驶车辆与目标仿真车辆的纵向距离偏差。例如，若横向距离值通过经度计算，则纵向距离值可以通过纬度计算；若横向距离值通过纬度计算，则纵向距离值可以通过经度计算。

S343、确定横向距离值的第一加权系数和纵向距离值的第二加权系数。

具体地，横向距离值的第一加权系数和纵向距离值的第二加权系数可以根据实际需要或者根据经验进行设定，不作具体的限定。

S344、根据横向距离值、第一加权系数、纵向距离值以及第二加权系数，计算自动驾驶车辆执行每个行驶动作对应的奖励值。

可选地，奖励值的计算公式为：

其中

为奖励值，

为横向距离值，

为纵向距离值，

为第一加权系数，

为第二加权系数。

可选地，本发明实施例的自动驾驶模型的训练方法还包括步骤S610-S620：

S610、在自动驾驶车辆执行每个行驶动作时，计算自动驾驶车辆与对应的目标仿真车辆之间的偏差值。

具体地，假设行驶动作集合中具有左转、右转、加速、减速这四个行驶动作，在自动驾驶车辆执行左转的行驶动作时，计算自动驾驶车辆与对应的目标仿真车辆之间的偏差值；在在自动驾驶车辆执行右转的行驶动作时，计算自动驾驶车辆与对应的目标仿真车辆之间的偏差值；在自动驾驶车辆执行加速的行驶动作时，计算自动驾驶车辆与对应的目标仿真车辆之间的偏差值；在自动驾驶车辆执行减速的行驶动作时，计算自动驾驶车辆与对应的目标仿真车辆之间的偏差值，通过上述计算即可以计算得出自动驾驶车辆执行每个行驶动作时分别与对应的目标仿真车辆之间的偏差值。需要说明的是，偏差值用于反映自动驾驶车辆与目标仿真车辆之间的接近程度。

S620、当自动驾驶车辆与对应的目标仿真车辆之间的偏差值小于第一阈值时，结束该自动驾驶车辆对于该目标仿真车辆的自动驾驶训练。

具体地，当通过步骤S610所确定的偏差值小于第一阈值时，则结束该自动驾驶车辆对于该目标仿真车辆的自动驾驶训练。例如，当自动驾驶车辆对应的目标仿真车辆为C1，若在自动驾驶训练过程中，自动驾驶车辆执行左转、右转、加速或者减速中的其中一个行驶动作，可以使得计算得到的偏差值小于第一阈值，此时结束自动驾驶车辆对于目标仿真车辆C1的自动驾驶训练。需要说明的是，在结束自动驾驶车辆对于目标仿真车辆C1的自动驾驶训练后，可以开始自动驾驶车辆对于目标仿真车辆C1以外的目标仿真车辆C2-C4进行自动驾驶训练，或者也可以不再训练。

可选地，步骤S610中的计算自动驾驶车辆与对应的目标仿真车辆之间的偏差值，包括步骤S611-S617：

S611、获取目标仿真车辆的第一行驶信息。

本发明实施例中，第一行驶信息包括目标仿真车辆的经纬度坐标位置信息、速度信息、加速度信息以及车头朝向信息。其中，经纬度坐标位置信息、速度信息、加速度信息以及车头朝向信息可以为步骤S230中所描述的内容，不再赘述。

S612、获取自动驾驶车辆的第二行驶信息。

类似地，第二行驶信息包括自动驾驶车辆的经纬度坐标位置信息、速度信息、加速度信息以及车头朝向信息。而经纬度坐标位置信息、速度信息、加速度信息以及车头朝向信息与第一行驶信息类似，区别在于第二行驶信息为自动驾驶车辆的信息，而第一行驶信息为目标仿真车辆的信息，因此不再赘述。

S613、根据目标仿真车辆的经纬度坐标位置信息和自动驾驶车辆的经纬度坐标位置信息，确定第一偏差值。

具体地，经纬度坐标位置信息可以为以经度和纬度所表示的位置，例如通过经度坐标以及纬度坐标表示目标仿真车辆以及自动驾驶车辆在仿真系统中的位置。其中，第一偏差值通过公式

计算。其中，

为自动驾驶车辆的经度坐标，

为目标仿真车辆的经度坐标，

为自动驾驶车辆的纬度坐标，

为目标仿真车辆的纬度坐标，

为第一偏差值的加权参数。需要说明的是，

可以按需要进行调整，或者第一偏差值可以不包含

。

S614、根据目标仿真车辆的速度信息和自动驾驶车辆的速度信息，确定第二偏差值。

具体地，速度信息为速度，即车速，第二偏差值可以通过公式

计算，其中，

为第二偏差值的加权参数，

为自动驾驶车辆的车速，

为目标仿真车辆的车速。需要说明的是，

可以按需要进行调整，或者第二偏差值可以不包含

。

S615、根据目标仿真车辆的加速度信息和自动驾驶车辆的加速度信息，确定第三偏差值。

具体地，速度信息为加速度，第三偏差值可以通过公式

计算，其中，

为第三偏差值的加权参数，

为自动驾驶车辆的加速度，

为目标仿真车辆的加速度。需要说明的是，

可以按需要进行调整，或者第三偏差值可以不包含

。

S616、根据目标仿真车辆的车头朝向信息和自动驾驶车辆的车头朝向信息，确定第四偏差值。

具体地，车头朝向信息可以为车头朝向角度，第四偏差值可以通过公式

计算，其中，

为第四偏差值的加权参数，

为自动驾驶车辆的车头朝向角度，

为目标仿真车辆的车头朝向角度。需要说明的是，

可以按需要进行调整，或者第四偏差值可以不包含

。需要说明的是，

。

S617、将第一偏差值、第二偏差值、第三偏差值以及第四偏差值相加，计算得到自动驾驶车辆与对应的目标仿真车辆之间的偏差值。

具体地，自动驾驶车辆与对应的目标仿真车辆之间的偏差值

的计算公式为：

本发明实施例中，偏差值

能够衡量自动驾驶车辆与目标仿真车辆之间的接近程度，偏差值越大说明自动驾驶车辆与目标仿真车辆的接近程度越低，差距越大；偏差值越小说明自动驾驶车辆与目标仿真车辆的接近程度越高，差距越小。

可选地，步骤S400包括步骤S410-S420：

S410、收集每个自动驾驶车辆的第二行驶信息与对应的目标仿真车辆的第一行驶信息之间的偏差值，得到偏差值集合。

具体地，可以通过步骤S617中的偏差值

的计算公式，计算每个自动驾驶车辆的第二行驶信息与对应的目标仿真车辆的第一行驶信息之间的偏差值，从而确定偏差值集合

其中

代表自动驾驶车辆的第二行驶信息与对应的第i辆目标仿真车辆的第一行驶信息之间的偏差值。例如，当目标仿真车辆集合中具有目标仿真车辆C1- C5，则可以得到偏差值集合

，其中

为自动驾驶车辆的第二行驶信息与对应的目标仿真车辆C1的第一行驶信息之间的偏差值，

为自动驾驶车辆的第二行驶信息与对应的目标仿真车辆C2的第一行驶信息之间的偏差值，

为自动驾驶车辆的第二行驶信息与对应的目标仿真车辆C3的第一行驶信息之间的偏差值，

为自动驾驶车辆的第二行驶信息与对应的目标仿真车辆C4的第一行驶信息之间的偏差值，

为自动驾驶车辆的第二行驶信息与对应的目标仿真车辆C5的第一行驶信息之间的偏差值。

S420、根据偏差值集合和偏差值个数，计算偏差值均值。

具体地，偏差值均值D的计算公式为：

其中，n为目标仿真车辆的数量。本发明实施例中，当偏差值均值D小于第一阈值时，可以结束自动驾驶模型的训练，从而确定目标自动驾驶模型。需要说明的是，第一阈值可以按需要进行设定，第一阈值为0表示完全一样，第一阈值越小最终确定的目标自动驾驶模型会越好，但训练难度会相应地加大，例如在要求精度要求高的情况下，可以设置0.001；或者也可采用自适应调整阈值的方式，第一阈值设置一个较大的初始值，当有偏差值小于它时，第一阈值缩小一半，直到没有能满足减半的条件为止。本发明实施例中，基于更多的数据统计确定偏差值均值，使得模型训练结果更加客观，也避免某些特殊情况波动带来的不良影响。

本申请实施例中，基于该仿真系统，利用第一偏差值、第二偏差值、第三偏差值以及第四偏差值等评测指标，通过计算偏差值均值的评估算法建立评测系统模块可对已训练的自动驾驶算法模型进行客观公正的评估，验证自动驾驶车辆与驾驶员操控车辆的差异性。

可选地，本发明实施例的自动驾驶模型的训练方法，还包括步骤S710-S730：

S710、对自动驾驶车辆的初始状态中的目标参数进行调整。

本发明实施例中，目标参数包括初始行驶速度、初始加速度、自动驾驶车辆与人行横道的初始距离。其中，初始行驶速度为自动驾驶车辆在初始状态的车速，初始加速度为自动驾驶车辆在初始状态的加速度，初始距离为初始状态下自动驾驶车辆与人行横道的边界的距离。其中，对目标参数进行调整指的是修改目标参数的值，例如修改初始行驶速度、初始加速度、自动驾驶车辆以及人行横道的初始距离中的一个或多个，从而实现对自动驾驶车辆的初始状态的修改，修改后可以具多个不同的初始状态，以及不同的初始状态下不同的目标参数。

S720、根据不同的目标参数计算自动驾驶车辆在执行行驶动作时发生碰撞的概率。

本发明实施例中，概率的计算公式为：

，其中，

为初始行驶速度，

为初始加速度，d为自动驾驶车辆与人行横道的初始距离，函数

为基于初始行驶速度和初始加速度下，自动驾驶车辆停止行驶的最大滑行距离。具体地，通过不同的初始状态下不同的目标参数，可以通过上述公式计算自动驾驶车辆在执行行驶动作时发生碰撞的概率，即自动驾驶车辆与人行横道处于多远的距离、初始行驶速度大小为多少以及初始加速度是多少的情况下，在执行任意行驶动作时会与人行横道上的行人发生碰撞的概率。例如，如图6 所示，自动驾驶车辆601与人行横道602的初始距离为d，当自动驾驶车辆601的最大滑行距离不超过d即可以保证自动驾驶车辆601不会与人行横道602上的行人603发生碰撞。

S730、根据碰撞的概率小于第二阈值时对应的目标参数确定自动驾驶车辆的安全边界值。

具体地，第二阈值

代表碰撞阈值且

，当

，代表自动驾驶车辆不会与人行横道上的行人发生碰撞，当

，代表自动驾驶车辆会与人行横道上的行人发生碰撞。本发明实施例中，根据碰撞阈值

，当

，可以确定满足该条件的对应的目标参数，将该目标参数确定为自动驾驶车辆的安全边界值，此时安全边界能力即为自动驾驶车辆不会与人行横道上的行人发生碰撞时，即自动驾驶车辆与人行横道具体处于多远的距离、初始行驶速度具体大小为多少以及初始加速度具体是多少。其中，通过安全边界值可以对自动驾驶模型的安全边界能力进行评测。可以理解的是，安全边界值用于表征自动驾驶车辆在执行行驶动作时不会发生碰撞，具体地为不会与人行横道上的行人发生碰撞。

如图7所示，本发明实施例还提供一种自动驾驶模型的评测方法，包括步骤S810-S850：

S810、获取现实交通信息，并根据交通信息构建仿真系统；其中，仿真系统包含多辆仿真车辆，每辆仿真车辆的行驶信息与现实交通场景下对应车辆的行驶信息相同。

本发明实施例中，仿真系统用于映射实际交通场景下各车辆的行驶轨迹和行驶行为，具体地，步骤S810可以通过上述步骤S110-S140实现。

S820、从仿真系统中选取目标仿真车辆集合，获取目标仿真车辆集合中各辆目标仿真车辆的第一行驶信息。

本发明实施例中，步骤S820可以通过上述步骤S210-S230实现。

S830、将仿真系统中的目标仿真车辆替换为自动驾驶车辆，获取各辆自动驾驶车辆在仿真系统中行驶产生的第二行驶信息；其中，自动驾驶车辆在自动驾驶模型的控制下运行于仿真系统中。

本发明实施例中，步骤S820可以通过上述步骤S310-S350实现。

S840、根据各辆目标仿真车辆的第一行驶信息和各辆自动驾驶车辆的第二行驶信息，计算偏差值均值；其中，偏差值均值用于表征目标仿真车辆与自动驾驶车辆之间的行驶信息相似度。

本发明实施例中，步骤S840可以通过上述步骤S410-S420实现。

S850、当偏差值均值小于第一阈值时，确定自动驾驶模型合格；或者，将若干个自动驾驶模型控制自动驾驶车辆后得到的若干个偏差值均值进行比较，将偏差值最小的自动驾驶模型确定为最优的自动驾驶模型。

具体地，第一阈值可以根据实际需要设定，第一阈值作为自动驾驶模型的评测标准，第一阈值越小对自动驾驶模型的评测标准越高，第一阈值越大对自动驾驶模型的评测标准越低，而当偏差值均值小于第一阈值，认为当前的自动驾驶模型合格，达到评测标准。因此，根据实际情况进行第一阈值的设置，可以利用不同的评测标准对自动驾驶模型进行适应性的评测。

另外，本发明实施例还可以将多个自动驾驶模型运行在仿真系统中，以获得若干个自动驾驶模型控制自动驾驶车辆后得到的若干个第二行驶信息，然后将不同自动驾驶模型下得到第二行驶信息与目标仿真车辆的第一行驶信息进行偏差值均值的计算，能够得到各个自动驾驶模型对应的偏差值均值，进而通过比较各个偏差值均值的大小，实现各个自动驾驶模型的优劣比较，可以理解的是，当偏差值均值较小时，对应的自动驾驶模型更优。因此，通过本发明的评测方法，能够从多个不同的自动驾驶模型中评选得到最优的自动驾驶模型。

如图8所示，本发明实施例还提供一种自动驾驶控制方法，包括步骤S910-S920：

S910、根据自动驾驶模型的训练方法训练得到目标自动驾驶模型。

具体地，自动驾驶模型的训练方法为上述步骤S100-S500。

S920、根据自动驾驶模型控制目标车辆进行自动驾驶。

具体地，目标车辆可以为实际的在测试场或道路测试的无人驾驶车辆，将自动驾驶模型应用到无人驾驶车辆中，能够在实际道路场景中控制无人驾驶车辆自动驾驶。

如图9所示，对本发明实施例的自动驾驶模型的训练方法进行详细说明，训练方法具体包括步骤S901-S905：

S901、获取目标区域的环境信息和目标区域的车辆信息。

S902、根据目标区域的环境信息构建目标区域地图，将获取的目标区域的车辆信息上传到服务器，将交通流信息映射到目标区域地图，得到仿真系统。

具体地，步骤S902可以通过步骤S120、S130和步骤S140实现。

S903、建立自动驾驶模型，对仿真系统中的仿真车辆进行编号，选择要替换为自动驾驶的仿真车辆的编号。

具体地，仿真车辆的编号可以在步骤S902完成或者可以在步骤S903完成。其中，选择要替换为自动驾驶的仿真车辆的编号即选择目标仿真车辆的编号，确定目标仿真车辆集合，可以通过步骤S210-S220实现。

S904、确定自动驾驶车辆要替换的仿真的人工驾驶车辆的编号是否重复，若不重复用自动驾驶车辆替换仿真的人工驾驶车辆，通过迭代训练自动驾驶模型；若重复则直接结束训练。

具体地，真的人工驾驶车辆即目标仿真车辆，自动驾驶模型的训练可以通过步骤S310-S350中示例的Q-Learning算法实现。

S905、确定自动驾驶模型是否达标，若是则结束训练；若不达标，返回步骤S903中“选择要替换为自动驾驶的仿真车辆的编号”。

需要说明的是，可以获取目标仿真车辆的第一行驶信息与自动驾驶训练中的多个第二行驶信息的偏差值均值，当的偏差值均值小于第一阈值则认为达标，可以结束训练，此时将训练得到的模型作为目标自动驾驶模型。其中，获取目标仿真车辆的第一行驶信息与自动驾驶训练中的多个第二行驶信息的偏差值均值可以通过步骤S410-S420实现。

本发明实施例的自动驾驶模块的训练方法不需要在训练过程标注信息，属于无监督，而现有技术中，在机器学习领域通常包括有监督学习或半监督学习，均需要人工标注真值数据，作为判断和训练机器学习算法的数据，而标注真值数据需要人工介入，则会耗费大量的人力、物力和财力，导致效率有所降低，而本发明实施例的自动驾驶模块的训练方法克服了此缺点。

图10为本发明实施例提供的自动驾驶模型的训练装置1000的结构示意图，该自动驾驶模型的训练装置1000可以包括：

第一模块1001，用于获取现实交通信息，并根据现实交通信息构建仿真系统；其中，仿真系统包含多辆仿真车辆，每辆仿真车辆的行驶信息与现实交通场景下对应车辆的行驶信息相同；

第二模块1002，用于从仿真系统中选取目标仿真车辆集合，获取目标仿真车辆集合中各辆目标仿真车辆的第一行驶信息；

第三模块1003，用于将仿真系统中的目标仿真车辆替换为自动驾驶车辆，获取各辆自动驾驶车辆在仿真系统中行驶产生的第二行驶信息；其中，自动驾驶车辆在自动驾驶模型的控制下运行于仿真系统中；

第四模块1004，用于根据各辆目标仿真车辆的第一行驶信息和各辆自动驾驶车辆的第二行驶信息，计算偏差值均值；其中，偏差值均值用于表征目标仿真车辆与自动驾驶车辆之间的行驶信息相似度；

第五模块1005，用于根据偏差值均值对自动驾驶模型进行参数调整，直至偏差值均值小于第一阈值时，确定自动驾驶模型的训练完成。

图11为本发明实施例提供的一种自动驾驶评测装置1100，包括：

第六模块1101，用于获取现实交通信息，并根据现实交通信息构建仿真系统；其中，仿真系统包含多辆仿真车辆，每辆仿真车辆的行驶信息与现实交通场景下对应车辆的行驶信息相同；

第七模块1102，用于从仿真系统中选取目标仿真车辆集合，获取目标仿真车辆集合中各辆目标仿真车辆的第一行驶信息；

第八模块1103，用于将仿真系统中的目标仿真车辆替换为自动驾驶车辆，获取各辆自动驾驶车辆在仿真系统中行驶产生的第二行驶信息；其中，自动驾驶车辆在自动驾驶模型的控制下运行于仿真系统中；

第九模块1104，用于根据各辆目标仿真车辆的第一行驶信息和各辆自动驾驶车辆的第二行驶信息，计算偏差值均值；其中，偏差值均值用于表征目标仿真车辆与自动驾驶车辆之间的行驶信息相似度；

第十模块1105，用于当偏差值均值小于第一阈值时，确定自动驾驶模型合格；或者，将若干个自动驾驶模型控制自动驾驶车辆后得到的若干个偏差值均值进行比较，将偏差值最小的自动驾驶模型确定为最优的自动驾驶模型。

图12为本发明实施例提供的一种自动驾驶控制装置1200，包括：

第十一模块1201，用于根据上述自动驾驶模型的训练方法训练得到目标自动驾驶模型；

第十二模块1202，用于根据自动驾驶模型控制目标车辆进行自动驾驶。

本发明实施例还提供了一种电子设备，该设备包括处理器以及存储器；

存储器存储有程序；

处理器执行程序以执行前述的自动驾驶模型的训练方法、自动驾驶模型的评测方法或者自动驾驶控制方法。

该电子设备具有搭载本发明实施例自动驾驶模型的训练、自动驾驶模型的训练或者控制的功能，例如个人计算机 (Personal Computer，PC)、手机、智能手机、个人数字助手(Personal Digital Assistant，PDA)、可穿戴设备、掌上电脑PPC(Pocket PC)、平板电脑、车载终端等。

本发明实施例还提供一种计算机可读存储介质，该计算机可读存储介质存储有程序，该程序被处理器执行完成前述的自动驾驶模型的训练方法、自动驾驶模型的评测方法或者自动驾驶控制方法。

本发明实施例还提供一种包括指令的计算机程序产品，当其在计算机上运行时，使得计算机执行前述的目标图像的自动驾驶模型的训练方法、自动驾驶模型的评测方法或者自动驾驶控制方法。

本申请的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应当理解，在本申请中，“至少一个(项)”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：只存在A，只存在B以及同时存在A和B三种情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b或c中的至少一项(个)，可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”，其中a，b，c可以是单个，也可以是多个。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括多指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等各种可以存储程序的介质。

以上，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种自动驾驶模型的训练方法，其特征在于，包括：

根据所述各辆目标仿真车辆的第一行驶信息和各辆自动驾驶车辆的第二行驶信息，计算偏差值均值；其中，所述偏差值均值用于表征所述目标仿真车辆与所述自动驾驶车辆之间的行驶信息相似度；

根据所述偏差值均值对所述自动驾驶模型进行参数调整，直至所述偏差值均值小于第一阈值时，确定所述自动驾驶模型的训练完成；

其中，所述从所述仿真系统中选取目标仿真车辆集合，获取所述目标仿真车辆集合中各辆目标仿真车辆的第一行驶信息，包括：

确定所述仿真系统中所有车辆的车辆编号，得到所述仿真系统中的车辆数目；

根据第一比率从所述所有车辆中选取相应数目的车辆，得到目标仿真车辆集合；

获取所述目标仿真车辆集合中各个目标仿真车辆的第一行驶信息；

其中，所述第一比率根据所述仿真系统中的车辆数目确定。

2.根据权利要求1所述的自动驾驶模型的训练方法，其特征在于，所述现实交通信息包括目标区域的环境信息和目标区域的车辆信息；

所述获取现实交通信息，并根据所述现实交通信息构建仿真系统，包括：

获取所述目标区域的环境信息和所述目标区域的车辆信息，其中，所述目标区域的车辆信息包括所述目标区域内车辆的行车信息、方位信息和轨迹信息；

根据所述目标区域的环境信息构建目标区域地图；

根据所述目标区域的车辆信息构建所述目标区域的交通流信息；

将所述交通流信息映射到所述目标区域地图，得到仿真系统。

3.根据权利要求1所述的自动驾驶模型的训练方法，其特征在于，所述将所述仿真系统中的目标仿真车辆替换为自动驾驶车辆，获取各辆所述自动驾驶车辆在所述仿真系统中行驶产生的第二行驶信息，包括：

逐一选取所述目标仿真车辆集合中各个目标仿真车辆；

将选中的所述目标仿真车辆的车辆状态作为自动驾驶车辆的初始状态；

确定被选中的目标仿真车辆的行驶动作集合；

在所述自动驾驶车辆的初始状态下，逐一遍历所述行驶动作集合中各个行驶动作，确定所述自动驾驶车辆执行每个所述行驶动作对应的奖励值，其中，所述奖励值用于表征所述自动驾驶车辆的行驶动作与所述目标仿真车辆的行驶动作之间的相似度；

根据不同初始状态下自动驾驶车辆执行所述行驶动作对应的奖励值，确定最优奖励值对应的自动驾驶车辆的第二行驶信息。

4.根据权利要求3所述的自动驾驶模型的训练方法，其特征在于，所述在所述自动驾驶车辆的初始状态下，逐一遍历所述行驶动作集合中各个行驶动作，确定所述自动驾驶车辆执行每个所述行驶动作对应的奖励值，包括：

获取所述自动驾驶车辆在执行所述行驶动作时，与对应的目标仿真车辆执行该行驶动作的横向距离值；

获取所述自动驾驶车辆在执行所述行驶动作时，与对应的目标仿真车辆执行该行驶动作的纵向距离值；

确定所述横向距离值的第一加权系数和所述纵向距离值的第二加权系数；

根据所述横向距离值、所述第一加权系数、所述纵向距离值以及所述第二加权系数，计算所述自动驾驶车辆执行每个所述行驶动作对应的奖励值。

5.根据权利要求1或4所述的自动驾驶模型的训练方法，其特征在于，所述方法还包括：

在所述自动驾驶车辆执行每个行驶动作时，计算所述自动驾驶车辆与对应的目标仿真车辆之间的偏差值；

当所述自动驾驶车辆与对应的目标仿真车辆之间的偏差值小于所述第一阈值时，结束该自动驾驶车辆对于该目标仿真车辆的自动驾驶训练。

6.根据权利要求5所述的自动驾驶模型的训练方法，其特征在于，所述计算所述自动驾驶车辆与对应的目标仿真车辆之间的偏差值，包括：

获取所述目标仿真车辆的第一行驶信息，所述第一行驶信息包括所述目标仿真车辆的经纬度坐标位置信息、速度信息、加速度信息以及车头朝向信息；

获取所述自动驾驶车辆的第二行驶信息，所述第二行驶信息包括所述自动驾驶车辆的经纬度坐标位置信息、速度信息、加速度信息以及车头朝向信息；

根据所述目标仿真车辆的经纬度坐标位置信息和所述自动驾驶车辆的经纬度坐标位置信息，确定第一偏差值；

根据所述目标仿真车辆的速度信息和所述自动驾驶车辆的速度信息，确定第二偏差值；

根据所述目标仿真车辆的加速度信息和所述自动驾驶车辆的加速度信息，确定第三偏差值；

根据所述目标仿真车辆的车头朝向信息和所述自动驾驶车辆的车头朝向信息，确定第四偏差值；

将所述第一偏差值、所述第二偏差值、所述第三偏差值以及所述第四偏差值相加，计算得到所述自动驾驶车辆与对应的目标仿真车辆之间的偏差值。

7.根据权利要求6所述的自动驾驶模型的训练方法，其特征在于，所述根据所述各辆目标仿真车辆的第一行驶信息和所述各辆自动驾驶车辆的第二行驶信息，计算偏差值均值，包括：

收集每个所述自动驾驶车辆的第二行驶信息与对应的所述目标仿真车辆的第一行驶信息之间的偏差值，得到偏差值集合；

根据所述偏差值集合和偏差值个数，计算所述偏差值均值。

8.一种自动驾驶模型的评测方法，其特征在于，包括：

当所述偏差值均值小于第一阈值时，确定所述自动驾驶模型合格；或者，将若干个自动驾驶模型控制自动驾驶车辆后得到的若干个偏差值均值进行比较，将所述偏差值最小的所述自动驾驶模型确定为最优的自动驾驶模型；

其中，所述第一比率根据所述仿真系统中的车辆数目确定。

9.一种自动驾驶控制方法，其特征在于，包括：

根据权利要求1-7任一项所述自动驾驶模型的训练方法训练得到目标自动驾驶模型；

根据所述自动驾驶模型控制目标车辆进行自动驾驶。

10.一种自动驾驶模型的训练装置，其特征在于，包括：

第四模块，用于根据所述各辆目标仿真车辆的第一行驶信息和各辆自动驾驶车辆的第二行驶信息，计算偏差值均值；其中，所述偏差值均值用于表征所述目标仿真车辆与所述自动驾驶车辆之间的行驶信息相似度；

第五模块，用于根据所述偏差值均值对所述自动驾驶模型进行参数调整，直至所述偏差值均值小于第一阈值时，确定所述自动驾驶模型的训练完成；

其中，所述第二模块具体用于：

其中，所述第一比率根据所述仿真系统中的车辆数目确定。

11.一种自动驾驶评测装置，其特征在于，包括：

第九模块，用于根据所述各辆目标仿真车辆的第一行驶信息和各辆自动驾驶车辆的第二行驶信息，计算偏差值均值；其中，所述偏差值均值用于表征所述目标仿真车辆与所述自动驾驶车辆之间的行驶信息相似度；

第十模块，用于当所述偏差值均值小于第一阈值时，确定所述自动驾驶模型合格；或者，将若干个自动驾驶模型控制自动驾驶车辆后得到的若干个偏差值均值进行比较，将所述偏差值最小的所述自动驾驶模型确定为最优的自动驾驶模型；

其中，所述第七模块具体用于：

其中，所述第一比率根据所述仿真系统中的车辆数目确定。

12.一种自动驾驶控制装置，其特征在于，包括：

第十一模块，用于根据权利要求1-7任一项所述自动驾驶模型的训练方法训练得到目标自动驾驶模型；

13.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有程序，所述程序被处理器执行实现如权利要求1-9中任一项所述的方法。

14.一种电子设备，其特征在于，包括处理器以及存储器；

所述存储器用于存储程序；

所述处理器执行所述程序实现如权利要求1-9中任一项所述的方法。