CN110686906A

CN110686906A - 车辆自动驾驶测试方法及装置

Info

Publication number: CN110686906A
Application number: CN201910957136.4A
Authority: CN
Inventors: 陈百鸣; 李明聪; 赵锦涛; 张志煌; 李亮; 肖凌云; 董红磊; 王琰
Original assignee: Tsinghua University; China National Institute of Standardization
Current assignee: Tsinghua University; China National Institute of Standardization
Priority date: 2019-10-09
Filing date: 2019-10-09
Publication date: 2020-01-14
Anticipated expiration: 2039-10-09
Also published as: CN110686906B

Abstract

本申请实施例提供一种车辆自动驾驶测试方法及装置，涉及车辆技术领域。该方法包括：确定当前测试环境状态；将当前测试环境状态输入至强化学习模型中，获得测试车辆在当前测试环境状态下需执行的对被测车辆的目标干扰动作；控制测试车辆执行目标干扰动作，以获取被测车辆在测试车辆执行所述目标干扰动作后产生的驾驶反应。该方案可以通过强化学习模型根据各个测试环境状态输出测试车辆在各个测试环境状态下需执行的干扰动作，从而使得测试车辆可以根据不同的测试环境状态选择对被测车辆最有效的干扰动作执行，以形成对被测车辆的有效干扰，进而可以更全面地测试被测车辆在各种状态下的驾驶反应。

Description

车辆自动驾驶测试方法及装置

技术领域

本申请涉及车辆技术领域，具体而言，涉及一种车辆自动驾驶测试方法及装置。

背景技术

现有的自动驾驶测试往往是在给定的交通环境下，测试指定的车辆完成相应任务、动作的能力。在这些测试中，往往涉及到其他的交通参与者，包括其他车辆、行人等，典型的场景包括高速公路上的跟车、超车，以及城市交叉路口的通行等。

在这些测试场景中，周围的交通参与者以给定的策略运行，这些策略可能是人为给定的，在对被测车辆进行这种环境下的测试时，被测车辆只需要适应当前设定的交通参与者的行为特点，便可以通过测试。但在现实中，实际的交通参与者的行为并不固定，也会有危险的驾驶行为产生，而目前采用的测试方法中交通参与者无法根据实际情况来对被测车辆产生有效干扰动作，进而无法更加全面对被测车辆的驾驶能力进行测试。

发明内容

本申请实施例的目的在于提供一种车辆自动驾驶测试方法及装置，用以改善现有技术中测试车辆无法根据实际情况对被测车辆产生有效干扰动作的问题。

第一方面，本申请实施例提供了一种车辆自动驾驶测试方法，所述方法包括：确定当前测试环境状态，所述当前测试环境状态包括测试车辆的当前位置状态以及被测车辆的当前位置状态；将所述当前测试环境状态输入至强化学习模型中，获得所述测试车辆在所述当前测试环境状态下需执行的对所述被测车辆的目标干扰动作，其中，在所述当前测试环境状态下所述测试车辆执行所述目标干扰动作所获得的奖励值满足预设条件；控制所述测试车辆执行所述目标干扰动作，以获取所述被测车辆在所述测试车辆执行所述目标干扰动作后产生的驾驶反应。

在上述实现过程中，可以通过强化学习模型根据各个测试环境状态输出测试车辆在各个测试环境状态下需执行的干扰动作，从而使得测试车辆可以根据不同的测试环境状态选择对被测车辆最有效的干扰动作执行，以形成对被测车辆的有效干扰，进而可以更全面地测试被测车辆在各种状态下的驾驶反应。

可选地，所述将所述当前测试环境状态输入至强化学习模型中，获得所述测试车辆在所述当前测试环境状态下需执行的对所述被测车辆的目标干扰动作，包括：将所述当前测试环境状态输入至强化学习模型中，利用确定的奖惩函数计算获得所述测试车辆执行对应的目标干扰动作所获得的奖励值；在所述奖励值满足预设条件时，确定所述测试车辆在所述当前测试环境状态下需执行的对所述被测车辆的干扰动作为所述目标干扰动作。

在上述实现过程中，通过奖惩函数来计算测试车辆所获得的奖励值，使得测试车辆可以选择奖励值最大的干扰动作来执行，从而产生对被测车辆的有效干扰。

可选地，所述奖惩函数为基于所述被测车辆的行驶质量以及所述测试车辆的安全驾驶能力确定的。根据被测车辆的行驶质量以及测试车辆的安全驾驶能力来确定奖惩函数，从而可以更多的考虑实际情况中车辆的行驶情况来确定奖惩函数，使得测试车辆可以根据奖惩函数计算获得的奖励值来选择最优的干扰动作。

可选地，所述被测车辆的行驶质量为基于所述被测车辆是否完成驾驶任务、完成驾驶任务所用时间、是否与所述测试车辆发生碰撞、与所述测试车辆发生碰撞的时间与次数以及是否违反交通规则中的至少一种情况确定的。

可选地，所述测试车辆的安全驾驶能力为基于所述测试车辆在预设时间段内与所述被测车辆之间的距离以及相对速度、所述测试车辆是否违反交通规则中的至少一种情况确定的。

可选地，所述当前测试环境状态还包括测试环境中的车道的宽度以及曲率，所述测试车辆的当前位置状态包括所述测试车辆所在的车道位置、所述测试车辆与其所在的车道中心线的距离与夹角、所述测试车辆与所述被测车辆的相对位置以及所述测试车辆与所述被测车辆的相对速度中的至少一种，所述被测车辆的当前位置状态包括所述被测车辆与其所在的车道中心线的距离与夹角。

可选地，所述控制所述测试车辆执行所述目标干扰动作，以获取被测车辆在所述测试车辆执行所述目标干扰动作后产生的驾驶反应之后，还包括：根据所述被测车辆产生的驾驶反应确定所述被测车辆的自动驾驶能力。

在上述实现过程中，测试车辆可以根据当前环境状态的改变而执行不同的干扰动作，被测车辆在不同的干扰动作下均可产生对应的驾驶反应，则可以根据被测车辆在不同的干扰动作下产生的驾驶反应来综合确定被测车辆的自动驾驶能力，由此，可对被测车辆的自动驾驶能力进行根据全面的评估。

可选地，所述强化学习模型为深度Q学习DQN模型、深度确定性策略梯度DDPG模型、归一化优势函数NAF模型或异步优势行为者-评论者A3C模型。

可选地，所述确定当前测试环境状态之前，还包括：

获取训练样本，所述训练样本包括奖惩函数、输入的测试环境状态集以及输出的每个测试环境状态对应的干扰动作集，所述测试环境状态包括训练测试车辆的位置状态以及训练被测车辆的位置状态；

将所述训练样本输入所述强化学习模型中，通过所述奖惩函数获得在当前测试环境状态下所述训练测试车辆执行对应的干扰动作集中每个干扰动作的奖励值；

根据所述奖励值确定所述强化学习模型输出的在所述当前测试环境状态下所述训练测试车辆需执行的对所述训练被测车辆的干扰动作，并控制所述训练测试车辆执行所述干扰动作，以使所述强化学习模型进入下一测试环境状态，继续对所述强化学习模型进行训练，直至所述强化学习模型收敛；其中，所述当前测试环境状态下所述训练测试车辆执行所述干扰动作所获得的奖励值满足预设条件。

在上述实现过程中，预先对强化学习模型进行训练，使得在实际测试时，可以利用强化学习模型输出更加准确的干扰动作。

第二方面，本申请实施例提供了一种车辆自动驾驶测试装置，所述装置包括：

状态确定模块，用于确定当前测试环境状态，所述当前测试环境状态包括测试车辆的当前位置状态以及被测车辆的当前位置状态；

动作确定模块，用于将所述当前测试环境状态输入至强化学习模型中，获得所述测试车辆在所述当前测试环境状态下需执行的对所述被测车辆的目标干扰动作，其中，在所述当前测试环境状态下所述测试车辆执行所述目标干扰动作所获得的奖励值满足预设条件；

驾驶反应测试模块，用于控制所述测试车辆执行所述目标干扰动作，以获取所述被测车辆在所述测试车辆执行所述目标干扰动作后产生的驾驶反应。

可选地，所述动作确定模块，用于将所述当前测试环境状态输入至强化学习模型中，利用确定的奖惩函数计算获得所述测试车辆执行对应的目标干扰动作所获得的奖励值；在所述奖励值满足预设条件时，确定所述测试车辆在所述当前测试环境状态下需执行的对所述被测车辆的干扰动作为所述目标干扰动作。

可选地，所述奖惩函数为基于所述被测车辆的行驶质量以及所述测试车辆的安全驾驶能力确定的。

可选地，所述装置还包括：

驾驶能力测试模块，用于根据所述被测车辆产生的驾驶反应确定所述被测车辆的自动驾驶能力。

可选地，所述装置还包括：

模型训练模块，用于：

第三方面，本申请实施例提供一种电子设备，包括处理器以及存储器，所述存储器存储有计算机可读取指令，当所述计算机可读取指令由所述处理器执行时，运行如上述第一方面提供的所述方法中的步骤。

第四方面，本申请实施例提供一种可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时运行如上述第一方面提供的所述方法中的步骤。

本申请的其他特征和优点将在随后的说明书阐述，并且，部分地从说明书中变得显而易见，或者通过实施本申请实施例了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的一种电子设备的结构示意图；

图2为本申请实施例提供的一种车辆自动驾驶测试方法的流程图；

图3为本申请实施例提供的一种测试环境的示意图；

图4为本申请实施例提供的一种车辆自动驾驶测试装置的结构框图。

具体实施方式

下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例提供一种车辆自动驾驶测试方法，该方法通过获取当前测试环境状态，然后将当前测试环境状态输入至强化学习模型中，获得测试车辆在当前测试环境状态需执行的对被测车辆的目标干扰动作，然后控制测试车辆执行目标干扰动作，以获取被测车辆在测试车辆执行目标干扰动作后产生的驾驶反应，其可以通过强化学习模型输出测试车辆在各个测试环境状态下需执行的干扰动作，从而使得测试车辆可以根据不同的测试环境状态选择对被测车辆最有效的干扰动作执行，以形成对被测车辆的有效干扰，进而可以更全面地测试被测车辆在各种状态下的驾驶反应。下面结合对应的附图对本申请实施例提供的车辆自动驾驶测试方法进行详细说明。

请参照图1，图1为本申请实施例提供的一种电子设备的结构示意图，所述电子设备可以包括：至少一个处理器110，例如CPU，至少一个通信接口120，至少一个存储器130和至少一个通信总线140。其中，通信总线140用于实现这些组件直接的连接通信。其中，本申请实施例中设备的通信接口120用于与其他节点设备进行信令或数据的通信。存储器130可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。存储器130可选的还可以是至少一个位于远离前述处理器的存储装置。存储器130中存储有计算机可读取指令，当所述计算机可读取指令由所述处理器110执行时，电子设备执行下述图2所示方法过程。例如，存储器130可用于存储强化学习模型以及测试环境状态等信息，处理器110可用于通过强化学习模型输出测试车辆在各个测试环境状态下需执行的干扰动作，然后控制测试车辆执行目标干扰动作，以获取被测车辆在测试车辆执行目标干扰动作后产生的驾驶反应。

请参照图2，图2为本申请实施例提供的一种车辆自动驾驶测试方法的流程图，该方法包括如下步骤：

步骤S110：确定当前测试环境状态。

其中，当前测试环境状态是指对被测车辆进行测试时测试车辆所在的环境状态信息，其可以包括测试车辆的当前位置状态以及被测车辆的当前位置状态等。例如，如图3所示，图3中的圆圈内的车辆作为被测车辆，其他车辆作为测试车辆，这些测试车辆和被测车辆可以是指对被测车辆进行模拟测试时的模拟车辆，也可以是在实际情况中对被测车辆进行真实测试的真实车辆。若是模拟车辆，当前测试环境状态可以是通过模拟环境自动获取的，例如，可以在测试车辆与被测车辆上设置对应的检测点，其用于获取测试车辆和被测车辆的当前位置状态；若是真实车辆，其可以在测试车辆和被测车辆上安装对应的传感器来获取车辆的当前位置状态。

可以理解地，本申请实施例中为了事先对被测车辆的驾驶能力进行测试，以便使得被测车辆在具有较好的驾驶能力后才能运用到真实环境中，所以，本申请实施例中的测试环境为模拟测试环境，车辆均为模拟车辆。

其中，作为一种示例，测试车辆的当前位置状态包括测试车辆所在的位置、姿态以及车速等状态信息，例如，测试车辆的当前位置状态可以包括测试车辆所在的车道位置、测试车辆与其所在的车道中心线的距离与夹角、测试车辆与被测车辆的相对位置以及车速车辆与被测车辆的相对速度中的至少一种。被测车辆的当前位置状态包括被测车辆与其所在的车道中心线的距离与夹角。

可以理解地，在测试过程中，被测车辆被标记为测试对象，测试车辆可以根据相应的标记来确定被测车辆所在的位置，从而使得测试车辆可以对被测车辆做出干扰动作。

当然，为了模拟真实的驾驶环境，使得测试车辆能够在更多的环境信息下执行对被测车辆有效的干扰动作，所以，当前测试环境状态还可以包括测试环境中的车道的宽度以及曲率，车道的宽度以及曲率可以是根据实际需求人为设置的，也可以是在不同的驾驶环境中自动生成的，例如城市道路和乡村道路其道路的宽度以及曲率可以不一样。

步骤S120：将所述当前测试环境状态输入至强化学习模型中，获得所述测试车辆在所述当前测试环境状态下需执行的对所述被测车辆的目标干扰动作。

由于该强化学习模型是经过训练获得的，强化学习模型的基本思想是在训练过程中使得测试车辆可以根据当前测试环境状态，获得测试车辆执行每个干扰动作的奖励值，然后根据奖励值选择测试车辆需执行的干扰动作。即在每种测试环境状态下，测试车辆可以执行多个干扰动作，每个干扰动作均会获得一个奖励值，由此，测试车辆可自动学习执行哪个干扰动作可获得最多的奖励，进而测试车辆可以学习到在各个测试环境状态下执行哪个干扰动作所获得的奖励值最大。

其中，干扰动作可以是指测试车辆的转向角大小、加速度大小等动作参数，测试车辆可根据这些动作参数来执行对应的动作，使得这些动作最后形成对被测车辆的干扰动作。可以理解地，该干扰动作能够有效对测试车辆的驾驶造成干扰，例如，测试车辆当前在被测车辆的旁边车道的前方，为了对被测车辆造成干扰，测试车辆的干扰动作可以是转向到被测车辆所在的车道并减速。

所以，可以将当前测试环境状态输入至强化学习模型中，利用强化学习模型预测测试车辆需执行的对被测车辆的目标干扰动作，其中，在当前测试环境状态下测试车辆执行目标干扰动作所获得的奖励值满足预设条件，其预设条件可以是指测试车辆执行目标干扰动作所获得的奖励值最大，即在当前测试环境状态下测试车辆可执行多个干扰动作，而执行目标干扰动作所获得的奖励值最大。

步骤S130：控制所述测试车辆执行所述目标干扰动作，以获取所述被测车辆在所述测试车辆执行所述目标干扰动作后产生的驾驶反应。

在获得强化学习模型输出的目标干扰动作后，可控制测试车辆执行对应的目标干扰动作，如目标干扰动作为测试车辆向被测车辆所在的车道进行转向预设角度，以使得测试车辆变道至被测车辆所在的车道，然后可以监测被测车辆的驾驶反应，即可以监测被测车辆在测试车辆执行目标干扰动作后所采取的驾驶行为，从而可对被测车辆进行测试，例如，可以获取被测车辆在知晓前方有车辆变道时，是否自动减速等驾驶反应。

作为一种示例，为了获得测试车辆需执行的最优的目标干扰动作，可以将当前测试环境状态输入至强化学习模型中，利用确定的奖惩函数计算获得测试车辆执行对应的目标干扰动作所获得的奖励值，在所述奖励值达到预设条件时，确定测试车辆在当前测试环境状态下需执行的对被测车辆的干扰动作为目标干扰动作。

奖惩函数的特点是随着被测车辆行驶困难的增加而提供，例如，当测试车辆行驶至被测车辆的前方并减速，迫使被测车辆进行换道操作时，通过奖惩函数计算获得的奖励值会比较高，当测试车辆继续照常行驶，对被测车辆不具有干扰行为时，通过奖惩函数计算获得的奖励值会较低。因此，测试车辆为了获得更高的奖励值，测试车辆会做出干扰被测车辆的干扰动作，同时，为了使测试车辆的行为接近真实情况，奖惩函数对测试车辆本身的违规行为进行一定的惩罚，使得测试车辆在尽量不违反交通规则并尽量保证自身安全的情况下对被测车辆进行干扰。

也就是说，通过设置对应的奖惩函数来计算获得测试车辆执行对应的干扰动作获得的奖励值，即在当前环境状态下，测试车辆可选择对应的干扰动作来执行，例如，目标干扰动作为测试车辆执行向被测车辆所在的车道转向的干扰动作且该目标干扰动作不违反交通规则，奖惩函数来计算获得的奖励值较大；但是，若目标干扰动作为测试车辆执行双实线超车的干扰动作，则奖惩函数计算获得的奖励值较少，即得到一定的处罚值。如此，在训练过程中，测试车辆可以尝试执行多个干扰动作后知晓执行哪个干扰动作使得其获得的奖励值最大，即奖励值满足预设条件，从而可以在实际对被测车辆进行干扰时，可以直接确定奖励值最大对应的干扰动作即为测试车辆需执行的目标干扰动作。

作为一种示例，为了使得测试车辆学习到对被测车辆形成有效干扰的干扰动作，则奖惩函数可以为基于被测车辆的行驶质量以及测试车辆的安全驾驶能力确定的。

其中，被测车辆的行驶质量为基于被测车辆在测试过程中的驾驶行为确定的，例如，驾驶行为包括被测车辆是否完成驾驶任务、完成驾驶任务所用时间、是否与测试车辆发生碰撞、与测试车辆发生碰撞的时间与次数以及是否违反交通规则中的至少一种，即被测车辆的行驶质量是基于被测车辆是否完成驾驶任务、完成驾驶任务所用时间、是否与测试车辆发生碰撞、与测试车辆发生碰撞的时间与次数以及是否违反交通规则中的至少一种情况确定的。

在被测车辆的行驶质量是基于上述的多种情况确定的，则被测车辆的行驶质量可以是多种情况的加权求和计算获得的，例如，行驶质量为基于车辆是否完成驾驶任务、完成驾驶任务所用时间、是否与测试车辆发生碰撞、与测试车辆发生碰撞的时间与次数以及是否违反交通规则确定的，其中，是否完成驾驶任务可以是指被测车辆是否在预设时间内从第一位置行驶到第二位置，且并没有违反交通规则，若是，则表示完成驾驶任务，可以采用数值1表示，若没有完成驾驶任务，采用数值0表示；与测试车辆发生碰撞采用数值1表示，未与测试车辆发生碰撞采用数值0表示；违反交通规则采用数值1表示，未违反交通规则采用数值0表示。例如，若被测车辆完成驾驶任务，完成驾驶任务所用时间为20分钟，与测试车辆发生了碰撞，与测试车辆发生碰撞的时间为驾驶任务开始的2分钟，发生碰撞的次数为1，未违反交通规则，则行驶质量＝1+20+0+2+1+0＝24，该数值即可表示被测车辆的行驶质量，行驶质量越高，表示被测车辆的抗干扰性与安全性更强。

当然，在计算行驶质量时，还可以设置每种情况对应的权重，如与安全性相关的情况的权重设置得相对较大一些，如是否与测试车辆发生碰撞、发生碰撞的次数、发生碰撞的时间以及是否与违反交通规则两种情况的权重可以设置得大一些，如设置为0.9，其他情况对应的权重可以设置得小一些，如设置为0.4，则根据上述的各个情况对应的数值，行驶质量等于＝1+20+0*0.9+2*0.9+1*0.9+0＝23.7。

需要说明的是，上述的权重的设置可以根据实际需求进行灵活设置，对于行驶质量的计算方式也可以根据实际需求进行灵活设定其计算方式。

另外，测试车辆的安全驾驶能力为基于测试车辆在预设时间段内与被测车辆之间的距离以及相对速度、测试车辆是否违反交通规则中的至少一种情况确定的。

可以理解地，测试车辆的安全驾驶能力的数值也可以是上述各个情况对应的数值进行加权求和计算获得，其中，测试车辆在预设时间段内与被测车辆之间的距离是指平均距离，相对速度是指平均相对速度，则安全驾驶能力＝距离+相对速度+是否违反交通规则，其中，也可以为各个参与计算的数值设置相应的权重，例如，距离与相对速度的权重设为0.8，是否违反交通规则的权重设为0.9，如此，可以按照对应的计算规则获得测试车辆的安全驾驶能力。

需要说明的是，奖惩函数在训练过程中确定的，如可以进行多次训练，对被测车辆完成多次测试，获取测试过程中被测车辆的平均行驶质量以及测试车辆的平均安全驾驶能力。

作为一种示例，为了对被测车辆的自动驾驶能力进行测试，还可以根据被测车辆产生的驾驶反应确定被测车辆的自动驾驶能力。

其中，测试车辆可以根据当前环境状态的改变而执行不同的干扰动作，被测车辆在不同的干扰动作下均可产生对应的驾驶反应，则可以根据被测车辆在不同的干扰动作下产生的驾驶反应来确定被测车辆的自动驾驶能力。

被测车辆的自动驾驶能力可以根据驾驶反应对应的数值来进行加权求和计算获得的，例如，可以针对被测车辆的各种驾驶反应进行评分，获得的评分用于计算其自动驾驶能力。对驾驶反应进行评分的方式也可以采用神经网络模型进行自动评分，神经网络模型可以为长短期记忆网络模型、卷积神经网络模型等。如可以预先对神经网络模型进行训练，训练过程中以输入数据为驾驶反应对应的数据，标签数据为每种驾驶反应对应的评分，该评分为人为评分，然后，对神经网络模型进行训练，如此，可在应用时，直接输入驾驶反应至神经网络模型中，然后由神经网络模型输出对应的评分。如此，通过对获得的评分进行加权求和来获得一个数值，该数值用于表征自动驾驶能力。

需要说明的是，上述仅为获得被测车辆的自动驾驶能力的其中一种实现方式，在实际应用过程中，还可以由其他方式获得自动驾驶能力，在此不详细介绍。

另外，在测试时，还可以加入有经验的驾驶员对被测车辆进行操作，整个测试过程中可在驾驶模拟仿真环境下，如此可比较被测车辆在自动驾驶的情况下与驾驶员驾驶的情况下的驾驶能力的区别。例如，整个测试过程可在驾驶模拟仿真环境下完成，其具体的实现过程均将在计算平台上完成，将测试车辆的决策命令输入给驾驶模拟器平台，形成环境更新，驾驶模拟平台将输入自动驾驶算法或对照组中驾驶员的输入，传给计算平台。驾驶模拟器平台将记录驾驶数据，用于对自动驾驶算法的行驶质量评估。

作为一种示例，本申请实施例中的强化学习模型可以为深度Q学习网络(Deep Q-Learning Network，DQN)模型、深度确定性策略梯度(Deep Deterministic PolicyGradient，DDPG)模型、归一化优势函数(Normalized Advantage Functions，NAF)模型或异步优势行为者-评论者(Asynchronous Advantage Actor-Critic，A3C)模型等。

当然，上述仅是列举了部分强化学习模型，可以理解地，强化学习模型还可以为其他模型，在此不一一列举。

为了使得强化学习模型可以更好的预测测试车辆执行的干扰动作，还可以预先对强化学习模型进行训练，其训练过程为：获取训练样本，该训练样本包括奖惩函数、输入的测试环境状态集，以及输出的每个测试环境状态对应的干扰动作集，测试环境状态包括的位置状态以及训练被测车辆的位置状态，然后将训练样本输入强化学习模型中，通过奖惩函数获得在当前测试环境状态下训练测试车辆执行对应的干扰动作集中每个干扰动作的奖励值，再根据奖励值确定强化学习模型输出的在当前测试环境状态下训练测试车辆需执行的对训练被测车辆的干扰动作，并控制训练测试车辆执行干扰动作，以使强化学习模型进入下一测试环境状态，继续对强化学习模型进行训练，直至强化学习模型收敛；其中，当前测试环境状态下训练测试车辆执行干扰动作所获得的奖励值满足预设条件，该预设条件即为对应的奖励值最大。

在强化学习模型中，定义了几种要素，包括如下：

Agent(智能体)：训练测试车辆；

Action(动作a)：训练测试车辆需执行的干扰动作；

State(状态s)：测试环境状态；

Environment(环境)：道路信息与被测车辆；

Reward(奖惩函数r)：计算训练测试车辆执行干扰动作所获得的奖励值。

例如，DDPG模型中使用一个价值网络来近似值函数，采用策略网络来近似策略函数，其中策略网络为行动者，输出动作，价值网络为评价者，评价行动者给出动作的好坏，在训练过程中，策略网络通过梯度计算公式进行更新，而价值网络根据目标值进行更新，训练时即对策略网络和价值网络中的网络参数进行训练。

具体对DDPG的训练过程不详细描述，在DDPG模型的损失函数小于预设值时，表示模型收敛，即训练完成，从而可在进行实际测试时，利用训练完成的DDPG模型来输出对应的测试车辆需执行的干扰动作，其输出的干扰动作即为在对应的测试环境状态下最优的目标干扰动作。

请参照图4，图4为本申请实施例提供的一种车辆自动驾驶测试装置200的结构框图，该装置200可以是电子设备上的模块、程序段或代码。应理解，该装置200与上述图2方法实施例对应，能够执行图2方法实施例涉及的各个步骤，该装置200具体的功能可以参见上文中的描述，为避免重复，此处适当省略详细描述。

可选地，所述装置200包括：

状态确定模块210，用于确定当前测试环境状态，所述当前测试环境状态包括测试车辆的当前位置状态以及被测车辆的当前位置状态；

动作确定模块220，用于将所述当前测试环境状态输入至强化学习模型中，获得所述测试车辆在所述当前测试环境状态下需执行的对所述被测车辆的目标干扰动作，其中，在所述当前测试环境状态下所述测试车辆执行所述目标干扰动作所获得的奖励值满足预设条件；

驾驶反应测试模块230，用于控制所述测试车辆执行所述目标干扰动作，以获取所述被测车辆在所述测试车辆执行所述目标干扰动作后产生的驾驶反应。

可选地，所述动作确定模块220，用于将所述当前测试环境状态输入至强化学习模型中，利用确定的奖惩函数计算获得所述测试车辆执行对应的目标干扰动作所获得的奖励值；在所述奖励值满足预设条件时，确定所述测试车辆在所述当前测试环境状态下需执行的对所述被测车辆的干扰动作为所述目标干扰动作。

可选地，所述装置200还包括：

模型训练模块，用于：

本申请实施例提供一种可读存储介质，所述计算机程序被处理器执行时，执行如图2所示方法实施例中电子设备所执行的方法过程。

本实施例公开一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法实施例所提供的方法，例如，包括：确定当前测试环境状态，所述当前测试环境状态包括测试车辆的当前位置状态以及被测车辆的当前位置状态；将所述当前测试环境状态输入至强化学习模型中，获得所述测试车辆在所述当前测试环境状态下需执行的对所述被测车辆的目标干扰动作，其中，在所述当前测试环境状态下所述测试车辆执行所述目标干扰动作所获得的奖励值满足预设条件；控制所述测试车辆执行所述目标干扰动作，以获取所述被测车辆在所述测试车辆执行所述目标干扰动作后产生的驾驶反应。

综上所述，本申请实施例提供一种车辆自动驾驶测试方法及装置，该方法可以通过强化学习模型根据各个测试环境状态输出测试车辆在各个测试环境状态下需执行的干扰动作，从而使得测试车辆可以根据不同的测试环境状态选择对被测车辆最有效的干扰动作执行，以形成对被测车辆的有效干扰，进而可以更全面地测试被测车辆在各种状态下的驾驶反应。

在本申请所提供的实施例中，应该理解到，所揭露装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

再者，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。

以上所述仅为本申请的实施例而已，并不用于限制本申请的保护范围，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种车辆自动驾驶测试方法，其特征在于，所述方法包括：

确定当前测试环境状态，所述当前测试环境状态包括测试车辆的当前位置状态以及被测车辆的当前位置状态；

将所述当前测试环境状态输入至强化学习模型中，获得所述测试车辆在所述当前测试环境状态下需执行的对所述被测车辆的目标干扰动作，其中，在所述当前测试环境状态下所述测试车辆执行所述目标干扰动作所获得的奖励值满足预设条件；

控制所述测试车辆执行所述目标干扰动作，以获取所述被测车辆在所述测试车辆执行所述目标干扰动作后产生的驾驶反应。

2.根据权利要求1所述的方法，其特征在于，所述将所述当前测试环境状态输入至强化学习模型中，获得所述测试车辆在所述当前测试环境状态下需执行的对所述被测车辆的目标干扰动作，包括：

将所述当前测试环境状态输入至强化学习模型中，利用确定的奖惩函数计算获得所述测试车辆执行对应的目标干扰动作所获得的奖励值；

在所述奖励值满足预设条件时，确定所述测试车辆在所述当前测试环境状态下需执行的对所述被测车辆的干扰动作为所述目标干扰动作。

3.根据权利要求2所述的方法，其特征在于，所述奖惩函数为基于所述被测车辆的行驶质量以及所述测试车辆的安全驾驶能力确定的。

4.根据权利要求3所述的方法，其特征在于，所述被测车辆的行驶质量为基于所述被测车辆是否完成驾驶任务、完成驾驶任务所用时间、是否与所述测试车辆发生碰撞、与所述测试车辆发生碰撞的时间与次数以及是否违反交通规则中的至少一种情况确定的。

5.根据权利要求3所述的方法，其特征在于，所述测试车辆的安全驾驶能力为基于所述测试车辆在预设时间段内与所述被测车辆之间的距离以及相对速度、所述测试车辆是否违反交通规则中的至少一种情况确定的。

6.根据权利要求1所述的方法，其特征在于，所述当前测试环境状态还包括测试环境中的车道的宽度以及曲率，所述测试车辆的当前位置状态包括所述测试车辆所在的车道位置、所述测试车辆与其所在的车道中心线的距离与夹角、所述测试车辆与所述被测车辆的相对位置以及所述测试车辆与所述被测车辆的相对速度中的至少一种，所述被测车辆的当前位置状态包括所述被测车辆与其所在的车道中心线的距离与夹角。

7.根据权利要求1所述的方法，其特征在于，所述控制所述测试车辆执行所述目标干扰动作，以获取被测车辆在所述测试车辆执行所述目标干扰动作后产生的驾驶反应之后，还包括：

根据所述被测车辆产生的驾驶反应确定所述被测车辆的自动驾驶能力。

8.根据权利要求1所述的方法，其特征在于，所述强化学习模型为深度Q学习DQN模型、深度确定性策略梯度DDPG模型、归一化优势函数NAF模型或异步优势行为者-评论者A3C模型。

9.根据权利要求1-8任一所述的方法，其特征在于，所述确定当前测试环境状态之前，还包括：

10.一种车辆自动驾驶测试装置，其特征在于，所述装置包括：