CN118082890B

CN118082890B - 一种自动驾驶的控制指令优化方法、装置、电子设备和存储介质

Info

Publication number: CN118082890B
Application number: CN202410510908.0A
Authority: CN
Inventors: 徐红燕; 杨武双; 王书敏
Original assignee: GAC Aion New Energy Automobile Co Ltd
Current assignee: GAC Aion New Energy Automobile Co Ltd
Priority date: 2024-04-26
Filing date: 2024-04-26
Publication date: 2024-06-18
Anticipated expiration: 2044-04-26
Also published as: CN118082890A

Abstract

本申请实施例提供一种自动驾驶的控制指令优化方法、装置、电子设备和存储介质，其中，方法包括：根据预先构建的车辆运行公式训练人工智能导师机器学习模型，得到训练后的人工智能导师机器学习模型，所述训练后的人工智能导师机器学习模型用于模拟交通状态；根据训练后的人工智能导师机器学习模型训练优化模型，得到训练后的优化模型；根据基于马尔可夫决策过程的决策模型输出车辆当前的控制指令；根据所述训练后的优化模型优化所述控制指令。实施本申请的实施例，能够减少模型训练时间，在不同的场景下优化车辆的控制指令，使车辆礼貌行驶，进一步提高智能驾驶的安全性。

Description

一种自动驾驶的控制指令优化方法、装置、电子设备和存储介质

技术领域

本申请涉及自动驾驶技术领域，具体而言，涉及一种自动驾驶的控制指令优化方法、装置、电子设备和计算机可读存储介质。

背景技术

目前针对深度学习的智能驾驶的现有技术存在一些共同的缺陷。首先，对于深度学习中的算法或网络在预先设定的规则中无法实时适应道路环境的变化，缺乏较高的适应度，鲜有能够同时兼顾有效性和实时性。其次，在对训练后的人工智能导师机器学习模型进行开发时，由于需适应不同的驾驶条件或环境，导致模型开发成本以及开发复杂度过高，同时也增加了运算时间和维护成本。此外，由于车辆行驶环境复杂，现有模型过度关注车辆在不同环境下生成准确的控制指令，导致现有模型输出的控制指令过于机器化，容易出现不礼貌行驶等行为。

发明内容

本申请实施例的目的在于提供一种自动驾驶的控制指令优化方法、装置、电子设备和计算机可读存储介质，能够减少模型训练时间，在不同的场景下优化车辆的控制指令，使车辆礼貌行驶，进一步提高智能驾驶的安全性。

本申请实施例提供了一种自动驾驶控制指令的优化方法，包括：

根据预先构建的车辆运行公式训练人工智能导师机器学习模型，得到训练后的人工智能导师机器学习模型，所述训练后的人工智能导师机器学习模型用于模拟交通状态；

根据训练后的人工智能导师机器学习模型训练优化模型，得到训练后的优化模型；

根据基于马尔可夫决策过程的决策模型输出车辆当前的控制指令；

根据所述训练后的优化模型优化所述控制指令。

在上述实现过程中，使用马尔可夫模型可以快速生成控制指令，马尔可夫生成的控制指令适用于多种交通场景，但是马尔可夫模型生成的控制指令过于机器化和理想化，直接基于马尔可夫模型输出的控制指令进行车辆控制容易导致车辆出现不礼貌驾驶行为，而训练后的人工智能导师机器学习模型能够准确模拟交通状况，因此根据训练后的人工智能导师机器学习模型生成的优化模型能够学习人类真实意图，避免自动驾驶的车辆出现不礼貌驾驶的行为。

从而对马尔可夫模型输出的控制指令进行优化。

进一步地，所述训练后的人工智能导师机器学习模型包括：显式干预机制；

所述方法还包括：利用以下方法对所述训练后的人工智能导师机器学习模型进行训练：

根据所述显式干预机制对应的开关函数在人工智能导师机器学习模型的训练过程中进行显式干预。

在上述实现过程中，基于开关函数可以在驾驶场景中输入人为诱导信号，从而使得该训练后的人工智能导师机器学习模型输出的模拟交通状态更加人性化，使得后续的优化模型可以更好反映人类操控意图，更好地优化控制指令，避免自动驾驶的车辆出现不礼貌驾驶的行为。

进一步地，所述根据所述显式干预机制对应的开关函数在人工智能导师机器学习模型的训练过程中进行显式干预，包括：

根据所述显式干预机制对应的开关函数输出的概率在人工智能导师机器学习模型的训练过程中利用人工诱导行为对模拟交通状态中的车辆进行干预。

在上述实现过程中，基于开关函数输出的概率在人工智能导师机器学习模型的训练过程中利用人工诱导行为对模拟交通状态中的车辆进行干预，从而使得该训练后的人工智能导师机器学习模型输出的模拟交通状态更加人性化，使得后续的优化模型可以更好反映人类操控意图，更好地优化控制指令，避免自动驾驶的车辆出现不礼貌驾驶的行为。

进一步地，所述训练后的人工智能导师机器学习模型，包括：隐式干预机制；

其中，隐式干预机制对应的函数是根据价值函数、干预信号的在训练过程的干预频率，干预信号对应的认知负荷，驾驶场景的交通流干扰程度确定的；

以最小化隐式干预机制对应的函数为目标对人工智能导师机器学习模型进行训练。

在上述实现过程中，提出了隐式干预值的计算方法，以最小的人类接管成本和交通流干扰来训练看不见的交通场景的车辆。通过最小化交通流干扰成本促进礼貌驾驶，避免突然刹车等行为。

进一步地，所述车辆运行公式包括：干扰车辆的速度确定公式和干扰车辆的加速度确定公式；

所述干扰车辆的速度确定公式和所述干扰车辆的加速度确定公式用于确定所述人工智能导师机器学习模型在训练过程中的干扰车辆的行驶状态。

进一步地，所述根据训练后的人工智能导师机器学习模型训练优化模型，得到训练后的优化模型，包括：

在训练过程中，通过最大化干预信号的期望值和干预信号的频率对初始化的优化模型进行优化，得到所述优化模型。

在上述实现过程中，生进一步地，所述基于马尔可夫决策过程的决策模型包括：

图像分割模型、多目标跟踪模型和马尔可夫决策过程模块、平均像素计算公式和跟踪精度公式；所述图像分割模型用于对环境图像进行分割，得到环境图像中的多个目标；所述多目标跟踪模型用于对所述图像分割模型输出的多部车辆的图像进行跟踪，得到跟踪数据；所述马尔可夫决策过程模块用于根据所述跟踪数据和车辆当前的相关数据输出控制指令；所述平均像素计算公式用于在所述图像分割模型的训练过程中评价所述图像分割模型的精度，所述跟踪精度公式用于在所述多目标跟踪模型的训练过程中评价所述多目标跟踪模型的跟踪性能。

在上述实现过程中，基于马尔可夫决策过程的决策模型由三部分构成，分别是分割模型、多目标跟踪模型和马尔可夫决策模型，实现了对驾驶画面的精细化提取，提高输出的控制指令的智能性。提出了生成图像分割模型的像素精度公式、所述多目标跟踪模型的跟踪精度公式，基于此，可以使得本方法的基于马尔可夫决策过程的决策模型准确输出控制指令。

第二方面，本申请实施例提供一种自动驾驶的控制指令优化装置，包括：模型生成模块，用于根据预先构建的车辆运行公式训练人工智能导师机器学习模型，得到训练后的人工智能导师机器学习模型，所述训练后的人工智能导师机器学习模型用于模拟交通状态；

模型训练模块，用于根据训练后的人工智能导师机器学习模型训练优化模型，得到训练后的优化模型；

控制指令输出模块，用于根据基于马尔可夫决策过程的决策模型输出车辆当前的控制指令；

优化模块，用于根据所述训练后的优化模型优化所述控制指令。

第三方面，本申请实施例提供一种电子设备，包括：存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如第一方面所述的方法。

第四方面，本申请实施例提供一种计算机可读存储介质，包括：所述计算机可读存储介质上存储有指令，当所述指令在计算机上运行时，使得所述计算机执行如第一方面任一项所述的方法。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的自动驾驶的控制指令优化方法；

图2为本申请实施例提供的自动驾驶的控制指令优化装置的结构示意图；

图3为本申请实施例提供的电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。同时，在本申请的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

参见图1，本申请实施例提供了一种自动驾驶控制指令的优化方法，包括：

S1：根据预先构建的车辆运行公式训练人工智能导师机器学习模型，得到训练后的人工智能导师机器学习模型，所述训练后的人工智能导师机器学习模型用于模拟交通状态；

S2：根据训练后的人工智能导师机器学习模型训练优化模型，得到训练后的优化模型和训练后的人工智能导师机器学习模型；

S3：根据基于马尔可夫决策过程的决策模型输出车辆当前的控制指令；

S4：根据所述训练后的优化模型优化所述控制指令。

本申请中，通过构建驾驶实例形成训练数据，驾驶实例中包括：驾驶场景，驾驶场景中的被测主车辆、干扰车辆。被测主车辆由训练后的人工智能导师机器学习模型控制，训练后的人工智能导师机器学习模型用于根据人类干预和/或被测主车辆的相关数据生成被测主车辆的控制指令。训练后的人工智能导师机器学习模型包括：自动驾驶算法，该自动驾驶算法用于根据被测主车辆的相关数据和干预信号生成被测主车辆的控制指令，该自动驾驶算法可以是神经网络或现有的相关模型等，在S1的训练过程和S2的训练过程中，当有干预信号输入时，人工智能导师机器学习模型将干预信号替换自动驾驶算法输出的控制指令。干扰车辆的运动状态由预先构建的车辆运行公式确定，被测主车辆上安装有多种虚拟传感器（激光雷达、图像传感器等），可用于获取被测主车辆的相关数据，训练后的人工智能导师机器学习模型根据传感器数据生成控制指令，并且学习测试实例和干预信号，最终能够模拟实时的交通状态。在一些实施例中，驾驶场景中可以包括：多辆被测主车辆。相关数据包括但不限于：当前被测主车辆周围的环境数据，被测主车辆的控制指令、被测主车辆的工作参数等。

S3和S4中控制指令指的是当前马尔可夫模型根据环境数据输出的控制指令，由于马尔可夫模型是根据大量预先标注数据经过训练得到的，在训练过程中没有人工干预信号，因此马尔可夫的决策过程输出的控制指令过于机械化，控制指令倾向于使当前车辆处于最优位置，较少考虑干扰车辆或其它车辆的安全性，因此，马尔可夫输出的控制指令缺少人性化。车辆在行驶过程中，训练好的马尔可夫模型根据当前车辆周围的环境数据生成适应于当前车辆周围的环境数据的控制指令。

本申请中，优化模型可以是神经网络。当被测主车辆由干预信号控制时，优化模型学习干预信号、当前被测主车辆的相关数据，当优化模型训练完成时，得到训练后的优化模型。

在一些实施例中，根据人类演示数据得到干预信号的方法如下：获取车辆当前的传感器数据，在至少一个人类演示数据中确定人类在当前的传感器数据下最有可能的控制指令，将开控制指令作为干预信号直接控制车辆。

在一些实施例中，在至少一个人类演示数据中确定人类在当前的传感器数据和环境数据下最有可能的控制指令包括：根据车辆当前的传感器数据在人类演示数据中获取相似度最高的人类驾驶车辆的传感器数据，将相似度最高的人类驾驶车辆的传感器数据对应的人类驾驶动作确定为干预信号。

可以理解的是，干预信号是直接根据人类演示数据得到或用户直接输入的。

在一些实施例中，可以根据以下方法创建测试实例进行训练：使用PanoSim软件构建PanoSim实例并运行，该实例使用智能型驾驶员模型。智能型驾驶员模型（xDriver）支持xCar和CarSim两类动力学模型，包含感知、定位、决策、规划和控制模块（横向控制和纵向控制），具备自适应巡航、避让行人、换道、识别交通信号灯和通过路口等功能。使用智能型驾驶员模型，需首先在“Agent”中添加xDriver。添加方法为：1.左键PanoSim界面点击“Agent”按钮；2.在右侧“AgentDataSet”中找到xDriver；3.将xDriver拖动到PanoSim界面的区域。智能型驾驶员模型具备协作开发能力，用户可以将“决策规划”、“横向控制”和“纵向控制”中的任意模块切换为用户的算法，而不会影响其他模块的运行。如果用户要将xDriver的部分模块切换成用户算法，首先需要关闭对应模块。xDriver包括“LongControlSwitch”、“LatControlSwitch”和“PlannerSwitch”三个参数，分别代表“纵向控制模块”、“横向控制模块”和“决策规划模块”。将相关参数设置为“On”时，xDriver中对应模块正常运行；当设置为“Off”时，xDriver中对应模块停止运行，将切换为用户算法。在对应中添加自动驾驶算法和优化模型。

同时，在构建实例的过程中，用户需要实现三个标准回调函数，ModelStart在实验开始时调用；ModelOutput在实验运行中反复调用，最高调用频率为10ms；ModelTerminate在实验结束时调用，在ModelOutput中实现将人类干扰信号输入到车辆的控制逻辑，完成输入控制信号。通过上述方法生成不同的实例，不同的实例对应不同的驾驶场景，当达到训练结束条件时（如优化模型的迭代次数超过阈值、实例运行时间超过时间阈值）停止仿真，得到训练后的优化模型。

在一些实施例中，可以通过以下方式输入干预信号：在ModelOutput中添加每隔预设时间接收人类直接输入的干预信号的逻辑。此时仿真暂停，工程师或实验驾驶员根据当前仿真场景输入干预信号，优化模型此时获取当前自动驾驶算法输出的控制指令、当前车辆的环境数据以及干预信号，根据优化模型对自身进行更新。

在上述实现过程中，使用马尔可夫模型可以快速生成控制指令，马尔可夫生成的控制指令适用于多种交通场景，但是马尔可夫模型生成的控制指令过于机器化和理想化，直接基于马尔可夫模型输出的控制指令进行车辆控制容易导致车辆出现不礼貌驾驶行为，而训练后的人工智能导师机器学习模型能够准确模拟交通状况，优化模型能够学习人类真实意图，从而对马尔可夫模型输出的控制指令进行优化。

在一些实施例中，所述训练后的人工智能导师机器学习模型包括：显式干预机制；所述方法还包括：利用以下方法对所述训练后的人工智能导师机器学习模型进行训练：根据所述显式干预机制对应的开关函数在人工智能导师机器学习模型的训练过程中进行显式干预。

在一些实施例中，在PanoSim实例的构建过程中，在ModelOutput中实现以下逻辑：判断当前是否调用开关函数进行显式干预，若是，根据所述显式干预机制对应的开关函数在人工智能导师机器学习模型的训练过程中输入干预信号。

在一些实施例中，判断当前是否调用开关函数进行显式干预包括；判断当前距离上次调用开关函数进行显式干预的时间间隔是否超过预设阈值。

示例性地，ModelOutput每隔被10ms被调用，任意两次调用开关函数的时间间隔是2s，则PanoSim每调用200次ModelOutput，开关函数被执行一次。

在一些实施例中，响应于用户输入的停止仿真信号，接收用户输入的干预信号，响应于用户输入的继续仿真信号，根据干预信号控制被测主车辆行驶。

示例性地，用户在PanoSim实例仿真过程中暂停仿真，并且在控制台输入控制信号，ModelOutput在每次调用时判断控制台是否有用户输入干预信号，若有，ModelOutput根据该干预信号控制被测主车辆。

在一些实施例中，所述根据所述显式干预机制对应的开关函数在人工智能导师机器学习模型的训练过程中进行显式干预，包括：根据所述显式干预机制对应的开关函数输出的概率在人工智能导师机器学习模型的训练过程中利用人工诱导行为对模拟交通状态中的车辆进行干预。

示例性地，开关函数如下：；

其中，表示是否利用人类诱导行为进行显式干预的概率，/>表示车辆在/>时刻的动作，/>为第一概率函数，/>为第二概率函数，/>为车辆预设的车辆动作集合，车辆动作包括：加速度、车辆转向、车辆当前的超车次数等。上述公式表示，当车辆在/>时刻的动作/>属于/>时，利用第一概率函数来确定根据诱导行为对车辆进行干预的概率，当车辆在/>时刻的动作/>不属于/>时，利用第二概率函数来确定根据诱导行为对车辆进行干预的概率。

在一些实施例中，所述训练后的人工智能导师机器学习模型，包括：隐式干预机制；其中，隐式干预机制对应的函数是根据价值函数、干预信号的在训练过程的干预频率，干预信号对应的认知负荷，驾驶场景的交通流干扰程度确定的；所述方法还包括：利用以下方法对所述训练后的人工智能导师机器学习模型进行训练：以最小化隐式干预机制对应的函数为目标对人工智能导师机器学习模型进行训练。

在一些实施例中，；

其中，为隐式干预值函数，/>表示最小化的价值函数，/>表示干预信号在训练过程的干预频率，/>表示干预信号对应的认知负荷，/>为交通流干扰程度，/>为所述隐式干预值，S为车辆状态，车辆状态包括：车辆当前速度、位置等。

干预信号对应的认知负荷标识干预信号输入之后车辆的状态和车辆的动作的改变程度大小，在一些实施例中，为了便于计算，可以用同一时刻干预信号和智能驾驶算法输入的驾驶信号的差异程度替代；交通流干扰程度可以为固定值，即当前PanoSim实例中设置的交通流密度，也可以根据驾驶场景中所有车辆的状态变化次数和动作变化次数生成，变化次数越多的，交通流干扰程度越大；干预信号在训练过程的干预频率为干预信号在固定时间内的作用次数，价值函数的设置方法和求解方法是现有技术，这里不再赘述。

在一些实施例中，所述车辆运行公式包括：干扰车辆的速度确定公式和干扰车辆的加速度确定公式；

干扰车辆的平均速度公式如下：

；

其中，为干扰车辆的平均速度，/>为当前驾驶场景中干扰车辆的数量，/>为第干扰车辆在上一速度更新时刻的速度，/>为第/>干扰车辆在上一速度更新时刻的状态，为第/>干扰车辆在上一速度更新时刻的车辆动作；

在一些实施例中，可以表示为，当/>在更新间隔内的变化次数小于第一预设阈值，且/>在更新间隔内的变化次数小于第二预设阈值时，则=/>，否则根据预设随机函数调整/>。

驾驶场景中干扰车辆的加速度计算公式如下：

；

其中，为第/>干扰车辆的加速度；/>为第/>干扰车辆和第/>干扰车辆的相对距离，/>为第/>辆干扰车辆和第/>干扰车辆的相对速度，/>为第/>干扰车辆的速度。

在一些实施例中，每隔预设时间根据干扰车辆的平均速度重新随机调整干扰车辆的速度，根据干扰车辆的加速度计算公式调整车辆的加速度之后重新仿真。基于此，可以避免频繁构建测试实例的情况下增加训练数据，并且使得训练数据具有连贯性。

可以理解的是，训练后的人工智能导师机器学习模型包括：干扰车辆的速度确定公式和干扰车辆的加速度确定公式，训练后的人工智能导师机器学习模型在训练过程中每隔预设时间更新测试示例中的干扰车辆的状态。

在上述实现过程中，提出了车辆的加速度计算公式，加速度计算公式充分考虑了多种因素，使得训练后的人工智能导师机器学习模型可以准确模拟实际的交通状态，便于后续生成的优化模型可以准确学习人类的驾驶行为。

在一些实施例中，所述根据训练后的人工智能导师机器学习模型训练优化模型，得到训练后的优化模型，包括：在训练过程中，通过最大化干预信号的期望值和干预信号的频率对初始化的优化模型进行优化，得到所述优化模型。

优化模型可以是神经网络等，本申请对此不做具体限制。

在一些实施例中，干预信号的期望值可以通过用户在固定时间内的不礼貌行为的次数生成。

在一些实施例中，不礼貌行为包括：频繁超车、频繁变道、频繁加速等。

在一些实施例中，所述基于马尔可夫决策过程的决策模型包括：

图像中的多个目标可以是道路、树木、车辆、行人等。

平均像素精度，其公式表示形式为：

；

其中，目标种类数量，/>为第/>个目标种类中被正确分类的像素数量，/>是第/>个目标种类总的像素数量。

模型的多目标跟踪精度，其中多目标跟踪精度为一种用于多个对象跟踪的度量，其公式形式为：

；

其中，表示在第/>帧中的误报数量、/>表示第/>帧中的丢失目标数量，/>表示第/>帧中的跟踪目标的标识异常变化的数量，/>表示在第/>帧中实际的跟踪目标数量。的值越高，表示跟踪模型的性能越好。

在训练过程中，通过平均像素精度可以对图像分割模型进行调整，通过多目标跟踪精度可以对多目标跟踪模型进行调整。

参见图2，本申请实施例提供一种自动驾驶的控制指令优化装置，包括：模型生成模块1，用于根据预先构建的车辆运行公式训练人工智能导师机器学习模型，得到训练后的人工智能导师机器学习模型，所述训练后的人工智能导师机器学习模型用于模拟交通状态；模型训练模块2，用于根据训练后的人工智能导师机器学习模型训练优化模型，得到训练后的优化模型；控制指令输出模块3，用于根据基于马尔可夫决策过程的决策模型输出车辆当前的控制指令；优化模块4，用于根据所述训练后的优化模型优化所述控制指令。

装置还用于执行方法实施例所述的方法，这里不再赘述。

本申请还提供一种电子设备，请参见图3，图3为本申请实施例提供的一种电子设备的结构框图。电子设备可以包括处理器31、通信接口32、存储器33和至少一个通信总线34。其中，通信总线34用于实现这些组件直接的连接通信。其中，本申请实施例中电子设备的通信接口32用于与其他节点设备进行信令或数据的通信。处理器31可以是一种集成电路芯片，具有信号的处理能力。

上述的处理器31可以是通用处理器，包括中央处理器(CPU，CentralProcessingUnit)、网络处理器(NP，NetworkProcessor)等；还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器31也可以是任何常规的处理器等。

存储器33可以是，但不限于，随机存取存储器（RAM，RandomAccessMemory），只读存储器（ROM，Read Only Memory），可编程只读存储器（PROM ，Programmable Read-OnlyMemory），可擦除只读存储器（EPROM ，Erasable Programmable Read-Only Memory），电可擦除只读存储器（EEPROM ，Electric Erasable Programmable Read-Only Memory）等。存储器33中存储有计算机可读取指令，当所述计算机可读取指令由所述处理器31执行时，电子设备可以执行上述方法实施例涉及的各个步骤。

可选地，电子设备还可以包括存储控制器、输入输出单元。

所述存储器33、存储控制器、处理器31、外设接口、输入输出单元各元件相互之间直接或间接地电性连接，以实现数据的传输或交互。例如，这些元件相互之间可通过一条或多条通信总线34实现电性连接。所述处理器31用于执行存储器33中存储的可执行模块，例如电子设备包括的软件功能模块或计算机程序。

输入输出单元用于提供给用户创建任务以及为该任务创建启动可选时段或预设执行时间以实现用户与服务器的交互。所述输入输出单元可以是，但不限于，鼠标和键盘等。

可以理解，图3所示的结构仅为示意，所述电子设备还可包括比图3中所示更多或者更少的组件，或者具有与图3所示不同的配置。图3中所示的各组件可以利用硬件、软件或其组合实现。

本申请实施例还提供一种存储介质，所述存储介质上存储有指令，当所述指令在计算机上运行时，所述计算机程序被处理器执行时实现方法实施例所述的方法，为避免重复，此处不再赘述。

本申请还提供一种计算机程序产品，所述计算机程序产品在计算机上运行时，使得计算机执行方法实施例所述的方法。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本申请的实施例而已，并不用于限制本申请的保护范围，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应所述以权利要求的保护范围为准。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims

1.一种自动驾驶的控制指令优化方法，其特征在于，包括：

根据所述训练后的优化模型优化所述控制指令；

所述训练后的人工智能导师机器学习模型包括：显式干预机制；

根据所述显式干预机制对应的开关函数在人工智能导师机器学习模型的训练过程中进行显式干预；

所述根据所述显式干预机制对应的开关函数在人工智能导师机器学习模型的训练过程中进行显式干预，包括：

根据所述显式干预机制对应的开关函数输出的概率在人工智能导师机器学习模型的训练过程中利用人工诱导行为对模拟交通状态中的车辆进行干预；

所述训练后的人工智能导师机器学习模型，包括：隐式干预机制；

2.根据权利要求1所述的自动驾驶的控制指令优化方法，其特征在于，所述车辆运行公式包括：干扰车辆的速度确定公式和干扰车辆的加速度确定公式；

3.根据权利要求1所述的自动驾驶的控制指令优化方法，其特征在于，

所述根据训练后的人工智能导师机器学习模型训练优化模型，得到训练后的优化模型，包括：

4.根据权利要求1所述的自动驾驶的控制指令优化方法，其特征在于，所述基于马尔可夫决策过程的决策模型包括：

图像分割模型、多目标跟踪模型和马尔可夫决策过程模块、平均像素计算公式和跟踪精度公式；所述图像分割模型用于对车辆的环境图像进行分割，得到环境图像中的多个目标；所述多目标跟踪模型用于对所述图像分割模型输出的多部车辆的图像进行跟踪，得到跟踪数据；所述马尔可夫决策过程模块用于根据所述跟踪数据和车辆当前的相关数据输出控制指令；所述平均像素计算公式用于在所述图像分割模型的训练过程中评价所述图像分割模型的精度，所述跟踪精度公式用于在所述多目标跟踪模型的训练过程中评价所述多目标跟踪模型的跟踪性能。

5.一种自动驾驶的控制指令优化装置，其特征在于，包括：

模型生成模块，用于根据预先构建的车辆运行公式训练人工智能导师机器学习模型，得到训练后的人工智能导师机器学习模型，所述训练后的人工智能导师机器学习模型用于模拟交通状态；

优化模块，用于根据所述训练后的优化模型优化所述控制指令；

装置还用于利用以下方法对所述训练后的人工智能导师机器学习模型进行训练：

6.一种电子设备，其特征在于，包括：存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1-4任一项所述的方法。

7.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有指令，当所述指令在计算机上运行时，使得所述计算机执行如权利要求1-4任一项所述的方法。