CN112052776B

CN112052776B - 无人车自主驾驶行为优化方法、装置和计算机设备

Info

Publication number: CN112052776B
Application number: CN202010901327.1A
Authority: CN
Inventors: 史美萍; 吴涛; 陈杰; 刘大学
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2020-09-01
Filing date: 2020-09-01
Publication date: 2021-09-10
Anticipated expiration: 2040-09-01
Also published as: CN112052776A

Abstract

本申请涉及一种无人车自主驾驶行为优化方法、装置和计算机设备。所述方法包括：获取车辆行驶的状态信息，输入预先训练的自主驾驶模型得到控制车辆行驶的决策行为信息，获取车辆行驶的第一图像序列，输入预先训练的车辆行为预警模型得到危险评估值。通过人机协同方式获取用户的反馈信息，根据反馈信息判断车辆行为预警模型输出的危险评估值是否准确，当危险评估值不准确时，重新生成新的标签值，对车辆行为预警模型进行修正；当危险评估值准确时，输出对车辆驾驶行为的即时奖励值，根据车辆的状态信息、决策行为信息和车辆在第一图像序列下的即时奖励值，对自主驾驶模型进行优化训练，利用优化好的自主驾驶模型进行车辆驾驶行为决策。

Description

无人车自主驾驶行为优化方法、装置和计算机设备

技术领域

本申请涉及无人驾驶技术领域，特别是涉及一种无人车自主驾驶行为优化方法、装置和计算机设备。

背景技术

深度强化学习是当今人工智能技术非常具有代表性的一张名片。以深度强化学习为核心的计算机围棋程序AlphaGo、Alpha Zero已经能够彻底碾压人类最高水平的职业棋手。尽管深度强化学习在很多方面展现出了非常大的潜力，但是深度强化学习在无人驾驶方面的应用跟其它领域比较起来，显得并不突出。

导致出现这种状况的原因，是因为深度强化学习的训练过程本质上是一个不断试错的过程。它在训练阶段需要搜集无人车在各种不同状态下可能做出的各种决策行为，并根据这些行为的后果确定相应的奖惩值。而在真实场景中，无人车要遍历出各种行为就必然会面临碰撞等严重的安全风险。因此，深度增强学习往往在虚拟环境中能够有效提升无人车的行为决策，但是在真实环境中的表现就变得不尽如人意。

因此，现有的无人车自主驾驶技术存在场景迁移性差，误差大，学习效率低的问题。

发明内容

基于此，有必要针对上述技术问题，提供一种能够解决无人车自主驾驶系统场景迁移性差，误差大，学习效率低的问题的方法、装置、计算机设备和存储介质。

一种无人车自主驾驶行为优化方法，所述方法包括：

获取第一场景中车辆行驶的状态信息，将所述状态信息输入预先训练的自主驾驶模型，得到控制车辆行驶的决策行为信息；所述自主驾驶模型是通过监督学习或增强学习得到；所述决策行为信息包括转向控制命令和速度控制命令；

无人车根据所述决策行为信息在第一场景中运动；

获取第一场景中车辆行驶的第一图像序列，将所述第一图像序列输入预先训练的预警模型，得到危险评估值；所述预警模型是通过第二场景中获取的第二图像序列作为样本训练得到；

根据所述危险评估值，得到车辆的预警类型；

通过人机协同方式获取用户的反馈信息，当所述预警类型与所述反馈信息不匹配时，根据所述危险评估值，生成所述第一图像序列对应的标签值；根据所述第一图像序列以及所述标签值，对所述预警模型进行修正，利用所述修正后的预警模型计算危险评估值并对车辆驾驶行为进行预警；

当所述预警类型与所述反馈信息相匹配时，根据所述危险评估值，生成对车辆驾驶行为的即时奖励值；

根据所述状态信息、所述决策行为信息和车辆在所述第一图像序列下对应的即时奖励值，对所述自主驾驶模型进行优化，利用所述优化后的自主驾驶模型进行车辆驾驶行为决策。

在其中一个实施例中，还包括：获取第一场景中车辆行驶的第一图像序列；所述第一图像序列是按照设定步长从拍摄的视频数据中采集得到的。

在其中一个实施例中，还包括：从第二场景中获取第二图像序列；

采用专家打分或根据车辆当前的行驶参数，确定第二图像序列对应的样本标签；根据所述第二图像序列和所述样本标签训练得到车辆行为预警模型。

在其中一个实施例中，还包括：计算预设时间内得到的危险评估值的平均值和方差；当平均值大于等于第一阈值，或平均值小于第一阈值，且方差大于第二阈值，得到的预警类型为报警；或者在预设时间内，采集到的危险评估值呈递增趋势，得到的预警类型为报警。

在其中一个实施例中，还包括：反馈信息包括：动作信息和不动作信息；报警信息与动作信息匹配；不报警信息与所述不动作信息匹配。

在其中一个实施例中，还包括：获取预警类型和反馈信息；若预警类型为报警，反馈信息为不动作信息，修正危险评估值为

其中

表示修正后的危险评估值；

表示修正之前的危险评估值；ΔY表示预设的修正值；若预警类型为不报警，反馈信息为动作信息，修正危险评估值为

在其中一个实施例中，还包括：获取预警类型和反馈信息；若预警类型为报警，反馈信息为动作信息，生成车辆驾驶行为的即时奖励值为：

其中

表示当前危险评估值，k_d表示危险评估值转换系数。

一种无人车自主驾驶行为优化装置，所述装置包括：

状态信息和决策行为信息获取模块，用于获取第一场景中车辆行驶的状态信息，将状态信息输入预先训练的自主驾驶模型，得到控制车辆行驶的决策行为信息。

预警模型优化模块，用于根据第一场景下的第一图像序列得到危险评估值，通过人机交互的方式得到用户的反馈信息，如果用户的反馈信息表明危险评估值不准确，调整危险评估值，生成第一图像序列对应的标签值，根据所述第一图像序列以及所述标签值，对所述预警模型进行修正，利用所述修正后的预警模型计算危险评估值并对车辆行为进行预警；如果用户的反馈信息表明危险评估值准确，根据危险评估值生成对车辆驾驶行为的即时奖励值；

自主驾驶模型优化模块，用于根据状态信息、所述决策行为信息和车辆在第一图像序列下对应的即时奖励值，对自主驾驶模型进行优化，利用优化后的自主驾驶模型进行车辆驾驶行为决策。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

无人车根据所述决策行为信息在第一场景中运动；

根据所述危险评估值，得到车辆的预警类型；

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

无人车根据所述决策行为信息在第一场景中运动；

根据所述危险评估值，得到车辆的预警类型；

上述无人车自主驾驶行为优化方法、装置和计算机设备，通过获取第一场景中车辆行驶的状态信息，输入到预先训练的自主驾驶模型得到控制车辆行驶的决策行为信息，由于自主驾驶模型是通过监督学习或增强学习预先训练得到，因此，当无人车在第一场景中运动时，由预先训练的自主驾驶模型得到的决策行为信息不一定合理；同时，通过获取第一场景中车辆行驶的第一图像序列，将第一图像序列输入预先训练的车辆行为预警模型，得到危险评估值，由于车辆行为预警模型是在第二场景中训练的，因此，对于第一场景中的第一图像序列，其输出的危险评估值也不一定准确。鉴于此，通过人机协同方式获取用户的反馈信息，根据用户的反馈信息判断车辆行为预警模型输出的危险评估值是否准确，当危险评估值不准确的时候，调整第一图像序列对应的标签值，通过第一图像序列和重新生成的标签值，对车辆行为预警模型进行修正，再利用修正后的预警模型计算危险评估值并对车辆行为进行预警；当用户的反馈信息表明车辆行为不合理但危险评估值准确时，将预警模型输出的危险评估值转换为车辆驾驶行为的即时奖励值，再根据车辆当前的状态信息、决策行为信息和车辆在第一图像序列下对应的即时奖励值，对自主驾驶模型进行优化，并利用优化后的自主驾驶模型进行车辆驾驶行为决策。由于加入了用户的反馈信息，使得车辆行为预警模型和无人车自主驾驶模型均可以安全地在第一场景中进行迭代式的优化训练，逐渐完成无人车自主驾驶模型应用场景的转换，场景迁移性好，大大提高了无人车自动驾驶模型的渐进学习能力和学习效率。

附图说明

图1为一个实施例中无人车自主驾驶行为优化方法的流程示意图；

图2为一个实施例中危险评估模型的示意图；

图3为一个实施例中生成标签值方式的示意图；

图4为一个实施例中无人车自主驾驶行为优化模型的示意图；

图5为一个实施例中无人车自主驾驶行为优化方法的结构框图；

图6为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的无人车自主驾驶行为优化方法，可以应用于如下应用环境中，定义第一场景是车辆实际行驶的场景，第二场景是车辆行为预警模型预训练的场景。车辆在第二场景中进行预警模型的训练后，行驶于第一场景中，由预先训练的无人车自主驾驶模型根据车辆的状态得到控制车辆行驶的决策行为，同时由车辆行为预警模型得到危险评估值，对车辆驾驶行为进行预警；用户根据车辆行驶状况作出反馈信息，如果用户的反馈信息表明危险评估值不准确，则调整危险评估值，生成第一图像序列对应的新的标签值，把第一图像序列和其对应的标签值加入车辆行为预警模型训练的样本库，再对车辆行为预警模型进行修正，利用修正后的预警模型计算危险评估值并对车辆行为进行预警；如果用户的反馈信息表明危险评估值准确但车辆行为不合理，则根据此时的危险评估值生成对车辆驾驶行为的即时奖励值，并根据车辆行驶的状态信息、决策行为信息，以及即时奖励值对无人车自主驾驶模型进行优化，再利用优化后的无人车自主驾驶模型进行车辆驾驶行为决策，如此反复，直到车辆行为预警模型和无人车自主驾驶模型在第一场景中均具有较好的准确度。

在一个实施例中，如图1所示，提供了一种无人车自主驾驶行为优化方法，以该方法应用于行驶车辆为例进行说明，包括以下步骤：

步骤102，获取第一场景中车辆行驶的状态信息，将状态信息输入预先训练的自主驾驶模型，得到控制车辆行驶的决策行为信息。

自主驾驶模型是通过监督学习或增强学习得到；决策行为信息包括转向控制命令和速度控制命令；

车辆行驶的状态信息包括车载前视道路场景图像、车辆行驶速度、转向角度、执行任务类别以及是否发生碰撞等准确、可测量的状态量。

车辆行驶的状态信息会影响对车辆的行为决策，因此，将状态信息输入预先训练的自主驾驶模型，可以得到控制车辆行驶的决策行为信息。

步骤104，无人车根据决策行为信息在第一场景中运动。

具体的，控制车辆行驶的决策行为信息包括转向控制命令和速度控制命令，通过转向控制命令和速度控制命令可以进行无人车的底层伺服控制，实现无人车在实际场景中的运动。

步骤106，获取第一场景中车辆行驶的第一图像序列，将第一图像序列输入预先训练的车辆行为预警模型，得到危险评估值；车辆行为预警模型是通过第二场景中获取的第二图像序列作为样本训练得到。

车辆行为预警模型可以是基于神经网络的模型。车辆行为预警模型的训练是在交付用户使用之前完成，训练的过程包括：面向虚拟仿真环境或真实交通环境，在不同天气和不同路况条件下，利用车载前视相机采集车辆在不同驾驶行为下的场景图像，其中驾驶行为可以是遥控产生也可以是车辆自主产生，再在场景图像中选取设定帧数的图像序列，通过专家打分或者根据车辆当前的行驶参数得到代表图像序列危险值的标签值，图像序列和与图像序列对应的标签值，构成车辆行为预警模型训练的一个样本。在一个场景中的多个图像序列和对应的标签值构成的多个样本，构成车辆行为预警模型训练的样本集，用样本集对车辆行为预警模型进行训练，直到训练完成。

步骤108，根据危险评估值，得到车辆的预警类型。

预警类型可以包括与前车碰撞报警、行人碰撞报警、车距过近报警、车道偏离报警、盲区检测报警、交通识别报警等。车辆报警的情形可以有行驶车辆与前车或者行人距离小于安全距离、车辆偏移且车速使得车辆有冲出道路的风险，侧方和后方车辆距离过近，检测到盲区有行人或移动物体，检测到交通标志但当前车速使车辆存在违规风险等，在这些情形下，车辆报警。当模型判断车辆行驶没有安全风险时，车辆不报警。根据车辆速度、车辆相对于道路的偏移角度、车与障碍物的距离等判断风险级别，可以根据风险级别给予不同级别的报警，例如根据风险级别不同，报警的声音频率不同，还可以同时进行语音和视觉显示提示。

步骤110，通过人机协同方式获取用户的反馈信息，当预警类型与反馈信息不匹配时，根据危险评估值，生成第一图像序列对应的标签值。

人机协同的方式是指，当车辆做出预警，用户可以通过车辆的显示屏、方向盘、刹车等装置作出控制车辆的反应，比如转弯，减速，紧急停车，触摸显示屏解除报警等。预警类型与反馈信息不匹配的情形可以是车辆发出预警，但用户没有作出解除能解除预警的行为，如转弯，减速，紧急停车等。

根据危险评估值，生成第一图像序列对应的标签值，如果预警模型报警，但用户没有作出解除能解除预警的行为，说明表征危险的危险评估值偏大，需要减小标签值；如果预警模型没有报警，但用户采取了紧急措施，如刹车，减速，转弯等，说明危险评估值偏小，需要增大标签值。修正第一图像序列对应的标签值可以是线性比例改变，也可以是加减一个预设值实现，其中修改比例和预设值可以由用户调整。

在第一场景中获取多个图像序列，分别由预警模型进行预警，结合用户的反馈信息，将判断不准确的图像序列和其对应的标签值加入到预警模型的训练样本库，对预警模型进行修正，如此反复，直到预警模型对第一场景的车辆行为预警具有较高的准确度。

步骤112，当预警类型与反馈信息匹配时，根据所述危险评估值，生成对车辆驾驶行为的即时奖励值。

如果预警模型报警且用户认为报警合理，说明预警模型输出的危险评估值合适，预警准确，但自主驾驶模型给出的决策行为不合理，用户的反馈信息表明需要用户采取和预警匹配的动作使车辆解除报警，说明自主驾驶模型还不能很好地适应当前的道路场景，此时，可将当前的危险评估值转换为对车辆驾驶行为的即时奖励值，并把当前的车辆状态信息、决策行为信息和第一图像序列对应的即时奖励值作为样本对无人车自主驾驶模型进行优化训练。通过优化样本对无人车自主驾驶模型进行训练，训练效率高，训练完成后得到的无人车自主驾驶模型的准确度更好。

步骤114，根据所述状态信息、所述决策行为信息和车辆在所述第一图像序列下对应的即时奖励值，对所述无人车自主驾驶模型进行优化，利用所述优化后的无人车自主驾驶模型进行车辆驾驶行为决策。

无人车自主驾驶模型是基于Actor-Critic网络结构的DDPG模型。将车辆行驶过程转化为马尔可夫决策过程，采用强化学习方式求解车辆驾驶决策。Critic网络为价值网络，负责估计在状态s执行动作a的累计奖励期望值Q(s,a)，Critic网络输入为状态s和动作a，输出为Q(s,a)；Actor网络为策略网络，是对最优动作策略π(s)的逼近，通过状态s选择能使Q(s,a)最大化的动作a，输入为状态s，输出为动作a。DDPG模型的一个训练样本＜s_t,a_t,r_t,s_t+1＞表示的是在状态s_t下执行动作a_t后，动作执行完后下一个时刻的状态为s_t+1，获得的奖励值为r_t，用多个样本构成的训练样本集对模型进行训练，直到无人车自主驾驶模型能够合理准确地进行驾驶行为决策。

上述无人车自主驾驶行为优化方法中，通过获取第一场景中车辆行驶的状态信息，输入到预先训练的无人车自主驾驶模型，得到控制车辆行驶的决策行为信息，由于自主驾驶模型是通过监督学习或增强学习预先训练得到，因此，当无人车在第一场景中运动时，由预先训练的自主驾驶模型得到的决策行为信息不一定合理；同时，获取第一场景中车辆行驶的第一图像序列，将第一图像序列输入预先训练的车辆行为预警模型，得到危险评估值，由于车辆行为预警模型是在第二场景中训练的，因此，对于第一场景中的第一图像序列，其输出的危险评估值也不一定准确。为此，通过人机协同方式获取用户的反馈信息，根据用户的反馈信息判断车辆行为预警模型输出的危险评估值是否准确，当危险评估值不准确的时候，调整第一图像序列对应的标签值，通过第一图像序列和重新生成的标签值，对车辆行为预警模型进行修正，利用修正后的预警模型计算危险评估值并对车辆行为进行预警；当危险评估值准确但车辆行为不合理时，将车辆行为预警模型输出的危险评估值转换为对车辆驾驶行为的即时奖励值，再根据车辆的状态信息、决策行为信息和车辆在第一图像序列下对应的即时奖励值，对自主驾驶模型进行优化训练，利用优化后的自主驾驶模型进行车辆驾驶行为决策。由于加入了用户的反馈信息，使得车辆行为预警模型和无人车自主驾驶模型均可以安全地在第一场景中进行优化，逐渐完成无人车自主驾驶模型应用场景的转换，场景迁移性好，大大提高了无人车自动驾驶优化模型的渐进学习能力和学习效率。

在其中一个实施例中，第一图像序列是按照设定步长从拍摄的视频数据中采集得到的。设定步长可以以时间作为步长，也可以以图像帧数作为步长，图像采集可以是连续的，也可以是不连续的。同时，采集的多个图像序列可以部分重叠，也可以完全不重叠。

具体的，假设视频数据有100帧，依次称为第0、第1、第2…第n…第99帧，如果一个图像序列采集5帧，采集图像序列中下一个图像的步长间隔称为第一采集步长，当设置第一采集步长为1帧时，采集到的图像是第0、第1、第2、第3、第4帧，这样的采集称为连续采集；当设置第一采集步长为5帧时，采集到的图像是第0、第5、第10、第15、第20帧，这样的采集称为不连续采集。

采集多个图像序列时，如果一个序列采集5帧，第一图像序列从第0帧开始，采集下一个图像序列的步长间隔称为第二采集步长，那么当第二采集步长小于5帧的时候，采集到的多个图像序列部分重叠；当第二采集步长大于或者等于5帧的时候，采集到的多个图像序列完全不重叠。

在其中一个实施例中，预警模型为神经网络模型，根据第一图像序列得到危险评估值的步骤，如图2所示，包括：将所述第一图像序列中的帧图像分别输入车辆行为预警模型中的卷积神经网络，并将卷积神经网络的处理结果输出至车辆行为预警模型的卷积LSTM网络，由车辆行为预警模型的全连接层输出危险评估值。

具体的，卷积层可以采用VGG16BN网络前6层和对应的预训练参数，通过卷积层提取的特征，输入到双层卷积LSTM网络提取图像间的时序特征，时序特征经过全连接层后输出评估奖励，作为危险评估值。

对于一个驾驶场景，用多帧图像及其标签作为神经网络模型的输入，相比于用单帧图像及其标签对神经网络模型进行训练，可以减小场景图像信息的噪声，使场景识别更加细致，预警结果更加准确。

在一个实施例中，通过第二场景中获取的第二图像序列作为样本训练得到车辆行为预警模型。样本信息包括图像序列及和图像序列对应的样本标签值。样本标签值可以采用专家打分或根据车辆当前的行驶参数获得。

具体的，确定神经网络模型输入层的节点数为m，按照一定规律依次从第二场景图像中选取m帧图像序列，作为神经网络模型的输入信息

并通过专家打分或根据车辆当前的行驶参数的方式获得可以表征车辆驾驶危险程度的标签值Y_t，以此形成车辆驾驶危险性评估模型的初始训练样本集，记为

根据车辆当前的行驶参数的方式获得标签值Y_t，一种简单可行的标签值获取方式为：对于m帧的图像序列，如图3所示，利用第m帧图像呈现的“车-路”关系，即图像中车辆偏移期望行驶轨迹的横向偏移量Δd，以及车辆当前朝向与最佳朝向的夹角Δθ，计算得到车辆当前位姿与期望行驶轨迹的偏离度，以此作为表征车辆驾驶危险程度的标签值Y_t，其中，最佳朝向是车辆到期望行驶轨迹前方N＝10米处的目标点方向。

Y_t＝k₁*Δd+k₂*Δθ (1)

其中k₁、k₂为系数。

具体的，可将车辆驾驶危险性评估值量化成一个[0,10]区间的分数，其中横向偏移量Δd和夹角Δθ分别占50％的权重。侧移方面，假如在所选道路上，车辆在正常行驶车道内最大侧移量为3m，则车辆侧移量Δd为3m时对应分数为5分，侧移量Δd为0m时对应分数为0分，中间按照线性关系递推，此时

朝向方面，取Δθ为90°时对应分数为5分，Δθ为0°的时候对应分数为0分，中间按照线性关系递推，此时

最后将两者相加得到[0,10]区间内的综合分数，即此时样本对应的标签。

具体的，根据车辆当前的行驶参数获得样本标签值可通过如下另一种方式获得：

其中α_t、α_t-1分别表示t时刻和t-1时刻的转向角度，α_T表示转向角度变化最大阈值，k_αmax(|α_t-α_t-1|-α_T,0)表示前后两次转向变化过大时对应的危险性评估值，k_α为转换系数；α_(C,t)为执行任务类别C时对应的参考转向，k_C|α_t-α_(C,t)|表示车辆在每个任务类别下转向角度与参考角度差距过大时对应的危险性评估值，k_C为转换系数；v_t表示当前行驶速度，v_T表示最佳的期望行驶速度，k_v|v_t-v_T|表示车辆当前速度和期望速度差距过大时对应的危险性评估值，k_v为转换系数；Co表示碰撞检测标志，k_CoCo表示车辆发生碰撞时对应的危险性评估值，k_Co转换系数。

以上参数作为车辆行驶状态的指标，可以表征车辆行驶的危险程度，根据这些参数得到Y_t是获得样本标签值的另一方式。

在其中一个实施例中，可以使用道路场景图像的语义分割图像作为预警模型和/或无人车自主驾驶模型的输入信息，以减少虚拟场景与真实场景间的差异性。第一图像序列和预警模型和/或无人车自主驾驶模型在预训练时使用的第二图像序列的图像格式必须保持一致，如果用于训练的第二图像序列是语义分割图像，那么第一图像序列也必须对应地转换成语义分割图像。

具体的，可以采用自动驾驶仿真平台CARLA来构建虚拟道路场景，同时为预警模型和/或无人车自主驾驶模型的训练提供相应的语义分割图像作为模型输入；相应地，在真实场景中，可以使用DeepLab V3+语义分割算法，将实际场景图像转换成语义分割图像，输入给预警模型和/或无人车自主驾驶模型进行训练。

在一个具体实施例中，报警类型包括报警和不报警。

表示第一图像序列的危险评估值，在Δt时间内采集多个图像序列，分别用公式(3)和公式(4)计算Δt时间内得到的危险评估值的平均值

和方差S_Danger，其中，K为Δt时间内由模型预测参数预测出的车辆驾驶危险值个数。

在车辆行驶过程中，只要满足下列条件之一，机器就会自动进行车辆驾驶危险性预警，其特征在于：

1)若Δt时间内车辆驾驶危险平均值

大于等于阈值

自动预警。

2)若Δt时间内车辆驾驶危险平均值

小于阈值

但危险评估方差S_Danger大于等于某一阈值，自动预警。

3)若Δt时间内车辆驾驶危险评估值连续a帧呈现出递增趋势，此时自动预警。

在一个具体实施例中，报警包括紧急停车报警，动作信息包括紧急停车，在车辆行驶中，若预警模型作出紧急停车报警，但用户不作操作，说明在这个场景中预警模型误判，模型给出的危险评估值过高，修正危险评估值为

其中

表示修正后的危险评估值；

表示修正之前的危险评估值；ΔY表示预设的修正值。若预警模型没有做出报警，但用户采取了紧急停车，说明在这个场景中模型给出的危险评估值过低，修正危险评估值为

在一个具体实施例中，将车辆危险性评估值量化成一个[0,10]区间的分数。10分表示车辆行驶状态十分糟糕，例如车辆严重偏离当前车道，即将或已经与障碍物发生碰撞，车辆朝向与预定方向严重不一致等等状态；0分表示当前车辆正常行驶在车道上，状态与10分时相反。

在一个具体实施例中，无人车自主驾驶行为优化模型如图4所示，无人车自主驾驶优化模型主要包括预警模型和DDPG自动驾驶模型。把车辆行驶状态信息s_t输入到预先训练的DDPG自动驾驶模型，得到控制车辆行驶的决策行为信息a_t和执行完动作后下一时刻的车辆状态信息s_t+1；根据车辆及其运行环境得到M帧序贯图像序列，把图像序列输入车辆行为预警模型中，根据图像序列对车辆行为进行预警，当用户执行的动作表明预警不准确时，调整样本标签值，把图像序列和调整后的样本标签值加入到预警模型训练样本集，再对预警模型进行修正；如果用户执行的动作表明预警准确且车辆驾驶行为不合理时，将预警模型输出转换为对车辆驾驶行为的即时奖励值r_t。把＜s_t,a_t,r_t,s_t+1＞作为DDPG自动驾驶模型的一个训练样本，加入到DDPG自动驾驶模型的训练样本集中，对DDPG自动驾驶模型进行优化训练，直到DDPG自动驾驶模型具有较高的自主驾驶性能。

应该理解的是，虽然图1的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图5所示，提供了一种无人车自主驾驶行为优化装置，包括：状态信息和决策行为信息获取模块502、预警模型优化模块504、自主驾驶模型优化模块506，其中：

状态信息和决策行为信息获取模块502，用于获取第一场景中车辆行驶的状态信息，将所述状态信息输入预先训练的自主驾驶模型，得到控制车辆行驶的决策行为信息；

预警模型优化模块504，用于根据第一场景下的第一图像序列得到危险评估值，通过人机交互的方式得到用户的反馈信息，如果用户的反馈信息表明危险评估值不准确，调整危险评估值，生成第一图像序列对应的标签值，根据所述第一图像序列以及所述标签值，对所述预警模型进行修正，利用所述修正后的预警模型计算危险评估值并对车辆行为进行预警；如果用户的反馈信息表明危险评估值准确，根据危险评估值生成对车辆驾驶行为的即时奖励值；

自主驾驶模型优化模块506，用于根据所述状态信息、所述决策行为信息和车辆在所述第一图像序列下对应的即时奖励值，对所述自主驾驶模型进行训练，利用所述训练好的自主驾驶模型进行车辆驾驶行为决策。

在其中一个实施例中，预警模型优化模块504还用于按照设定步长从拍摄的视频数据中采集第一图像序列。

在其中一个实施例中，预警模型为神经网络模型。

在其中一个实施例中，预警模型优化模块504还用于从第二场景中获取第二图像序列，采用专家打分或根据车辆当前的行驶参数，确定第二图像序列对应的样本标签。

在其中一个实施例中，预警类型包括：报警和不报警；预警模型优化模块504还用于计算预设时间内得到的危险评估值的平均值和方差；当所述平均值大于等于第一阈值，或所述平均值小于第一阈值，且所述方差大于第二阈值，得到的预警类型为报警；或者在预设时间内，采集到的所述危险评估值呈递增趋势，得到的预警类型为报警。

在其中一个实施例中，反馈信息包括：动作信息和不动作信息；所述报警信息与动作信息匹配；所述不报警信息与所述不动作信息匹配。

在其中一个实施例中，预警模型优化模块504还用于生成第一图像序列对应的标签值，包括：获取预警类型和反馈信息；若所述预警类型为报警，所述反馈信息为不动作信息，修正危险评估值为

其中

表示修正后的危险评估值；

表示修正之前的危险评估值；ΔY表示预设的修正值；若所述预警类型为不报警，所述反馈信息为动作信息，修正危险评估值为

在其中一个实施例中，预警模型优化模块504还用于根据所述危险评估值，生成车辆驾驶行为的即时奖励值。包括：获取预警类型和反馈信息；若预警类型为报警，反馈信息为动作信息，生成车辆驾驶行为的即时奖励值为

其中

表示当前危险评估值；k_d表示危险评估值转换系数。

关于无人车自主驾驶行为优化装置的具体限定可以参见上文中对于无人车自主驾驶行为优化方法的限定，在此不再赘述。上述无人车自主驾驶行为优化装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种车辆预警方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板、鼠标或模拟方向盘等。

本领域技术人员可以理解，图6中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，该存储器存储有计算机程序，该处理器执行计算机程序时实现上述方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述方法实施例中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种无人车自主驾驶行为优化方法，其特征在于，所述方法包括：

获取第一场景中车辆行驶的状态信息，将所述状态信息输入预先训练的无人车自主驾驶模型，得到控制车辆行驶的决策行为信息；所述无人车自主驾驶模型是通过监督学习或增强学习得到；所述决策行为信息包括转向控制命令和速度控制命令；

无人车根据所述决策行为信息在第一场景中运动；

根据所述危险评估值，得到车辆的预警类型；

通过人机协同方式获取用户的反馈信息，当所述预警类型与所述反馈信息不匹配时，根据所述危险评估值，生成所述第一图像序列对应的标签值；根据所述第一图像序列以及所述标签值，对所述预警模型进行修正，利用所述修正后的预警模型计算危险评估值并对车辆行为进行预警；所述第一图像序列对应的标签值的修正是线性比例改变，或加减一个预设值实现，其中修改比例和预设值可以由用户调整；

根据所述状态信息、所述决策行为信息和车辆在所述第一图像序列下对应的即时奖励值，对所述无人车自主驾驶模型进行优化，利用所述优化后的无人车自主驾驶模型进行车辆驾驶行为决策。

2.根据权利要求1所述的方法，其特征在于，获取第一场景中车辆行驶的第一图像序列，包括：

获取第一场景中车辆行驶的第一图像序列；所述第一图像序列是按照设定步长从拍摄的视频数据中采集得到的。

3.根据权利要求1所述的方法，其特征在于，通过第二场景中获取的第二图像序列作为样本训练得到车辆预警模型的方式，包括：

从第二场景中获取第二图像序列；

采用专家打分或根据车辆当前的行驶参数，确定第二图像序列对应的样本标签；

根据所述第二图像序列和所述样本标签训练得到车辆预警模型。

4.根据权利要求1所述的方法，其特征在于，预警类型包括：报警和不报警；

所述根据所述危险评估值，得到车辆的预警类型，包括：

计算预设时间内得到的危险评估值的平均值和方差；

当所述平均值大于等于第一阈值，或所述平均值小于第一阈值且所述方差大于第二阈值，得到的预警类型为报警；

或者在预设时间内，采集到的所述危险评估值呈递增趋势，得到的预警类型为报警。

5.根据权利要求4所述的方法，其特征在于，所述反馈信息包括：动作信息和不动作信息；所述报警信息与动作信息匹配；所述不报警信息与所述不动作信息匹配。

6.根据权利要求5所述的方法，其特征在于，所述当所述预警类型与所述反馈信息不匹配时，根据所述危险评估值，生成所述第一图像序列对应的标签值，包括：

获取所述预警类型和所述反馈信息；

若所述预警类型为报警，所述反馈信息为不动作信息，修正危险评估值为

其中

表示修正后的危险评估值；

表示修正之前的危险评估值；ΔY表示预设的修正值；

若所述预警类型为不报警，所述反馈信息为动作信息，修正危险评估值为

7.根据权利要求6所述的方法，其特征在于，所述当所述预警类型与所述反馈信息匹配时，根据所述危险评估值，生成车辆驾驶行为的即时奖励值，包括；

获取所述预警类型和所述反馈信息；

若所述预警类型为报警，所述反馈信息为动作信息，生成车辆驾驶行为的即时奖励值为：

其中

表示当前危险评估值，k_d表示危险评估值转换系数。

8.一种无人车自主驾驶行为优化装置，其特征在于，所述装置包括：

状态信息和决策行为信息获取模块，用于获取第一场景中车辆行驶的状态信息，将所述状态信息输入预先训练的无人车自主驾驶模型，得到控制车辆行驶的决策行为信息；所述决策行为信息包括转向控制命令和速度控制命令；

预警模型优化模块，用于在无人车根据所述决策行为信息在第一场景中运动时，获取第一场景中车辆行驶的第一图像序列，将所述第一图像序列输入预先训练的预警模型，得到危险评估值；所述预警模型是通过第二场景中获取的第二图像序列作为样本训练得到；根据所述危险评估值，得到车辆的预警类型；通过人机协同方式获取用户的反馈信息，当所述预警类型与所述反馈信息不匹配时，根据所述危险评估值，生成所述第一图像序列对应的标签值；根据所述第一图像序列以及所述标签值，对所述预警模型进行修正，利用所述修正后的预警模型计算危险评估值并对车辆行为进行预警；所述第一图像序列对应的标签值的修正是线性比例改变，或加减一个预设值实现，其中修改比例和预设值可以由用户调整；当所述预警类型与所述反馈信息相匹配时，根据所述危险评估值，生成对车辆驾驶行为的即时奖励值；

自主驾驶模型优化模块，用于根据所述状态信息、所述决策行为信息和车辆在所述第一图像序列下对应的即时奖励值，对所述无人车自主驾驶模型进行优化训练，利用所述优化后的自主驾驶模型进行车辆驾驶行为决策。

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。