CN117235473A

CN117235473A - 一种自动驾驶模型的自进化、决策管理方法和装置及系统

Info

Publication number: CN117235473A
Application number: CN202311212747.9A
Authority: CN
Inventors: 周熙钦; 于猛; 梁振宝; 陈勇; 佘锋; 符茂磊; 衡阳
Original assignee: Zhejiang Geely Holding Group Co Ltd; Ningbo Geely Automobile Research and Development Co Ltd
Current assignee: Zhejiang Geely Holding Group Co Ltd; Ningbo Geely Automobile Research and Development Co Ltd
Priority date: 2023-09-19
Filing date: 2023-09-19
Publication date: 2023-12-15

Abstract

本申请实施例公开了一种自动驾驶模型的自进化、决策管理方法和装置及系统。所述方法包括：获取用户和当前的自动驾驶模型对同一驾驶任务确定的驾驶行为；根据所述用户确定的驾驶行为与当前的自动驾驶模型确定的驾驶行为之间的差异信息，生成驾驶行为损失函数；根据所述驾驶行为损失函数，对当前的自动驾驶模型的损失函数进行更新，得到更新后的自动驾驶模型的损失函数；利用更新后的自动驾驶模型的损失函数，对当前的自动驾驶模型进行迭代直到收敛，得到更新后的自动驾驶模型，从而得到与用户的驾驶风格差异进一步缩小的自动驾驶模型，以便更接近用户的个性化驾驶风格，有效降低用户对于自动驾驶行为的理解难度，提高用户对自动驾驶技术的信任度。

Description

一种自动驾驶模型的自进化、决策管理方法和装置及系统

技术领域

本申请实施例涉及自动驾驶领域，尤指一种自动驾驶模型的自进化、决策管理方法和装置及系统。

背景技术

自动驾驶技术具有降低交通事故概率、减少能源损耗以及提升交通出行效率等优势，成为学术界和行业界广泛关注的热点。经过多年的发展，自动驾驶已经实现高阶辅助驾驶的商业化落地和L4级别自动驾驶出租车示范运营。主流的自动驾驶系统是基于规则模型的分层级方案，通过环境感知、智能决策、路径规划、控制执行等模块实现车辆的自动驾驶快速部署落地。然而，由于模块主要是通过if-else逻辑的堆积，无法穷举所有的场景，在处理复杂场景中存在单一机械的处理方式以及安全边界难以确定等问题。

随着深度学习、强化学习、深度强化学习等AI型算法的快速发展，基于学习型自动驾驶模型可以处理一些边界复杂场景，有望通过自主学习获得超越人类的驾驶能力。其中，端到端自动驾驶模型实现从感知端到控制端的输出，颠覆了传统规则模块的做法。

在实际应用中，基于自主学习的自动驾驶技术实现通过端到端或者部分端到端自动驾驶控制汽车等机动车的常规形式已经不能够满足用户的使用需求。例如学习型端到端自动驾驶认知决策方法通过大量数据训练模型效率低，难以实现自进化；再者这种方案具有黑盒属性，输出的驾驶行为可靠性低、可解释性较差，造成用户安全性和接受程度低；其次，用户在启动自动驾驶时，会因为自动驾驶的风格与自身风格不相同，而导致用户使用自动驾驶的体验大幅度降低。因此如何使自动驾驶系统能够在对车辆进行正常的自动驾驶决策控制时，又能够使得驾驶风格与用户更加接近是一个亟需解决的问题。

发明内容

为了解决上述任一技术问题，本申请实施例提供了一种自动驾驶模型的自进化、决策管理方法和装置及系统。

为了达到本申请实施例目的，本申请实施例提供了一种自动驾驶模型的自进化方法，包括：

获取用户和当前的自动驾驶模型对同一驾驶任务确定的驾驶行为；

根据所述用户确定的驾驶行为与当前的自动驾驶模型确定的驾驶行为之间的差异信息，生成驾驶行为损失函数；

根据所述驾驶行为损失函数，对当前的自动驾驶模型的损失函数进行更新，得到更新后的自动驾驶模型的损失函数；

利用更新后的自动驾驶模型的损失函数，对当前的自动驾驶模型进行迭代直到收敛，得到参数更新后的自动驾驶模型。

一种自动驾驶模型的决策管理方法，包括：

利用自动驾驶模型，确定车辆的驾驶任务对应的驾驶行为，其中所述自动驾驶模型是采用上文所述的方法自进化得到的；

检测所述自动驾驶模型确定的驾驶行为是否符合预设的安全行驶条件；

在检测到所述自动驾驶模型确定的驾驶行为符合所述安全行驶条件后，输出所述自动驾驶模型确定的驾驶行为。

一种自动驾驶模型的自进化装置，包括：

获取模块，被设置为获取用户和当前的自动驾驶模型对同一驾驶任务确定的驾驶行为；

第一确定模块，设置为根据所述用户确定的驾驶行为与当前的自动驾驶模型确定的驾驶行为之间的差异信息，生成驾驶行为损失函数；

更新模块，设置为根据所述驾驶行为损失函数，对当前的自动驾驶模型的损失函数进行更新，得到更新后的自动驾驶模型的损失函数；

自进化模块，设置为利用更新后的自动驾驶模型的损失函数，对当前的自动驾驶模型进行迭代直到收敛，得到更新后的自动驾驶模型。

一种自动驾驶模型的决策管理装置，包括：

第二确定模块，设置为利用自动驾驶模型，确定车辆的驾驶任务对应的驾驶行为，其中所述自动驾驶模型是采用上文所述的方法自进化得到的；

检测模块，设置为检测所述自动驾驶模型确定的驾驶行为是否符合预设的安全行驶条件；

输出模块，设置为在检测到所述自动驾驶模型确定的驾驶行为符合所述安全行驶条件后，输出所述自动驾驶模型确定的驾驶行为。

一种自动驾驶模型的自进化系统，包括：

至少一个车辆，设置为提供自动驾驶模型执行自进化操作所需的原始数据；

数据服务器，设置为将接收的原始数据处理成自动驾驶模型执行自进化操作所需的训练数据；

模型服务器，设置为利用所述训练数据，采用上文所述的方法自进化得到的自动驾驶模型，并利用自进化得到的自动驾驶模型更新所述车辆上部署的自动驾驶模型。

一种存储介质，所述存储介质中存储有计算机程序，所述计算机程序被设置为运行时执行上文所述的方法。

一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行上文所述的方法。

上述技术方案中的一个技术方案具有如下优点或有益效果：

通过获取用户和当前的自动驾驶模型对同一驾驶任务确定的驾驶行为，并根据所述用户确定的驾驶行为与当前的自动驾驶模型确定的驾驶行为之间的差异信息，生成驾驶行为损失函数，再根据所述驾驶行为损失函数，对当前的自动驾驶模型的损失函数进行更新，得到更新后的自动驾驶模型的损失函数，并利用更新后的自动驾驶模型的损失函数，对当前的自动驾驶模型进行迭代直到收敛，得到更新后的自动驾驶模型，从而得到与用户的驾驶风格差异进一步缩小的自动驾驶模型，以便更接近用户的个性化驾驶风格，有效降低用户对于自动驾驶行为的理解难度，提高用户对自动驾驶技术的信任度。

上述自动驾驶模型除了利用主动探索模型来生成之外，还可以利用预训练模型来生成，通过预训练模型和主动探索模型，在预训练学习阶段、中间过渡阶段和自进化学习探索阶段三个不同的自学习阶段，实现对奖励函数、损失函数和网络参数的学习，将学习完成的参数特征融合处理后赋给自动驾驶模型，再将训练好自学习自动驾驶模型作为下一阶段的主动探索模型在环境进行自学习，直到模型学到最优策略，可以有效对数据库数据进行复用，有效解决现有自动驾驶模型学习训练效率低、样本利用率低等问题。

利用自动驾驶模型，确定车辆的驾驶任务对应的驾驶行为，检测所述自动驾驶模型确定的驾驶行为是否符合预设的安全行驶条件，并在检测到所述自动驾驶模型确定的驾驶行为符合所述安全行驶条件后，输出所述自动驾驶模型确定的驾驶行为，保证自动驾驶模型输出的驾驶行为的安全性和合理性，提高用户对自动驾驶技术的信任度，解决现有技术中自动驾驶模型输出的行为不可解释性的问题。

本申请实施例的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本申请实施例而了解。本申请实施例的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

附图说明

附图用来提供对本申请实施例技术方案的进一步理解，并且构成说明书的一部分，与本申请实施例的实施例一起用于解释本申请实施例的技术方案，并不构成对本申请实施例技术方案的限制。

图1为本申请实施例提供的自动驾驶模型的自进化方法的流程示意图；

图2为本申请实施例提供的自动驾驶模型自进化训练方式的示意图；

图3为本申请实施例提供的自动驾驶模型的决策管理方法的流程示意图；

图4为本申请实施例提供的自动驾驶模型的运行方法的示意图；

图5为本申请实施例提供的自动驾驶模型的自进化装置的结构示意图；

图6为本申请实施例提供的自动驾驶模型的决策管理装置的结构示意图；

图7为本申请实施例提供的自动驾驶模型的自进化系统的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚明白，下文中将结合附图对本申请实施例的实施例进行详细说明。需要说明的是，在不冲突的情况下，本申请实施例中的实施例及实施例中的特征可以相互任意组合。

在实现本申请过程中，发现基于学习型自动驾驶模型仍存在如下问题，包括：

首先，在处理复杂多变的动态场景和驾驶任务时，自动驾驶模型的泛化性能不足的。例如，针对特定的高速自动驾驶任务训练得到的自动驾驶模型，对于同类的其他任务时，如城市自动驾驶或者自动泊车，不能高效准确地完成。

其次，现有的自动驾驶模型需要很大的数据库去训练，无法有效利用数据库数据，缺少对数据进行针对性的利用，造成数据浪费，学习效率低，成本高且时间花销较大。

最后，现有技术中没有完全考虑驾乘人员的安全性、舒适性、灵活性、个性化程度不高，特别是自动驾驶系统接受程度和信任度较低，难以实现自动驾驶真正的无人化和商业化落地。

综上所述，在自进化学习的自动驾驶方案中，存在如何提升模型对场景的泛化性、减少模型的无效探索和训练过程、考虑驾乘人员的可持续信任度等问题。

下面对上文所提及的技术问题提出对应的解决方案，包括：

图1为本申请实施例提供的自动驾驶模型的自进化方法的流程示意图。

如图1所示，所述方法包括：

步骤101、获取用户和当前的自动驾驶模型对同一驾驶任务确定的驾驶行为；

其中，驾驶任务记录有车辆的行程的起始点和目的地，另外，还可以包括车辆的行程的环境感知信息和车辆行驶信息，其中环境感知信息包括交通参与者的信息、道路环境信息、交通规则信息、障碍物信息、车道线信息、与障碍物的距离等。车辆行驶信息包括车辆底盘信息和用户(即，车辆的驾乘人员)的历史驾驶行为信息(如，行驶速度、加速度、转向信息、变道次数等)。

其中，环境感知信息和车辆行驶信息可以利用安装在自动驾驶车辆上的摄像头、毫米波雷达、超声波雷达、激光雷达、GPS/惯性导航系统、车辆CANBUS等模块来获得。

具体的，可以根据用户的历史驾驶行为来获取用户对该驾驶任务的驾驶行为，可以利用当前对自动驾驶行为对该驾驶任务进行处理，得到当前的自动驾驶模型对该驾驶任务确定的驾驶行为。

其中，该当前的自动驾驶模型为已达到模型试运行条件的自动驾驶模型，简称为过渡阶段自动驾驶模型；或者，已达到正式运行条件的自动驾驶模型，简称为自进化自动驾驶模型。

其中，过渡阶段自动驾驶模型的模型性能通常低于自进化自动驾驶模型的模型性能。

步骤102、根据所述用户确定的驾驶行为与当前的自动驾驶模型确定的驾驶行为之间的差异信息，生成驾驶行为损失函数；

针对同一驾驶任务，用户和当前的自动驾驶模型确定的驾驶行为存在差异，主要原因在于，用户和当前的自动驾驶模型的驾驶风格存在差异，因此，通过获取差异信息来表示二者之间的驾驶风格的差异信息。

具体的，获取所述用户确定的驾驶行为对应的驾驶风格，得到第一风格数据；以及，获取当前的自动驾驶模型确定的驾驶行为对应的驾驶风格，得到第二风格数据；并计算所述第一风格数据和所述第二风格数据之间的交叉熵结果，得到所述驾驶行为损失函数。

其中，驾驶行为损失函数的计算表达式如下：

其中，表示驾驶行为损失函数；/>表示自动驾驶模型的驾驶风格；/>表示用户的驾驶风格；H表示交叉熵函数。

进一步的，所述用户的驾驶风格是通过如下方式得到的，包括：

获取所述用户的驾驶行为数据，其中所述用户的驾驶行为数据包括至少两个参数的数据；

确定所述用户的驾驶行为数据中每个参数对应的标签，得到标签数据；

根据所述标签数据，确定所述用户的驾驶风格。

具体的，通过车辆设置的行驶状态传感器对驾驶行为采集，提取驾驶行为特征序列B＝{速度，加速度，车头时距，换道频次}，将行为特征序列输出值预设的分析模型，通过该分析模型对行为特征序列生成对应的标签，完成对用户的驾驶风格的识别。

采用上述方式自动完成用户的驾驶风格的识别，可以有效提升数据处理效率。

步骤103、根据所述驾驶行为损失函数，对当前的自动驾驶模型的损失函数进行更新，得到更新后的自动驾驶模型的损失函数；

通过将驾驶行为损失函数更新到自动驾驶模型的损失函数，可以更加准确地表示自动驾驶模型的损失函数，为自动驾驶模型向接近用户的驾驶风格进行迭代提供支持，使得迭代后产生的自动驾驶模型输出的驾驶行为能够更加符合用户的驾驶风格。

进一步的，更新后的自动驾驶模型的损失函数是通过如下方式得到的，包括：

计算所述驾驶行为损失函数与所述驾驶行为损失函数对应的权重之间的乘积，得到第一计算结果；

计算所述第一计算结果与当前的自动驾驶模型的损失函数的总和，得到更新后的自动驾驶模型的损失函数。

具体的，更新后的自动驾驶模型的损失函数的表达式如下：

其中，表示更新后的自动驾驶模型网络损失函数；/>表示更新前的自动驾驶模型网络损失函数；/>表示用户驾驶行为损失函数；κ表示驾驶行为损失函数的权重。

步骤104、利用更新后的自动驾驶模型的损失函数，对当前的自动驾驶模型进行迭代直到收敛，得到更新后的自动驾驶模型；

利用上述方式对当前的自动驾驶模型进行迭代，使得自动驾驶模型向接近用户的驾驶风格进行迭代，从而得到与用户的驾驶风格差异进一步缩小的自动驾驶模型，以便更接近用户的个性化驾驶风格，有效降低用户对于自动驾驶行为的理解难度，提高用户对自动驾驶技术的信任度。

本申请实施例提供的方法，通过获取用户和当前的自动驾驶模型对同一驾驶任务确定的驾驶行为，并根据所述用户确定的驾驶行为与当前的自动驾驶模型确定的驾驶行为之间的差异信息，生成驾驶行为损失函数，再根据所述驾驶行为损失函数，对当前的自动驾驶模型的损失函数进行更新，得到更新后的自动驾驶模型的损失函数，并利用更新后的自动驾驶模型的损失函数，对当前的自动驾驶模型进行迭代直到收敛，得到更新后的自动驾驶模型，从而得到与用户的驾驶风格差异进一步缩小的自动驾驶模型，以便更接近用户的个性化驾驶风格，有效降低用户对于自动驾驶行为的理解难度，提高用户对自动驾驶技术的信任度。

下面对本申请实施例提供的方法进一步说明：

图2为本申请实施例提供的自动驾驶模型的训练方式的示意图。如图2所示，针对现有技术中自动驾驶模型的训练效率低的问题，本申请实施例提出自动驾驶模型除了利用主动探索模型来生成之外，还可以利用预训练模型来生成，通过预训练模型和主动探索模型，实现对奖励函数、损失函数和网络参数的学习，将学习完成的参数特征融合处理后赋给自动驾驶模型，再将训练好自学习自动驾驶模型作为下一阶段的主动探索模型在环境进行自学习，直到模型学到最优策略，可以有效对数据库数据进行复用，训练的模型也会比原有的单一模型学习效率更高，具有训练效率高、样本利用率高等优势。

在一个示例性实施例中，所述当前的自动驾驶模型为基于预训练模型和主动探索模型得到的过渡阶段自动驾驶模型，或者，为基于主动探索模型和所述过渡阶段自动驾驶模型得到的自进化自动驾驶模型，其中，所述预训练模型利用预设的先验知识训练得到的，所述主动探索模型是在实际驾驶环境中探索学习得到的。

具体的，自动驾驶模型的训练过程依次经过预训练学习阶段、中间过渡阶段和自进化学习探索阶段。其中：

在自动驾驶模型开始进行探索学习过程中，存在学习效率低、样本利用率低、时间成本高以及自动驾驶任务处理能力不够等问题，可以通过驾驶行为轨迹库的先验知识对预训练模型进行训练，对奖励函数和损失函数的参数进行学习，以便在所述预训练学习阶段中利用预训练模型生成当前的自动驾驶模型；

在中间过渡阶段，由于完全以专家经验训练的自动驾驶模型对场景的泛化性不足的问题，以及专家库不存在部分场景无法处理的情况，可以设置主动探索模型，在专家经验学习的同时对自驾驶模型进行探索式训练学习网络参数，提高模型的泛化性和学习能力。通过将预训练模型的网络参数和主动探索模型的网络参数进行融合，以便更新自动驾驶模型，实现自动驾驶模型的自进化。

在自进化学习探索阶段，由于自动驾驶模型的深度学习已接近完成，可以仅用主动探索模型即可。

进一步的，所述当前的自动驾驶模型的生成方法包括：

基于第一损失函数，利用所述主动探索模型和所述预训练模型对初始自动驾驶模型进行迭代训练操作直到模型收敛，得到过渡阶段自动驾驶模型，其中所述第一损失函数是利用所述预训练模型的损失函数和所述主动探索模型的损失函数得到的；

基于第二损失函数，利用所述主动探索模型对所述过渡阶段自动驾驶模型进行迭代训练操作直到模型收敛，得到自进化自动驾驶模型，其中所述第二损失函数是利用主动探索模型的损失函数得到的；

其中，将每次迭代训练操作得到的自动驾驶模型作为下一次迭代所使用的主动探索模型。

具体的，在预训练学习阶段，根据训练完成的预训练模型的损失函数，确定自动驾驶模型的损失函数，对自动驾驶模型的网络参数进行更新；

在中间过渡阶段，根据训练完成的预训练模型的损失函数和训练完成的主动探索模型的损失函数的加权和，确定自动驾驶模型的损失函数，以及，根据主动探索模型的奖励函数确定自动驾驶模型的奖励函数，并对自动驾驶模型的网络参数进行更新；

在自进化学习探索阶段，根据训练完成的主动探索模型的奖励函数和损失函数，确定自动驾驶模型的奖励函数和损失函数，对自动驾驶模型的网络参数进行更新。

在预训练模型和主动探索模型的基础上，将学习到的参数共享给自动驾驶模型，对自动驾驶模型的网络参数进行更新。

通过对预训练模型和主动探索模型进行融合，所述融合后的损失函数计算表达式如下：

其中，表示主动探索模型损失函数；/>表示预训练模型损失函数；/>表示融合后的损失函数；λ为损失权重。

根据λ的取值的不同，可以将自动驾驶模型学习训练分为三个阶段，其中：

λ＝1，表示自动驾驶模型处于预训练学习阶段；

0<λ<1，表示自动驾驶模型处于中间过渡阶段；

λ＝0，表示自动驾驶模型处于自进化学习探索阶段。

需要说明的是，与现有技术中仅利用主动探索模型生成自动驾驶模型相比，本申请实施例提供的训练方式，在预训练学习阶段引入了利用先验知识训练得到的预训练模型来生成自动驾驶模型，能够引导向最优驾驶行为的方向进行迭代，可以大幅度缩短自动驾驶模型起步阶段训练所需的时间。在中间过渡阶段，利用预训练模型和主动探索模型生成自动驾驶模型，使得自动驾驶模型能够在先验知识和实际应用中驾驶行为确定的约束条件下进行迭代优化，能够大幅度缩短自动驾驶模型训练所需的时间。从而能够在相对较短的时长内进入自进化学习探索阶段。

可选的，在中间过渡阶段或自进化学习探索阶段中，将更新得到的自动驾驶模型设置为下一次使用的主动探索模型。

具体的，将自动驾驶模型的网络和参数共享给主动探索模型进行学习再优化的过程，重复这个步骤，直至完成整个驾驶任务的平均损失最小，在不同的驾驶场景或者任务中获得的驾驶策略是最优的。

进一步的，可以将自动驾驶模型的网络参数共享给新的主动探索模型，并对学习率等参数进行更新；

其中，θ＝{θ_pre，θ_act,θ_learn，α}，θ_pre表示所述预训练模型策略网络参数，θ_act表示主动探索模型策略网络参数，θ_learn表示自进化学习模型网络参数，表示θ更新前后的两个分布概率的相对熵；β表示超参数；/>表示θ更新后所述共享策略网络的输入状态向量s_t，输出为驾驶行为a_t的概率；π_θ(a_t|s_t)表示θ更新前所述共享策略网络的输入状态向量s_t，输出为驾驶行为a_t的概率；θ_k+1表示获得平均损失最小后网络的参数。

现有技术中，自动驾驶模型基于固定规则的奖励函数进行学习导致的场景和任务泛化性不足，为解决上述问题，本申请实施例提出，通过深度强化学习在不断探索各种各样的场景任务时，提取驾驶行为轨迹库中海量驾驶人员优秀的行为特征，实现对自动驾驶模型的奖励函数进行拟合，从而使自动驾驶模型能够学习到最优的驾驶行为，同时基于主动探索模型的学习探索过程进行策略和奖励函数的再优化，重复以上环节实现自进化迭代学习过程，可以解决模型的泛化性不足的问题。

下面对预训练模型的网络参数的更新方式进行说明：

从预设的数据服务器中提取驾驶行为轨迹库，获得专家先验知识τ＝{s₀，a₀，r₀；s₁，a₁，r₁；…；s_t，a_t，r_t}，对轨迹库行为和场景进行数据清洗、挖掘特征，建立状态空间和动作空间，通过先验知识对预训练模型进行训练，学习网络参数，更新奖励函数和模型参数，直至学到好的驾驶行为。

其中，驾驶行为π下驾驶行为动作值函数Q^π(s，a)的表达式如下：

其中，表示权重矩阵；μ^π(s，a)表示驾驶行为π的特征期望。

其中，驾驶行为π获得的奖励函数r(s，a)的表达式如下：

其中，h(s，a)表示环境感知状态的特征值。

在一个示例性实施例中，在完成对当前的预训练模型的训练后，执行如下操作，并在执行完成后，启动预训练模型的新的一轮训练，包括：

在完成对当前的预训练模型的训练后，根据先验知识确定的特征期望和训练完成的预训练模型的特征期望之间的差值，得到梯度值；

利用所述梯度值，对当前的权重矩阵和奖励函数进行更新，其中更新后的奖励函数利用更新后的权重矩阵得到的；

利用更新后的权重矩阵更新当前的预训练模型的损失函数。

具体的，专家经验数据特征期望和预训练学习模型特征期望之间的梯度grad的计算表达式如下：

grad＝μ^E-μ^π；

其中，μ^E表示专家经验数据特征期望，μ^π表示预训练模型特征期望。

在上述计算表达式中，专家经验数据特征期望μ^E是通过计算采集到的全部驾驶员轨迹数据的特征值之和的平均值，计算表达式如下：

其中，N条驾驶员轨迹中每条轨迹总共由个状态-动作作对组成；γ表示折扣因子。

在上述计算表达式中，预训练模型特征期望μ^π是预训练模型输出的轨迹特征值之和，计算表达式如下：

进一步的，通过如下方式得到更新后的权重矩阵，包括：

计算所述梯度值与预设的学习率之间的乘积，得到第二计算结果；

获取所述第二计算结果与当前的权重矩阵的总和，得到更新后的权重矩阵。

具体的，更新后的权重矩阵θ_pre的计算表达式如下：

θ_pre＝θ_pre+α*grad。

进一步的，通过获得最优驾驶行为与其对应的损失函数为：

其中，A_t表示模型优势函数。

通过驾驶行为轨迹库的专家先验知识对预训练模型进行训练，对奖励函数和损失函数的参数进行学习，可以有效解决自动驾驶模型一开始进行探索学习出现的学习效率低、样本利用率低、时间成本高以及模型对自动驾驶任务处理能力不够等问题。

下面对主动探索模型中网络参数的更新方式进行说明：

将主动探索模型放入实际的驾驶环境中进行探索式学习训练，在未知的场景中完成驾驶任务，得到不一样的驾驶行为，同时在无序的学习过程中引入了人类(本申请中人类指用户，即车辆的驾驶人员)反馈机制，对自动驾驶车辆进行引导学习，对奖励函数、损失函数以及学习率等参数进行再更新；

具体的，所述主动探索模型的训练数据N被划分为第一部分N1和第二部分N2，其中第一部分N1用于执行驾驶行为的学习操作，第二部分N2用于对人类反馈机制进行学习，其中N₂＝N-N₁。

基于最优价值函数的Critic网络的损失函数的计算表达式如下：

优选的，考虑人类反馈机制进行引导学习策略的数据，Actor网络可以最大限度地提高Critic的价值外，并且从这些示范中学习，其中Actor网络的损失函数的计算表达式如下：

其中，ω表示权重，用来衡量人类反馈机制的重要性程度。

进一步的，通过惩罚函数设计的奖励函数可以通过人类干预和自动探索快速学习，奖励函数如下：

其中，I表示单位矩阵，表示驾驶行为的动作空间，/>表示驾驶行为的动作空间的维度，r_pen表示惩罚函数，r_t表示主动探索模型当前的奖励函数。

另外，可以根据上述损失函数相对于目标学习率的梯度值，更新网络参数和学习率；同时针对于人类反馈机制的惩罚和学习模型的奖励函数更新参数。

图3为本申请实施例提供的自动驾驶模型的决策管理方法的流程示意图。如图3所示，所述方法包括：

步骤301、利用自动驾驶模型，确定车辆的驾驶任务对应的驾驶行为，其中所述自动驾驶模型是采用上文所述的方法自进化得到的；

步骤302、检测所述自动驾驶模型确定的驾驶行为是否符合预设的安全行驶条件；

其中，所述安全行驶条件包括如下至少一个：

条件1：所述自动驾驶模型确定的驾驶行为的运动轨迹与周围的障碍物的运动轨迹不重叠；

条件2：所述自动驾驶模型确定的驾驶行为的运动轨迹与预设的参考轨迹之间的横向距离小于预设的阈值。

其中，条件1可以利用预设的碰撞检测模型进行检测，条件2可以通过预设的偏离事件模型进行检测。

步骤303、在检测到所述自动驾驶模型确定的驾驶行为符合所述安全行驶条件后，输出所述自动驾驶模型确定的驾驶行为。

如果安全行驶条件包括条件1和条件2时，可以先利用碰撞检测模型进行碰撞可能性判断，若驾驶行为与周围的障碍物运动轨迹在同一时空内不存在碰撞可能，再对输入的驾驶行为组成的轨迹与参考轨迹之间的横向距离进行判断，若横向距离不超过1.5米，则输出自动驾驶模型确定的驾驶行为。

可选的，在检测到所述自动驾驶模型确定的驾驶行为符合所述安全行驶条件后，利用预设的规则驾驶模型，确定所述自动驾驶任务对应的驾驶行为，并输出所述规则驾驶模型确定的驾驶行为。

其中，该规则驾驶模型可以复用自动驾驶模型感知功能采集的感知信息(如，交通参与者状态信息、地图信息、交通规则信息等)，并利用得到的感知信息对车辆的驾驶场景做出认知和决策，例如变道时机、左转、右转、加减速等，帮助交互式规划模块限制凸空间，并在参考轨迹的基础上进行运动规划，生成避撞轨迹；底层控制模块主要是根据生成的避撞轨迹进行跟踪，使车辆按照轨迹行驶。

本申请实施例提供的方法，利用自动驾驶模型，确定车辆的驾驶任务对应的驾驶行为，检测所述自动驾驶模型确定的驾驶行为是否符合预设的安全行驶条件，并在检测到所述自动驾驶模型确定的驾驶行为符合所述安全行驶条件后，输出所述自动驾驶模型确定的驾驶行为，保证自动驾驶模型输出的驾驶行为的安全性和合理性，提高用户对自动驾驶技术的信任度，解决现有技术中自动驾驶模型输出的行为不可解释性的问题。

下面对自动驾驶模型的具体应用过程进行说明：

图4为本申请实施例提供的自动驾驶模型的运行方法的示意图。如图4所示，所述方法包括：

S1、获取驾驶任务，其中驾驶任务可以包括包含环境感知和用户的驾驶风格；

S2、利用自动驾驶模型确定驾驶任务对应的驾驶行为；

S3、对自动驾驶模型确定的驾驶行为进行安全行驶条件的判断，若符合安全行驶条件，则直接输出自动驾驶模型确定的驾驶行为，否则输出基于规则驾驶模型确定的驾驶行为。

其中，该自动驾驶模型通过重复执行S1至S3，进行迭代优化，直至完成自动驾驶任务。

上述内容提出了自动驾驶模型输出驾驶行为的过程，在确定驾驶行为过程中，自动驾驶模型还完成如下操作，包括：

利用先验知识完成预训练模型的训练，并基于训练完成的预训练模型更新自动驾驶模型，提升自动驾驶模型的训练效率；同时，预训练模型与应用人类反馈机制的主动探索模型进行融合，来更新自动驾驶模型，提升自动驾驶模型的泛化性。

另外，通过获取自动驾驶模型确定的驾驶行为对应的驾驶行为损失函数，确定用户和自动驾驶模型之间驾驶风格的差异信息，并将驾驶行为损失函数反馈给自动驾驶模型，以促进自动驾驶模型进行更新，以便更新后的自动驾驶模型能够在日后输出更加符合用户的驾驶风格的驾驶行为。

图5为本申请实施例提供的自动驾驶模型的自进化装置的结构示意图。

如图5所示，所述装置包括：

获取模块501，被设置为获取用户和当前的自动驾驶模型对同一驾驶任务确定的驾驶行为；

第一确定模块502，设置为根据所述用户确定的驾驶行为与当前的自动驾驶模型确定的驾驶行为之间的差异信息，生成驾驶行为损失函数；

更新模块503，设置为根据所述驾驶行为损失函数，对当前的自动驾驶模型的损失函数进行更新，得到更新后的自动驾驶模型的损失函数；

自进化模块504，设置为利用更新后的自动驾驶模型的损失函数，对当前的自动驾驶模型进行迭代直到收敛，得到更新后的自动驾驶模型。

本申请实施例提供的装置，通过获取用户和当前的自动驾驶模型对同一驾驶任务确定的驾驶行为，并根据所述用户确定的驾驶行为与当前的自动驾驶模型确定的驾驶行为之间的差异信息，生成驾驶行为损失函数，再根据所述驾驶行为损失函数，对当前的自动驾驶模型的损失函数进行更新，得到更新后的自动驾驶模型的损失函数，并利用更新后的自动驾驶模型的损失函数，对当前的自动驾驶模型进行迭代直到收敛，得到更新后的自动驾驶模型，从而得到与用户的驾驶风格差异进一步缩小的自动驾驶模型，以便更接近用户的个性化驾驶风格，有效降低用户对于自动驾驶行为的理解难度，提高用户对自动驾驶技术的信任度。

图6为本申请实施例提供的自动驾驶模型的决策管理装置的结构示意图。如图6所示，所述装置包括：

第二确定模块601，设置为利用自动驾驶模型，确定车辆的驾驶任务对应的驾驶行为，其中所述自动驾驶模型是采用上文所述的方法自进化得到的；

检测模块602，设置为检测所述自动驾驶模型确定的驾驶行为是否符合预设的安全行驶条件；

输出模块603，设置为在检测到所述自动驾驶模型确定的驾驶行为符合所述安全行驶条件后，输出所述自动驾驶模型确定的驾驶行为。

本申请实施例提供的装置，利用自动驾驶模型，确定车辆的驾驶任务对应的驾驶行为，检测所述自动驾驶模型确定的驾驶行为是否符合预设的安全行驶条件，并在检测到所述自动驾驶模型确定的驾驶行为符合所述安全行驶条件后，输出所述自动驾驶模型确定的驾驶行为，保证自动驾驶模型输出的驾驶行为的安全性和合理性，提高用户对自动驾驶技术的信任度，解决现有技术中自动驾驶模型输出的行为不可解释性的问题。

如图7所示，所述系统包括：

可选的，所述模型服务器，设置为将自进化得到的自动驾驶模型进行轻量化处理，得到轻量化处理后的模型，并将轻量化处理后的模型发送给所述车辆。

车辆可以为自动驾驶开发车辆、数据采集车、自动驾驶量产车型。车辆采集车辆运行场景、环境状态、车辆驾驶行为、交互式驾驶轨迹等数据，并将采集得到的数据上传至数据服务器；另外，将模型服务器发送的轻量化处理后的模型部署在车端并验证器可行性，以及对轻量化处理后的模型进行迭代优化和数据再循环的过程。

数据服务器，可以为云端数据工厂，对接收的车辆采集的数据进行存储、清洗、分类、特征提取、特征挖掘等操作后存储，以便用于车端部署的轻量化处理后的模型的训练和云端的自动驾驶模型的训练；

模型服务器，通常部署在云端，利用云端的算力平台和数据平台，对数据的标注和处理，进行算法模型的部署和训练，最后将训练得到的自动驾驶模型进行轻量化和工程化处理后，部署至车端进行测试验证；

该系统中上述三个设备组成自动驾驶数据闭环飞轮系统，实现自动驾驶模型的自进化过程。另外，随着数据的流动，解决的场景越来越多，需要采集的数据也越来越少，能够有效降低系统的数据处理压力。

本申请实施例提供一种存储介质，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行上文任一项中所述的方法。

本申请实施例提供一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行上文任一项中所述的方法。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中，在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分；例如，一个物理组件可以具有多个功能，或者一个功能或步骤可以由若干物理组件合作执行。某些组件或所有组件可以被实施为由处理器，如数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

Claims

1.一种自动驾驶模型的自进化方法，其特征在于，包括：

利用更新后的自动驾驶模型的损失函数，对当前的自动驾驶模型进行迭代直到收敛，得到更新后的自动驾驶模型。

2.根据权利要求1所述的方法，其特征在于，所述根据所述用户确定的驾驶行为与当前的自动驾驶模型确定的驾驶行为之间的差异信息，生成驾驶行为损失函数，包括：

获取所述用户确定的驾驶行为对应的驾驶风格，得到第一风格数据；以及，获取当前的自动驾驶模型确定的驾驶行为对应的驾驶风格，得到第二风格数据；

计算所述第一风格数据和所述第二风格数据之间的交叉熵结果，得到所述驾驶行为损失函数。

3.根据权利要求2所述的方法，其特征在于，所述驾驶风格的获取方式包括：

获取所述用户的驾驶行为数据；

确定所述用户的驾驶行为数据对应的标签，得到标签数据；

根据所述标签数据，确定所述用户的驾驶风格。

4.根据权利要求1所述的方法，其特征在于，所述根据所述驾驶行为损失函数，对当前的自动驾驶模型的损失函数进行更新，得到更新后的自动驾驶模型的损失函数，包括：

5.根据权利要求1所述的方法，其特征在于：

所述当前的自动驾驶模型为基于预训练模型和主动探索模型得到的过渡阶段自动驾驶模型；或者，

所述当前的自动驾驶模型为基于所述主动探索模型和过渡阶段自动驾驶模型得到的自进化自动驾驶模型，其中所述过渡阶段自动驾驶模型是基于预训练模型和主动探索模型得到；

其中，所述预训练模型利用预设的先验知识训练得到的，所述主动探索模型是在实际驾驶环境中探索学习得到的。

6.根据权利要求5所述的方法，其特征在于，所述当前的自动驾驶模型的生成方法包括:

其中，将每次迭代训练操作得到的自动驾驶模型作为下一次迭代训练操作所使用的主动探索模型。

7.根据权利要求6所述的方法，其特征在于，所述基于第一损失函数，利用所述主动探索模型和所述预训练模型对初始自动驾驶模型进行迭代操作直到模型收敛，得到过渡阶段自动驾驶模型，包括：

在每次迭代训练操作中，利用所述第一损失函数和所述初始自动驾驶模型的奖励函数更新所述初始自动驾驶模型的网络参数，其中所述初始自动驾驶模型的奖励函数是利用主动探索模型的奖励函数得到的。

8.根据权利要求6所述的方法，其特征在于，所述基于第二损失函数，利用主动探索模型对所述过渡阶段自动驾驶模型进行迭代操作直到模型收敛，得到自进化自动驾驶模型，包括：

在每次迭代操作中，利用所述第二损失函数和所述过渡阶段自动驾驶模型的奖励函数更新所述过渡阶段自动驾驶模型的网络参数，其中所述过渡阶段自动驾驶模型的奖励函数是利用所述主动探索模型的奖励函数得到的。

9.根据权利要求6所述的方法，其特征在于，所述预训练模型的损失函数的获取方式，包括：

利用更新后的权重矩阵，生成预训练模型的损失函数。

10.根据权利要求9所述的方法，其特征在于，所述更新后的权重矩阵的更新方式，包括：

11.根据权利要求5所述的方法，其特征在于：

所述主动探索模型的训练数据被划分为第一部分和第二部分，其中第一部分用于执行驾驶行为的学习操作，第二部分用于对人类反馈机制进行学习。

12.根据权利要求11所述的方法，其特征在于：

所述主动探索模型的损失函数通过基于最优价值函数的深度强化学习网络来表示，其中：

在通过深度强化学习网络表示所述主动探索模型的损失函数时，所述主动探索模型的损失函数包括用于表示人类反馈机制的重要性程度的权重。

13.根据权利要求12所述的方法，其特征在于：所述主动探索模型的更新后的奖励函数的表示式包括：

14.一种自动驾驶模型的决策管理方法，其特征在于，包括：

利用自动驾驶模型，确定车辆的驾驶任务对应的驾驶行为，其中所述自动驾驶模型是采用如权利要求1至13任一所述的方法自进化得到的；

15.根据权利要求14所述的方法，其特征在于，所述方法还包括：

在检测到所述自动驾驶模型确定的驾驶行为不符合所述安全行驶条件后，利用预设的规则驾驶模型，确定所述自动驾驶任务对应的驾驶行为，并输出所述规则驾驶模型确定的驾驶行为。

16.根据权利要求14所述的方法，其特征在于，所述安全行驶条件包括如下至少一个：

所述自动驾驶模型确定的驾驶行为的运动轨迹与周围的障碍物的运动轨迹不重叠；

所述自动驾驶模型确定的驾驶行为的运动轨迹与预设的参考轨迹之间的横向距离小于预设的阈值。

17.一种自动驾驶模型的自进化装置，其特征在于，包括：

18.一种自动驾驶模型的决策管理装置，其特征在于，包括：

第二确定模块，设置为利用自动驾驶模型，确定车辆的驾驶任务对应的驾驶行为，其中所述自动驾驶模型是采用如权利要求1至13任一所述的方法自进化得到的；

19.一种自动驾驶模型的自进化系统，其特征在于，包括：

模型服务器，设置为利用所述训练数据，采用如权利要求1至12任一所述的方法自进化得到的自动驾驶模型，并利用自进化得到的自动驾驶模型更新所述车辆上部署的自动驾驶模型。

20.根据权利要求19所述的系统，其特征在于：

所述模型服务器，设置为将自进化得到的自动驾驶模型进行轻量化处理，得到轻量化处理后的模型，并将轻量化处理后的模型发送给所述车辆。

21.一种存储介质，所述存储介质中存储有计算机程序，其特征在于，所述计算机程序被设置为运行时执行如权利要求1至13任一所述的方法或者如权利要求14至16任一所述的方法。

22.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行如权利要求1至13任一所述的方法或者如权利要求14至16任一所述的方法。