CN113552869A

CN113552869A - 优化决策规控的方法、控制车辆行驶的方法和相关装置

Info

Publication number: CN113552869A
Application number: CN202010329110.8A
Authority: CN
Inventors: 王滨; 庄雨铮; 刘武龙
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2020-04-23
Filing date: 2020-04-23
Publication date: 2021-10-26
Anticipated expiration: 2040-04-23
Also published as: CN113552869B; US20230107033A1; WO2021213366A1; EP4130921A1; EP4130921B1; EP4130921A4

Abstract

本申请提供了人工智能的自动驾驶领域中的优化决策规控的方法、基于决策控制系统控制车辆行驶的方法和相关装置。本申请优化决策规控的方法中：获取第一行驶序列，第一行驶序列中包括车辆在第一环境信息中的第一轨迹序列和决策控制系统的行为决策层基于第一环境信息输出的第一目标驾驶行为；获取第二行驶序列，第二行驶序列中包括决策控制系统的运动规划层基于预设的第二目标驾驶行为输出的第二轨迹序列和该第二目标驾驶行为；根据第一行驶序列与预设的行驶序列的差异优化行为决策层，根据第二行驶序列与该预设的行驶序列的差异优化运动规划层。本申请的技术方案可以实现行为决策层和运动规划层的闭环优化，从而有利于保证车辆的正常行驶。

Description

优化决策规控的方法、控制车辆行驶的方法和相关装置

技术领域

本申请涉及自动驾驶领域，更具体地，涉及优化优化决策规控的方法、基于决策控制系统控制车辆行驶的方法和相关装置。

背景技术

人工智能(artificial intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个分支，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式作出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能领域的研究包括机器人，自然语言处理，计算机视觉，决策与推理，人机交互，推荐与搜索，AI基础理论等。

自动驾驶是人工智能领域的一种主流应用。自动驾驶技术依靠计算机视觉、雷达、监控装置和全球定位系统等协同合作，让机动车辆可以在不需要人类主动操作下，实现自动驾驶。自动驾驶的车辆使用各种计算系统来帮助将乘客从一个位置运输到另一位置。一些自动驾驶车辆可能要求来自操作者(诸如，领航员、驾驶员或者乘客)的一些初始输入或者连续输入。自动驾驶车辆准许操作者从手动模操作式切换到自东驾驶模式或者介于两者之间的模式。由于自动驾驶技术无需人类来驾驶机动车辆，所以理论上能够有效避免人类的驾驶失误，减少交通事故的发生，且能够提高公路的运输效率。因此，自动驾驶技术越来越受到重视。

自动驾驶技术中提出了一种采用自动驾驶决策控制系统来实现自动驾驶的方法。自动驾驶决策控制系统采用分层架构，主要包括行为决策层和运动规划层。其中，行为决策层在接收到为自动驾驶车辆规划的全局路径之后，可以结合自动驾驶车辆的感知模块获取的环境信息(例如，其他车辆的信息、行人的信息、障碍物的信息、道路交通规则信息)，作出具体的行为决策(例如，变道超车或继续跟随前车)；运动规划层可以根据行为决策层作出的行为决策，规划满足特定约束条件(例如，车辆自身的动力学约束条件、避免碰撞或乘客舒适性)的轨迹，该轨迹作为自动驾驶车辆的控制模块的输入决定自动驾驶车辆的最终行驶路径。

现有技术中，在运动规划层接收到行为决策层输出的行为决策之后，可以对该行为决策进行评估，并给出反馈信息，反馈信息的示例包括速度过快或过慢、无法执行决策命令、所需转向输入过大、基于道路状况决策命令不安全等等，然后行为决策层基于该反馈信息修正输出的行为决策，以提高车辆的安全性。

上述方法虽然在一定程度上提高了车辆的行驶安全性，但是，由于车辆的安全问题是车辆行驶的首要问题，因此，还需进一步提高车辆的行驶安全性。也就是说，如何进一步提高自动驾驶决策控制系统的车辆的行驶安全性是亟待解决的技术问题。

发明内容

本申请提供优化决策规控的方法、基于决策控制系统控制车辆行驶的方法和相关装置，可以实现决策控制系统中的行为决策层和运动规划层的闭环优化，从而有助于提高决策控制系统的性能，从而有利于保证车辆的行驶安全性。

第一方面，本申请提供一种优化决策规控的方法。所述方法应用在决策控制系统中，所述决策控制系统包括行为决策层和运动规划层，所述方法包括：获取第一轨迹序列，所述第一轨迹序列中包括车辆在第一环境中的轨迹信息；获取所述行为决策层基于所述第一环境的信息输出的第一目标驾驶行为信息；对所述第一轨迹序列和所述第一目标驾驶行为信息进行融合，得到第一行驶序列；获取所述运动规划层基于预设的第二目标驾驶行为信息输出的第二轨迹序列；对所述第二轨迹序列和所述第二目标驾驶行驶信息进行融合，得到第二行驶序列；根据所述第一行驶序列与预设的目标示教行驶序列之间的差异，对所述行为决策层进行优化，所述目标示教行驶序列中包括示教轨迹序列和示教驾驶行为信息；根据所述第二行驶序列与所述目标示教行驶序列之间的差异，对所述运动规划层进行优化。

上述方法中，根据行为决策层输出的行为构成的序列和运动规划层输出的轨迹序列构成的序列与同一个示教许可之间的差异来优化整行为决策层，以使得行为决策层输出的行为所构成的行驶序列和运动规划层输出的轨迹序列所构成的行驶序列同时趋向于同一个示教行驶序列，从而使得优化后的行为决策层输出的行为不仅在行为决策层是最优的行为，而且运动规划层基于该行为输出的轨迹序列也可以是最优的。这种优化方法可以大幅提高自动驾驶决策系统的决策规控性能，最终提高车辆的安全性。

此外，不仅对行为决策层进行优化，还对运动规划层进行优化。这样，可以实现自动驾驶决策控制系统中的行为决策层和运动规划层的闭环优化，从而可以进一步提升行为决策层和运动规划层的性能，进而可以进一步提升自动驾驶决策控制系统的性能，最终提高提高车辆的安全性。

在一些可能的实现方式中，所述根据所述第一行驶序列与目标示教行驶序列之间的差异，对所述行为决策层进行优化，包括：获取判别模型输入所述第一行驶序列时的第一输出，所述判别模型用于判断输入的行驶序列是否为示教行驶序列，并根据所述第一输出对所述行为决策层进行优化；所述根据所述第二行驶序列与所述目标示教行驶序列之间的差异，对所述运动规划层进行优化，包括：获取所述判别模型输入所述第二行驶序列时输出的第二输出，并根据所述第二输出对所述运动规划层进行优化；所述方法还包括：获取所述判别模型输出所述目标示教行驶序列时的第三输出；根据所述第一输出、所述第二输出和所述第三输出，优化所述判别模型。

该实现方式中，使用判别模型对第一行驶序列、第二行驶序列和目标示教行驶序列进行判别，分别得到第一输出、第二输出和第三输出。因为第一行驶序列与目标示教行驶序列之间的差异可以通过第一输出表示，所以，基于第一输出来对行为决策层进行优化，以使得第一输出越来越趋向于第三输出，可以使得行为决策层学习到目标示教行驶序列中的轨迹序列对应相应驾驶行为的知识，从而可以使得优化后的行为决策层可以输出合理的驾驶行为。

因为第二行驶序列与目标示教行驶序列之间的差异可以通过第二输出表示，所以，基于第二输出来对运动规划层进行优化，以使得第二输出越来越趋向于第三输出，可以使得运动规划层学习到目标示教行驶序列中的驾驶行为对应相应轨迹序列的知识，从而可以使得优化后的运动规划层可以输出合理的轨迹序列。

这种闭环联合优化的方式，可以使得行为决策层和运动规划层同时得到优化，从而可以提高自动驾驶策略控制系统的鲁棒性，最终可以提高车辆的安全性。

在一些可能的实现方式中，所述根据所述第二输出对所述运动规划层进行优化，包括：使用策略优化法，基于所述第二输出，对所述运动规划层进行优化。

例如，可以通过信任域策略优化算法，基于第二输出来优化运动规划层。

在一些可能的实现方式中，所述根据所述第一输出对所述行为决策层进行优化，包括：获取第一函数的梯度，并使用梯度下降法根据所述第一函数的梯度优化所述行为决策层，所述第一函数的自变量包括所述第一输出。

在一些可能的实现方式中，所述第一函数的表达式为：

其中，N表示预设的根据所述第一函数的梯度优化所述行为决策层的次数，ω为预设的值，T_j表示所述第一轨迹序列的长度，

表示所述第一输出，λ_E为预设的值，

表示所述N次优化中的第j次优化时所对应的示教行驶行为，

表示所述行为决策层的输入为所述示教轨迹序列时所述行为决策层输出行驶行为

的条件概率，λ_G为预设的值。

在一些可能的实现方式中，所述根据所述第一输出、所述第二输出和所述第三输出，对所述判别模型进行优化，包括：获取第二函数的梯度，使用梯度上升法根据所述第二函数的梯度优化所述判别模型，所述第二函数的自变量包括所述第一输出、所述第二输出和所述第三输出。

在一些可能的实现方式中，所述第二函数的表达式为：

其中，N_e表示所述示教轨迹序列的长度，

表示所述第三输出，N表示预设的优化所述判别模型的次数，ω为预设的值，T_j表示所述第一轨迹序列的长度，

表示所述第二输出，

表示所述第一输出。

在一些可能的实现方式中，所述目标示教驾驶序列是从预先配置的示教数据集中选取的，所述示教数据集中包括第一驾驶场景下的多个示教驾驶序列。

可选地，所述方法还包括：更新所述示教数据集，更新后的所述示教数据集中包括第二驾驶场景下的示教驾驶序列。

在一些可能的实现方式中，所述目标示教驾驶序列为驾驶员驾驶车辆时采集的驾驶序列。

第二方面，本申请提供一种基于决策控制系统控制车辆行驶的方法。所述方法包括：使用所述决策控制模型的行为决策层，基于车辆的环境信息，输出所述车辆的目标驾驶行为，所述决策控制系统可以是使用第一方面或其中任意一种可能的实现方式所述的方法优化得到的；使用所述决策控制系统的运动规划层，基于所述目标驾驶行为，输出所述车辆的轨迹信息；根据所述轨迹信息控制所述车辆行驶。

该方法中，因为使用的决策控制系统是使用第一方面或其中任意一种可能的实现方式优化得到的，因此有助于提高决策控制系统输出的轨迹信息的合理性，从而可以提高车辆的行驶安全性。

第三方面，本申请提供了一种优化决策规控的装置。所述装置包括：获取模块，用于获取第一轨迹序列，所述第一轨迹序列中包括车辆在第一环境信息中的轨迹信息；所述获取模块还用于获取决策控制系统的行为决策层基于所述第一环境信息输出的第一目标驾驶行为；融合模块，用于对所述第一轨迹序列和所述第一目标驾驶行为信息进行融合，得到第一行驶序列；所述获取模块还用于获取所述决策控制系统的运动规划层基于预设的第二目标驾驶行为信息输出的第二轨迹序列；所述融合模块还用于对所述第二轨迹序列和所述第二目标驾驶行为信息进行融合，得到第二行驶序列；优化模块，用于根据所述第一行驶序列与目标示教驾驶序列之间的差异，对所述行为决策层进行优化；所述优化模块还用于根据所述第二行驶序列与所述目标示教行驶序列之间的差异，对所述运动规划层进行优化。

上述装置中，根据行为决策层输出的行为构成的序列和运动规划层输出的轨迹序列构成的序列与同一个示教许可之间的差异来优化整行为决策层，以使得行为决策层输出的行为所构成的行驶序列和运动规划层输出的轨迹序列所构成的行驶序列同时趋向于同一个示教行驶序列，从而使得优化后的行为决策层输出的行为不仅在行为决策层是最优的行为，而且运动规划层基于该行为输出的轨迹序列也可以是最优的。这种优化方法可以大幅提高自动驾驶决策系统的决策规控性能，最终提高车辆的安全性。

在一些可能的实现方式中，所述优化模块具体用于：获取判别模型输入所述第一行驶序列时的第一输出，所述判别模型用于判断输入的行驶序列为示教行驶序列，并根据所述第一输出对所述行为决策层进行优化；获取所述判别模型输入所述第二行驶序列时的第二输出，并根据所述第二输出对所述运动规划层进行优化；获取所述判别模型输入所述目标示教行驶序列时的第三输出；根据所述第一输出、所述第二输出和所述第三输出，优化所述判别模型。

在一些可能的实现方式中，所述优化模块具体用于：使用策略优化法，基于所述第二输出，优化所述运动规划层。

例如，可以通过信任域策略优化算法，基于所述第二输出来优化运动规划层。

在一些可能的实现方式中，所述优化模块具体用于：获取第一函数的梯度，并使用梯度下降法基于所述第一函数的梯度，优化所述行为决策层，所述第一函数的自变量包括所述第一输出。

在一些可能的实现方式中，所述第一函数的表达式为：

表示所述第一输出，λ_E为预设的值，

表示所述N次优化中的第j次优化时所对应的示教行驶行为，

的条件概率，λ_G为预设的值。

在一些可能的实现方式中，所述优化模块具体用于：获取第二函数的梯度，并使用梯度上升法基于所述第二函数的梯度，优化所述判别模型，所述第二函数的自变量包括所述第一输出、所述第二输出和所述第三输出。

在一些可能的实现方式中，所述第二函数的表达式为：

其中，N_e表示所述示教轨迹序列的长度，

表示所述第二输出，

表示所述第一输出。

可选地，所述装置还包括更新模块，用于更新所述示教数据集，更新后的所述示教数据集中包括第二驾驶场景下的示教驾驶序列。

第四方面，本申请提供一种基于决策控制系统控制车辆行驶的装置，所述决策控制系统包括行为决策层和运动规划层，所述决策控制系统可以是使用第一方面或其中任意一种可能的实现方式所述的方法优化得到的。所述装置包括：行为输出模块，用于使用所述行为决策层，基于车辆的环境信息，输出所述车辆的目标驾驶行为信息；轨迹输出模块，用于使用所述运动规划层，基于所述目标驾驶行为信息，推测所述车辆的轨迹信息；控制模块，用于根据所述轨迹信息控制所述车辆行驶。

该装置中，因为使用的自控驾驶决策控制模型是使用第一方面或其中任意一种可能的实现方式优化得到的模型，因此有助于推测得到对于整个自动驾驶决策控制模型来说是最优的控制策略，从而可以提高车辆的行驶安全性。

第五方面，提供了一种优化决策规控的装置，该装置包括：存储器，用于存储程序；处理器，用于执行所述存储器存储的程序，当所述存储器存储的程序被执行时，所述处理器用于执行第一方面或者其中任意一种实现方式中的方法。

第六方面，提供了一种基于决策控制系统控制车辆行驶的装置，该装置包括：存储器，用于存储程序；处理器，用于执行所述存储器存储的程序，当所述存储器存储的程序被执行时，所述处理器用于执行第二方面中的方法。

第七方面，提供一种计算机可读介质，该计算机可读介质存储用于计算设备执行的程序代码，该程序代码包括用于执行第一方面或其中任意一种实现方式中的方法。

第八方面，提供一种计算机可读介质，该计算机可读介质存储用于计算设备执行的程序代码，该程序代码包括用于执行第二方面中的方法。

第九方面，提供一种包含指令的计算机程序产品，当该计算机程序产品在计算机上运行时，使得计算机执行上述第一方面或其中任意一种实现方式中的方法。

第十方面，提供一种包含指令的计算机程序产品，当该计算机程序产品在计算机上运行时，使得计算机执行上述第二方面中的方法。

第十一方面，提供一种芯片，所述芯片包括处理器与数据接口，所述处理器通过所述数据接口读取存储器上存储的指令，执行上述第一方面或其中任意一种实现方式中的方法。

可选地，作为一种实现方式，所述芯片还可以包括存储器，所述存储器中存储有指令，所述处理器用于执行所述存储器上存储的指令，当所述指令被执行时，所述处理器用于执行第一方面或其中任意一种实现方式中的方法。

第十二方面，提供一种芯片，所述芯片包括处理器与数据接口，所述处理器通过所述数据接口读取存储器上存储的指令，执行上述第二方面中的方法。

可选地，作为一种实现方式，所述芯片还可以包括存储器，所述存储器中存储有指令，所述处理器用于执行所述存储器上存储的指令，当所述指令被执行时，所述处理器用于执行第二方面中的方法。

第十三方面，提供了一种计算设备，该计算设备包括：存储器，用于存储程序；处理器，用于执行所述存储器存储的程序，当所述存储器存储的程序被执行时，所述处理器用于执行第一方面或者其中任意一种实现方式中的方法。

第十四方面，提供了一种计算设备，该计算设备包括：存储器，用于存储程序；处理器，用于执行所述存储器存储的程序，当所述存储器存储的程序被执行时，所述处理器用于执行第二方面中的方法。

第十五方面，提供了一种车辆，该车辆包括：存储器，用于存储程序；处理器，用于执行所述存储器存储的程序，当所述存储器存储的程序被执行时，所述处理器用于执行第一方面或者其中任意一种实现方式中的方法。

第十六方面，提供了一种车辆，该车辆包括：存储器，用于存储程序；处理器，用于执行所述存储器存储的程序，当所述存储器存储的程序被执行时，所述处理器用于执行第二方面中的方法。

附图说明

图1为本申请实施例提供的一种车辆的结构示意图；

图2为本申请实施例提供的一种计算机系统的结构示意图；

图3为本申请实施例提供的一种通过云侧指令驾驶汽车的应用示意图；

图4为本申请实施例提供的一种优化决策规控的方法的流程示意图；

图5为本申请实施例提供的另一种优化决策规控的方法的流程示意图；

图6为本申请提供的优化决策规控的方法和控制车辆行驶的方法的一种应用场景示意图；

图7为本申请实施例提供的一种基于策略控制系统控制车辆行驶的方法的流程示意图；

图8为本申请实施例提供的一种优化决策规控的装置的结构示意图；

图9为本申请实施例提供的一种基于策略控制系统控制车辆行驶的装置的结构示意图；

图10为本申请实施例提供的一种装置的结构示意图；

图11为本申请实施例提供的一种计算机程序产品的结构示意图。

具体实施方式

下面先对本申请实施例中的一些用语进行解释。

决策控制系统：包括行为决策和运动规划模块，还可以包括感知、定位和控制等模块。本申请的实施例中，行为决策模块也称为行为决策层，运动规划模块也称为运动规划层。

本申请中的决策控制系统也可以是自动驾驶系统。例如，本申请中的决策控制系统可以是高级驾驶辅助系统(advanced driving assistance system，ADAS)，或者可以是高级驾驶系统(advanced driving system)，也可以是其他任何包含行为决策层和运动规划层的驾驶系统。

行为决策层：结合从感知模块得到的环境信息(例如其他车辆、行人、障碍物以及道路上的交通规则信息等)，作出具体的行为决策(例如选择换道超车还是跟随)。

运动规划层：根据行为决策，规划生成一条满足特定约束条件(例如车辆本身的动力学约束、避免碰撞、乘客舒适性等)的轨迹，该轨迹作为控制模块的输入决定车辆最终行驶路径。

环境信息：可以包括车辆所行驶的道路结构、路面条件、天气状况等环境数据。

状态信息：可以包括车辆及周围车辆和行人的位置、速度、方向等状态数据。本申请实施例中，环境信息和状态信息也可以合称为环境状态信息。

动作信息：可以包括车辆及周围车辆的加速度和方向盘转角等动作数据。

示教驾驶序列是指其中包括的轨迹序列和驾驶行为是可信的或可靠的或安全的，可以作为示例，供其他驾驶员和驾驶系统学习或参考。其中的轨迹序列可以称为示教轨迹序列，其中的驾驶行为可以称为示教驾驶行为。

可以理解的是，上述信息或数据可以通过车载传感器，例如摄像头、激光雷达、毫米波雷达等获取，上述信息或数据可以是原始采集的视频流、雷达的点云数据或者是经过分析的结构化的人、车、物的位置、速度、转向角度、尺寸大小等信息或数据，对于原始的视频流数据、雷达的点云数据，感知模块可以将这些数据处理成可识别的、结构化的人、车、物的位置、速度、转向角度、尺寸大小等信息或数据。

下面将结合附图，对本申请中的技术方案进行描述。

图1是本申请一个实施例的车辆100的功能框图。在一个示例中，可以将车辆100配置为完全或部分地自动驾驶模式。例如，车辆100可以在处于自动驾驶模式中的同时控制自身，并且可通过人为操作来确定车辆及其周边环境的当前状态，确定周边环境中的至少一个其他车辆的可能行为，并确定该其他车辆执行可能行为的可能性相对应的置信水平，基于所确定的信息来控制车辆100。在车辆100处于自动驾驶模式中时，可以将车辆100置为在没有和人交互的情况下操作。

车辆100可包括各种子系统，例如行进系统102、传感器系统104、控制系统106、一个或多个外围设备108以及电源110、计算机系统112和用户接口116。可选地，车辆100可包括更多或更少的子系统，并且每个子系统可包括多个元件。另外，车辆100的每个子系统和元件可以通过有线或者无线互连。

行进系统102可包括为车辆100提供动力运动的组件。在一个实施例中，行进系统102可包括引擎118、能量源119、传动装置120和车轮121。引擎118可以是内燃引擎、电动机、空气压缩引擎或其他类型的引擎组合，例如汽油发动机和电动机组成的混动引擎，内燃引擎和空气压缩引擎组成的混动引擎。引擎118将能量源119转换成机械能量。

能量源119的示例包括汽油、柴油、其他基于石油的燃料、丙烷、其他基于压缩气体的燃料、乙醇、太阳能电池板、电池和其他电力来源。能量源119也可以为车辆100的其他系统提供能量，例如为传感系统104、计算机系统112、控制系统106或外围设备108。

传动装置120可以将来自引擎118的机械动力传送到车轮121。传动装置120可包括变速箱、差速器和驱动轴。在一个示例中，传动装置120还可以包括其他器件，比如离合器。其中，驱动轴可包括可耦合到一个或多个车轮121的一个或多个轴。

传感器系统104可包括感测关于车辆100周边的环境的信息的若干个传感器。例如，传感器系统104可包括定位系统122、惯性测量单元(inertial measurement unit，IMU)124、雷达126、激光测距仪128以及相机130。定位系统122可以是全球定位系统(globalpositioning system，GPS)，也可以是北斗系统或者其他定位系统。

传感器系统104还可包括车辆100的内部系统的传感器，例如车内空气质量监测器、燃油量表、机油温度表等。来自这些传感器中的一个或多个的传感器数据可用于检测对象及其相应特性(位置、形状、方向、速度等)。这种检测是车辆100的安全操作的关键功能。

定位系统122可用于估计车辆100的地理位置。IMU 124用于基于惯性加速度来感测车辆100的位置和朝向变化。在一个示中，IMU 124可以是加速度计和陀螺仪的组合。

雷达126可利用无线电信号来感测车辆100的周边环境内的物体。在一些示例中，除了感测物体以外，雷达126还可用于感测物体的速度和/或前进方向。

激光测距仪128可利用激光来感测车辆100所位于的环境中的物体。在一些示例中，激光测距仪128可包括一个或多个激光源、激光扫描器以及一个或多个检测器，以及其他系统组件。

相机130可用于捕捉车辆100的周边环境的多个图像。相机130可以是静态相机或视频相机。

控制系统106用于控制车辆100及其组件。控制系统106可包括各种元件，例如包括转向系统132、油门134、制动单元136等。

转向系统132可操作来调整车辆100的前进方向。例如，在一个示例中，转向系统132可以为方向盘系统。

油门134用于控制引擎118的操作速度并进而控制车辆100的速度。

制动单元136用于控制车辆100减速。制动单元136可通过摩擦力来减慢车轮121。在一些示例中，制动单元136可将车轮121的动能转换为电流。制动单元136也可采取其他形式来减慢车轮121转速从而控制车辆100的速度。

当然，在一个实例中，控制系统106可以增加或替换地包括除了所示出和描述的那些以外的组件。或者也可以减少一部分上述示出的组件。

车辆100通过外围设备108与外部传感器、其他车辆、其他计算机系统或用户之间进行交互。外围设备108可包括无线通信系统146、车载电脑148、麦克风150和/或扬声器152。

在一些实施例中，外围设备108提供车辆100的用户与用户接口116交互的手段。例如，车载电脑148可向车辆100的用户提供信息。用户接口116还可操作车载电脑148来接收用户的输入。车载电脑148可以通过触摸屏进行操作。在其他情况中，外围设备108可提供用于车辆100与位于车内的其它设备通信的手段。例如，麦克风150可从车辆100的用户接收音频(例如，语音命令或其他音频输入)。类似地，扬声器152可向车辆100的用户输出音频。

无线通信系统146可以直接地或者经由通信网络来与一个或多个设备无线通信。例如，无线通信系统146可使用第三代移动通信技术(3rd-generation，3G)通信，例如码分多址(code division multiple access，CDMA)通信系统、全球移动通信系统(globalsystem for mobile communications，GSM)；或者使用第四代移动通信技术(4G)通信，例如长期演进(long term evolution，LTE)；或者使用第五代移动通信技术(5th generationmobile networks，5G)通信。

无线通信系统146可利用无线上网(WiFi)与无线局域网(wireless local areanetwork，WLAN)通信。在一些示例中，无线通信系统146可利用红外链路、蓝牙或紫蜂协议(ZigBee)与设备直接通信。或者，无线通信系统146可以采用其他无线协议，例如各种车辆通信系统通信。例如，无线通信系统146可包括一个或多个专用短程通信(dedicated shortrange communications，DSRC)设备，这些设备可包括车辆和/或路边台站之间的公共和/或私有数据通信。

电源110可向车辆100的各种组件提供电力。在一个示例中，电源110可以为可再充电锂离子电池或铅酸电池。这种电池的一个或多个电池组可被配置为电源为车辆100的各种组件提供电力。在一些示例中，电源110和能量源119可一起实现，例如全电动车中的电源和能量源相同。

用户接口116，用于向车辆100的用户提供信息或从其接收信息。可选地，用户接口116可包括在外围设备108的集合内的一个或多个输入/输出设备，例如无线通信系统146、车载电脑148、麦克风150和扬声器152。

可选地，上述这些组件中的一个或多个可与车辆100分开安装或关联。例如，存储器114可以部分或完全地与车辆100分开存在。上述组件可以按有线和/或无线方式来通信地耦合在一起。

可选地，上述组件只是一个示例，实际应用中，上述各个模块中的组件有可能根据实际需要增添或者删除，图1不应理解为对本申请实施例的限制。

计算机系统112可包括至少一个处理器113，处理器113执行存储在例如存储器114这样的非暂态计算机可读介质中的指令115。计算机系统112还可以是采用分布式方式控制车辆100的个体组件或子系统的多个计算设备。

处理器113可以是任何常规的处理器，诸如商业可获得的中央处理器(centralprocessing unit，CPU)。可选地，该处理器可以是诸如特殊应用集成电路(applicationspecific integrated circuit，ASIC)或其它基于硬件的处理器的专用设备。

图1功能性地图示了一个处理器和一个存储器，但是，本领域的普通技术人员应该理解，车辆100的计算机系统112中实际上可以包括多个处理器或多个存储器。不同于使用单一的处理器来执行本申请实施例中所描述的步骤，诸如转向组件和减速组件的一些组件，每个组件都可以具有其自己的处理器，所述处理器只执行与特定于组件的功能相关的计算。

可选地，计算机系统112中的部分处理器可以位于远离车辆100并且与车辆100进行无线通信。

在一些实施例中，存储器114可包含指令115(例如，程序逻辑)，指令115可被处理器113执行来执行车辆100的各种功能，包括前述描述的任意功能。存储器114也可包含额外的指令，包括向行进系统102、传感器系统104、控制系统106和外围设备108中的一个或多个发送数据、从其接收数据、与其交互和/或对其进行控制的指令。

除了指令115以外，存储器114还可存储数据，例如道路地图、路线信息，车辆的位置、方向、速度以及其它这样的车辆数据，以及其他信息。这种信息可在车辆100在自主、半自主和/或手动模式中操作期间被车辆100和计算机系统112使用。

车辆100的部分或所有功能受计算机系统112控制。计算机系统112可基于从各种子系统(例如，行进系统102、传感器系统104和控制系统106)以及从用户接口116接收的输入来控制车辆100的功能。

在一些示例中，计算机系统112可以处理和分析由传感系统104采集的信息(例如相机130捕捉的图像、IMU测量的车辆100的信息)，以便识别车辆100的行驶环境信息和状态信息，车辆100的环境信息包括车辆100周边环境中的物体和/或周边环境的特征。所述物体和/或特征可包括交通信号、道路边界和障碍物等。车辆100的状态信息包括车辆100的速度、位置、加速度等信息。

例如，计算机系统112可使用物体识别算法、运动中恢复结构(structure frommotion，SFM)算法、视频跟踪和其他计算机感知技术来识别车辆100的环境信息。

在一些示例中，计算机系统112在获取车辆100的环境信息和状态信息时，还可以获取车辆100位于这些环境信息所对应的环境中以及处于这些状态信息对应的状态时的动作信息。

在一些示例中，计算机系统112计算机系统可以对策略控制系统进行优化。例如，计算机系统112可以执行图4所示的方法来优化车辆100上的策略控制系统。

计算机系统112对策略控制系统进行优化后，可以执行图7所述的方法，控制车辆100行驶。

在一些示例中，车辆100中可以部署有使用图4所示的方法优化过的策略控制系统，并使用该策略控制系统控制车辆100行驶，例如执行图7所示的方法。

上述车辆100可以为轿车、卡车、摩托车、公共汽车、船、飞机、直升飞机、割草机、娱乐车、游乐场车辆、施工设备、电车、高尔夫球车、火车、和手推车等，本申请实施例不做特别的限定。

图2为本申请一个实施例的计算机系统201的示意性结构图。根据图2，计算机系统201包括处理器203，处理器203和系统总线205耦合。处理器203可以是一个或者多个处理器，其中每个处理器都可以包括一个或多个处理器核。

计算机系统201还可以包括显示适配器(video adapter)207，显示适配器207可以驱动显示器209，显示器209和系统总线205耦合。

系统总线205通过总线桥211和输入输出(input/output，I/O)总线213耦合。I/O接口215和I/O总线耦合。I/O接口215和多种I/O设备进行通信，例如输入设备217或多媒体盘(media tray)221。输入设备包括键盘，鼠标，触摸屏等；多媒体盘包括光盘只读存储器(CD-ROM)，多媒体接口等。

计算机系统201还可以包括：收发器223，可以发送和/或接受无线电通信信号；摄像头255，可以捕捉景田和动态数字视频图像；外部通用串行总线(universal serial bus，USB)接口225。其中，可选地，和I/O接口215相连接的接口可以是USB接口。

其中，处理器203可以是任何传统处理器，包括精简指令集计算(reducedinstruction set computing，RISC)处理器、复杂指令集计算(complex instruction setcomputer，CISC)处理器或上述的组合。可选地，处理器可以是诸如专用集成电路的专用装置。可选地，处理器203可以是神经网络处理器或者是神经网络处理器和上述传统处理器的组合。

可选地，计算机系统201可位于远离车辆的地方，并且可与车辆无线通信。可选地，计算机系统201的部分功能可以设置在车辆内的处理器上实现，其它由远程处理器实现，包括采取执行单个操纵所需的动作。

计算机系统201可以通过网络接口229和软件部署服务器249通信。网络接口229是硬件网络接口，比如，网卡。网络227可以是外部网络，比如因特网；也可以是内部网络，比如以太网或者虚拟私人网络(virtual private network，VPN)。可选地，网络227还可以是无线网络，比如WiFi网络，蜂窝网络等。

硬盘驱动接口233和系统总线205耦合。硬件驱动接口233和硬盘驱动器231相连接。系统内存235和系统总线205耦合。运行在系统内存235的数据可以包括计算机201的操作系统237和应用程序243。

操作系统包括外壳(shell)239和内核(kernel)241。Shell 239是介于使用者和操作系统之内核(kernel)间的一个接口。shell是操作系统最外面的一层。shell管理使用者与操作系统之间的交互，等待使用者的输入,向操作系统解释使用者的输入,并且处理各种各样的操作系统的输出结果。

内核241由操作系统中用于管理存储器、文件、外设和系统资源的那些部分组成。直接与硬件交互，操作系统内核通常运行进程，并提供进程间的通信，提供CPU时间片管理、中断、内存管理、I/O管理等等。

应用程序243包括控制汽车驾驶的驾驶相关程序247，比如包括执行图7所示的方法的程序。应用程序243也存在于软件部署服务器249的系统上。在一个实施例中，在需要执行应用程序243时，计算机系统201可以从软件部署服务器249下载应用程序243。

在一个示例中，计算机系统201可以从软件部署服务器249下载策略控制系统。此外，计算机系统201还可以从软件部署服务器249下载用于优化该策略控制系统的程序。然后，计算机系统201可以执行该用于优化策略控制系统的程序，实现如图4所述的方法，对该策略控制系统进行优化。

该示例中，计算机系统201对策略控制系统进行优化之后，可以执行如图7所示的方法，以控制车辆行驶。

在另一个示例中，计算机系统201可以从软件部署服务器249下载策略控制系统，且该策略控制系统是使用图4的方法优化过的。并且，计算机系统201可以执行如图7所示的方法，以控制车辆行驶。

传感器253和计算机系统201关联。传感器253用于探测计算机201周围的环境。举例来说，传感器253可以探测动物，汽车，障碍物和人行横道等，进一步传感器还可以探测上述动物，汽车，障碍物和人行横道等物体周围的环境，比如：动物周围的环境，例如，动物周围出现的其他动物，天气条件，周围环境的光亮度等。可选地，如果计算机系统201位于自动驾驶的汽车上，传感器可以是摄像头，红外线感应器，化学检测器，麦克风等。

本申请中的计算机系统(例如计算机系统112或计算机系统201)可以从其它计算机系统接收信息或转移信息到其它计算机系统。或者，从车辆100的传感器系统104收集的传感器数据可以被转移到另一个计算机对此数据进行处理。

图3示出了车辆和云服务中心的示例。云服务中心可以经诸如无线通信网络的网络302，从其操作环境内的自动驾驶车辆310接收数据(例如车辆的行驶环境信息、车辆的状态信息、车辆的动作信息等)。

在一个示例中，云服务中心根据接收到的数据，运行其存储的控制汽车驾驶的相关程序，实现图4中所示的方法，对车辆310对应的策略控制系统进行优化。

优化得到的策略控制系统可以发送给车辆310。车辆310接收到该策略控制系统之后，可以根据传感器系统采集的数据，执行图7中所示的方法。

或者，优化得到的策略控制系统可以部署在云服务中心上。车辆310获取车辆310的行驶环境信息、状态信息和动作信息之后，通过网络302将这些信息发送给云服务中心。云服务中心320可以执行图7中的方法。

网络302可以包括各种配置和协议，包括因特网、万维网、内联网、虚拟专用网络、广域网、局域网、使用一个或多个公司的专有通信协议的专用网络、以太网、WiFi和HTTP、以及前述的各种组合。这种通信可以由能够传送数据到其它计算机和从其它计算机传送数据的任何设备，诸如调制解调器和无线接口。

在一个示例中，云服务中心320可以包括具有多个计算机的服务器，例如负载均衡服务器群。这些服务器可以被类似于计算机系统112或计算机系统201的配置，具有处理器、存储器、指令等。

图4是本申请一个实施例的优化决策规控的方法的示例性流程图。该方法可以包括S410至S470。

S410，获取第一轨迹序列，所述第一轨迹序列中包括车辆在第一环境中的轨迹信息。

其中，第一轨迹序列可以是运动规划层基于第一环境的信息输出的轨迹序列。如果是首次执行该步骤，第一轨迹序列可以是预先设置的或者可以是随机初始化得到的。

第一轨迹序列中可以包括车辆在一个或多个时间点中每个时间点的轨迹信息。

每个时间点的轨迹信息可以通过车辆在该时间点的环境状态信息和动作信息来表示。这种情况下，轨迹序列由环境状态信息和动作信息构成的序列来表示。例如，将环境信息记为s，将动作信息记为a，则轨迹序列可以记为<s,a>。

S420，获取所述行为决策层基于所述第一环境的信息输出的第一目标驾驶行为信息。

例如，将第一环境的信息输入行为决策层，行为决策层基于该输入输出车辆的行为，为了叙述方便，将该行为称为第一目标驾驶行为。

可以理解的是，行为决策层的输入还可以包括其他信息，例如可以包括车辆的状态信息和动作信息。

本实施例中，行为决策层可以包括全链接层，或者，行为决策层可是循环神经网络，或者具有与循环神经网络相似的结构。

S430，对所述第一轨迹序列和所述第一目标驾驶行为信息进行融合，得到第一行驶序列。

也就是说，获得车辆的第一目标行驶行为信息之后，可以根据第一轨迹序列和第一目标行驶行为生成一个序列，为了便于叙述，该序列可以称为第一行驶序列。

对第一轨迹序列和第一目标驾驶行为信息进行融合时，可以通过拼接的方式进行融合。例如，可以将第一目标驾驶行为信息拼接在第一轨迹序列之后，从而得到第一行驶序列。

例如，将第一轨迹序列记为<s^c,a^c>，将第一目标驾驶行为信息记为c^c时，对第一轨迹序列和第一目标驾驶行为信息进行融合后得到的第一行驶序列可以记为<s^c,a^c,c^c>。

S440，获取所述运动规划层基于预设的第二目标驾驶行为信息输出的第二轨迹序列。

例如，将预设的第二目标驾驶行为输入运动规划层，运动规划层根据第二目标驾驶行为输出轨迹序列，为了便于叙述，将该轨迹序列称为第二轨迹序列。

可以理解的是，运动规划层的输入还可以包括其他信息，例如可以包括车辆当前的环境状态信息。

该步骤可以在多个时间点分别执行。运动规划层基于每个时间点的当前环境状态信息和第二目标驾驶行为信息可以推测相应的动作信息，并根据该动作信息输出相应的轨迹信息，则多个时间点对应的多个轨迹信息构成第二轨迹序列。

第二轨迹序列可以通过环境状态信息和动作信息来表示。例如，可以将第二轨迹序列记为<s^g,a^g>，其中，s^g表示环境状态信息，a^g表示动作信息。

第二目标驾驶行为信息时预设的可以理解为：预先规定将随机生成的行为信息作为第二目标驾驶行为信息，或者，预先规定将第一目标驾驶行为信息作为第二目标驾驶行为信息，或者可以使用示教驾驶序列训练得到一个用于根据输入的轨迹序列输出相应的行为信息的采样模型，并预先规定将该采样模型基于第一轨迹序列输出的行为信息作为第二目标驾驶行为信息。

S450，对所述第二轨迹序列和所述第二目标驾驶行为信息进行融合，得到第二行驶序列。

也就是说，获得第二轨迹序列之后，可以根据第二轨迹序列和第二目标行驶行为信息融合得到一个序列，为了叙述方便，将该序列称为第二行驶序列。

对第二轨迹序列和第二目标驾驶行为信息进行融合时，可以通过拼接的方式来融合第二轨迹序列和第二目标驾驶行为信息。例如，将第二轨迹序列记为<s^g,a^g>，将第二目标驾驶行为信息记为c^g的情况下，拼接得到的第二行驶序列可以记为<s^g,a^g,c^g>。

S460，根据第一行驶序列与预设的目标示教行驶序列之间的差异，对所述行为决策层进行优化，所述目标示教行驶序列中包括示教轨迹序列和示教驾驶行为信息。

目标示教行驶序列可以是从预设的示教数据集中选取的，示教数据集中可以包括多个示教行驶序列。目标示教行驶序列可以是从示教数据集中随机选取的，也可以是依据第二目标驾驶行为信息和第一轨迹序列从示教数据集中选取的。例如，可以将示教数据集中与第二目标驾驶行为信息和第一轨迹序列融合得到的序列相似度最高的示教行驶序列选为目标示教行驶序列。

S470，根据所述第二行驶序列与所述目标示教行驶序列之间的差异，对所述运动规划层进行优化。

本实施例的方法中，根据行为决策层输出的行为构成的序列和运动规划层输出的轨迹序列构成的序列与同一个示教许可之间的差异来优化整行为决策层，以使得行为决策层输出的行为所构成的行驶序列和运动规划层输出的轨迹序列所构成的行驶序列同时趋向于同一个示教行驶序列，从而使得优化后的行为决策层输出的行为不仅在行为决策层是最优的行为，而且运动规划层基于该行为输出的轨迹序列也可以是最优的。这种优化方法可以大幅提高自动驾驶决策系统的决策规控性能，最终提高车辆的安全性。

其中，目标示教驾驶序列可以是人类驾驶员驾驶车辆时采集的序列，这样有助于帮助决策控制系统学习到人类驾驶员的驾驶风格，从而帮助车辆实现人类风格的驾驶。

本实施例中，执行一次S410至S460，可以称为一次迭代，或者可以称为一次训练迭代，或一次优化。其中，执行一次S450可以称为行为决策层的一次优化，执行一次S460可以称为运动规划层的一次优化。

本实施例中，根据第一行驶序列和目标示教行驶序列之间的差异，对行为决策层进行优化时，在一些可能的实现方式中，可以包括：获取判别模型输入第一行驶序列时的第一输出，根据第一输出对行为决策层进行优化，其中，判别模型用于判断输入的行驶序列是否为示教行驶序列。

其中，获取判别模型输入第一行驶序列时的第一输出结果可以包括：将第一行驶序列输出判别模型，获取判别模型的输出，为了叙述方便，将该输出称为第一输出。

本实施例中，判别模型可以是神经网络模型，例如，判别模型可以是由全链接层构成的神经网络模型，或者可以是循环神经网络模型，或者具有与循环神经网络相似的结构。

本实施例中，根据第一输出对行为决策层进行优化时，在一些可能的实现方式中，可以包括：获取第一函数的梯度，并使用梯度下降法基于所述梯度，优化行为决策层，第一函数的自变量包括第一输出。

本实施例中，优化行为决策层的一种实现方式为优化行为决策层的参数，行为决策层的参数可以记为α。

作为一种示例，第一函数的表达式如下所示：

其中，N表示根据所述第一函数的梯度优化所述行为决策层的迭代次数，或者可以说，N表示迭代次数，N的值是预设的；ω为预设的值；T_j表示第一轨迹序列的长度或第二轨迹序列的长度；

表示第一输出；λ_E为预设的值，

表示在j次迭代中的示教驾驶行为信息；

表示行为决策层的输入为示教轨迹序列时输出行驶行为

的条件概率；λ_G为预设的值。第一轨迹序列的长度与第二轨迹序列的长度可以相同。

表示第一行驶序列中t时间点时的驾驶行为信息。

或者说，可以根据下面的公式计算梯度，并使用梯度上升法根据该梯度调整行为决策层的参数：

本实施例中，使用判别模型对第一行驶序列进行判别得到第一输出。因为第一行驶序列与目标示教行驶序列之间的差异可以通过第一输出表示，所以，基于第一输出来对行为决策层进行优化，以使得第一目标驾驶行为越来越趋向于示教驾驶行为，可以使得行为决策层学习到目标示教行驶序列中的轨迹序列对应相应驾驶行为的知识，从而可以使得优化后的行为决策层可以输出合理的驾驶行为。

本实施例中，根据第二输出优化运动规划层时，在一些可能的实现方式中，可以包括：使用策略优化法，基于第二输出，优化运动规划层。

本实施例中，优化运动规划层的一种实现方式为优化运动规划层的参数。运动规划层的参数可以记为θ。

例如，可以通过深度强化学习领域的近端策略优化或者信任域策略优化算法，基于第二输出来调整运动规划层的参数。

使用策略优化方法调整运动规划层的参数时，根据第二输出可以生成反馈信号

并将r作为信任域策略优化方法的回报函数r(s_t)，以及根据该回报函数更新运动规划层的参数，其中，

表示判别模型输入第二行驶序列时，针对第二行驶序列中t时刻的轨迹信息和行驶行为信息的输出。

本实施例中，使用判别模型对第二行驶序列进行判别得到第二输出。因为第二行驶序列与目标示教行驶序列之间的差异可以通过第二输出表示，所以，基于第二输出来对运动规划层进行优化，以使得第二轨迹序列越来越趋向于示教轨迹序列，可以使得运动规划层学习到目标示教行驶序列中的驾驶行为对应相应轨迹序列的知识，从而可以使得优化后的运动规划层可以输出合理的轨迹序列。

本实施例中，在基于第一输出优化行为决策层和基于第二输出优化运动规划层的情况下，还可以包括：获取判别模型输出目标示教行驶序列时的第三输出，并根据第一输出、第二输出和第三输出优化判别模型。

本实施例中，根据所述第一输出、所述第二输出和所述第三输出，对所述判别模型进行优化时，在一些可能的实现方式中，可以包括：获取第二函数的梯度，使用梯度上升法基于该梯度，优化判别模型，第二函数的自变量包括第一输出、第二输出和第三输出。

优化判别模型的一种实现方式为优化判别模型的参数。判别模型的参数可以记为ψ。

作为一种示例，所述第二函数的表达式如下所示：

其中，N_e表示示教轨迹序列的长度；

表示第三输出；N表示根据第二函数的梯度优化判别模型的次数，或者可以说，N表示迭代次数，N的值为预设的；ω为预设的值；T_j表示第一轨迹序列的长度或第二轨迹序列的长度；

表示第二输出；

表示第一输出。第一轨迹序列的长度与第二轨迹序列的长度可以相同。

或者说，可以根据下面的公式计算梯度，并使用梯度上升法根据该梯度调整判别模型的参数：

本申请的实施例中，可以根据车辆的目标驾驶场景调价相应的示教数据，例如，可以调价泊车、路口通行等驾驶场景下的示教数据，并重复执行图4中的方法，通过反馈机制对行为决策层和运动规划层，甚至对判别模型进行参数更新，从而实现行为决策层和运动规划层，甚至对判别模型增量式学习。

本实施例的一些可能的实现方式中，示教数据集中可以包括一种或多种驾驶场景下的多个示教驾驶序列。例如，示教数据集中可以包括换道场景下的示教驾驶序列，其中的示教驾驶行为可以包括左换道、右换道、跟随前车等等。

在一些可能的实现方式中其中，本实施例的方法还可以包括：更新示教数据集，更新后的示教数据集中包括第二驾驶场景下的示教驾驶序列。例如，将泊车、路口通行的驾驶场景下的示教驾驶序列更新到示教数据集中。

更新示教数据集之后，车辆可以行驶至相应的场景下，并重新执行图4中的方法，以使得自动驾驶决策控制系统中的行为决策层和运动规划层学习这些场景下的行为决策和规划决策，从而实现行为决策层和运动规划层的增量式学习。

可以理解的是，本申请中的S450和S460并不一定要执行，即可以仅对行为决策层进行优化，或者可以使用其他方法对运动规划层进行优化。

图5为本申请另一个实施例的优化自动驾驶策略控制模型的方法。该方法包括S510至S560。本实施例将该优化方法应用在换道行为的行为决策和运动轨迹规划学习中，应用场景如图6所示。

图6中，编号为1的车辆表示自车，编号为2的车辆表示自车的行驶环境中的其他车辆。在此场景下对行为决策层和运动规划层进行优化，可以让行为决策层学习到在该场景下需要左换道还是右换道，或者是继续跟随前车行驶，可以让运动规划层基于行为决策层输出的行为规划出合理的轨迹。

S510，决策控制系统的行为决策层生成换道行为。

例如，将车辆的感知模块获取的环境信息、车辆状态信息和动作信息构成的序列记为<s,a>，其中，s表示环境信息和车辆状态信息，a表示动作信息，<s,a>可以用于表示车辆的轨迹；并将<s,a>作为决策控制系统的行为决策层的输入。

行为决策层输入<s,a>后，输出换道行为，该换道行为可以记为c^c。将<s,a>重新记为<s^c,a^c>，<s^c,a^c>与c^c构成环境状态动作行为序列对，该环境状态动作行为序列对记为<s^c,a^c,c^c>。<s^c,a^c,c^c>即为前述的第一行驶序列。

S520，决策控制系统的运动规划层生成轨迹序列。

例如，决策控制系统的运动规划层根据车辆的当前环境状态和指定的换道行为c^g，输出换道动作。该过程中，可以根据该换道动作控制车辆行驶，并更新车辆的当前环境状态，以及运动规划层根据更新后的当前环境状态推测新的换道动作。将多次更新的环境状态信息构成的序列记为s^g，将多次更新的换道动作构成的序列记为a^g，则s^g、a^g和c^g可以构成环境状态动作行为序列对<s^g,a^g,c^g>。<s^g,a^g,c^g>即为前述的第二行驶序列，<s^g,a^g>即为前述的第二轨迹序列的一种表现形式。

S530，从示教数据集中选取示教环境状态动作行为序列对。

作为一种示例，可以随机从示教数据集中选取一个环境状态动作行为序列对，该环境状态动作行为序列对记为<s^e,a^e,c^e>，即为示教状态动作行为序列对。<s^e,a^e,c^e>即为前述的示教驾驶序列，其中，<s^e,a^e>即为示教轨迹序列的一种表现行驶，c^e即为前述的示教驾驶行为。

S540，分别将行为决策层输出的环境状态动作行为序列对、运动规划层输出的环境状态动作行为序列对和示教环境状态动作行为序列对输入到判别模型D_ψ，由该判别模型判断输入的序列是否来自于示教数据集，即是否为示教驾驶序列。

行为决策层输出的环境状态动作行为序列对、运动规划层输出的环境状态动作行为序列对和示教环境状态动作行为序列输入到判别模型之后，判别模型的输出信号的一种表达方式为r＝-log[D_ψ(s,a,c)]。

输入为行为决策层输出的环境状态动作行为序列对时，判别模型的输出信号可以表示为r＝-logD_ψ(s^c,a^c,c^c)；判别模型的输入为运动规划层输出的环境状态动作行为序列对时，判别模型的输出为r＝-logD_ψ(s^g,a^g,c^g)和示教环境状态动作行为序列输入到判别模型

S550，根据判别模型的输出信号闭环联合优化行为决策层和运动规划层。

例如，根据输出信号r更新运动规划层的参数θ时，可以采用策略优化方法基于反馈信号r更新运动规划层的参数θ，更具体地，可以采用信任域策略优化算法(trust regionpolicy optimization，TRPO)。

例如，可以根据判别误差log[D_ψ(s,a,c)]更新判别模型的参数ψ。作为一种示例，可以采用梯度上升方法更新判别模型的参数ψ，更新公式可以参考前面所示的第二函数。

例如，可以根据反馈信号r更新行为决策层的参数α。作为一种示例，可以采用梯度下升方法更新判别模型的参数α，更新公式可以参考前面所示的第一函数。

迭代S510至S550进行上述优化，直到判别模型收敛。由此得到的行为决策层和运动规划层在应用阶段可根据当前环境状态进行相应的换道行为决策，并能根据换道行为规划相应的最优轨迹。

S560，在换道场景基础上，可根据其他驾驶场景更新示教数据集，并根据更新后的示教数据集实现行为决策层和运动规划层的增量式学习。

例如，对泊车、路口通行等驾驶场景的驾驶员示教数据进行更新，更新后的驾驶员示教数据可进一步通过判别模型提供的反馈机制对行为决策模块和运动规划模块的性能进行增量式学习。

图7本申请一个实施例的基于决策控制系统控制车辆行驶的方法，该决策系统包括行为决策层和运动规划层，且该行为决策层和运动规划层可以是使用图4或图5的方法优化得到的。该方法可以包括S710至S730。

S710，使用行为决策层，基于车辆的环境信息，输出车辆的目标驾驶行为信息。

例如，将传感器系统采集的环境信息输入行为决策层，则行为决策层基于该环境信息输出相应的目标驾驶行为信息。

可以理解的是，行为决策层的输入还可以包括其他信息，例如传感器系统采集的车辆状态信息、动作信息等。

S720，使用运动规划层，基于所述目标驾驶行为信息，输出车辆的轨迹信息。

例如，将所述目标驾驶行为输入运动规划层，运动规划层基于该目标驾驶行为输出相应的轨迹信息。

可以理解的是，运动规划层的输入还可以包括其他信息，例如可以包括传感器系统采集的环境信息和车辆状态信息。

运动规划层基于目标驾驶行为输出轨迹信息的过程中，可以先基于该目标驾驶行为推测出动作信息，再根据该动作信息和目标驾驶行为信息等信息输出轨迹信息。

S730，根据所述轨迹信息控制所述车辆行驶。该步骤可以参考现有技术中的实现方式，此处不再赘述。

本实施例的方法中，因为行为决策层和运动规划层是使用图4所示的方法或图5所示的方法优化得到的，因此有助于提高轨迹信息的合理性，从而可以提高车辆的行驶安全性。

图8为本申请一个实施例的优化决策规控的装置800的结构示意图。装置800可以包括获取模块S810、融合模块S820和优化模块830。装置800可以用于实现前述图4或图5所示的方法。

例如，获取模块810可以用于执行S410、S420和S440，融合模块820可以用于执行S430和S450，优化模块830可以用于执行S460和S470。

装置800可部署在云环境中，云环境是云计算模式下利用基础资源向用户提供云服务的实体。云环境包括云数据中心和云服务平台，所述云数据中心包括云服务提供商拥有的大量基础资源(包括计算资源、存储资源和网络资源)，云数据中心包括的计算资源可以是大量的计算设备(例如服务器)。装置800可以是云数据中心中用于优化决策规控的服务器。装置800也可以是创建在云数据中心中的用于优化决策规控的虚拟机。装置800还可以是部署在云数据中心中的服务器或者虚拟机上的软件装置，该软件装置用于优化决策规控，该软件装置可以分布式地部署在多个服务器上、或者分布式地部署在多个虚拟机上、或者分布式地部署在虚拟机和服务器上。例如，装置800中的获取模块810、融合模块820和优化模块830可以分布式地部署在多个服务器上，或分布式地部署在多个虚拟机上，或者分布式地部署在虚拟机和服务器上。又如，优化模块830包括多个子模块时，这多个子模块可以部署在多个服务器上，或分布式地部署在多个虚拟机上，或者分布式地部署在虚拟机和服务器上。

装置800可以由云服务提供商在云服务平台抽象成一种对优化决策规控的云服务提供给用户，用户在云服务平台购买该云服务后，云环境利用该云服务向用户提供优化决策规控的云服务，用户可以通过应用程序接口(application program interface，API)或者通过云服务平台提供的网页界面上传待优化的策略控制系统至云环境，装置800优化得到策略控制系统，最终优化得到策略控制系统由装置800返回至车辆。

当装置800为软件装置时，装置800也可以单独部署在任意环境的一个计算设备上。

图9为本申请实施例提供的一种基于策略控制系统控制车辆行驶的装置900的结构示意图。装置900可以包括行为输出模块910、轨迹输出模块920和控制模块930。装置900可以用于实现前述图7所示的方法。

例如，行为输出模块910可以用于执行S710，轨迹输出模块920可以用于执行S720，控制模块930可以用于执行S730。

装置900可部署在云环境中，云环境是云计算模式下利用基础资源向用户提供云服务的实体。云环境包括云数据中心和云服务平台，所述云数据中心包括云服务提供商拥有的大量基础资源(包括计算资源、存储资源和网络资源)，云数据中心包括的计算资源可以是大量的计算设备(例如服务器)。装置900可以是云数据中心中用于基于策略控制系统控制车辆行驶的服务器。装置900也可以是创建在云数据中心中的用于基于策略控制系统控制车辆行驶的虚拟机。装置900还可以是部署在云数据中心中的服务器或者虚拟机上的软件装置，该软件装置用于基于策略控制系统控制车辆行驶，该软件装置可以分布式地部署在多个服务器上、或者分布式地部署在多个虚拟机上、或者分布式地部署在虚拟机和服务器上。例如，装置900中的行为输出模块910、轨迹输出模块920和控制模块930可以分布式地部署在多个服务器上，或分布式地部署在多个虚拟机上，或者分布式地部署在虚拟机和服务器上。又如，控制模块930包括多个子模块时，这多个子模块可以部署在多个服务器上，或分布式地部署在多个虚拟机上，或者分布式地部署在虚拟机和服务器上。

装置900可以由云服务提供商在云服务平台抽象成一种基于策略控制系统控制车辆行驶的云服务提供给用户，用户在云服务平台购买该云服务后，云环境利用该云服务向用户提供基于策略控制系统控制车辆行驶的云服务，用户可以通过应用程序接口或者通过云服务平台提供的网页界面上传车辆的环境信息、状态信息和动作信息至云环境，装置900基于策略控制系统得到控制策略(例如轨迹信息)之后，向车辆返回该控制策略，以控制车辆行驶。

当装置900为软件装置时，装置900也可以单独部署在任意环境的一个计算设备上。

图10为本申请实施例提供的一种装置1000的结构示意图。装置1000包括处理器1002、通信接口1003和存储器1004。装置1000的一种示例为芯片。装置1000的另一种示例为计算设备。

处理器1002、存储器1004和通信接口1003之间可以通过总线通信。存储器1004中存储有可执行代码，处理器1002读取存储器1004中的可执行代码以执行对应的方法。存储器1004中还可以包括操作系统等其他运行进程所需的软件模块。操作系统可以为LINUX^TM，UNIX^TM，WINDOWS^TM等。

例如，存储器1004中的可执行代码用于实现图4至图7中任一图所示的方法，处理器1002读取存储器1004中的该可执行代码以执行图4至图7中任一图所示的方法。

其中，处理器1002可以为CPU。存储器1004可以包括易失性存储器(volatilememory)，例如随机存取存储器(random access memory，RAM)。存储器1004还可以包括非易失性存储器(2non-volatile memory，2NVM)，例如只读存储器(2read-only memory，2ROM)，快闪存储器，硬盘驱动器(hard disk drive，HDD)或固态启动器(solid state disk，SSD)。

在本申请的一些实施例中，所公开的方法可以实施为以机器可读格式被编码在计算机可读存储介质上的或者被编码在其它非瞬时性介质或者制品上的计算机程序指令。图11示意性地示出根据这里展示的至少一些实施例而布置的示例计算机程序产品的概念性局部视图，所述示例计算机程序产品包括用于在计算设备上执行计算机进程的计算机程序。在一个实施例中，示例计算机程序产品1100是使用信号承载介质1101来提供的。所述信号承载介质1101可以包括一个或多个程序指令1102，其当被一个或多个处理器运行时可以提供以上针对图4至图7中任意一个图所示的方法中描述的功能或者部分功能。因此，例如，参考图4中所示的实施例，S410至S430的一个或多个特征可以由与信号承载介质1101相关联的一个或多个指令来承担。又如，参考图5中所示的实施例，S510至S550的一个或多个特征可以由与信号承载介质1101相关联的一个或多个指令来承担。

在一些示例中，信号承载介质1101可以包含计算机可读介质1103，诸如但不限于，硬盘驱动器、紧密盘(CD)、数字视频光盘(DVD)、数字磁带、存储器、只读存储记忆体(read-only memory，ROM)或随机存储记忆体(random access memory，RAM)等等。在一些实施方式中，信号承载介质1101可以包含计算机可记录介质1104,诸如但不限于，存储器、读/写(R/W)CD、R/W DVD、等等。在一些实施方式中，信号承载介质1101可以包含通信介质1105,诸如但不限于，数字和/或模拟通信介质(例如，光纤电缆、波导、有线通信链路、无线通信链路、等等)。因此，例如，信号承载介质1101可以由无线形式的通信介质1105(例如，遵守IEEE802.11标准或者其它传输协议的无线通信介质)来传达。一个或多个程序指令1102可以是，例如，计算机可执行指令或者逻辑实施指令。在一些示例中，前述的计算设备可以被配置为，响应于通过计算机可读介质1103、计算机可记录介质1104、和/或通信介质1105中的一个或多个传达到计算设备的程序指令1102，提供各种操作、功能、或者动作。应该理解，这里描述的布置仅仅是用于示例的目的。因而，本领域技术人员将理解，其它布置和其它元素(例如，机器、接口、功能、顺序、和功能组等等)能够被取而代之地使用，并且一些元素可以根据所期望的结果而一并省略。另外，所描述的元素中的许多是可以被实现为离散的或者分布式的组件的、或者以任何适当的组合和位置来结合其它组件实施的功能实体。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器、随机存取存储器、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种优化决策规控的方法，其特征在于，应用在决策控制系统，所述决策控制系统包括行为决策层和运动规划层，所述方法包括：

获取第一轨迹序列，所述第一轨迹序列中包括车辆在第一环境中的轨迹信息；

获取所述行为决策层基于所述第一环境的信息输出的第一目标驾驶行为信息；

对所述第一轨迹序列和所述第一目标驾驶行为信息进行融合，得到第一行驶序列；

获取所述运动规划层基于预设的第二目标驾驶行为信息输出的第二轨迹序列；

对所述第二轨迹序列和所述第二目标驾驶行为信息进行融合，得到第二行驶序列；

根据所述第一行驶序列与预设的目标示教行驶序列之间的差异，对所述行为决策层进行优化，所述目标示教行驶序列中包括示教轨迹序列和示教驾驶行为信息；

根据所述第二行驶序列与所述目标示教行驶序列之间的差异，对所述运动规划层进行优化。

2.根据权利要求1所述的方法，其特征在于，所述根据所述第一行驶序列与目标示教行驶序列之间的差异，对所述行为决策层进行优化，包括：

获取判别模型输入所述第一行驶序列时的第一输出，所述判别模型用于判断输入的行驶序列是否为示教行驶序列；并根据所述第一输出对所述行为决策层进行优化；

所述根据所述第二行驶序列与所述目标示教行驶序列之间的差异，对所述运动规划层进行优化，包括：

获取所述判别模型输入所述第二行驶序列时的第二输出；根据所述第二输出对所述运动规划层进行优化；

并且，所述方法还包括：

获取所述判别模型输入所述目标示教行驶序列时的第三输出；

根据所述第一输出、所述第二输出和所述第三输出，对所述判别模型进行优化。

3.根据权利要求2所述的方法，其特征在于，所述根据所述第二输出对所述运动规划层进行优化，包括：

使用策略优化法，基于所述第二输出，对所述运动规划层进行优化。

4.根据权利要求2或3所述的方法，其特征在于，所述根据所述第一输出对所述行为决策层进行优化，包括：

获取第一函数的梯度，并使用梯度下降法根据所述第一函数的梯度对所述行为决策层进行优化，所述第一函数的自变量包括所述第一输出。

5.根据权利要求4所述的方法，其特征在于，所述第一函数的表达式为：

表示所述第一输出，λ_E为预设的值，

表示所述N次优化中的第j次优化时所对应的示教行驶行为，

的条件概率，λ_G为预设的值。

6.根据权利要求2至5中任一项所述的方法，其特征在于，所述根据所述第一输出、所述第二输出和所述第三输出，对所述判别模型进行优化，包括：

获取第二函数的梯度，并使用梯度上升法根据所述第二函数的梯度，对所述判别模型进行优化，所述第二函数的自变量包括所述第一输出、所述第二输出和所述第三输出。

7.根据权利要求6所述的方法，其特征在于，所述第二函数的表达式为：

其中，N_e表示所述示教轨迹序列的长度，

表示所述第二输出，

表示所述第一输出。

8.根据权利要求1至7中任一项所述的方法，其特征在于，所述目标示教驾驶序列是从预先配置的示教数据集中选取的，所述示教数据集中包括第一驾驶场景下的多个示教驾驶序列；

其中，所述方法还包括：

更新所述示教数据集，更新后的所述示教数据集中包括第二驾驶场景下的示教驾驶序列。

9.根据权利要求1至8中任一项所述的方法，其特征在于，所述目标示教驾驶序列为驾驶员驾驶车辆时采集的驾驶序列。

10.一种基于决策控制系统控制车辆行驶的方法，其特征在于，所述决策控制系统包括行为决策层和运动规划层，所述决策控制系统是使用如权利要求1至9中任一项所述的方法优化得到的，所述方法包括：

使用所述行为决策层，基于车辆的环境信息，输出所述车辆的目标驾驶行为信息；

使用所述运动规划层，基于所述目标驾驶行为信息，输出所述车辆的轨迹信息；

根据所述轨迹信息控制所述车辆行驶。

11.一种优化决策规控的装置，其特征在于，所述装置包括：

获取模块，用于获取第一轨迹序列，所述第一轨迹序列中包括车辆在第一环境中的轨迹信息；

所述获取模块还用于获取决策控制系统的行为决策层基于所述第一环境的信息输出的第一目标驾驶行为信息；

融合模块，用于对所述第一轨迹序列和所述第一目标驾驶行为信息进行融合，得到第一行驶序列；

所述获取模块还用于获取动所述决策控制系统的运动规划层基于预设的第二目标驾驶行为信息输出的第二轨迹序列；

所述融合模块还用于对所述第二轨迹序列和所述第二目标驾驶行为信息进行融合，得到第二行驶序列；

优化模块，用于根据所述第一行驶序列与预设的目标示教行驶序列之间的差异，优化所述行为决策层，所述目标示教行驶序列中包括示教轨迹序列和示教驾驶行为的信息；

所述优化模块还用于根据所述第二行驶序列与所述目标示教序列之间的差异，优化所述运动规划层。

12.根据权利要求11所述的装置，其特征在于，所述优化模块具体用于：

获取判别模型输入所述第一行驶序列时的第一输出，所述判别模型用于判断输入的行驶序列是否为示教行驶序列；

根据所述第一输出对所述行为决策层进行优化；

获取所述判别模型输入所述第二行驶序列时的第二输出；

根据所述第二输出对所述运动规划层进行优化；

获取所述判别模型输入所述第三行驶序列时的第三输出；

根据所述第一输出、第二输出和第三输出，优化所述判别模型。

13.根据权利要求12所述的装置，其特征在于，所述优化模块具体用于：

14.根据权利要求12或13所述的装置，其特征在于，所述优化模块具体用于：

获取第一函数的梯度，并使用梯度下降法基于所述第一函数的梯度，对所述行为决策层进行优化，所述第一函数的自变量包括所述第一输出。

15.根据权利要求14所述的装置，其特征在于，所述第一函数的表达式为：

表示所述第一输出，λ_E为预设的值，

表示所述N次优化中的第j次优化时所对应的示教行驶行为，

的条件概率，λ_G为预设的值。

16.根据权利要求12至15中任一项所述的装置，其特征在于，所述优化模块具体用于：

获取第二函数的梯度，并使用梯度上升法基于所述第二函数的梯度，对所述判别模型进行优化，所述第二函数的自变量包括所述第一输出、所述第二输出和所述第三输出。

17.根据权利要求16所述的装置，其特征在于，所述第二函数的表达式为：

其中，N_e表示所述示教轨迹序列的长度，

表示所述第二输出，

表示所述第一输出。

18.根据权利要求11至17中任一项所述的装置，其特征在于，所述目标示教驾驶序列是从预先配置的示教数据集中选取的，所述示教数据集中包括第一驾驶场景下的多个示教驾驶序列；

其中，所述装置还包括更新模块，用于更新所述示教数据集，更新后的所述示教数据集中包括第二驾驶场景下的示教驾驶序列。

19.根据权利要求11至18中任一项所述的装置，其特征在于，所述目标示教驾驶序列为驾驶员驾驶车辆时采集的驾驶序列。

20.一种基于决策控制系统控制车辆行驶的装置，其特征在于，所述决策控制系统包括行为决策层和运动规划层，所述决策控制系统是使用如权利要求1至9中任一项所述的方法优化得到的，所述装置包括：

行为输出模块，用于使用所述行为决策层，基于车辆的环境信息，输出所述车辆的目标驾驶行为信息；

轨迹输出模块，用于使用所述运动规划层，基于所述目标驾驶行为信息，输出所述车辆的轨迹信息；

控制模块，用于根据所述轨迹信息控制所述车辆行驶。

21.一种优化决策规控的装置，其特征在于，包括：处理器，所述处理器与存储器耦合；

所述存储器用于存储指令；

所述处理器用于执行所述存储器中存储的指令，以使得所述装置实现如权利要求1至9中任一项所述的方法。

22.一种基于策略控制系统控制车辆的装置，其特征在于，包括：处理器，所述处理器与存储器耦合；

所述存储器用于存储指令；

所述处理器用于执行所述存储器中存储的指令，以使得所述装置实现如权利要求10所述的方法。

23.一种计算机可读介质，其特征在于，包括指令，当所述指令在处理器上运行时，使得所述处理器实现如权利要求1至10中任一项所述的方法。