CN115743186A

CN115743186A - 自动驾驶决策方法、装置、电子设备及自动驾驶车辆

Info

Publication number: CN115743186A
Application number: CN202211643207.1A
Authority: CN
Inventors: 周相坡; 杨煌荣; 夏中谱
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2022-12-20
Filing date: 2022-12-20
Publication date: 2023-03-07

Abstract

本公开提供了一种自动驾驶决策方法、装置、电子设备及自动驾驶车辆，涉及人工智能技术领域，具体为自动驾驶技术、深度学习等技术领域。具体实现方案为：获取在目标场景下的目标对象的状态信息，所述目标场景为自动驾驶车辆与所述目标对象相遇的场景，所述目标对象为可移动的对象；依据所述目标对象的状态信息，计算所述自动驾驶车辆在所述目标场景的多个候选驾驶决策的加速度信息；基于所述多个候选驾驶决策的加速度信息，在所述多个候选驾驶决策中，选择所述自动驾驶车辆在所述目标场景的驾驶决策。本公开可以提高自动驾驶车辆的自动驾驶性能。

Description

自动驾驶决策方法、装置、电子设备及自动驾驶车辆

技术领域

本公开涉及人工智能技术领域，具体为自动驾驶技术、深度学习等技术领域，尤其涉及一种自动驾驶决策方法、装置、电子设备及自动驾驶车辆。

背景技术

随着自动驾驶技术的发展，自动驾驶应用也越来越多。目前自动驾驶车辆在自动驾驶时依据驾驶决策进行驾驶，而驾驶决策主要是依据自动驾驶车辆的状态生成的。

发明内容

本公开提供了一种自动驾驶决策方法、装置、电子设备及自动驾驶车辆。

根据本公开的一方面，提供了一种自动驾驶决策方法，包括：

获取在目标场景下的目标对象的状态信息，所述目标场景为自动驾驶车辆与所述目标对象相遇的场景，所述目标对象为可移动的对象；

依据所述目标对象的状态信息，计算所述自动驾驶车辆在所述目标场景的多个候选驾驶决策的加速度信息；

基于所述多个候选驾驶决策的加速度信息，在所述多个候选驾驶决策中，选择所述自动驾驶车辆在所述目标场景的驾驶决策。

根据本公开的一方面，提供了一种自动驾驶决策装置，包括：

获取模块，用于获取在目标场景下的目标对象的状态信息，所述目标场景为自动驾驶车辆与所述目标对象相遇的场景，所述目标对象为可移动的对象；

第一计算模块，用于依据所述目标对象的状态信息，计算所述自动驾驶车辆在所述目标场景的多个候选驾驶决策的加速度信息；

选择模块，用于基于所述多个候选驾驶决策的加速度信息，在所述多个候选驾驶决策中，选择所述自动驾驶车辆在所述目标场景的驾驶决策。

根据本公开的另一方面，提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本公开提供的自动驾驶决策方法。

根据本公开的另一方面，提供了自动驾驶车辆，该车辆包括本公开提供的电子设备。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行本公开提供的自动驾驶决策方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现本公开提供的自动驾驶决策方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是本公开提供的一种自动驾驶决策方法的流程图；

图2是本公开提供的一种目标场景的示意图；

图3是本公开提供的一种驾驶决策博弈的示意图；

图4a至图4b是本公开提供的自动驾驶决策装置的结构图；

图5是用来实现本公开实施例的一种电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

请参见图1，图1是本公开提供的一种自动驾驶决策方法的流程图，如图1所示，包括以下步骤：

步骤S101、获取在目标场景下的目标对象的状态信息，所述目标场景为自动驾驶车辆与所述目标对象相遇的场景，所述目标对象为可移动的对象。

其中，上述目标场景可以是上述自动驾驶车辆与目标对象在路口相遇的场景，如十字路口或者丁字路口等场景。

上述目标对象可以是车辆、行人、非机动车等。

一个举例，如图2所示，上述目标对象为车辆201，可以称作障碍物车辆、其他车辆或者社会车辆，上述自动驾驶车辆为202，上述目标场景为车辆201和自动驾驶车辆为202相遇的场景。

上述目标对象的状态信息可以是，上述目标对象的当前状态或者预测未来状态，状态可以是等待、行驶，还可以是更加具体的速度、加速度等状态信息。

步骤S102、依据所述目标对象的状态信息，计算所述自动驾驶车辆在所述目标场景的多个候选驾驶决策的加速度信息。

该步骤可以是，生成多个候选驾驶决策，如让车决策，即让目标对象先行，如超车决策，如对目标对象进行超车，再基于上述目标对象的状态信息分别计算每个候选驾驶决策的加速度信息。

其中，上述加速度信息可以是，在自动驾驶车辆执行相应的候选决策下所需要的加速度信息，如所需要的加速度极大值，或者，所需要的加速度极小值，或者所需要的加速度的中位值等。

上述依据目标对象的状态信息，计算自动驾驶车辆在所述目标场景的多个候选驾驶决策的加速度信息可以是，依据目标对象的状态信息，确定在上述目标场景的多个安全的候选驾驶决策，并计算这多个安全的候选驾驶决策所需要的加速度信息。

步骤S103、基于所述多个候选驾驶决策的加速度信息，在所述多个候选驾驶决策中，选择所述自动驾驶车辆在所述目标场景的驾驶决策。

上述基于所述多个候选驾驶决策的加速度信息，在所述多个候选驾驶决策中，选择所述自动驾驶车辆在所述目标场景的驾驶决策可以是，在多个候选驾驶决策中，选择加速度信息最大的候选驾驶决策作为自动驾驶车辆在所述目标场景的驾驶决策，这样可以提高通行效率；或者，可以在多个候选驾驶决策中，选择加速度信息最小的候选驾驶决策作为自动驾驶车辆在所述目标场景的驾驶决策，这样可以降低驾驶风险，因为，速度越慢，风险往往越低。

本公开中，由于多个候选驾驶决策的加速度信息是基于目标对象的状态信息计算的，这样可以再基于多个候选驾驶决策的加速度信息选择自动驾驶车辆在目标场景的驾驶决策，从而可以使得自动驾驶车辆在目标场景的驾驶决策能够同时兼顾自动驾驶车辆的加速度和目标对象的状态信息，进而使得自动驾驶车辆在目标场景的驾驶决策更加合理，达到提高自动驾驶车辆的自动驾驶性能的效果。

需要说明的是，本公开中上述自动驾驶决策方法可以应用于电子设备，即上述方法包括的步骤由该电子设备来执行，该电子设备可以是自动驾驶车辆中的电子设备，或者自动驾驶车辆，或者服务器等电子设备。

一个实施例中，所述多个候选驾驶决策包括：第一让车驾驶决策和第一超车驾驶决策；

所述第一让车驾驶决策的加速度信息包括如下至少一项：在所述目标对象的状态信息为等待的情况下，所述自动驾驶车辆让车的第一加速度信息；在所述目标对象的状态信息为行驶的情况下，所述自动驾驶车辆让车的第二加速度信息；

所述第一超车驾驶决策的加速度信息包括如下至少一项：在所述目标对象的状态信息为等待的情况下，所述自动驾驶车辆超车的第三加速度信息；在所述目标对象的状态信息为行驶的情况下，所述自动驾驶车辆超车的第四加速度信息。

上述目标对象的状态信息为等待可以是，在目标对象当前处于停止状态或者目标对象当前处于减速的状态。

上述自动驾驶车辆让车的第一加速度信息可以是，在自动驾驶车辆发现目标对象在等待的情况下，自动驾驶车辆也选择让车的加速度信息，该加速度信息表示自动驾驶车辆减速。

上述目标对象的状态信息为行驶可以是，目标对象当前在匀速或者加速行驶，自动驾驶车辆让车的第二加速度信息可以是，自动驾驶车辆发现目标对象在行驶时，为了避让目标对象而采取减速让车。

其中，上述第一加速度信息和第二加速度信息分别表示在两个不同情形下，自动驾驶车辆让车采取的加速度。其中，在目标对象的状态信息为等待的情况下，自动驾驶车辆可以慢慢地减速让车，对让车的时间没有限定；而目标对象的状态信息为行驶的情况下，自动驾驶车辆为了让目标对象行驶出两车的交互区域，而需要在目标对象行驶出两车的交互区域前，都保持在让车的状态。

在所述目标对象的状态信息为等待的情况下，自动驾驶车辆超车的第三加速度信息可以是，能够使得自动驾驶车辆行驶出两车的交互区域的加速度信息。而在所述目标对象的状态信息为行驶的情况下，自动驾驶车辆超车的第四加速度信息可以是，在目标对象进入两车的交互区域前，自动驾驶车辆能够行驶出两车的交互区域的加速度信息。

该实施例中，可以实现每个候选驾驶决策都可以基于目标对象的两种状态得到，这样确定的加速度信息更加合理，以进一步提高自动驾驶车辆的驾驶性能。

在一个实施例中，所述第一加速度信息为：在所述目标对象在等待时，所述自动驾驶车辆从当前位置行驶的距离小于或者等于第一距离所需要的加速度，所述第一距离为所述当前位置到第一位置的距离，所述第一位置为轨迹重叠区域中离所述自动驾驶车辆最近的边界位置，所述轨迹重叠区域为所述自动驾驶车辆的行驶轨迹与所述目标对象的行驶轨迹的重叠区域；

所述第二加速度信息为：在所述目标对象行驶到第二位置的时间之前，所述自动驾驶车辆从当前位置行驶的距离小于或者等于所述第一距离所需要的加速度，所述第二位置为所述轨迹重叠区域中离所述目标对象最远的边界位置；

所述第三加速度信息为：在所述目标对象在等待时，所述自动驾驶车辆从当前位置行驶的距离大于或者等于第二距离所需要的加速度的负值，所述第二距离为所述当前位置到第三位置的距离，所述第三位置为所述轨迹重叠区域中离所述自动驾驶车辆最远的边界位置；

所述第四加速度信息为：在所述目标对象行驶到第四位置的时间之前，所述自动驾驶车辆从当前位置行驶的距离大于或者等于所述第二距离所需要的加速度的负值，所述第四位置为所述轨迹重叠区域中离所述目标对象最近的边界位置。

其中，上述第一位置、第二位置、第三位置和第四位置分别可以如图2所示的203、204、205和206所示的位置。其中，图2仅是以边界的中心位置举例，对此本公开并不限定，第一位置、第二位置、第三位置和第四位置也可以是图2所示的203、204、205和206分别所在边界。

在一些实施方式中，上述第一位置可以表示为主车切入位置(adc_cutins_s)，上述第二位置可以表示为障碍物车辆切出位置(obs_cutout_s)，上述第三位置可以表示为主车切出位置(adc_cutout_s)，上述第四位置可以表示为障碍物车辆切入位置(obs_cutin_s)。

该实施例中，自动驾驶车辆让车可以在目标对象切出前，行驶的距离均需要上述第一距离，即在上述第一位置或者第一位置前停止。上述第一加速度信息和第二加速度信息可以作为自动驾驶车辆让车的收益。

在一些实施方式中，上述第一加速度信息可以为自动驾驶车辆刹车并使车头停在第一位置前，所需的加速度；

上述第二加速度信息可以为目标对象车尾正常行驶到第二位置时，自动驾驶车辆为避让，行驶距离需要低于上述第一距离所需的加速度；

自动驾驶车辆超车时可以是在目标对象切入前，行驶的距离需要均上述第二距离，上述第三加速度信息和第四加速度信息可以作为自动驾驶车辆让车的收益。

在一些实施方式中，上述第三加速度信息可以为当目标对象车头停在第四位置时，自动驾驶车辆能够到达第三位置所需的加速度的负值。为避免目标对象长时间等待，上述第三加速度信息为期望目标对象停在第四位置的时刻自动驾驶车辆车尾能到达第四位置所需加速度的负值；

上述第四加速信息可以为目标对象车头正常行驶到第四位置时，自动驾驶车辆车尾能够到达第三位置所需的加速度的负值。

该实施例中，通过上述第一加速度信息、第二加速度信息、第三加速度信息和第四加速度信息可以避免自动驾驶车辆与目标对象发生碰撞，以提高自动驾驶车辆的安全性。

另外，由于上述第三加速度信息和第四加速度信息，这样可以实现在超车时，避免选择加速度过大的驾驶决策，以避免车速过快，进而提高自动驾驶车辆的安全性。

需要说明的是，上述第一加速度信息、第二加速度信息、第三加速度信息和第四加速度信息仅是图2所示的十字路口进行举例说明，一些实施方式中，也可以通过类似的方式确定丁字路口或者其他场景的加速度信息。

在一个实施例中，所述第一加速度信息为：在所述目标对象在等待时，所述自动驾驶车辆从当前位置行驶的距离小于或者等于第一距离所需要的加速度的极大值；或者，所述第一加速度信息为：在所述目标对象在等待时，所述自动驾驶车辆从当前位置行驶的距离小于或者等于第一距离所需要的加速度均值；

所述第二加速度信息为：在所述目标对象行驶到第二位置的时间之前，所述自动驾驶车辆从当前位置行驶的距离小于或者等于所述第一距离所需要的加速度的极大值；或者，所述第二加速度信息为：在所述目标对象行驶到第二位置的时间之前，所述自动驾驶车辆从当前位置行驶的距离小于或者等于所述第一距离所需要的加速度均值；

所述第三加速度信息为：在所述目标对象在等待时，所述自动驾驶车辆从当前位置行驶的距离大于或者等于第二距离所需要的加速度的极小值的负值；或者，所述第三加速度信息为：在所述目标对象在等待时，所述自动驾驶车辆从当前位置行驶的距离大于或者等于第二距离所需要的加速度均值的负值；

所述第四加速度信息为：在所述目标对象行驶到第四位置的时间之前，所述自动驾驶车辆从当前位置行驶的距离大于或者等于所述第二距离所需要的加速度的极小值的负值；或者，所述第四加速度信息为：在所述目标对象行驶到第四位置的时间之前，所述自动驾驶车辆从当前位置行驶的距离大于或者等于所述第二距离所需要的加速度均值的负值。

该实施例中，可以实现将极大值作为加速度信息，这样可以提高道路的通行效率，而通过极小值的负值可以避免超车速度过快，以提高安全性。

需要说明的是，本公开中并不限定极大值、均值、极小值为作加速度信息，在一些实施方式中，也可以是将加速度的中位值作为加速度信息。

在一个实施例中，所述基于所述多个候选驾驶决策的加速度信息，在所述多个候选驾驶决策中，选择所述自动驾驶车辆在所述目标场景的驾驶决策，包括如下至少一项：

在所述目标对象的状态信息为等待的情况下，将所述第一加速度信息和所述第三加速度信息中的较大者对应的候选驾驶决策，作为所述自动驾驶车辆在所述目标场景的驾驶决策；

在所述目标对象的状态信息为行驶的情况下，将所述第二加速度信息和所述第四加速度信息中的较大者对应的候选驾驶决策，作为所述自动驾驶车辆在所述目标场景的驾驶决策。

该实施方式中，可以实现在目标对象的状态信息为等待的情况下，选择第一加速度信息和第三加速度信息中的较大者对应的候选驾驶决策，这样可以进一步提高道路的通行效率。

该实施方式中，还可以实现在目标对象的行驶的情况下，选择第二加速度信息和第四加速度信息中的较大者对应的候选驾驶决策，这样可以进一步提高道路的通行效率。

在一些实施方式中，上述实施例可以通过博弈模型，具体可以通过如下表1所示的方式，直接求纳什均衡，以确定上述自动驾驶车辆在所述目标场景的驾驶决策：

表1：

其中，上述车辆A表示上述自动驾驶车辆，上述车辆B表示上述目标对象，上述A₁表示上述自动驾驶车辆的第一超车驾驶决策，上述A₂表示上述自动驾驶车辆的第一让车驾驶决策，上述B₁表示上述目标对象的状态信息为行驶，上述B₂表示上述目标对象的状态信息为等待；上述P₁₂ ^A和P₂₂ ^A分别表示上述第一加速度信息和第三加速度信息，上述P₁₁ ^A和P₂₁ ^A分别表示上述第二加速度信息和第四加速度信息。

这样通过上述博弈模型可以确定如下：

在一个实施例中，所述方法还包括：,

基于所述自动驾驶车辆的状态信息，计算所述目标对象在所述目标场景的多个驾驶决策的加速度信息；

所述基于所述多个候选驾驶决策的加速度信息，在所述多个候选驾驶决策中，选择所述自动驾驶车辆在所述目标场景的驾驶决策，包括：

基于所述多个候选驾驶决策的加速度信息和所述目标对象在所述目标场景的多个驾驶决策的加速度信息，在所述多个候选驾驶决策中，选择所述自动驾驶车辆在所述目标场景的驾驶决策。

其中，上述目标对象在所述目标场景的多个驾驶决策可以包括：让车驾驶决策和超车驾驶决策，以及通过对目标对象进行行驶预测，得到上述每个驾驶决策的加速度信息。

上述基于所述多个候选驾驶决策的加速度信息和所述目标对象在所述目标场景的多个驾驶决策的加速度信息，选择自动驾驶车辆在目标场景的驾驶决策可以是，根据目标对象在所述目标场景的多个驾驶决策的加速度信息先预测目标对象的驾驶决策，再基于预测的目标对象的驾驶决策，确定自动驾驶车辆在目标场景的驾驶决策。

该实施例中，由于基于多个候选驾驶决策的加速度信息和所述目标对象在所述目标场景的多个驾驶决策的加速度信息，选择自动驾驶车辆在目标场景的驾驶决策，这样可以使得自动驾驶车辆的驾驶决策更加合理，进一步提高自动驾驶车辆的驾驶性能。

在一个实施例中，所述目标对象在所述目标场景的多个驾驶决策包括：第二让车驾驶决策和第二超车驾驶决策；

所述第二让车驾驶决策的加速度信息包括如下至少一项：在所述自动驾驶车辆的状态信息为等待的情况下，所述目标对象让车的第五加速度信息；在所述自动驾驶车辆的状态信息为行驶的情况下，所述目标对象让车的第六加速度信息；

所述第二超车驾驶决策的加速度信息包括如下至少一项：在所述自动驾驶车辆的状态信息为等待的情况下，所述目标对象超车的第七加速度信息；在所述自动驾驶车辆的状态信息为行驶的情况下，所述目标对象超车的第八加速度信息。

其中，上述第五加速度信息、第六加速度信息、第七加速度信息和第八加速度信息为基于目标对象的状态和位置预测的加速度信息，具体可以参见前面实施例描述的第一加速度信息、第二加速度信息、第三加速度信息和第四加速度信息。

该实施例中，可以实现目标对象的每个驾驶决策都可以基于自动驾驶的两种状态得到，这样确定的加速度信息更加合理，以进一步提高自动驾驶车辆的驾驶性能。

在一个实施例中，所述第五加速度信息为：在所述自动驾驶车辆在等待时，所述目标对象从当前位置行驶的距离小于或者等于第三距离所需要的加速度，所述第三距离为所述目标对象的当前位置到第四位置的距离，所述第四位置为轨迹重叠区域中离所述目标对象最近的边界位置，所述轨迹重叠区域为所述自动驾驶车辆的行驶轨迹与所述目标对象的行驶轨迹的重叠区域；

所述第六加速度信息为：在所述自动驾驶车辆行驶到第三位置的时间之前，所述目标对象从当前位置行驶的距离小于或者等于所述第三距离所需要的加速度，所述第三位置为所述轨迹重叠区域中离所述自动驾驶车辆最远的边界位置；

所述第七加速度信息为：在所述自动驾驶车辆在等待时，所述目标对象从当前位置行驶的距离大于或者等于第四距离所需要的加速度的负值，所述第四距离为所述目标对象的当前位置到第二位置的距离，所述第二位置为所述轨迹重叠区域中离所述目标对象最远的边界位置；

所述第八加速度信息为：在所述自动驾驶车辆行驶到第一位置的时间之前，所述目标对象从当前位置行驶的距离大于或者等于所述第四距离所需要的加速度的负值，所述第一位置为所述轨迹重叠区域中离所述自动驾驶车辆最近的边界位置。

其中，上述第一位置、第二位置、第三位置和第四位置参见前面实施例的相应描述，此处不作赘述。

在一些实施方式中，第五加速度信息可以是目标对象车头刹车停止在第四位置(obs_cutin_s)前，所需的加速度；

上述第六加速度信息可以是为自动驾驶车辆车尾正常行驶到第三位置(adc_cutout_s)时，目标对象为避让，行驶距离需要低于第三距离时，所需的加速度；

上述第七加速度信息可以是自动驾驶车辆车头刹停在第一位置(adc_cutins_s)，目标对象车尾能够到达第二位置(obs_cutout_s)所需的加速度的负值。同理，为避免自动驾驶车辆长时间等待，期望自动驾驶车辆刹停的时刻，目标对象能到达第二位置(obs_cutout_s)，目标对象将负的加速度作为收益；

上述第八加速度信息可以是自动驾驶车辆车头正常行驶到第一位置(adc_cutins_s)时，目标对象车尾能够到达第二位置(obs_cutout_s)所需的加速度的负值。

该实施例中，通过上述第五加速度信息、第六加速度信息、第七加速度信息和第八加速度信息可以避免自动驾驶车辆与目标对象发生碰撞，以提高自动驾驶车辆的安全性。

另外，由于上述第七加速度信息和第八加速度信息，这样可以实现在超车时，避免选择加速度过大的驾驶决策，以避免车速过快，进而提高自动驾驶车辆的安全性。

需要说明的是，上述第五加速度信息、第六加速度信息、第七加速度信息和第八加速度信息仅是图2所示的十字路口进行举例说明，一些实施方式中，也可以通过类似的方式确定丁字路口或者其他场景的加速度信息。

在一些实施方式中，上述第五加速度信息和第六加速度信息可以是所需要的加速度的极大值或加速度均值；上述第七加速度信息和第八加速度信息加速度的极小值的负值或者，加速度均值的负值；具体可以参见上述实施例中关于上述第一加速度信息、第二加速度信息、第三加速度信息和第四加速度信息的相应描述，此处不作赘述。

在一个实施例中，所述基于所述多个候选驾驶决策的加速度信息和所述目标对象在所述目标场景的多个驾驶决策的加速度信息，在所述多个候选驾驶决策中，选择所述自动驾驶车辆在所述目标场景的驾驶决策，包括：

在所述第一加速信息和第二加速信息中选择所述第一让车驾驶决策的最终加速度信息，其中，在所述第五加速信息大于所述第七加速度信息的情况下，所述第一让车驾驶决策的最终加速度信息为所述第一加速度信息，在所述第五加速信息小于所述第七加速度信息的情况下，所述第一让车驾驶决策的最终加速度信息为所述第二加速度信息；

在所述第三加速信息和第四加速信息中选择所述第一超车驾驶决策的最终加速度信息，其中，在所述第六加速信息大于所述第八加速度信息的情况下，所述第一超车驾驶决策的最终加速度信息为所述第三加速度信息，在所述第六加速信息小于所述第八加速度信息的情况下，所述第一超车驾驶决策的最终加速度信息为所述第四加速度信息；

将所述第一让车驾驶决策的最终加速度信息和所述第一超车驾驶决策的最终加速度信息中的较大者对应的候选驾驶决策，作为所述自动驾驶车辆在所述目标场景的驾驶决策。

该实施例中，可以将自动驾驶车辆的加速度信息作为自动驾驶车辆的收益，将目标对象的加速度信息为作目标对象的收益，通过自动驾驶车辆和目标对象的收益确定自动驾驶车辆在所述目标场景的驾驶决策，这样可以使得自动驾驶车辆和目标对象的收益最大化，进而提高道路通行效率。

例如：如图3所示，其中，301表示自动驾驶车辆，302和303表示目标对象，304表示自动驾驶车辆让车和目标对象等待(也可以称作为让车)，P11表示第一加速度信息，Q11表示第五加速信息；305表示自动驾驶车辆让车和目标对象行驶(也可以称作超车)，P12表示第二加速度信息，Q12表示第七加速信息；306表示自动驾驶车辆超车和目标对象等待(也可以称作为让车)，P21表示第三加速度信息，Q21表示第六加速信息；307表示自动驾驶车辆超车和目标对象行驶(也可以称作超车)，P22表示第四加速度信息，Q21表示第八加速信息。

如果是Q11>Q12，则目标对象决策为等待(也可以称作让车)，所以自动驾驶车辆让车决策的收益即为P11；同时Q21>Q22，则自动驾驶车辆超车决策的收益是P21，最后根据自动驾驶车辆的让超收益，进行最后的让超决策，即若P11>P21，最终决策为让车决策。

本实施例中，由于第一让车驾驶决策的最终加速度信息和第一超车驾驶决策的最终加速度信息中的较大者对应的候选驾驶决策作为自动驾驶车辆在目标场景的驾驶决策，这样可以使得决策过程中更合理，减少目标对象让车，自动驾驶车辆也让的情况，能够减少急刹，提高通行效率。

在一个实施例中，通过预先获取的博弈模型确定如下信息：

所述第一让车驾驶决策的最终加速度信息和所述第一超车驾驶决策的最终加速度信息，以及所述第一让车驾驶决策的最终加速度信息和所述第一超车驾驶决策的最终加速度信息中的较大者。

其中，上述序贯博弈模型也可以是普通的博弈模型，这些模型的输入可以包括每个决策的加速度信息，最终输出第一让车驾驶决策的最终加速度信息和第一超车驾驶决策的最终加速度信息中的较大者。

该实施例中，通过博弈模型进行反向推导，从而可以准确地确定收益最大的驾驶决策。

需要说明的是，本公开中并不限定通过博弈模型来实现，例如：通过一些比较算法也可以实现。

在一些实施方式中，上述方法还包括：

按照上述自动驾驶车辆在所述目标场景的驾驶决策进行自动驾驶。

请参见图4a，图4a是本公开提供的一种自动驾驶决策装置，如图4a所示，自动驾驶决策装置400包括：

获取模块401，用于获取在目标场景下的目标对象的状态信息，所述目标场景为自动驾驶车辆与所述目标对象相遇的场景，所述目标对象为可移动的对象；

第一计算模块402，用于依据所述目标对象的状态信息，计算所述自动驾驶车辆在所述目标场景的多个候选驾驶决策的加速度信息；

选择模块403，用于基于所述多个候选驾驶决策的加速度信息，在所述多个候选驾驶决策中，选择所述自动驾驶车辆在所述目标场景的驾驶决策。

在一个实施例中，所述多个候选驾驶决策包括：第一让车驾驶决策和第一超车驾驶决策；

在一个实施例中，所述选择模块403用于如下至少一项：

在一个实施例中，如图4b所示，所述装置还包括：

第二计算模块404，用于基于所述自动驾驶车辆的状态信息，计算所述目标对象在所述目标场景的多个驾驶决策的加速度信息；

所述选择模块403用于：

在一个实施例中，所述选择模块403用于：

在一个实施例中，通过预先获取的博弈模型确定如下信息：

本公开提供的自动驾驶决策装置能够实现本公开提供的自动驾驶决策方法实现的各个过程，并达到相同的技术效果，为避免重复，这里不再赘述。

本公开的技术方案中，所涉及的用户个人信息的获取，存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种电子设备、一种自动驾驶车辆、一种可读存储介质和一种计算机程序产品。

其中，上述电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本公开提供的自动驾驶决策方法。

上述自动驾驶车辆包括上述电子设备。

上述可读存储介质存储有计算机指令，其中，所述计算机指令用于使所述计算机执行本公开提供的自动驾驶决策方法。

上述计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现本公开提供的自动驾驶决策方法。

图5示出了可以用来实施本公开的实施例的示例电子设备500的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图5所示，设备500包括计算单元501，其可以根据存储在只读存储器(ROM)502中的计算机程序或者从存储单元508加载到随机访问存储器(RAM)503中的计算机程序，来执行各种适当的动作和处理。在RAM 503中，还可存储设备500操作所需的各种程序和数据。计算单元501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。

设备500中的多个部件连接至I/O接口505，包括：输入单元506，例如键盘、鼠标等；输出单元507，例如各种类型的显示器、扬声器等；存储单元508，例如磁盘、光盘等；以及通信单元509，例如网卡、调制解调器、无线通信收发机等。通信单元509允许设备500通过诸如因特网的计算机网格和/或各种电信网格与其他设备交换信息/数据。

计算单元501可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元501的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元501执行上文所描述的各个方法和处理，例如自动驾驶决策方法。例如，在一些实施例中，自动驾驶决策方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元508。在一些实施例中，计算机程序的部分或者全部可以经由ROM 502和/或通信单元509而被载入和/或安装到设备500上。当计算机程序加载到RAM 503并由计算单元501执行时，可以执行上文描述的自动驾驶决策方法的一个或多个步骤。备选地，在其他实施例中，计算单元501可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行自动驾驶决策方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网格浏览器的用户计算机，用户可以通过该图形用户界面或者该网格浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网格)来将系统的部件相互连接。通信网格的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网格进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种自动驾驶决策方法，包括：

2.根据权利要求1所述的方法，其中，所述多个候选驾驶决策包括：第一让车驾驶决策和第一超车驾驶决策；

3.根据权利要求2所述的方法，其中，所述第一加速度信息为：在所述目标对象在等待时，所述自动驾驶车辆从当前位置行驶的距离小于或者等于第一距离所需要的加速度，所述第一距离为所述当前位置到第一位置的距离，所述第一位置为轨迹重叠区域中离所述自动驾驶车辆最近的边界位置，所述轨迹重叠区域为所述自动驾驶车辆的行驶轨迹与所述目标对象的行驶轨迹的重叠区域；

4.根据权利要求3所述的方法，其中，所述第一加速度信息为：在所述目标对象在等待时，所述自动驾驶车辆从当前位置行驶的距离小于或者等于第一距离所需要的加速度的极大值；或者，所述第一加速度信息为：在所述目标对象在等待时，所述自动驾驶车辆从当前位置行驶的距离小于或者等于第一距离所需要的加速度均值；

5.根据权利要求3所述的方法，其中，所述基于所述多个候选驾驶决策的加速度信息，在所述多个候选驾驶决策中，选择所述自动驾驶车辆在所述目标场景的驾驶决策，包括如下至少一项：

6.根据权利要求2至4中任一项所述的方法，所述方法还包括：

7.根据权利要求6所述的方法，其中，所述目标对象在所述目标场景的多个驾驶决策包括：第二让车驾驶决策和第二超车驾驶决策；

8.根据权利要求7所述的方法，其中，所述第五加速度信息为：在所述自动驾驶车辆在等待时，所述目标对象从当前位置行驶的距离小于或者等于第三距离所需要的加速度，所述第三距离为所述目标对象的当前位置到第四位置的距离，所述第四位置为轨迹重叠区域中离所述目标对象最近的边界位置，所述轨迹重叠区域为所述自动驾驶车辆的行驶轨迹与所述目标对象的行驶轨迹的重叠区域；

9.根据权利要求8所述的方法，其中，所述基于所述多个候选驾驶决策的加速度信息和所述目标对象在所述目标场景的多个驾驶决策的加速度信息，在所述多个候选驾驶决策中，选择所述自动驾驶车辆在所述目标场景的驾驶决策，包括：

10.根据权利要求9所述的方法，其中，通过预先获取的博弈模型确定如下信息：

11.一种自动驾驶决策装置，包括：

12.根据权利要求11所述的装置，其中，所述多个候选驾驶决策包括：第一让车驾驶决策和第一超车驾驶决策；

13.根据权利要求12所述的装置，其中，所述第一加速度信息为：在所述目标对象在等待时，所述自动驾驶车辆从当前位置行驶的距离小于或者等于第一距离所需要的加速度，所述第一距离为所述当前位置到第一位置的距离，所述第一位置为轨迹重叠区域中离所述自动驾驶车辆最近的边界位置，所述轨迹重叠区域为所述自动驾驶车辆的行驶轨迹与所述目标对象的行驶轨迹的重叠区域；

14.根据权利要求13所述的装置，其中，所述第一加速度信息为：在所述目标对象在等待时，所述自动驾驶车辆从当前位置行驶的距离小于或者等于第一距离所需要的加速度的极大值；或者，所述第一加速度信息为：在所述目标对象在等待时，所述自动驾驶车辆从当前位置行驶的距离小于或者等于第一距离所需要的加速度均值；

15.根据权利要求13所述的装置，其中，所述选择模块用于如下至少一项：

16.根据权利要求12至14中任一项所述的装置，所述装置还包括：

第二计算模块，用于基于所述自动驾驶车辆的状态信息，计算所述目标对象在所述目标场景的多个驾驶决策的加速度信息；

所述选择模块用于：

17.根据权利要求16所述的装置，其中，所述目标对象在所述目标场景的多个驾驶决策包括：第二让车驾驶决策和第二超车驾驶决策；

18.根据权利要求17所述的装置，其中，所述第五加速度信息为：在所述自动驾驶车辆在等待时，所述目标对象从当前位置行驶的距离小于或者等于第三距离所需要的加速度，所述第三距离为所述目标对象的当前位置到第四位置的距离，所述第四位置为轨迹重叠区域中离所述目标对象最近的边界位置，所述轨迹重叠区域为所述自动驾驶车辆的行驶轨迹与所述目标对象的行驶轨迹的重叠区域；

19.根据权利要求18所述的装置，其中，所述选择模块用于：

20.根据权利要求19所述的装置，其中，通过预先获取的博弈模型确定如下信息：

21.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-10中任一项所述的方法。

22.一种自动驾驶车辆包括权利要求21所述的电子设备。

23.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-10中任一项所述的方法。

24.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-10中任一项所述的方法。