CN108446727A

CN108446727A - 驾驶行为决策方法、系统和电子设备

Info

Publication number: CN108446727A
Application number: CN201810208840.5A
Authority: CN
Inventors: 刘景初
Original assignee: Shanghai Anting Horizon Intelligent Transportation Technology Co Ltd; Shenzhen Horizon Robotics Science and Technology Co Ltd
Current assignee: Shanghai Anting Horizon Intelligent Transportation Technology Co Ltd; Shenzhen Horizon Robotics Science and Technology Co Ltd
Priority date: 2018-03-09
Filing date: 2018-03-14
Publication date: 2018-08-24
Anticipated expiration: 2038-03-14
Also published as: CN108446727B

Abstract

公开了一种驾驶行为决策方法、系统和电子设备。所述驾驶行为决策方法包括：获取可移动设备的初始状态；通过基于机器学习的行为生成模型，生成所述可移动设备在所述初始状态下的可能驾驶行为；对所述可能驾驶行为进行安全性过滤，以确定安全驾驶行为；以及根据性能评估从所述安全驾驶行为中选择目标驾驶行为。因此，可以提供兼顾安全性与有效性的驾驶行为决策。

Description

驾驶行为决策方法、系统和电子设备

技术领域

本申请涉及人工智能技术领域，且更具体地，涉及一种驾驶行为决策方法、系统和电子设备、计算机程序产品和计算机可读存储介质。

背景技术

车辆自动驾驶，作为智能交通系统的一个关键组成部分，其初衷就是安全、高效和以人为本，近年来这项技术已逐渐由实验室走向实际应用。但是，在车辆的自动驾驶技术之中，相对于自动导航、定位等个别自动驾驶子系统的发展如火如荼，自动驾驶行为决策方面的研究、应用和集成却稍显不足。

发明内容

鉴于上述现有技术状况，提出了本申请。本申请的实施例提供了驾驶行为决策方法、系统和电子设备、计算机程序产品和计算机可读存储介质，其可以提供兼顾安全性与有效性的驾驶行为决策。

根据本申请的一个方面，提供了一种驾驶行为决策方法，包括：获取可移动设备的初始状态；通过基于机器学习的行为生成模型，生成所述可移动设备在所述初始状态下的可能驾驶行为；对所述可能驾驶行为进行安全性过滤，以确定安全驾驶行为；以及根据性能评估从所述安全驾驶行为中选择目标驾驶行为。

根据本申请的另一方面，提供了一种驾驶行为决策系统，包括：状态获取模块，用于获取可移动设备的初始状态；行为生成模块，用于通过基于机器学习的行为生成模型，生成所述可移动设备在所述初始状态下的可能驾驶行为；安全过滤模块，用于对所述可能驾驶行为进行安全性过滤，以确定安全驾驶行为；以及行为决定模块，用于根据性能评估从所述安全驾驶行为中选择目标驾驶行为。

根据本申请的另一方面，提供了一种电子设备，包括：处理器；存储器；以及存储在所述存储器中的计算机程序指令，所述计算机程序指令在被所述处理器运行时使得所述处理器执行上述的驾驶行为决策方法。

根据本申请的另一方面，提供了一种计算机程序产品，包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行上述的驾驶行为决策方法。

根据本申请的另一方面，提供了一种计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行上述的驾驶行为决策方法。

与现有技术相比，采用根据本申请实施例的驾驶行为决策方法、系统和电子设备、计算机程序产品和计算机可读存储介质，可以通过综合规则和机器学习的决策模型，过滤掉不安全的决策行为，在安全行为中选择性能较好的决策执行，兼顾决策的安全性与有效性。

附图说明

通过结合附图对本申请实施例进行更详细的描述，本申请的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本申请实施例的进一步理解，并且构成说明书的一部分，与本申请实施例一起用于解释本申请，并不构成对本申请的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1图示了根据本申请实施例的驾驶行为决策应用场景的示意图。

图2图示了根据本申请实施例的驾驶行为决策方法的流程图。

图3图示了根据本申请实施例的获取可移动设备的初始状态的步骤的流程图。

图4图示了根据本申请实施例的安全性过滤步骤的流程图。

图5图示了根据本申请实施例的选择目标驾驶行为的步骤的流程图。

图6图示了根据本申请一个实施例的评估安全驾驶行为的性能得分的步骤的流程图。

图7图示了根据本申请另一个实施例的评估安全驾驶行为的性能得分的步骤的流程图。

图8图示了根据本申请实施例的生成前向预测分支的步骤的流程图。

图9图示了根据本申请实施例的反向性能评估的步骤的流程图。

图10图示了根据本申请实施例的计算次级状态的路径尾收益的步骤的流程图。

图11图示了根据本申请实施例的计算当前状态的路径尾收益的步骤的流程图。

图12图示了根据本申请另一个实施例的驾驶行为决策应用场景的示意图。

图13图示了根据本申请实施例的驾驶行为决策系统的框图。

图14图示了根据本申请实施例的电子设备的框图。

具体实施方式

下面，将参考附图详细地描述根据本申请的示例实施例。显然，所描述的实施例仅仅是本申请的一部分实施例，而不是本申请的全部实施例，应理解，本申请不受这里描述的示例实施例的限制。

申请概述

如上所述，自动驾驶决策是人工智能技术领域的一个新热点。针对自动驾驶决策，现有的解决方案可以分为两类，一类是基于规则的决策模型，另一类是基于机器学习的决策模型：

1)基于规则的决策模型通过一系列人为定义的决策逻辑(决策树)，确定车辆在各种状态下应该输出什么样的决策行为。这类系统由于人为规则的精心设计一般能够避免车辆出现意料之外的不安全行为。

2)基于机器学习的决策模型，通过综合利用人类驾驶的示教数据和算法主动采集的数据，结合人类定义的性能指标，归纳出各种状态下各决策行为的性能的统计评估，或直接输出各决策行为的倾向性。这类方法借助机器学习算法的归纳能力，一般能达到更好的决策性能。

然而，上述解决方案均有各自的缺点。

基于规则的系统要求人为规则设计的决策逻辑覆盖大多数自动驾驶系统可能遇到的场景，对于人为规则设计的水平要求过高，容易由于人类设计能力的限制给出性能较低的决策指令，并且在复杂的驾驶环境中，容易因决策逻辑的复杂性而引入过多的规则设计人力成本。相对地，对于基于机器学习的决策模型，由于利用了统计方法评估决策行为的性能，其统计误差很有可能导致决策策略给出极端激进而不安全的决策输出，安全性较低。

因此，单独使用基于规则的决策模型或者基于机器学习的决策模型，对于驾驶行为决策都存在相当的缺陷。

针对现有技术中的上述缺陷，本申请的基本构思是结合规则与机器学习模型，通过安全过滤以确定安全驾驶行为，然后根据性能评估在安全驾驶行为中选择执行合适的驾驶行为。

需要说明的是，尽管在本申请的实施例中将以车辆的驾驶行为决策为例进行说明，但是本申请的上述基本构思不但可以应用于车辆的驾驶控制应用中，还可以应用于其他应用中。例如，本申请同样适用于控制其他各种可移动设备的驾驶行为，例如车辆、船舶、飞行器、扫地机器人等，只要其中的可移动设备具有计算能力、能够执行智能计算处理，其就可以充分利用基于规则的决策模型和基于机器学习的决策模型，平衡决策性能和决策安全性。

在介绍了本申请的基本构思之后，下面将参考附图来具体介绍本申请的各种非限制性实施例。

示例性应用

根据本申请实施例的驾驶行为决策可以结合基于规则的安全检测模型和基于机器学习的行为决策模型，安全检测模型能够以较大把握过滤掉不安全的决策行为，而机器学习模型负责在剩余的安全决策行为进行评估和选择。

具体地，如图1所示，根据本申请实施例的驾驶行为决策从当前决策时刻的初始状态出发，生成可移动设备在初始状态下的可能驾驶行为，形成以初始状态为根节点(以实心圆表示)、下一个或多个状态为后续节点(以空心圆表示)的树状结构，其中节点之间以箭头连接，表示可能的驾驶行为，前一状态通过该可能驾驶行为变化为后一状态。之后，针对可能驾驶行为进行安全过滤和性能评估，从中选择确定执行的目标驾驶行为。如图1所示，如果通过安全检测得出可能驾驶行为不满足安全要求，则以叉子表示，从而滤除对应的驾驶行为。对于安全检测合格而保留的可能驾驶行为，利用后述的性能评估方式给出性能评分。最后，选择性能评分最高的可能驾驶行为作为目标驾驶行为实际执行。

需要注意的是，上述应用场景仅是为了便于理解本申请的精神和原理而示出，本申请的实施例不限于此。相反，本申请的实施例可以应用于可能适用的任何场景。例如，在诸如家庭、工业等的任何应用环境中可以包括两个或更多可移动设备，该可移动设备可以包括车辆、船舶、飞行器、扫地机器人等。

示例性方法

下面结合图1的应用场景，参考图2来描述根据本申请实施例的驾驶行为决策方法。

图2图示了根据本申请实施例的驾驶行为决策方法的流程图。

如图2所示，根据本申请实施例的驾驶行为决策方法可以包括步骤S100、步骤S200、步骤S300和步骤S400。

在步骤S100中，获取可移动设备的初始状态。

初始状态是驾驶行为决策的起点，与可移动设备自身的设备状态及其周围的环境状态有关。以车辆为例，设备状态可以包括该车辆的自身位置、速度、质量等自车信息，而环境状态可以包括诸如该车辆周围的是否存在行人、该行人的位置、速度等行人信息，诸如该车辆周围的其他车的位置、速度和质量等他车信息、以及诸如是否处于路口、周围是否存在信号灯、指示牌等道路信息等。

在一个示例中，可以通过如图3所示的流程获取初始状态。

如图3所示，在步骤S110中，获取所述可移动设备自身的设备状态。

例如，该设备状态可以通过诸如车载诊断系统(OBD)、统一诊断服务(UDS)等检测接口，或通过诸如惯性测量单元(IMU)、摄像头等传感器来获得。

接着在步骤S120中，获取所述可移动设备周围的环境状态。

例如，该环境状态可以通过摄像头、激光雷达、毫米波雷达、超声波雷达、车载通信(V2X)等传感器获得。多个传感器之间可以预先进行协同和配准，以提升感测精度。

在步骤S130中，根据所述设备状态和环境状态来确定所述初始状态。

例如，可以通过对自身状态和周遭环境的综合估计来在每个决策时刻获得当前的初始状态，在图1中以实心圆表示。

返回参考图2，在步骤S200中，通过基于机器学习的行为生成模型，生成可移动设备在初始状态下的可能驾驶行为。

例如，基于机器学习的行为决策模型可以包括行为生成模型，其用于根据在搜索过程中生成驾驶行为的基本决策策略，生成从初始状态出发的下一步可能驾驶行为，即待考察决策行为。换言之，在本实施例中，以初始状态为起点，利用考察基本决策策略生成多种有待考察的决策行为。如图1所示，以箭头表示生成的可能驾驶行为，其从初始状态伸出。

由于基于机器学习的行为生成模型可以通过综合利用人类驾驶的示教数据和算法主动采集的数据，结合人类定义的性能指标，归纳出各种状态下各决策行为的性能的统计评估，或直接输出各决策行为的倾向性，所以借助机器学习算法的归纳能力，可以生成具有很好性能的可能驾驶行为。

接下来，在步骤S300中，对可能驾驶行为进行安全性过滤，以确定安全驾驶行为。

根据本申请实施例的驾驶行为决策方法引入了安全检测，筛选待考察决策行为。例如，步骤S300可以通过如图4所示的流程进行。

图4图示了根据本申请实施例的安全性过滤步骤的流程图。

如图4所示，在步骤S310中，通过基于规则的安全判断模型和/或基于机器学习的安全判断模型，确定每个可能驾驶行为是否安全。

例如，考虑到基于规则的安全检测模型可以通过一系列人为定义的决策逻辑(决策树)，确定车辆在各种状态下应该输出什么样的决策行为，从而能够非常可靠地避免车辆出现意料外的不安全行为。因此，安全检测通常可以采用基于规则的安全判断模型。例如，基于规则的安全检测模型可以包括安全判断模型，用于根据对安全性的一般性认识确定人为设计的安全规则，使用该安全规则过滤该初始状态下所有可能的决策行为，并去除不安全的行为。如图1所示，如果通过安全检测模型得出某一驾驶行为不满足安全要求，则将其以叉子标出。

替换地，在另一个示例中，也可以采用被设计为较严格的基于机器学习的安全判断模型来替换基于规则的安全判断模型。当然，也可以将基于规则的安全检测模型和基于机器学习的安全判断模型两者结合使用，以进一步提升安全性的筛查效果。

在步骤S320中，从可能驾驶行为中去除不安全驾驶行为并保留安全驾驶行为。

通过安全检测，可以过滤掉大量不安全的决策分支，即将被认为不安全的决策行为排除出进一步的决策搜索，只对保留的安全的决策分支进行后续处理。这样，可以减少需要评估的决策分支数量，提高了处理效率，同时确保了驾驶行为的高度安全性。

返回参考图2，在步骤S400中，根据性能评估从安全驾驶行为中选择目标驾驶行为。

例如，接下来，可以对剩余的安全决策行为继续进行进一步的性能决策，以兼顾驾驶行为的安全性与有效性。例如，步骤S400可以通过如图5所示的流程进行。

如图5所示，在步骤S410中，评估每个安全驾驶行为的性能得分。然后，在步骤S420中，选择性能得分最高的安全驾驶行为，作为目标驾驶行为。

性能评估可以采取多种方法。在一个示例中，该评估可以应用于如下决策模式，其包括前向展开和反向评估两个阶段。前向展开是指根据待考察决策行为生成初始状态后的多级未来状态，初始状态作为根节点，未来状态作为后续节点，驾驶行为作为分支，从而形成前向预测分支；反向评估是指对前向预测分支从末端的叶子节点(末级状态)开始沿各个分支向预测初始的根节点(初始状态)回溯，进行性能评估，并根据该性能评估的结果来选取目标决策行为。例如，可以采用如图6所示的评估流程来执行该步骤S410。

如图6所示，在步骤S620中，针对每个安全驾驶行为，预测可移动设备在初始状态下执行安全驾驶行为之后可能生成的一个或多个次级状态。

例如，针对经过安全性验证后的每个有待考察的决策行为，利用预测模型生成在初始状态下执行待考察决策行为后可能生成的未来系统状态，即次级状态。在形成次级状态的过程中，因为整体外部环境的不确定性，预测模型可能无法完全确定执行某一个决策行为后的生成的未来状态，而只能给出若干可能的未来状态。在此种情况下，可以根据某种标准对所有的可能未来系统状态进行采样，对每个采样均形成一个次级状态。

参考图1，根据初始状态(实心圆)和安全的可能驾驶行为(后续圆圈中未标记有叉子的箭头)，预测该决策行为执行后未来状态的演化情形，生成初始状态的一个或多个下一级状态。初始状态的下一级状态也称为次级状态(空心圆)，其与初始状态之间只有一个的箭头距离。

例如，上述预测模型可以采用基于机器学习的生成式预测模型，也可以采用基于规则的模拟器构建。也就是说，可以通过基于机器学习的状态预测模型和/或基于规则的状态模拟器预测可移动设备在初始状态下执行安全驾驶行为之后可能生成的一个或多个次级状态。

返回参考图6，在步骤S640中，基于每个次级状态生成前向预测分支，所述前向预测分支包括作为节点的状态和作为分支的驾驶行为。

针对前向预测形成的次级未来系统状态，将其作为当前状态或新的初始状态，重复上述动作“生成行为-过滤不安全-预测状态”的过程，直到触发某个搜索终止条件为止。这种前向预测过程可以生成一棵以状态为节点、驾驶行为(或称为决策动作)为分支的树状结构(前向搜索树)。

图8图示了根据本申请实施例的生成前向预测分支的步骤S640的流程图。

如图8所示，在步骤S641中，将次级状态作为当前状态。

在步骤S642中，通过基于机器学习的行为生成模型，生成可移动设备在所述当前状态下的可能驾驶行为。

在步骤S643中，对所述当前状态下的可能驾驶行为进行安全性过滤，以确定当前状态下的安全驾驶行为。

在步骤S644中，针对每个当前状态下的安全驾驶行为，预测可移动设备在所述当前状态下执行所述安全驾驶行为之后可能生成的一个或多个下一级状态，以向前延伸前向预测分支。

在步骤S645中，判断是否满足迭代终止条件，响应于不满足所述迭代终止条件，将预测得到的下一级状态作为新的当前状态，迭代地执行上述操作。

所述迭代终止条件可以与以下各项中的至少一个相关联：单分支搜索深度、搜索步数、搜索时间、和所述下一级状态的综合预期价值。例如，单分支搜索深度相关的迭代终止条件可以是每个预测分支中的最大节点级数；搜索步数相关的迭代终止条件可以是整个前向搜索树的最大节点个数；搜索时间相关的迭代终止条件可以是构建前向搜索树的最大时间；下一级状态综合预期价值相关的迭代终止条件可以是在该下一级状态继续执行策略可能获得的未来预期性能阈值。

例如，所述下一级状态的综合预期价值可以在预测出所述下一级状态之后，利用基于机器学习的价值预期函数来确定。为此，例如，基于机器学习的行为决策模型可以包括价值预期函数，其用于针对搜索终止时所探索的未来系统状态，估计继续执行策略可能获得的未来预期性能。此外，需要说明的是，所述迭代终止条件不限于此，还可以包括其他的参数。

上述步骤S642、S643、S644分别与前述的步骤S200、S300、S620相类似，在此省略其详细描述。

参考图1，在上述过程中，针对每个次级状态进一步生成可能驾驶行为，滤除其中的不安全行为并保留安全行为，通过预测继续生成在该次级状态下执行待考察决策行为后可能生成的后续未来状态，从而形成一段前向的预测分支。不断地重复上述过程，直到触发某个终止条件停止，使得从可移动设备的初始状态到后续各级状态前向展开为一树状结构。如图1所示，在该树状结构中，根节点代表初始状态，由实心圆表示；末端叶节点代表末级状态，由双环圆表示；其他节点代表中间状态，由空心圆表示；箭头代表导致状态变化的某种驾驶行为。在图1的示例中，有下侧的预测分支和上侧的预测分支。因此，通过这样的前向预测过程可以生成以状态为节点、以可能驾驶行为为分支的树状结构。

返回参考图6，在步骤S660中，对与每个次级状态对应的前向预测分支进行反向性能评估，以确定所述次级状态的路径尾收益。

在完成前向预测后，通过反向评估过程，即从末级状态反向回溯(在与如图1所示箭头方向相反的方向中)到每个次级状态，确定每个次级状态的路径尾收益。

图9图示了根据本申请实施例的反向性能评估的步骤S660的流程图。

如图9所示，在步骤S662中，利用基于机器学习的价值预期函数，来确定每个前向预测分支中的末级状态的综合预期价值。

例如，基于机器学习的行为决策模型可以包括价值预期函数，其用于针对搜索终止时所探索的未来系统状态，估计继续执行策略可能获得的未来预期性能。参考图1，针对每个末级状态，利用价值预期函数估计执行对应驾驶行为可能获得的综合预期收益，如图1中末级双环圆圈中的数字所示。

在步骤S664中，利用基于规则的局部适定函数，来确定每个前向预测分支中所述次级状态和所述末级状态以外的中间状态的局部适定价值和所述次级状态的局部适定价值。

例如，规则的安全检测模型可以包括局部适定函数，用于表示利用适定性函数评估的待考察行为执行的局部收益。参考图1，所述局部适定函数评估执行对应驾驶行为(即待考察行为)的局部收益。针对每个次级状态以及中间状态(如果有的话)，空心圆圈中的数字表示执行对应行为的局部收益。

需要说明的是，尽管在本实施例中将综合预期价值和局部适定价值的确定放在反向评估的过程中实现，但是，本申请不限于此。例如，上述确定步骤也可以在生成相应状态之后立即执行。

在步骤S666中，根据与每个次级状态对应的前向预测分支中末级状态的综合预期价值以及中间状态和次级状态的局部适定价值，从所述末级状态开始回溯地计算所述次级状态的路径尾收益。

参考图1，在从搜索终止的末端叶子节点开始向预测初始状态的根节点回溯的过程中，对遇到的每个节点，综合考虑其各个下一级节点的性能评分和自身的局部适定性产生一个性能评分。其中，末端叶子节点的性能评分就是预期未来收益的价值函数的取值，即综合预期价值。按照上述过程。在回溯过程中，针对每个遇到的节点重复上述操作，直到最接近根节点的一层预测节点，即次级节点。

在一个示例中，步骤S666可以采用如图10所示的流程计算次级状态的路径尾收益。

如图10所示，步骤S666可以包括：

在步骤S720中，将作为所述末级状态的父节点的上一级状态作为当前状态。在步骤S740中，根据所述当前状态的下一级状态的综合预期价值以及所述当前状态的局部适定价值来计算所述当前状态的路径尾收益。在步骤S760中，迭代地执行以下操作，直到得到所述次级状态的路径尾收益为止：判断所述当前状态是否是所述次级状态，响应于不是所述次级状态，将作为所述当前状态的父节点的上一级状态作为新的当前状态，根据所述当前状态的下一级状态的路径尾收益以及所述当前状态的局部适定价值来计算所述当前状态的路径尾收益。

上述步骤S740和步骤S760中计算所述当前状态的路径尾收益的步骤，其可能分别针对将末级状态的上一级状态和更上级状态作为当前状态的情况，相应地，所述当前状态的下一级状态的性能评分可能为综合预期价值或路径尾收益。另外，所述当前状态可能包括仅仅一个下一级状态或多个下一级状态。

例如，在所述当前状态仅对应于一个下一级状态的情况下，该计算所述当前状态的路径尾收益的步骤可以包括对所述下一级状态的综合预期价值或路径尾收益(取决于该下一级状态是末级状态，还是中间状态)以及所述当前状态的局部适定价值进行求和来计算所述当前状态的综合预期价值。

如图1所示，在两个前向预测分支中，对于上侧分支，次级节点和中间节点的局部适定价值以及末端叶子节点的综合预期价值的性能评分分别为“1、2、6”，而对于下侧分支，次级节点的局部适定价值以及末端叶子节点的综合预期价值的性能评分分别为“5、9”。在上侧分支中，由于末端叶子节点(末级状态)的价值的性能评分为“6”，中间节点(次级状态的下一级状态，即再次级状态)的局部适定价值评分为“2”，所以该中间节点的路径尾收益为2+6＝8。接下来，继续上述计算，上侧分支的次级状态的路径尾收益为1+8＝9。在下侧分支中，由于末端叶子节点(末级状态)的价值的性能评分为“9”，次级状态的局部适定价值评分为“5”，所以下侧分支的次级状态的路径尾收益为5+9＝14。两者相比，下侧分支具有较高的性能评分。

另外，在所述当前状态对应于多个下一级状态的情况下，该计算所述当前状态的路径尾收益的步骤可以包括根据所有下一级状态的综合预期价值或路径尾收益以及所述当前状态的局部适定价值来计算所述当前状态的综合预期价值。

在一个示例中，可以采用如图11所示的流程执行计算当前状态的路径尾收益的操作。

如图11所示，在步骤S742中，分别计算每个下一级状态的综合预期价值或路径尾收益以及所述当前状态的局部适定价值的和值。在步骤S744中，计算所有和值的算术平均值。在步骤S746中，将所述算术平均值作为所述当前状态的综合预期价值。

下面，参考图12所示的应用场景来具体描述。

如图12所示，在两个前向预测分支中，对于上侧分支，初级节点(局部适定评分为1)之后有一个末级节点(综合预期收益为3)和一个中间节点(局部适定评分为2)，其后又有两个末级节点(综合预期收益分别为12和6)。在上侧分支中，如果我们将该中间节点作为关注的当前节点(当前状态)，则该中间节点的路径尾收益可以为(2+12)和(2+6)的算术平均值，即11。接下来，继续上述计算，上侧分支的次级状态的路径尾收益为(1+3)和(1+11)的算术平均值，即8。下侧分支的次级状态的路径尾收益仍为5+9＝14。两者相比，下侧分支仍具有较高的性能评分。

替换地，在另一个示例中，在当前状态对应于多个下一级状态的情况下，上述步骤S740和步骤S760中计算所述当前状态的路径尾收益的步骤也可以选择最大值、最小值、加权平均值、和其他可能的取值，以实现不同的性能评分计算方式。

例如，该计算所述当前状态的路径尾收益的步骤也可以包括：在将作为所述末级状态的父节点的上一级状态作为当前状态之后，针对所述当前状态下的每个安全驾驶行为，根据与所述安全驾驶行为对应的所有下一级状态的综合预期价值或路径尾收益来评估所述安全驾驶行为的性能得分；以及根据每个安全驾驶行为的性能得分以及所述当前状态的局部适定价值的和值来确定所述当前状态的路径尾收益。

具体地，可以针对当前状态，将从其伸出的各预测分支按驾驶行为进行分类，然后，评估当前状态下每类驾驶行为的性能得分，最后考虑每类行为的性能得分和该当前状态的局部适定价值来得到该当前状态的路径尾收益。其中一种可能的综合考虑方法是将与当前状态对应的所有驾驶行为得分中的最大值与当前状态的局部适定价值之和作为当前状态的路径尾收益。如果进一步地，将每个驾驶行为得分认为是与其对应的下一级状态(即，当前状态的下一级状态)的最小值，那么这样获得的价值得分符合“最小最大化”原则。“最小最大化”原则为不确定型决策的决策准则之一，这种方法的基本态度是采用保守策略，找出最不利情况下的最大收益。

返回参考图6，在步骤S680中，根据与每个安全驾驶行为对应的所有次级状态的路径尾收益，计算安全驾驶行为的性能得分。

在确定每个次级状态的路径尾收益后，针对次级状态节点，即针对所有次级状态，可以将各预测分支按驾驶行为进行分类，并根据每个分类内的评分评估在根节点状态(即初始状态)下执行各驾驶行为的预期性能。

参考图1，假设前向的预测展开生成的树结构中，包含两条可行的前向路径，假设其第一次分叉(上下侧两个分支)时分别对应两种驾驶行为。由于如上所述，下侧分支具有较高的性能评分14，因此，在后续的步骤S420中，可以选择下侧分支第一段所对应的特定决策行为，作为当前时刻的目标驾驶行为输出，从而控制可移动设备执行该目标驾驶行为。

另外，如果假设图1中的第一次分叉(上下侧两个分支)仅仅对应一种驾驶行为，并且还具有对应于其他驾驶行为的一个或多个第一次分叉，那么，在一个示例中，可以计算与每个安全驾驶行为对应的所有次级状态的路径尾收益的算术平均值，作为所述安全驾驶行为的性能得分。例如，参考图1的情景，上侧分支的性能评分为9，下侧分支的性能评分为14，则在平均值计算方式的情况下，这个驾驶行为的最后得分可以是(9+14)/2＝11.5。因此，该驾驶行为可以基于该算术平均的最后得分11.5来与其他驾驶行为进行比较，并且选择最大得分的驾驶行为，作为最终的目标驾驶行为。

也就是说，该步骤S680可以包括：针对每个安全驾驶行为，计算与所述安全驾驶行为对应的所有次级状态的路径尾收益的算术平均值；以及将所述算术平均值作为所述安全驾驶行为的性能得分。

值得注意的是，此处只给出了一种简单的性能评分计算方式，实际还可以采用其他更复杂的方式来综合驾驶行为的性能评分，例如可以采用最小最大化原则，先将所有次级状态节点按驾驶行为进行分组，并求取组内节点性能评分的最小值作为该分组的驾驶行为的性能评分，然后，各分组的驾驶行为进行比较，并且选择最大得分的驾驶行为，作为最终的目标驾驶行为。

例如，再次参考图1的情景，如果假设图1中的第一次分叉(上下侧两个分支)仅仅对应一种驾驶行为，下侧分支的次级状态的路径尾收益为5+9＝14，而上侧分支的次级状态的路径尾收益为1+2+6＝9，则在最小最大化原则的情况下，这个驾驶行为的最后得分可以是9。因此，该驾驶行为可以基于该最小值的最后得分9来与其他驾驶行为进行比较，并且选择最大得分的驾驶行为，作为最终的目标驾驶行为。

也就是说，该步骤S680可以包括：针对每个安全驾驶行为，选择与所述安全驾驶行为对应的所有次级状态的路径尾收益中的最小值；以及将所述最小值作为所述安全驾驶行为的性能得分。

当然，本申请的实施例也不限于最小最大化原则，而是可以取决于不同的驾驶决策策略来选择其他各种不同的驾驶行为打分原则，例如，最大最小化原则等。

在另一示例中，该步骤S410除了可以采用如图6所示的评估流程来执行之外，还可以采用其他的评估方法，例如如图7所示的评估流程。该评估可以应用于如下决策模式：在初始状态后只考虑后续一级未来状态，对该一级未来状态进行性能评估，并根据该性能评估的结果选取一个目标决策行为。也就是说，在图1中，在确定初始状态下的下一步驾驶行为时，只考虑初始状态后的次级状态，而不再考虑次级状态后的后续未来状态，以获得更快的决策速度。

如图7所示，在步骤S620中，针对每个安全驾驶行为，预测可移动设备在初始状态下执行安全驾驶行为之后可能生成的一个或多个次级状态。该步骤S620与图6中的步骤S620相同，在此省略其详细描述。

然后，在步骤S650中，利用基于机器学习的价值预期函数确定每个次级状态的综合预期价值。参考图1，如上所述，在初始状态后只考虑后续一级未来状态，即次级状态就是末级状态，或叶子节点。在预测次级状态后，针对每个次级状态，直接利用价值预期函数估计执行对应驾驶行为可能获得的综合预期收益。

在步骤S680中，根据与每个安全驾驶行为对应的所有次级状态的综合预期价值，计算安全驾驶行为的性能得分。参考图1，在确定每个次级状态(即，末级状态)的综合预期价值后，针对次级状态节点，即针对所有次级状态，将各预测分支按驾驶行为进行分类，并根据每个分类内的评分评估在根节点状态(即初始状态)下执行各驾驶行为的预期性能。该步骤S620与图6中的步骤S680相同，在此省略其详细描述。

由此可见，采用根据本申请实施例的驾驶行为决策方法，可以通过综合规则和机器学习的决策模型，滤除不安全的决策行为，在安全行为中选择性能较好的决策执行，兼顾决策的安全性与有效性。

具体来说，根据本申请实施例的驾驶行为决策方法具有以下优势：

1)引入安全过滤，保证现有机器学习决策模型可能做出的大部分激进不安全行为可以过滤掉，而在过滤后保留的安全决策分支中，充分利用机器学习决策模型的归纳能力进行评估，选择性能较好的决策行为执行，兼顾了决策的安全性与有效性。

2)在安全检测和过滤时，只需要对明显不安全的决策行为进行过滤，而不需要对剩余的安全行为给出具体的性能评估与选择，大大简化了安全过滤规则设计的复杂性。换言之，因为引入安全过滤滤除了大量的不安全决策分支，所以机器学习模型在训练的过程中可以减少需要评估的决策分支数量，提高了学习效率。

3)既保证了决策算法整体的安全性可以达到基于规则的安全性检测模型的水平，高于完全基于机器学习决策模型的算法，又保证了决策算法的整体性能高于仅依赖基于规则的决策算法。

4)在采用树状前向搜索的实施例中，可以综合考虑局部适定性性能评估和未来全局性能评估，使得决策分支整体性能评估更精确。

示例性系统

下面，参考图13来描述根据本申请实施例的驾驶行为决策系统。

图13图示了根据本申请实施例的驾驶行为决策系统的框图。

如图13所示，根据本申请实施例的所述驾驶行为决策系统800可以包括：状态获取模块810，用于获取可移动设备的初始状态；行为生成模块820，用于通过基于机器学习的行为生成模型，生成所述可移动设备在所述初始状态下的可能驾驶行为；安全过滤模块830，用于对所述可能驾驶行为进行安全性过滤，以确定安全驾驶行为；以及行为决定模块840，用于根据性能评估从所述安全驾驶行为中选择目标驾驶行为。

在一个示例中，所述状态获取模块810可以获取所述可移动设备自身的设备状态；获取所述可移动设备周围的环境状态；以及根据所述设备状态和环境状态来确定所述初始状态。

在一个示例中，所述安全过滤模块830可以通过基于规则的安全判断模型和/或基于机器学习的安全判断模型，确定每个可能驾驶行为是否安全；以及从所述可能驾驶行为中去除不安全驾驶行为并保留安全驾驶行为。

在一个示例中，所述行为决定模块840可以评估每个安全驾驶行为的性能得分；以及选择性能得分最高的安全驾驶行为，作为所述目标驾驶行为。

在一个示例中，所述行为决定模块840可以针对每个安全驾驶行为，预测所述可移动设备在所述初始状态下执行所述安全驾驶行为之后可能生成的一个或多个次级状态；利用基于机器学习的价值预期函数来确定每个次级状态的综合预期价值；以及根据与每个安全驾驶行为对应的所有次级状态的综合预期价值来计算所述安全驾驶行为的性能得分。

在一个示例中，所述行为决定模块840可以针对每个安全驾驶行为，预测所述可移动设备在所述初始状态下执行所述安全驾驶行为之后可能生成的一个或多个次级状态；基于每个次级状态生成前向预测分支，所述前向预测分支包括作为节点的状态和作为分支的驾驶行为；对与每个次级状态对应的前向预测分支进行反向性能评估，以确定所述次级状态的路径尾收益；以及根据与每个安全驾驶行为对应的所有次级状态的路径尾收益来计算所述安全驾驶行为的性能得分。

在一个示例中，所述行为决定模块840可以通过基于机器学习的状态预测模型和/或基于规则的状态模拟器预测所述可移动设备在所述初始状态下执行所述安全驾驶行为之后可能生成的一个或多个次级状态。

在一个示例中，所述行为决定模块840可以将所述次级状态作为当前状态；通过基于机器学习的行为生成模型，生成所述可移动设备在所述当前状态下的可能驾驶行为；对所述当前状态下的可能驾驶行为进行安全性过滤，以确定当前状态下的安全驾驶行为；针对每个当前状态下的安全驾驶行为，预测所述可移动设备在所述当前状态下执行所述安全驾驶行为之后可能生成的一个或多个下一级状态，以向前延伸所述前向预测分支；以及判断是否满足迭代终止条件，响应于不满足所述迭代终止条件，将预测得到的下一级状态作为新的当前状态，迭代地执行上述操作。

在一个示例中，所述迭代终止条件可以与以下各项中的至少一个相关联：单分支搜索深度、搜索步数、搜索时间、和所述下一级状态的综合预期价值。

在一个示例中，所述行为决定模块840还可以在预测出所述下一级状态之后，利用基于机器学习的价值预期函数，来确定所述下一级状态的综合预期价值。

在一个示例中，所述行为决定模块840可以利用基于机器学习的价值预期函数，来确定每个前向预测分支中的末级状态的综合预期价值；利用基于规则的局部适定函数，来确定每个前向预测分支中所述次级状态和所述末级状态以外的中间状态的局部适定价值和所述次级状态的局部适定价值；以及根据与每个次级状态对应的前向预测分支中末级状态的综合预期价值以及中间状态和次级状态的局部适定价值，从所述末级状态开始回溯地计算所述次级状态的路径尾收益。

在一个示例中，所述行为决定模块840可以将作为所述末级状态的父节点的上一级状态作为当前状态；根据所述当前状态的下一级状态的综合预期价值以及所述当前状态的局部适定价值来计算所述当前状态的路径尾收益；以及迭代地执行以下操作，直到得到所述次级状态的路径尾收益为止：判断所述当前状态是否是所述次级状态，响应于不是所述次级状态，将作为所述当前状态的父节点的上一级状态作为新的当前状态，根据所述当前状态的下一级状态的路径尾收益以及所述当前状态的局部适定价值来计算所述当前状态的路径尾收益。

在一个示例中，所述行为决定模块840可以在所述当前状态对应于一个下一级状态的情况下，对所述下一级状态的综合预期价值或路径尾收益以及所述当前状态的局部适定价值进行求和来计算所述当前状态的路径尾收益；以及在所述当前状态对应于多个下一级状态的情况下，根据所有下一级状态的综合预期价值或路径尾收益以及所述当前状态的局部适定价值来计算所述当前状态的路径尾收益。

在一个示例中，所述行为决定模块840可以分别计算每个下一级状态的综合预期价值或路径尾收益以及所述当前状态的局部适定价值的和值；计算所有和值的算术平均值；以及将所述算术平均值作为所述当前状态的路径尾收益。

在一个示例中，所述行为决定模块840可以针对所述当前状态下的每个安全驾驶行为，根据与所述安全驾驶行为对应的所有下一级状态的综合预期价值或路径尾收益来评估所述安全驾驶行为的性能得分；以及根据每个安全驾驶行为的性能得分以及所述当前状态的局部适定价值的和值来确定所述当前状态的路径尾收益。

在一个示例中，所述行为决定模块840可以针对每个安全驾驶行为，计算与所述安全驾驶行为对应的所有次级状态的路径尾收益的算术平均值；以及将所述算术平均值作为所述安全驾驶行为的性能得分。

在一个示例中，所述行为决定模块840可以针对每个安全驾驶行为，选择与所述安全驾驶行为对应的所有次级状态的路径尾收益中的最小值；以及将所述最小值作为所述安全驾驶行为的性能得分。

上述驾驶行为决策系统800中的各个模块的具体功能和操作已经在上面参考图1到图12描述的驾驶行为决策方法中进行了详细介绍，因此，这里将省略其重复描述。

如上所述，根据本申请实施例的驾驶行为决策系统800可以实现在可移动设备中，也可以是与其独立的单机设备。

在一个示例中，根据本申请实施例的驾驶行为决策系统800可以作为一个软件模块和/或硬件模块而集成到该可移动设备中。例如，该驾驶行为决策系统800可以是该可移动设备的操作系统中的一个软件模块，或者可以是针对该可移动设备所开发的一个应用程序；当然，该驾驶行为决策系统800同样可以是该可移动设备的众多硬件模块之一。

可替代地，在另一示例中，该驾驶行为决策系统800与该可移动设备也可以是分立的设备，并且该驾驶行为决策系统800可以通过有线和/或无线网络连接到该声音处理设备，并且按照约定的数据格式来传输交互信息。

示例性电子设备

下面，参考图14来描述根据本申请实施例的电子设备。该电子设备可以是可移动设备本身，或与其独立的单机设备，该单机设备可以与可移动设备进行通信，以从它们接收所采集到的输入信号，并向其发送所选择的目标驾驶行为。

图14图示了根据本申请实施例的电子设备的框图。

如图14所示，电子设备10包括一个或多个处理器11和存储器12。

处理器11可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备10中的其他组件以执行期望的功能。

存储器12可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器11可以运行所述程序指令，以实现上文所述的本申请的各个实施例的驾驶行为决策方法以及/或者其他期望的功能。

在一个示例中，电子设备10还可以包括：输入装置13和输出装置14，这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。例如，该输入设备13可以包括例如车载诊断系统(OBD)、统一诊断服务(UDS)、惯性测量单元(IMU)、摄像头、激光雷达、毫米波雷达、超声波雷达、车载通信(V2X)等各种设备。该输入设备13还可以包括例如键盘、鼠标等等。该输出装置14可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。

当然，为了简化，图14中仅示出了该电子设备10中与本申请有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。除此之外，根据具体应用情况，电子设备10还可以包括任何其他适当的组件。

示例性计算机程序产品和计算机可读存储介质

除了上述方法和设备以外，本申请的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的驾驶行为决策方法中的步骤。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本申请的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的驾驶行为决策方法中的步骤。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

以上结合具体实施例描述了本申请的基本原理，但是，需要指出的是，在本申请中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本申请为必须采用上述具体的细节来实现。

本申请中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

还需要指出的是，在本申请的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此，本申请不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本申请的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

1.一种驾驶行为决策方法，包括：

获取可移动设备的初始状态；

通过基于机器学习的行为生成模型，生成所述可移动设备在所述初始状态下的可能驾驶行为；

对所述可能驾驶行为进行安全性过滤，以确定安全驾驶行为；以及

根据性能评估从所述安全驾驶行为中选择目标驾驶行为。

2.如权利要求1所述的方法，其中，所述获取可移动设备的初始状态包括：

获取所述可移动设备自身的设备状态；

获取所述可移动设备周围的环境状态；以及

根据所述设备状态和环境状态来确定所述初始状态。

3.如权利要求1所述的方法，其中，所述对所述可能驾驶行为进行安全性过滤，以确定安全驾驶行为包括：

通过基于规则的安全判断模型和/或基于机器学习的安全判断模型，确定每个可能驾驶行为是否安全；以及

从所述可能驾驶行为中去除不安全驾驶行为并保留安全驾驶行为。

4.如权利要求1所述的方法，其中，所述根据性能评估从所述安全驾驶行为中选择目标驾驶行为包括：

评估每个安全驾驶行为的性能得分；以及

选择性能得分最高的安全驾驶行为，作为所述目标驾驶行为。

5.如权利要求4所述的方法，其中，所述评估每个安全驾驶行为的性能得分包括：

针对每个安全驾驶行为，预测所述可移动设备在所述初始状态下执行所述安全驾驶行为之后可能生成的一个或多个次级状态；

利用基于机器学习的价值预期函数来确定每个次级状态的综合预期价值；以及

根据与每个安全驾驶行为对应的所有次级状态的综合预期价值来计算所述安全驾驶行为的性能得分。

6.如权利要求4所述的方法，其中，所述评估每个安全驾驶行为的性能得分包括：

基于每个次级状态生成前向预测分支，所述前向预测分支包括作为节点的状态和作为分支的驾驶行为；

对与每个次级状态对应的前向预测分支进行反向性能评估，以确定所述次级状态的路径尾收益；以及

根据与每个安全驾驶行为对应的所有次级状态的路径尾收益来计算所述安全驾驶行为的性能得分。

7.如权利要求5或6所述的方法，其中，所述针对每个安全驾驶行为，预测所述可移动设备在所述初始状态下执行所述安全驾驶行为之后可能生成的一个或多个次级状态包括：

通过基于机器学习的状态预测模型和/或基于规则的状态模拟器预测所述可移动设备在所述初始状态下执行所述安全驾驶行为之后可能生成的一个或多个次级状态。

8.如权利要求6所述的方法，其中，所述基于每个次级状态生成前向预测分支包括：

将所述次级状态作为当前状态；

通过基于机器学习的行为生成模型，生成所述可移动设备在所述当前状态下的可能驾驶行为；

对所述当前状态下的可能驾驶行为进行安全性过滤，以确定当前状态下的安全驾驶行为；

针对每个当前状态下的安全驾驶行为，预测所述可移动设备在所述当前状态下执行所述安全驾驶行为之后可能生成的一个或多个下一级状态，以向前延伸所述前向预测分支；以及

判断是否满足迭代终止条件，响应于不满足所述迭代终止条件，将预测得到的下一级状态作为新的当前状态，迭代地执行上述操作。

9.如权利要求8所述的方法，其中，所述迭代终止条件与以下各项中的至少一个相关联：单分支搜索深度、搜索步数、搜索时间、和所述下一级状态的综合预期价值。

10.如权利要求9所述的方法，其中，所述基于每个次级状态生成前向预测分支还包括：

在预测出所述下一级状态之后，利用基于机器学习的价值预期函数，来确定所述下一级状态的综合预期价值。

11.如权利要求6所述的方法，其中，所述对与每个次级状态对应的前向预测分支进行反向性能评估，以确定所述次级状态的路径尾收益包括：

利用基于机器学习的价值预期函数，来确定每个前向预测分支中的末级状态的综合预期价值；

利用基于规则的局部适定函数，来确定每个前向预测分支中所述次级状态和所述末级状态以外的中间状态的局部适定价值和所述次级状态的局部适定价值；以及

根据与每个次级状态对应的前向预测分支中末级状态的综合预期价值以及中间状态和次级状态的局部适定价值，从所述末级状态开始回溯地计算所述次级状态的路径尾收益。

12.如权利要求11所述的方法，其中，所述根据与每个次级状态对应的前向预测分支中末级状态的综合预期价值以及中间状态和次级状态的局部适定价值，从所述末级状态开始回溯地计算所述次级状态的路径尾收益包括：

将作为所述末级状态的父节点的上一级状态作为当前状态；

根据所述当前状态的下一级状态的综合预期价值以及所述当前状态的局部适定价值来计算所述当前状态的路径尾收益；以及

迭代地执行以下操作，直到得到所述次级状态的路径尾收益为止：判断所述当前状态是否是所述次级状态，响应于不是所述次级状态，将作为所述当前状态的父节点的上一级状态作为新的当前状态，根据所述当前状态的下一级状态的路径尾收益以及所述当前状态的局部适定价值来计算所述当前状态的路径尾收益。

13.如权利要求12所述的方法，其中，计算所述当前状态的路径尾收益包括：

在所述当前状态对应于一个下一级状态的情况下，对所述下一级状态的综合预期价值或路径尾收益以及所述当前状态的局部适定价值进行求和来计算所述当前状态的路径尾收益；以及

在所述当前状态对应于多个下一级状态的情况下，根据所有下一级状态的综合预期价值或路径尾收益以及所述当前状态的局部适定价值来计算所述当前状态的路径尾收益。

14.如权利要求13所述的方法，其中，所述根据所有下一级状态的综合预期价值或路径尾收益以及所述当前状态的局部适定价值来计算所述当前状态的路径尾收益包括：

分别计算每个下一级状态的综合预期价值或路径尾收益以及所述当前状态的局部适定价值的和值；

计算所有和值的算术平均值；以及

将所述算术平均值作为所述当前状态的路径尾收益。

15.如权利要求13所述的方法，其中，所述根据所有下一级状态的综合预期价值或路径尾收益以及所述当前状态的局部适定价值来计算所述当前状态的路径尾收益包括：

针对所述当前状态下的每个安全驾驶行为，根据与所述安全驾驶行为对应的所有下一级状态的综合预期价值或路径尾收益来评估所述安全驾驶行为的性能得分；以及

根据每个安全驾驶行为的性能得分以及所述当前状态的局部适定价值的和值来确定所述当前状态的路径尾收益。

16.如权利要求6所述的方法，其中，所述根据与每个安全驾驶行为对应的所有次级状态的路径尾收益来计算所述安全驾驶行为的性能得分包括：

针对每个安全驾驶行为，计算与所述安全驾驶行为对应的所有次级状态的路径尾收益的算术平均值；以及

将所述算术平均值作为所述安全驾驶行为的性能得分。

17.如权利要求6所述的方法，其中，所述根据与每个安全驾驶行为对应的所有次级状态的路径尾收益来计算所述安全驾驶行为的性能得分包括：

针对每个安全驾驶行为，选择与所述安全驾驶行为对应的所有次级状态的路径尾收益中的最小值；以及

将所述最小值作为所述安全驾驶行为的性能得分。

18.一种驾驶行为决策系统，包括：

状态获取模块，用于获取可移动设备的初始状态；

行为生成模块，用于通过基于机器学习的行为生成模型，生成所述可移动设备在所述初始状态下的可能驾驶行为；

安全过滤模块，用于对所述可能驾驶行为进行安全性过滤，以确定安全驾驶行为；以及

行为决定模块，用于根据性能评估从所述安全驾驶行为中选择目标驾驶行为。

19.一种电子设备，包括：

处理器；

存储器；以及

存储在所述存储器中的计算机程序指令，所述计算机程序指令在被所述处理器运行时使得所述处理器执行如权利要求1-17中任一项所述的方法。

20.一种计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行如权利要求1-17中任一项所述的方法。