CN111775952B

CN111775952B - 自动驾驶方法、装置和存储介质

Info

Publication number: CN111775952B
Application number: CN201911171461.4A
Authority: CN
Inventors: 李柏
Original assignee: Beijing Jingdong Qianshi Technology Co Ltd
Current assignee: Beijing Jingdong Qianshi Technology Co Ltd
Priority date: 2019-11-26
Filing date: 2019-11-26
Publication date: 2021-11-26
Anticipated expiration: 2039-11-26
Also published as: CN111775952A

Abstract

本发明公开了一种自动驾驶方法、装置和存储介质，涉及自动驾驶技术领域。自动驾驶方法包括：建立优化问题以求解驾驶参数，其中，优化问题的目标函数包括根据车辆与障碍物的碰撞概率确定的惩罚函数；确定令目标函数的值最小化时优化问题的解，以作为用于自动驾驶的驾驶参数。通过基于碰撞概率确定优化目标的方式，可以在令车辆正常行驶的基础上将与障碍物碰撞的可能性降至极低，从而提高了自动驾驶轨迹的质量。

Description

自动驾驶方法、装置和存储介质

技术领域

本发明涉及自动驾驶技术领域，特别涉及一种自动驾驶方法、装置和存储介质。

背景技术

自动驾驶中的轨迹优化是指生成符合车辆运动学的、不发生碰撞、满足任务要求的平滑舒适的时空轨线。常见的轨迹规划方法有很多种，主要包括搜索采样、优化、机器学习以及解析方法等等。在相关技术中，一般将移动障碍物未来运动趋势的预测轨迹视为确定轨迹，并基于确定的障碍物的轨迹实施车辆轨迹的优化。

发明内容

发明人经过分析后认为，相关技术的方法是在环境确定的条件下进行的，但是实际上，对周围移动障碍物体的感知是存在局限性的。即便准确获知了移动物体当前的状态，也不可能100％准确地预测其未来的运动轨迹，因此将移动障碍物未来运动趋势的预测轨迹视为确定轨迹并实施轨迹优化的做法是有瑕疵的。在少许的考虑不确定性因素的轨迹或路径规划方法中，一般为了求解方便，都去对不确定性因素进行大幅度简化处理，甚至理想化主观假设，导致车辆轨迹优化的效果不好。

本发明实施例所要解决的一个技术问题是：如何提供一种效果更好的车辆轨迹优化方案。

根据本发明一些实施例的第一个方面，提供一种自动驾驶方法，包括：建立优化问题以求解驾驶参数，其中，优化问题的目标函数包括根据车辆与障碍物的碰撞概率确定的惩罚函数；确定令目标函数的值最小化时优化问题的解，以作为用于自动驾驶的驾驶参数。

在一些实施例中，根据车辆与障碍物的碰撞概率确定的惩罚函数包括在预设的时间内各个时间的惩罚项的总和；对于每个时间，根据车辆的位置和姿态确定车辆在时间所占据的区域，并在车辆占据的区域上对障碍物的位置概率密度的分布函数进行积分，获得车辆在时间与障碍物的碰撞概率，其中，位置和姿态是根据驾驶参数确定的；在碰撞小于预设值的情况下，时间的惩罚项的值为0；在碰撞不小于预设值的情况下，时间的惩罚项的值为预设的惩罚常值与惩罚可变值之和，惩罚可变值根据碰撞概率确定。

在一些实施例中，惩罚可变值为碰撞概率与预设值之差的平方值乘以惩罚常值的结果。

在一些实施例中，优化问题的目标函数还包括表示车辆在预设的时间到达的位置与预设终点的差距的惩罚函数。

在一些实施例中，表示车辆在预设的时间到达的位置与预设终点的差距的惩罚函数包括车辆在预设时间的坐标与预设终点的坐标的差值以及车辆在预设时间的姿态与车辆在预设终点的预设姿态的差值。

在一些实施例中，采用元启发式算法确定令目标函数的值最小化时优化问题的解。

在一些实施例中，定令目标函数的值最小化时优化问题的解包括：对多个初始搜索变量、粗搜索变量、精搜索变量进行初始化；迭代执行i)～vi)，直到达到预设的迭代次数：i)随机确定初始搜索变量在目标函数的解空间中的位置，并将初始搜索变量转换为粗搜索变量；ii)对于每个粗搜索变量，将粗搜索变量与其他粗搜索变量进行交叉变异尝试，并根据尝试结果更新尝试次数变量的值；iii)根据每个粗搜索变量的值对应的目标函数的值确定每个粗搜索变量的权重，并根据权重确定精搜索变量所对应的粗搜索变量；iv)对于每个精搜索变量，将精搜索变量对应的粗搜索变量与其他粗搜索变量进行交叉变异尝试，并根据尝试结果更新尝试次数变量的值；v)根据每个精搜索变量对应的粗搜索变量的值计算目标函数的值，并根据计算结果确定是否更新目标函数的最小值；vi)在当前迭代不是最后一次迭代的情况下，将超过预设尝试次数的尝试次数变量置为预设尝试次数，并且在粗搜索变量的尝试次数变量的均值大于预设尝试次数与预设百分比参数的乘积的情况下，将预设比例的粗搜索变量转换为初始搜索变量；将目标函数的最小值对应的粗搜索变量的值确定为优化问题的解。

在一些实施例中，将粗搜索变量与其他粗搜索变量进行交叉变异尝试，并根据尝试结果更新尝试次数变量的值包括：选取粗搜索变量的若干维度，并且对于选择的每个维度，将维度上的值与其他粗搜索变量进行混合，获得备选优化变量值；在根据备选优化变量值计算的目标函数的值小于根据粗搜索变量的值计算的目标函数的值的情况下，采用备选优化变量值更新粗搜索变量的值，并将粗搜索变量对应的尝试次数变量的值重置为1；否则，将尝试次数变量更新为原值加1后的结果。

在一些实施例中，根据每个粗搜索变量的值对应的目标函数的值确定每个粗搜索变量的权重，并根据权重确定精搜索变量所对应的粗搜索变量包括：对于每个粗搜索变量，将粗搜索变量的值对应的目标函数的值与目标函数的最大值的比值确定为粗搜索变量的权重；根据每个粗搜索变量的权重，采用轮盘赌策略确定精搜索变量所对应的粗搜索变量。

根据本发明一些实施例的第二个方面，提供一种自动驾驶装置，包括：优化问题建立模块，被配置为建立优化问题以求解驾驶参数，其中，优化问题的目标函数包括第一惩罚函数和第二惩罚函数，第一惩罚函数表示车辆在预设的时间到达的位置与预设终点的差距，第二惩罚函数根据车辆与障碍物的碰撞概率确定；驾驶参数确定模块，被配置为确定令目标函数的值最小化时优化问题的解，以作为用于自动驾驶的驾驶参数。

根据本发明一些实施例的第三个方面，提供一种自动驾驶装置，包括：存储器；以及耦接至存储器的处理器，处理器被配置为基于存储在存储器中的指令，执行前述任意一种自动驾驶方法。

根据本发明一些实施例的第四个方面，提供一种计算机可读存储介质，其上存储有计算机程序，其中，该程序被处理器执行时实现前述任意一种自动驾驶方法。

上述发明中的一些实施例具有如下优点或有益效果：本发明的实施例考虑了障碍物和车辆移动过程中的不确定性因素，通过基于碰撞概率确定优化目标的方式，可以在令车辆正常行驶的基础上将与障碍物碰撞的可能性降至极低，从而提高了自动驾驶轨迹的质量。

通过以下参照附图对本发明的示例性实施例的详细描述，本发明的其它特征及其优点将会变得清楚。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1示出了根据本发明一些实施例的自动驾驶方法的流程示意图。

图2示出了根据本发明一些实施例的优化问题求解方法的流程示意图。

图3示出了根据本发明一些实施例的自动驾驶装置的结构示意图。

图4示出了根据本发明另一些实施例的自动驾驶装置的结构示意图。

图5示出了根据本发明又一些实施例的自动驾驶装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为授权说明书的一部分。

在这里示出和讨论的所有示例中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它示例可以具有不同的值。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

发明人经过进一步分析后发现，由于动态障碍物运动轨迹是通过预测获得的，因此具有置信度。如果完全相信预测的结果，则过于保守，使得车辆寸步难行；如果完全不相信预测的结果，则很可能造成危险。

为了解决这一问题，设场景中存在移动障碍物A，A物体在未来的一段时间内的运动轨迹是通过预测获得的。除了获取该轨迹之外，还需要获取预测的置信度及概率分布信息。从而，物体A未来的行驶行为会在一定范围内存在可能，概率在平面空间、时间中具有一定的函数分布。发明人基于车辆与障碍物的碰撞概率确定确定优化问题，以获得更好的自动驾驶轨迹。下面参考图1描述本发明自动驾驶方法的实施例。

图1示出了根据本发明一些实施例的自动驾驶方法的流程示意图。如图1所示，该实施例的自动驾驶方法包括步骤S102～S104。

在步骤S102中，建立优化问题以求解驾驶参数，其中，优化问题的目标函数包括根据车辆与障碍物的碰撞概率确定的惩罚函数。

后文为了简便叙述，设第一惩罚函数表示车辆在预设的时间到达的位置与预设终点的差距、第二惩罚函数根据车辆与障碍物的碰撞概率确定。

车辆的状态信息可以包括车辆的速度变量和前轮偏转角度变量，作为目标函数的优化变量，该优化变量可以以离散形式呈现。

在一些实施例中，设优化变量在t∈[0,t_f]时域上是分段常值，并且针对这些优化变量将时域t∈[0,t_f]分别分成N_fe个子区间，并且第k个时间子区间内的速度变量始终取常值v_k、前轮偏角变量始终取常值Φ_k。在这些子区间上，这些常值的取值即为优化的目的。将所有子区间上的优化变量整合在一起，针对一个完整的轨迹优化问题的完整解向量就是

在后文可以简称为解向量χ。

该目标函数的约束条件可以设置的比较简单，以便于使用元启发式算法求解。元启发式优化算法由于不利用优化命题中的函数的梯度信息，因此适合处理约束简单、但目标函数复杂的问题。约束条件可以包括约束车辆的状态参数在容许范围内，例如可以包括公式(1)中的条件。

在公式(1)中，V_max、Φ_max表示预设的阈值。

在一些实施例中，第一惩罚函数包括车辆在预设时间的坐标与预设终点的坐标的差值以及车辆在预设时间的姿态与车辆在预设终点的预设姿态的差值。例如，第一惩罚函数J₁可以采用公式(2)表示。

J₁＝(x(t_f)-xf)²+(y(t_f)-yf)²+(θ(t_f)-θf)² (2)

[xf,yf]表示预设终点的坐标，θf表示车辆在预设终点的预设姿态，[x(t_f),y(t_f)]表示预设时刻车辆的位置，θ(t_f)表示预设时刻车辆的姿态。

在一些实施例中，第二惩罚函数包括在预设的时间内各个时间的惩罚项的总和；对于每个时间，根据车辆的位置和姿态确定车辆在时间所占据的区域，并在车辆占据的区域上对障碍物的位置概率密度的分布函数进行积分，获得车辆在时间与障碍物的碰撞概率，其中，位置和姿态是根据驾驶参数确定的；在碰撞小于预设值的情况下，时间的惩罚项的值为0；在碰撞不小于预设值的情况下，时间的惩罚项的值为预设的惩罚常值与惩罚可变值之和，惩罚可变值根据碰撞概率确定。

在获得障碍物的位置概率密度的分布函数β(t)以后，可以将车辆的位置信息x(t)、y(t)以及姿态信息θ(t)条件下的足迹(即车辆在t时刻车身投射在地面的区域)对应到这个概率密度分布函数上，并在车辆某一时刻的足迹上对概率密度的分布函数做二重积分，从而得到车辆在t时刻与障碍物相撞的概率prob(t)，例如可以通过公式(3)确定。

在该实施例中，无需限制车辆在每时每刻都与障碍物具有0概率相撞以避免车辆寸步难行，而是要求车辆在每时每刻于障碍物相撞的概率在一定范围内，例如要求

根据这一要求，可以建立如公式(4)所示的惩罚项多项式。

在公式(4)中，ψ(t)代表对于t时刻违背预设的概率值所施加的巨大惩罚，其具体形式可以参考公式(5)。在公式(5)中，概率值为0.01。

在公式(5)中,C_large是预设的惩罚常值，为正数，是计算机的计算负荷范围内的、非常大的数值，其数量级例如可以为10⁶。通过构造C_large+C_large·(prob(t)-0.01)²，可以明确违背约束与不违背约束的界限。从而，一旦prob(t)＜0.01未能达成，就会增加惩罚值。

在一些实施例中，目标函数可以如公式(6)所示。

J＝J₁+J₂ (6)

J₁和J₂的具体形式可以参考公式(2)～(5)，这里不再赘述。

在步骤S104中，确定令目标函数的值最小化时优化问题的解，以作为用于自动驾驶的驾驶参数。

上述实施例的方法考虑了障碍物和车辆移动过程中的不确定性因素，通过基于碰撞概率确定优化目标的方式，可以在令车辆正常行驶的基础上将与障碍物碰撞的可能性降至极低，从而提高了自动驾驶轨迹的质量。

在一些实施例中，可以采用元启发式算法确定令目标函数的值最小化时优化问题的解。元启发式算法例如可以为人工蜂群算法、禁忌搜索算法、遗传算法、模拟退火算法、蚁群算法、粒子群算法中的至少一种。

下面以人工蜂群算法为例描述求解上述优化问题的实施例。

图2示出了根据本发明一些实施例的优化问题求解方法的流程示意图。如图2所示，该实施例的优化问题求解方法包括步骤S202～S216。

在步骤S202中，对多个初始搜索变量、粗搜索变量、精搜索变量进行初始化。

初始搜索变量是指非雇佣蜂(unemployed bees)，非雇佣蜂往往在解空间内完全随机地进行搜索。粗搜索变量是指雇佣蜂(employed bees)，雇佣蜂通过相互切磋信息生成新的搜索方位。精搜索变量是指旁观者蜂(onlooker bees)，旁观者蜂通常对搜索效率较高的雇佣蜂进行局部细致的搜索。

然后，迭代执行步骤S204～S214，直到达到预设的迭代次数。

在步骤S204中，随机确定初始搜索变量在目标函数的解空间中的位置，并将初始搜索变量转换为粗搜索变量。

公式(7)示例性地示出了第i个粗搜索变量X_i的第j个维度

的生成方式。

在公式(7)中，rand(0,1)代表服从均匀分布的0与1之间的随机数，L^j和U^j分别表示第j个维度的下边界和上边界。在所有初始搜索变量均按照公式(7)在每一个维度上进行随机生成后，它们直接转化为粗搜索变量。

在步骤S206中，对于每个粗搜索变量，将粗搜索变量与其他粗搜索变量进行交叉变异尝试，并根据尝试结果更新尝试次数变量的值。

在一些实施例中，选取粗搜索变量的若干维度，并且对于选择的每个维度，将维度上的值与其他粗搜索变量进行混合，获得备选优化变量值；在根据备选优化变量值计算的目标函数的值小于根据粗搜索变量的值计算的目标函数的值的情况下，采用备选优化变量值更新粗搜索变量的值，并将粗搜索变量对应的尝试次数变量的值重置为1；否则，将尝试次数变量更新为原值加1后的结果。

在一些实施例中，粗搜索变量X_i对应的备选优化变量值的第j个维度的值

的计算方式可以参考公式(8)。

在公式(8)中，

表示与第i个粗搜索变量进行交叉变异尝试的粗搜索变量X_k的第j个维度的值。trial(i)、trial(k)分别表示第i、j个粗搜索变量的尝试次数变量。

在一些实施例中，可以在当前粗搜索变量的预设邻域范围基于均匀分布来选择进行交叉变异尝试的其他粗搜索变量。

通过步骤S206可知，尝试次数变量记载的是相应的粗搜索变量的连续无效搜索次数。当所有粗搜索变量均进行交叉变异尝试后，在当前迭代轮次中的全局搜索过程结束，接下来将是局部精细搜索的步骤。

在步骤S208中，根据每个粗搜索变量的值对应的目标函数的值确定每个粗搜索变量的权重，并根据权重确定精搜索变量所对应的粗搜索变量。

在一些实施例中，对于每个粗搜索变量，将粗搜索变量的值对应的目标函数的值与目标函数的最大值的比值确定为粗搜索变量的权重；根据每个粗搜索变量的权重，采用轮盘赌策略确定精搜索变量所对应的粗搜索变量。

在一些实施例中，可以使用公式(9)计算权重P_i，作为使用轮盘赌策略时的概率。max(J)表示当各个粗搜索变量对应的目标函数值中的最大值，J(X_i)表示粗搜索变量X_i对应的目标函数值。

从而，某个粗搜索变量对应的目标函数值越大，其被精搜索变量选中的概率也就越大。

在步骤S210中，对于每个精搜索变量，将精搜索变量对应的粗搜索变量与其他粗搜索变量进行交叉变异尝试，并根据尝试结果更新尝试次数变量的值。进行交叉变异尝试的具体方法可以参考步骤S206。

在步骤S212中，根据每个精搜索变量对应的粗搜索变量的值计算目标函数的值，并根据计算结果确定是否更新目标函数的最小值。

在步骤S214中，在当前迭代不是最后一次迭代的情况下，将超过预设尝试次数的尝试次数变量置为预设尝试次数，并且在粗搜索变量的尝试次数变量的均值大于预设尝试次数与预设百分比参数的乘积的情况下，将预设比例的粗搜索变量转换为初始搜索变量。

在一些实施例中，首先检查每一个尝试次数变量是否超过预设的阈值上限Dim，如果超过，则将其置为Dim。然后，计算全部尝试次数变量的均值，并将其与α·Dim进行大小比较，其中，α∈(0,1)，是预设的百分比参数。如果α·Dim的值小于均值，则例如100·α％的粗搜索变量将会彻底在空间中进行重置，即转换为初始搜索变量，并在下一迭代轮次开始之初再度转换为粗搜索变量，相应的尝试次数变量也将会重置为1；相反地，如果α·Dim的值不小于均值，则可以直接进入下一迭代轮次，回到步骤S204。当全部轮次按照上述的既定模式执行完毕，则整个算法执行结束。

在步骤S216中，将目标函数的最小值对应的粗搜索变量的值确定为优化问题的解。

通过上述实施例的方法，可以采用元启发式算法求解目标函数复杂、但约束条件简单的自动驾驶轨迹优化问题，提高了计算效率，从而能够快速地生成优质的自动驾驶轨迹。

下面参考图3描述本发明自动驾驶装置的实施例。

图3示出了根据本发明一些实施例的自动驾驶装置的结构示意图。如图3所示，该实施例的自动驾驶装置30包括：优化问题建立模块310，被配置为建立优化问题以求解驾驶参数，其中，优化问题的目标函数包括根据车辆与障碍物的碰撞概率确定的惩罚函数；驾驶参数确定模块320，被配置为确定令目标函数的值最小化时优化问题的解，以作为用于自动驾驶的驾驶参数。

在一些实施例中，根据车辆与障碍物的碰撞概率确定的惩罚函数包括在预设的时间内各个时间的惩罚项的总和；优化问题建立模块310进一步被配置为对于每个时间，根据车辆的位置和姿态确定车辆在时间所占据的区域，并在车辆占据的区域上对障碍物的位置概率密度的分布函数进行积分，获得车辆在时间与障碍物的碰撞概率，其中，位置和姿态是根据驾驶参数确定的；在碰撞小于预设值的情况下，时间的惩罚项的值为0；在碰撞不小于预设值的情况下，时间的惩罚项的值为预设的惩罚常值与惩罚可变值之和，惩罚可变值根据碰撞概率确定。

在一些实施例中，驾驶参数确定模块320进一步被配置为对多个初始搜索变量、粗搜索变量、精搜索变量进行初始化；迭代执行i)～vi)，直到达到预设的迭代次数：i)随机确定初始搜索变量在目标函数的解空间中的位置，并将初始搜索变量转换为粗搜索变量；ii)对于每个粗搜索变量，将粗搜索变量与其他粗搜索变量进行交叉变异尝试，并根据尝试结果更新尝试次数变量的值；iii)根据每个粗搜索变量的值对应的目标函数的值确定每个粗搜索变量的权重，并根据权重确定精搜索变量所对应的粗搜索变量；iv)对于每个精搜索变量，将精搜索变量对应的粗搜索变量与其他粗搜索变量进行交叉变异尝试，并根据尝试结果更新尝试次数变量的值；v)根据每个精搜索变量对应的粗搜索变量的值计算目标函数的值，并根据计算结果确定是否更新目标函数的最小值；vi)在当前迭代不是最后一次迭代的情况下，将超过预设尝试次数的尝试次数变量置为预设尝试次数，并且在粗搜索变量的尝试次数变量的均值大于预设尝试次数与预设百分比参数的乘积的情况下，将预设比例的粗搜索变量转换为初始搜索变量；将目标函数的最小值对应的粗搜索变量的值确定为优化问题的解。

在一些实施例中，驾驶参数确定模块320进一步被配置为选取粗搜索变量的若干维度，并且对于选择的每个维度，将维度上的值与其他粗搜索变量进行混合，获得备选优化变量值；在根据备选优化变量值计算的目标函数的值小于根据粗搜索变量的值计算的目标函数的值的情况下，采用备选优化变量值更新粗搜索变量的值，并将粗搜索变量对应的尝试次数变量的值重置为1；否则，将尝试次数变量更新为原值加1后的结果。

在一些实施例中，驾驶参数确定模块320进一步被配置为对于每个粗搜索变量，将粗搜索变量的值对应的目标函数的值与目标函数的最大值的比值确定为粗搜索变量的权重；根据每个粗搜索变量的权重，采用轮盘赌策略确定精搜索变量所对应的粗搜索变量。

图4示出了根据本发明另一些实施例的自动驾驶装置的结构示意图。如图4所示，该实施例的自动驾驶装置40包括：存储器410以及耦接至该存储器410的处理器420，处理器420被配置为基于存储在存储器410中的指令，执行前述任意一个实施例中的自动驾驶方法。

其中，存储器410例如可以包括系统存储器、固定非易失性存储介质等。系统存储器例如存储有操作系统、应用程序、引导装载程序(Boot Loader)以及其他程序等。

图5示出了根据本发明又一些实施例的自动驾驶装置的结构示意图。如图5所示，该实施例的自动驾驶装置50包括：存储器510以及处理器520，还可以包括输入输出接口530、网络接口540、存储接口550等。这些接口530，540，550以及存储器510和处理器520之间例如可以通过总线560连接。其中，输入输出接口530为显示器、鼠标、键盘、触摸屏等输入输出设备提供连接接口。网络接口540为各种联网设备提供连接接口。存储接口550为SD卡、U盘等外置存储设备提供连接接口。

本发明的实施例还提供一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现前述任意一种自动驾驶方法。

本领域内的技术人员应当明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用非瞬时性存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解为可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种自动驾驶方法，包括：

建立优化问题以求解驾驶参数，其中，所述优化问题的目标函数包括根据车辆与障碍物的碰撞概率确定的惩罚函数；

确定令所述目标函数的值最小化时所述优化问题的解，以作为用于自动驾驶的驾驶参数；

其中，所述根据车辆与障碍物的碰撞概率确定的惩罚函数包括在预设的时间内各个时间的惩罚项的总和；

对于每个时间，根据车辆的位置和姿态确定车辆在所述时间所占据的区域，并在所述车辆占据的区域上对障碍物的位置概率密度的分布函数进行积分，获得车辆在所述时间与所述障碍物的碰撞概率，其中，所述位置和姿态是根据所述驾驶参数确定的；

在所述碰撞小于预设值的情况下，所述时间的惩罚项的值为0；

在所述碰撞不小于预设值的情况下，所述时间的惩罚项的值为预设的惩罚常值与惩罚可变值之和，所述惩罚可变值根据所述碰撞概率确定。

2.根据权利要求1所述的自动驾驶方法，其中，所述惩罚可变值为碰撞概率与所述预设值之差的平方值乘以所述惩罚常值的结果。

3.根据权利要求1所述的自动驾驶方法，其中，所述优化问题的目标函数还包括表示车辆在预设的时间到达的位置与预设终点的差距的惩罚函数。

4.根据权利要求3所述的自动驾驶方法，其中，所述表示车辆在预设的时间到达的位置与预设终点的差距的惩罚函数包括车辆在预设时间的坐标与预设终点的坐标的差值以及车辆在预设时间的姿态与车辆在预设终点的预设姿态的差值。

5.根据权利要求1～4中任一项所述的自动驾驶方法，其中，采用元启发式算法确定令所述目标函数的值最小化时所述优化问题的解。

6.根据权利要求5所述的自动驾驶方法，其中，所述确定令所述目标函数的值最小化时所述优化问题的解包括：

对多个初始搜索变量、粗搜索变量、精搜索变量进行初始化；

迭代执行i)～vi)，直到达到预设的迭代次数：

i)随机确定初始搜索变量在所述目标函数的解空间中的位置，并将初始搜索变量转换为粗搜索变量；

ii)对于每个粗搜索变量，将所述粗搜索变量与其他粗搜索变量进行交叉变异尝试，并根据尝试结果更新尝试次数变量的值；

iii)根据每个粗搜索变量的值对应的目标函数的值确定每个粗搜索变量的权重，并根据所述权重确定精搜索变量所对应的粗搜索变量；

iv)对于每个精搜索变量，将所述精搜索变量对应的粗搜索变量与其他粗搜索变量进行交叉变异尝试，并根据尝试结果更新尝试次数变量的值；

v)根据每个精搜索变量对应的粗搜索变量的值计算目标函数的值，并根据计算结果确定是否更新目标函数的最小值；

vi)在当前迭代不是最后一次迭代的情况下，将超过预设尝试次数的尝试次数变量置为所述预设尝试次数，并且在粗搜索变量的尝试次数变量的均值大于所述预设尝试次数与预设百分比参数的乘积的情况下，将预设比例的粗搜索变量转换为初始搜索变量；

将目标函数的最小值对应的粗搜索变量的值确定为所述优化问题的解。

7.根据权利要求6所述的自动驾驶方法，其中，所述将所述粗搜索变量与其他粗搜索变量进行交叉变异尝试，并根据尝试结果更新尝试次数变量的值包括：

选取所述粗搜索变量的若干维度，并且对于选择的每个维度，将所述维度上的值与其他粗搜索变量进行混合，获得备选优化变量值；

在根据所述备选优化变量值计算的目标函数的值小于根据所述粗搜索变量的值计算的目标函数的值的情况下，采用所述备选优化变量值更新所述粗搜索变量的值，并将所述粗搜索变量对应的尝试次数变量的值重置为1；否则，将所述尝试次数变量更新为原值加1后的结果。

8.根据权利要求6所述的自动驾驶方法，其中，所述根据每个粗搜索变量的值对应的目标函数的值确定每个粗搜索变量的权重，并根据所述权重确定精搜索变量所对应的粗搜索变量包括：

对于每个粗搜索变量，将所述粗搜索变量的值对应的目标函数的值与目标函数的最大值的比值确定为所述粗搜索变量的权重；

根据每个粗搜索变量的权重，采用轮盘赌策略确定精搜索变量所对应的粗搜索变量。

9.一种自动驾驶装置，包括：

优化问题建立模块，被配置为建立优化问题以求解驾驶参数，其中，所述优化问题的目标函数包括根据车辆与障碍物的碰撞概率确定的惩罚函数,其中，所述根据车辆与障碍物的碰撞概率确定的惩罚函数包括在预设的时间内各个时间的惩罚项的总和；对于每个时间，根据车辆的位置和姿态确定车辆在所述时间所占据的区域，并在所述车辆占据的区域上对障碍物的位置概率密度的分布函数进行积分，获得车辆在所述时间与所述障碍物的碰撞概率，其中，所述位置和姿态是根据所述驾驶参数确定的；在所述碰撞小于预设值的情况下，所述时间的惩罚项的值为0；在所述碰撞不小于预设值的情况下，所述时间的惩罚项的值为预设的惩罚常值与惩罚可变值之和，所述惩罚可变值根据所述碰撞概率确定；

驾驶参数确定模块，被配置为确定令所述目标函数的值最小化时所述优化问题的解，以作为用于自动驾驶的驾驶参数。

10.一种自动驾驶装置，包括：

存储器；以及

耦接至所述存储器的处理器，所述处理器被配置为基于存储在所述存储器中的指令，执行如权利要求1～8中任一项所述的自动驾驶方法。

11.一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现权利要求1～8中任一项所述的自动驾驶方法。