CN105035085B

CN105035085B - 自动跟车方法及装置

Info

Publication number: CN105035085B
Application number: CN201510466748.5A
Authority: CN
Inventors: 方啸; 高红博; 王继贞; 张世兵; 尹飞飞; 张绍山; 陈效华
Original assignee: Chery Automobile Co Ltd
Current assignee: Wuhu Lion Automotive Technologies Co Ltd
Priority date: 2015-07-31
Filing date: 2015-07-31
Publication date: 2017-08-04
Anticipated expiration: 2035-07-31
Also published as: CN105035085A

Abstract

本发明公开了一种自动跟车方法及装置，属于汽车主动安全领域。该方法包括：检测本车的行驶参数，所述行驶参数包括本车与前车的跟车距离、本车与所述前车的行驶方向夹角；根据所述行驶参数通过增强学习法确定第一动作控制参数，所述第一动作控制参数包括油门或刹车的参考力度值、方向盘旋转的参考方向和参考角度值，所述增强学习法表示本车通过学习选择的方式获得用于自动跟车的参考动作；根据所述第一动作控制参数控制本车完成自动跟车动作。本发明解决了车辆在跟车过程中稳定性较差，可靠性较低的问题，实现了提高稳定性和可靠性的效果，用于控制车辆自动跟车。

Description

自动跟车方法及装置

技术领域

本发明涉及汽车主动安全领域，特别涉及一种自动跟车方法及装置。

背景技术

随着汽车工业的快速发展和人们生活水平的不断提高，汽车已快速进入普通家庭。由于道路上行驶的车辆越来越多，交通拥堵现象日益严重。在长时间拥堵的情况下，车辆行驶非常缓慢，车辆在停和走两个状态之间不断切换，这时就需要驾驶员高度注意本车与前车之间的距离，这样一来，驾驶员容易处于疲劳驾驶状态，易发生交通事故。作为汽车安全辅助系统的关键技术之一，自动跟车方法得到了广泛关注。

相关技术中，自动跟车方法采用摄像头检测车道线，并检测本车与前车的距离、本车与前车的横向偏移量，再根据跟车距离和横向偏移量确定本车与前车的行驶方向夹角，最后通过相应的控制算法控制本车与前车的距离、本车与前车的行驶方向夹角，使本车自动跟随前车行驶。具体过程为：人为设定一个跟车距离和一个跟车夹角，在行驶过程中，当本车与前车的距离小于该跟车距离时，控制本车执行减速动作；当本车与前车的距离大于该跟车距离时，控制本车执行加速动作；当本车与前车的夹角大于该跟车夹角时，根据该跟车夹角对夹角进行调整，控制本车行驶在前车的正后方向。

由于上述自动跟车方法是人为设定的跟车距离和跟车夹角，所以当前车出现加速或减速现象，本车可能根据跟车距离刚执行完减速动作，又得执行加速动作，本车在跟车过程中，易出现颠簸、震荡、急刹、偏离车道等现象，因此，稳定性较差，可靠性较低。

发明内容

为了解决车辆在跟车过程中稳定性较差，可靠性较低的问题，本发明提供了一种自动跟车方法及装置。所述技术方案如下：

第一方面，提供了一种自动跟车方法，所述方法包括：

检测本车的行驶参数，所述行驶参数包括本车与前车的跟车距离、本车与所述前车的行驶方向夹角；

根据所述行驶参数通过增强学习法确定第一动作控制参数，所述第一动作控制参数包括油门或刹车的参考力度值、方向盘旋转的参考方向和参考角度值，所述增强学习法表示本车通过学习选择的方式获得用于自动跟车的参考动作；

根据所述第一动作控制参数控制本车完成自动跟车动作。

可选的，所述根据所述行驶参数通过增强学习法确定第一动作控制参数，包括：

根据所述行驶参数确定本车的第二动作控制参数，所述第二动作控制参数包括油门或刹车的初始力度值、方向盘旋转的初始方向和初始角度值；

对所述第二动作控制参数进行实时评估，确定所述第一动作控制参数。

可选的，所述根据所述行驶参数确定本车的第二动作控制参数，包括：

将向动作网络输入所述行驶参数后，所述动作网络输出的参数确定为本车的第二动作控制参数，所述动作网络为包含隐藏层的多输入多输出非线性神经网络；

所述对所述第二动作控制参数进行实时评估，确定所述第一动作控制参数，包括：

采用评价网络对所述第二动作控制参数进行实时评估，确定所述第一动作控制参数，所述评价网络为包含隐藏层的多输入多输出非线性神经网络。

可选的，所述将向动作网络输入所述行驶参数后，所述动作网络输出的参数确定为本车的第二动作控制参数，包括：

向所述动作网络输入所述行驶参数；

根据所述行驶参数和第一隐藏层输入层权值确定第一隐藏层输入信号；

根据所述第一隐藏层输入信号确定第一隐藏层输出信号；

根据所述第一隐藏层输出信号和第一隐藏层输出层权值确定所述动作网络的输出层的输入信号；

根据所述动作网络的输出层的输入信号确定所述动作网络的输出参数；

将所述动作网络的输出参数确定为所述第二动作控制参数。

可选的，所述采用评价网络对所述第二动作控制参数进行实时评估，确定所述第一动作控制参数，包括：

根据所述行驶参数、第二动作控制参数、第二隐藏层输入层权值确定第二隐藏层输入信号；

根据所述第二隐藏层输入信号确定第二隐藏层输出信号；

根据所述第二隐藏层输出信号和第二隐藏层输出层权值确定第一代价函数，所述第一代价函数表示本车根据所述第二动作控制参数完成自动跟车动作付出的代价；

根据所述第一代价函数和增强信号，调整所述第二隐藏层输入层权值和所述第二隐藏层输出层权值，确定第二代价函数，所述增强信号为本车距离所述前车的可靠程度；

根据所述第二代价函数和效用函数调整所述动作网络的第一隐藏层输入层权值和第一隐藏层输出层权值，所述效用函数表示所述行驶参数与所述第二动作控制参数的关系；

根据调整后的所述动作网络的第一隐藏层输入层权值和第一隐藏层输出层权值将所述动作网络输出的参数确定为所述第一动作控制参数。

第二方面，提供了一种自动跟车装置，所述装置包括：

检测单元，用于检测本车的行驶参数，所述行驶参数包括本车与前车的跟车距离、本车与所述前车的行驶方向夹角；

确定单元，用于根据所述行驶参数通过增强学习法确定第一动作控制参数，所述第一动作控制参数包括油门或刹车的参考力度值、方向盘旋转的参考方向和参考角度值，所述增强学习法表示本车通过学习选择的方式获得用于自动跟车的参考动作；

控制单元，用于根据所述第一动作控制参数控制本车完成自动跟车动作。

可选的，所述确定单元，包括：

第一确定模块，用于根据所述行驶参数确定本车的第二动作控制参数，所述第二动作控制参数包括油门或刹车的初始力度值、方向盘旋转的初始方向和初始角度值；

第二确定模块，用于对所述第二动作控制参数进行实时评估，确定所述第一动作控制参数。

可选的，所述第一确定模块，包括：

第一确定子模块，用于将向动作网络输入所述行驶参数后，所述动作网络输出的参数确定为本车的第二动作控制参数，所述动作网络为包含隐藏层的多输入多输出非线性神经网络；

所述第二确定模块，包括：

第二确定子模块，用于采用评价网络对所述第二动作控制参数进行实时评估，确定所述第一动作控制参数，所述评价网络为包含隐藏层的多输入多输出非线性神经网络。

可选的，所述第一确定子模块，用于：

向所述动作网络输入所述行驶参数；

根据所述第一隐藏层输入信号确定第一隐藏层输出信号；

将所述动作网络的输出参数确定为所述第二动作控制参数。

可选的，所述第二确定子模块，用于：

根据所述第二隐藏层输入信号确定第二隐藏层输出信号；

本发明提供了一种自动跟车方法及装置，能够根据本车的行驶参数通过增强学习法确定第一动作控制参数，进而根据第一动作控制参数控制本车完成自动跟车动作，相较于相关技术，本车在跟车过程中不易出现颠簸、震荡、急刹、偏离车道等现象，提高了自动跟车的稳定性和可靠性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种自动跟车方法的流程图；

图2-1是本发明实施例提供的一种自动跟车方法的流程图；

图2-2是本发明实施例提供的一种车辆行驶的环境示意图；

图2-3是本发明实施例提供的一种自适应跟车控制决策系统的示意图；

图2-4是本发明实施例提供的一种确定第一动作控制参数的流程图；

图2-5是本发明实施例提供的一种动作网络非线性神经网络设计原理图；

图2-6是本发明实施例提供的一种确定为本车的第二动作控制参数的流程图；

图2-7是本发明实施例提供的一种评价网络非线性神经网络设计原理图；

图2-8是本发明实施例提供的一种确定第一动作控制参数的流程图；

图2-9是本发明实施例提供的一种对输出参数进行归一化处理后的效果图；

图2-10是本发明实施例提供的一种自动跟车的自适应评价设计结构示意图；

图3-1是本发明实施例提供的一种自动跟车装置的结构示意图；

图3-2是本发明实施例提供的一种确定单元的结构示意图；

图3-3是本发明实施例提供的一种第一确定模块的结构示意图；

图3-4是本发明实施例提供的一种第二确定模块的结构示意图。

通过上述附图，已示出本发明明确的实施例，后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本发明构思的范围，而是通过参考特定实施例为本领域技术人员说明本发明的概念。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

本发明实施例提供了一种自动跟车方法，如图1所示，该方法可以包括：

步骤101、检测本车的行驶参数，该行驶参数包括本车与前车的跟车距离、本车与前车的行驶方向夹角。

步骤102、根据行驶参数通过增强学习法确定第一动作控制参数，该第一动作控制参数包括油门或刹车的参考力度值、方向盘旋转的参考方向和参考角度值，该增强学习法表示本车通过学习选择的方式获得用于自动跟车的参考动作。

步骤103、根据第一动作控制参数控制本车完成自动跟车动作。

综上所述，本发明实施例提供的自动跟车方法，能够根据本车的行驶参数通过增强学习法确定第一动作控制参数，进而根据第一动作控制参数控制本车完成自动跟车动作，相较于相关技术，本车在跟车过程中不易出现颠簸、震荡、急刹、偏离车道等现象，提高了自动跟车的稳定性和可靠性。

可选的，步骤102包括：根据行驶参数确定本车的第二动作控制参数，该第二动作控制参数包括油门或刹车的初始力度值、方向盘旋转的初始方向和初始角度值；对第二动作控制参数进行实时评估，确定第一动作控制参数。

其中，根据行驶参数确定本车的第二动作控制参数，包括：

将向动作网络输入行驶参数后，动作网络输出的参数确定为本车的第二动作控制参数，该动作网络为包含隐藏层的多输入多输出非线性神经网络；

对第二动作控制参数进行实时评估，确定第一动作控制参数，包括：

采用评价网络对第二动作控制参数进行实时评估，确定第一动作控制参数，该评价网络为包含隐藏层的多输入多输出非线性神经网络。

进一步的，将向动作网络输入行驶参数后，动作网络输出的参数确定为本车的第二动作控制参数，包括：

向动作网络输入行驶参数；

根据行驶参数和第一隐藏层输入层权值确定第一隐藏层输入信号；

根据第一隐藏层输入信号确定第一隐藏层输出信号；

根据第一隐藏层输出信号和第一隐藏层输出层权值确定动作网络的输出层的输入信号；

根据动作网络的输出层的输入信号确定动作网络的输出参数；

将动作网络的输出参数确定为第二动作控制参数。

采用评价网络对第二动作控制参数进行实时评估，确定第一动作控制参数，包括：

根据行驶参数、第二动作控制参数、第二隐藏层输入层权值确定第二隐藏层输入信号；

根据第二隐藏层输入信号确定第二隐藏层输出信号；

根据第二隐藏层输出信号和第二隐藏层输出层权值确定第一代价函数，第一代价函数表示本车根据第二动作控制参数完成自动跟车动作付出的代价；

根据第一代价函数和增强信号，调整第二隐藏层输入层权值和第二隐藏层输出层权值，确定第二代价函数，增强信号为本车距离前车的可靠程度；

根据第二代价函数和效用函数调整动作网络的第一隐藏层输入层权值和第一隐藏层输出层权值，该效用函数表示行驶参数与第二动作控制参数的关系；

根据调整后的动作网络的第一隐藏层输入层权值和第一隐藏层输出层权值将动作网络输出的参数确定为第一动作控制参数。

本发明实施例提供了一种自动跟车方法，如图2-1所示，该方法可以包括：

步骤201、检测本车的行驶参数。

该行驶参数包括本车与前车的跟车距离、本车与前车的行驶方向夹角。检测本车与前车的跟车距离和横向距离可以通过摄像机、毫米波雷达、激光雷达等传感器来实现。将检测到的数据通过图像处理技术转换为自适应跟车控制决策系统相应的输入参数。本发明是实施例中的本车可以为智能车。

本车可以为智能车。示例的，图2-2示出了本车行驶的环境示意图，可以将D(t)设置为当前时刻本车与前车的跟车距离，将L(t)设置为本车与前车的横向偏移量，将θ(t)设置为本车与前车的行驶方向夹角。自适应跟车控制决策系统的两个输入参数为x₁(t)和x₂(t)，其中，x₁(t)＝D(t)，x₂(t)＝θ(t)，其中，L(t)的正负可以表示本车相对于前车是偏左行驶还是偏右行驶，如当L(t)大于0时，可以表示本车相对于前车是偏左行驶，当L(t)小于0时，可以表示本车相对于前车是偏右行驶。相应的，θ(t)的正负可以表示前车相对于本车的方位，如当θ(t)大于0时，可以表示前车行驶于本车的右前方，当θ(t)小于0时，可以表示前车行驶于本车的左前方。

步骤202、根据行驶参数通过增强学习法确定第一动作控制参数。

该第一动作控制参数包括油门或刹车的参考力度值、方向盘旋转的参考方向和参考角度值，该增强学习法表示本车通过学习选择的方式获得用于自动跟车的参考动作。将行驶参数输入到自适应跟车控制决策系统之后，通过两个神经网络对行驶参数进行处理，这两个神经网络包括动作网络和评价网络，如图2-3所示，图2-3中动作网络用于提供控制策略U(t)，评价网络用于采用输出的代价函数J(t)，对动作网络输出的控制策略进行实时评估。动作网络和评价网络为包含隐藏层的多输入多输出非线性神经网络，两个神经网络均采用非线性多层感知机结构的正向输送网络。图2-3中的X(t)和X(t+1)为系统的输入量，R(t)为增强信号，Uc(t)为效用函数，表示输入量与控制策略U(t)的关系，α为折算因子，用于表示后一状态对前一状态的影响程度，J(t-1)-R(t)表示代价函数与增强信号值的差值。

具体的，步骤202如图2-4所示，包括：

步骤2021、根据行驶参数确定本车的第二动作控制参数。

具体的，步骤2021包括：将向动作网络输入行驶参数后，动作网络输出的参数确定为本车的第二动作控制参数。

图2-5示出了基于多输入的动作网络非线性神经网络设计原理图，如图2-5所示，x₁，x₂，…x_n为动作网络的输入参数即行驶参数，u₁，u₂，…u_n为动作网络的输出参数，也就是控制策略U(t)，隐藏层采用先加权再归一化处理的运算方式，归一化处理可以采用sigmoid函数来实现，为第一隐藏层输入层权值，为第一隐藏层输出层权值，v为输出层的输入信号，g_i为动作网络第i个隐藏层输出信号即第一隐藏层输出信号，h_i为动作网络第i个隐藏层输入信号即第一隐藏层输入信号，N_ah为动作网络隐藏层数目。

进一步的，将向动作网络输入行驶参数后，动作网络输出的参数确定为本车的第二动作控制参数，如图2-6所示，包括：

步骤2021a、向动作网络输入行驶参数。

向动作网络输入步骤201中的本车与前车的跟车距离D(t)、本车与前车的行驶方向夹角θ(t)。

步骤2021b、根据行驶参数和第一隐藏层输入层权值确定第一隐藏层输入信号。

确定第一隐藏层输入信号h_i(t)的计算公式为：

其中，x_j(t)为跟车距离D(t)和行驶方向夹角θ(t)，为第一隐藏层输入层权值。

步骤2021c、根据第一隐藏层输入信号确定第一隐藏层输出信号。

确定第一隐藏层输出信号g_i(t)的计算公式为：

其中，h_i(t)为第一隐藏层输入信号。

步骤2021d、根据第一隐藏层输出信号和第一隐藏层输出层权值确定动作网络的输出层的输入信号。

确定动作网络的输出层的输入信号v(t)的计算公式为：

其中，为第一隐藏层输出层权值，g_i(t)为第一隐藏层输出信号。

步骤2021e、根据动作网络的输出层的输入信号确定动作网络的输出参数。

确定动作网络的输出参数u(t)的计算公式为：

其中，v(t)为动作网络的输出层的输入信号。

步骤2021f、将动作网络的输出参数确定为第二动作控制参数。

将步骤2021e中确定的动作网络的输出参数u(t)确定为第二动作控制参数。

示例的，第二动作控制参数包括油门或刹车的初始力度值、方向盘旋转的初始方向和初始角度值。

步骤2022、对第二动作控制参数进行实时评估，确定第一动作控制参数。

具体的，步骤2022包括：采用评价网络对第二动作控制参数进行实时评估，确定第一动作控制参数。

图2-7示出了基于多输入的评价网络非线性神经网络设计原理图，如图2-7所示，x₁，x₂，…x_n为动作网络的输入参数，u₁，u₂，…u_n为动作网络的输出参数，也就是控制策略U(t)，隐藏层采用先加权再归一化处理运算方式，归一化处理可以采用sigmoid函数来实现，为第二隐藏层输入层权值，为第二隐藏层输出层权值，J为评价网络输出的代价函数即第一代价函数，第一代价函数表示本车根据第二动作控制参数完成自动跟车动作付出的代价。q_i为评价网络第i个隐藏层输入信号即第二隐藏层输入信号，p_i为评价网络第i个隐藏层输出信号即第二隐藏层输出信号，N_ch为评价网络隐藏层数目。

具体的，采用评价网络对第二动作控制参数进行实时评估，确定第一动作控制参数如图2-8所示，包括：

步骤2022a、根据行驶参数、第二动作控制参数、第二隐藏层输入层权值确定第二隐藏层输入信号。

确定第二隐藏层输入信号q_i(t)的计算公式为：

其中，为第j个输入参数到第i个隐藏层结点的权值，x_j(t)为跟车距离D(t)和行驶方向夹角θ(t)，u_j-n(t)为第j-n个动作网络的输出参数，J(t)为预设的第一代价函数，为代价函数J(t)的系数。

步骤2022b、根据第二隐藏层输入信号确定第二隐藏层输出信号。

确定第二隐藏层输出信号p_i(t)的计算公式为：

其中，q_i(t)为第二隐藏层输入信号。

步骤2022c、根据第二隐藏层输出信号和第二隐藏层输出层权值确定第一代价函数。

确定第一代价函数J(t)的计算公式为：

其中，p_i(t)为第二隐藏层输出信号，为第二隐藏层输出层权值。

步骤2022d、根据第一代价函数和增强信号，调整第二隐藏层输入层权值和第二隐藏层输出层权值，确定第二代价函数。

增强信号为本车距离前车的可靠程度。由于第二隐藏层输入层权值和第二隐藏层输出层权值是预先随机设置的，如果评价网络直接采用由这些随机设置的权值产生的代价函数来评价动作网络输出的控制策略，无法得到最优的控制策略，因此，可以计算第一代价函数的最小值等于增强信号的最大值时的第二隐藏层输入层权值和第二隐藏层输出层权值进而利用梯度下降法得到用于评价控制策略的第二代价函数。

步骤2022e、根据第二代价函数和效用函数调整动作网络的第一隐藏层输入层权值和第一隐藏层输出层权值。

效用函数Uc(t)表示行驶参数与第二动作控制参数的关系。如果第二代价函数与效用函数的差值最小，则动作网络得到的控制策略最优。得到了用于评价控制策略的第二代价函数之后，可以计算第二代价函数与效用函数Uc(t)的差值最小时的动作网络的第一隐藏层输入层权值和第一隐藏层输出层权值

步骤2022f、根据调整后的动作网络的第一隐藏层输入层权值和第一隐藏层输出层权值将动作网络输出的参数确定为第一动作控制参数。

确定了动作网络的第一隐藏层输入层权值和第一隐藏层输出层权值之后，即可根据动作网络的输入参数确定最优的控制策略，包括油门或刹车的参考力度值、方向盘旋转的参考方向和参考角度值。

步骤203、根据第一动作控制参数控制本车完成自动跟车动作。

根据油门或刹车的参考力度值、方向盘旋转的参考方向和参考角度值，控制本车完成自动跟车动作。

为了便于系统计算，可以将自适应跟车控制决策系统的输出参数采用sigmoid函数进行归一化处理之后表示出来。图2-9示出了输出参数进行归一化处理后的效果图，如图2-9所示，输出参数u(t)可以为油门或刹车的参考力度值u₁(t)或方向盘旋转的参考方向和参考角度值u₂(t)。其中，u₁(t)的正负可以表示油门或刹车控制量，u₁(t)值的幅度可以表示踩油门或刹车的力度大小；u₂(t)的正负可以表示方向盘旋转的方向，如u₂(t)为正时，表示方向盘向左旋转，u₂(t)为负时，表示方向盘向右旋转，u₂(t)值的大小可以表示方向盘旋转的角度。

本发明实施例中的自动跟车方法采用的自适应跟车控制决策系统通过自适应评价方法实现增强学习过程，自适应跟车控制决策系统由动作网络和评价网络两个神经网络构成，其中，动作网络根据系统的输入参数为系统提供控制策略，评价网络根据增强信号对控制策略进行实时评估，该方法根据环境中反馈的回报即增强信号，对错误的控制策略进行认知和学习，并试着在以后的控制策略中避免该错误再次发生；同时根据环境中反馈的回报，对有效的控制策略给予奖励，这样，在以后制定控制策略的过程中，相同的情况会被优先考虑。因此，车辆在行驶过程中，系统为了获得更多的奖励，将对控制策略进行不断调整，进而使控制策略趋于最优，控制车辆行驶在最优状态。关于增强信号的设定可以有多种方法，本发明实施例对此不作限定。图2-10示出了自动跟车的自适应评价设计结构示意图，关于图2-10的说明可以参考图2-2和图2-3的说明，在此不再赘述。需要说明的是，图2-10中的代理指的是自适应控制算法。评价网络用于进行动作行为评价，动作网络用于制定动作行为决策。动作行为即上述的控制策略。

该自动跟车方法采用了多输入多输出的自适应跟车控制决策系统，解决了智能车在自主跟车过程中的稳定性较差，可靠性较低的问题，保证了智能车在跟车过程中具有更好的自主性、自适应性、稳定性和舒适性。

需要说明的是，本发明实施例提供的自动跟车方法步骤的先后顺序可以进行适当调整，步骤也可以根据情况进行相应增减，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化的方法，都应涵盖在本发明的保护范围之内，因此不再赘述。

本发明实施例提供了一种自动跟车装置，如图3-1所示，该装置可以包括：

检测单元301，用于检测本车的行驶参数。该行驶参数包括本车与前车的跟车距离、本车与前车的行驶方向夹角。

确定单元302，用于根据行驶参数通过增强学习法确定第一动作控制参数。第一动作控制参数包括油门或刹车的参考力度值、方向盘旋转的参考方向和参考角度值。增强学习法表示本车通过学习选择的方式获得用于自动跟车的参考动作。

控制单元303，用于根据第一动作控制参数控制本车完成自动跟车动作。

综上所述，本发明实施例提供的自动跟车装置，能够根据本车的行驶参数通过增强学习法确定第一动作控制参数，进而根据第一动作控制参数控制本车完成自动跟车动作，相较于相关技术，本车在跟车过程中不易出现颠簸、震荡、急刹、偏离车道等现象，提高了自动跟车的稳定性和可靠性。

其中，确定单元302如图3-2所示，包括：

第一确定模块3021，用于根据行驶参数确定本车的第二动作控制参数。第二动作控制参数包括油门或刹车的初始力度值、方向盘旋转的初始方向和初始角度值。

第二确定模块3022，用于对第二动作控制参数进行实时评估，确定第一动作控制参数。

第一确定模块3021如图3-3所示，包括：

第一确定子模块3021a，用于将向动作网络输入行驶参数后，动作网络输出的参数确定为本车的第二动作控制参数。动作网络为包含隐藏层的多输入多输出非线性神经网络。

相应的，第二确定模块3022如图3-4所示，包括：

第二确定子模块3022a，用于采用评价网络对第二动作控制参数进行实时评估，确定第一动作控制参数。评价网络为包含隐藏层的多输入多输出非线性神经网络。

具体的，第一确定子模块3021a，用于：

向动作网络输入行驶参数；

根据第一隐藏层输入信号确定第一隐藏层输出信号；

将动作网络的输出参数确定为第二动作控制参数。

具体的，第二确定子模块3022a，用于：

根据第二隐藏层输入信号确定第二隐藏层输出信号；

根据第二代价函数和效用函数调整动作网络的第一隐藏层输入层权值和第一隐藏层输出层权值，效用函数表示行驶参数与第二动作控制参数的关系；

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置、单元和模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种自动跟车方法，其特征在于，所述方法包括：

根据所述第一动作控制参数控制本车完成自动跟车动作；

所述根据所述行驶参数通过增强学习法确定第一动作控制参数，包括：

对所述第二动作控制参数进行实时评估，确定所述第一动作控制参数；

其中，所述根据所述行驶参数确定本车的第二动作控制参数，包括：

2.根据权利要求1所述的方法，其特征在于，所述将向动作网络输入所述行驶参数后，所述动作网络输出的参数确定为本车的第二动作控制参数，包括：

向所述动作网络输入所述行驶参数；

根据所述第一隐藏层输入信号确定第一隐藏层输出信号；

将所述动作网络的输出参数确定为所述第二动作控制参数。

3.根据权利要求2所述的方法，其特征在于，所述采用评价网络对所述第二动作控制参数进行实时评估，确定所述第一动作控制参数，包括：

根据所述第二隐藏层输入信号确定第二隐藏层输出信号；

4.一种自动跟车装置，其特征在于，所述装置包括：

控制单元，用于根据所述第一动作控制参数控制本车完成自动跟车动作；

所述确定单元，包括：

第二确定模块，用于对所述第二动作控制参数进行实时评估，确定所述第一动作控制参数；

其中，所述第一确定模块，包括：

所述第二确定模块，包括：

5.根据权利要求4所述的装置，其特征在于，所述第一确定子模块，用于：

向所述动作网络输入所述行驶参数；

根据所述第一隐藏层输入信号确定第一隐藏层输出信号；

将所述动作网络的输出参数确定为所述第二动作控制参数。

6.根据权利要求5所述的装置，其特征在于，所述第二确定子模块，用于：

根据所述第二隐藏层输入信号确定第二隐藏层输出信号；