CN115077549B

CN115077549B - 车辆状态跟踪方法、系统、计算机及可读存储介质

Info

Publication number: CN115077549B
Application number: CN202210680760.6A
Authority: CN
Inventors: 陈君毅; 凃梦祺; 张灵童; 马依宁; 熊璐
Original assignee: Nanchang Intelligent New Energy Vehicle Research Institute
Current assignee: Nanchang Intelligent New Energy Vehicle Research Institute
Priority date: 2022-06-16
Filing date: 2022-06-16
Publication date: 2024-04-26
Anticipated expiration: 2042-06-16
Also published as: CN115077549A

Abstract

本发明提供了一种车辆状态跟踪方法、系统、计算机及可读存储介质，该方法包括：获取t时刻被控测试车辆的第一状态观测值、预定的位置目标以及损失函数，并初始化策略梯度模型M中的全部神经网络的参数；基于上述参数以及策略梯度模型M计算出被控测试车辆在t时刻的最优控制动作序列；获取被控测试车辆在t+1时刻所响应的第二状态观测值，将被控测试车辆获取到的经验值放入预设经验池中；分别对Actor当前网络、Critic当前网络、Actor目标网络以及Critic目标网络的权重参数θ_t，ω_t，θ′_t，ω′_t进行更新；重复执行上述步骤，直至所述损失函数等于0或者达到预设最小值。通过上述方式能够在异步决策的前提下对车辆的状态进行跟踪，同时能够大幅减少计算所需的时间。

Description

车辆状态跟踪方法、系统、计算机及可读存储介质

技术领域

本发明涉及新能源汽车技术领域，特别涉及一种车辆状态跟踪方法、系统、计算机及可读存储介质。

背景技术

随着科技的进步以及生产力的快速发展，新能源汽车已经逐渐得到人们的认可，并且在人们的日常生活中得到普及，大幅方便了人们的生活。

其中，自动驾驶汽车技术是当前新能源汽车研究的热点之一，然而自动驾驶技术距离大批量的运用到实际道路上仍有一段很长的路要走。其中，亟待解决的问题之一就是如何在异步决策的前提下对车辆的状态进行准确的跟踪。然而，现有技术的强化学习方法只能解决同步决策控制问题，即决策与动作集往往是并发的，一旦决策以目标点或参考曲线的形式给出，则决策与动作就不能同步，从而制约了自动驾驶技术的发展。

因此，针对现有技术的不足，提供一种能够在异步决策的前提下对车辆状态进行准确跟踪的方法很有必要。

发明内容

基于此，本发明的目的是提供一种车辆状态跟踪方法、系统、计算机及可读存储介质，以提供一种能够在异步决策的前提下对车辆状态进行准确跟踪的方法。

本发明实施例第一方面提出了一种车辆状态跟踪方法，所述方法包括：

步骤S10：获取当前测试场景中t时刻被控测试车辆的第一状态观测值、所述被控测试车辆预定的位置目标以及损失函数，并初始化策略梯度模型M中的全部神经网络的参数，所述策略梯度模型M包括Actor当前网络，Critic当前网络，Actor目标网络以及Critic目标网络；

步骤S20：基于所述被控测试车辆的第一状态观测值、所述被控测试车辆预定的位置目标以及所述损失函数，根据所述策略梯度模型M计算出所述被控测试车辆在所述t时刻的最优控制动作序列A_1t，A_2t，......，A_Nt；

步骤S30：将所述最优控制序列中的第一个动作A_1t传输至所述被控测试车辆，并使所述被控测试车辆在仿真环境中执行所述第一个动作A_1t；

步骤S40：获取当前所述测试场景中t+1时刻所述被控测试车辆所响应的第二状态观测值，并获取所述被控测试车辆对应的即时奖励R_t+1，且将所述被控测试车辆获取到的经验值放入预设经验池中；

步骤S50：分别对所述Actor当前网络、所述Critic当前网络、所述Actor目标网络以及所述Critic目标网络对应的权重参数θ_t，ω_t，θ′_t，ω′_t进行更新；

步骤S60：重复执行所述步骤S20至所述步骤S50，直至所述损失函数等于0或者达到预设最小值。

本发明的有益效果是：通过首先获取当前测试场景中t时刻被控测试车辆的第一状态观测值、预定位置目标以及损失函数，并初始化策略梯度模型M中的全部神经网络的参数，进一步的，基于上述参数以及策略梯度模型M计算出当前被控测试车辆在t时刻的最优控制动作序列A_1t，A_2t，......，A_Nt；并将当前最优控制序列中的第一个动作A_1t传输至所述被控测试车辆，并使上述被控测试车辆在仿真环境中执行第一个动作A_1t；再获取当前测试场景中t+1时刻的被控测试车辆所响应的第二状态观测值，并获取被控测试车辆对应的即时奖励R_t+1，且将被控测试车辆获取到的经验值放入预设经验池中；从而能够分别对Actor当前网络、Critic当前网络、Actor目标网络以及Critic目标网络对应的权重参数θ_t，ω_t，θ′_t，ω′_t进行更新；最后只需重复执行上述步骤，直至损失函数等于0或者达到预设最小值。通过上述方式能够在异步决策的前提下对车辆的状态进行跟踪，同时将MPC中的非线性求解器使用神经网络代替，通过最小化神经网络LOSS，以达到最优控制，从而能够大幅减少计算所需的时间，进而能够更加快速、高效的对车辆状态进行跟踪。

优选的，所述分别对所述Actor当前网络、所述Critic当前网络、所述Actor目标网络以及所述Critic目标网络对应的权重参数θ_t，ω_t，θ′_t，ω′_t进行更新的步骤包括：

在所述预设经验池中获取经验值S_t，A_1t，S_t+1，R_t+1，并将所述经验值中的S_t，A_1t输入至所述Critic当前网络中，且获取所述被控测试车辆在所述t时刻的收益期望的预估值Q(S_t，A_1t)；

将所述t时刻的收益期望的预估值Q(S_t，A_1t)通过反向传播梯度算法返回至所述Actor当前网络中，并通过所述收益期望的预估值Q(S_t，A_1t)中的最大化收益期望的预估值将所述Actor当前网络的权重参数θ_t更新为θ_t+1；

将所述经验值中的S_t+1，A_1t+1输入至所述Critic目标网络中，并获取所述t+1时刻的收益期望的预估值Q(S_t+1，A_1t+1)；

通过最小化时序差分算法更新所述Critic当前网络的权重参数ω_t，并将所述t时刻的收益期望的预估值Q(S_t，A_1t)和所述t+1时刻的收益期望的预估值Q(S_t+1，A_1t+1)均代入至预设预测时序差分算法中进行计算；

每隔预设时间分别通过所述Actor当前网络和所述Critic当前网络的权重参数θ和ω分别对应更新所述Actor目标网络和所述Critic目标网络的权重参数θ′和ω′；

将所述t+1时刻的所述被控测试车辆所响应的状态观测值S_t+1作为新的位置初始值S传递回所述策略梯度模型M中。

优选的，所述基于所述被控测试车辆的第一状态观测值、所述被控测试车辆预定的位置目标以及所述损失函数，根据所述策略梯度模型M计算出所述被控测试车辆在所述t时刻的最优控制动作序列A_1t，A_2t，......，A_Nt的步骤包括：

通过预设程序检测出所述被控测试车辆在所述t时刻对应的车辆状态S_t；

将所述t时刻对应的车辆状态S_t输入至所述Actor目标网络中，以使所述Actor目标网络输出所述被控测试车辆在所述t时刻产生的最优控制动作序列A_1t，A_2t，......，A_Nt。

优选的，所述反向传播梯度公式的表达式为：

其中，▽J表示损失梯度；m表示批量梯度下降的样本数；表示控测试车辆在状态S_i下根据策略πθ(s)采取了动作A_i所获得的长期收益梯度；/>表示所述被控测试车辆在状态S_i下所采用的策略。

优选的，所述预测时序差分公式的表达式为：

其中，表示所述被控测试车辆在t－1时刻的状态S′_t-1＝s下采取了动作A′_t＝a，A′_t+1＝a₁，A′_t+2＝a₂，......，A′_t+n＝a_n时在非确定性仿真环境模型以及确定性状态更新环境获得的混合收获，γ表示衰减因子，Q(S_t+1，A_t+1，a₁′，......，a_n′)为被控测试车辆在t+1时刻的状态S_t+1下采取了动作A_t+1，a₁′，......，a_n′时所预计获得的长期收益，Q(S_t，A_t，a₁，a₂，......，a_n)为被控测试车辆在t时刻的状态S_t下采取了动作A_t，a₁，a₂，......，a_n时所预计获得的长期收益。

优选的，所述损失函数的表达式为：

其中，S_end表示所述被控测试车辆的实际最终状态；S^* _end表示所述被控测试车辆的预定最终状态；S_t表示所述被控测试车辆在所述t时刻的状态；P、Q以及K均表示所述被控测试车辆在t时刻的状态下采取了动作A_1t的动作价值函数所组成的惩罚项矩阵；U_t表示所述t时刻的控制量所组成的矩阵。

本发明实施例第二方面提出了一种车辆状态跟踪系统，所述系统包括：

第一获取模块，用于获取当前测试场景中t时刻被控测试车辆的第一状态观测值、所述被控测试车辆预定的位置目标以及损失函数，并初始化策略梯度模型M中的全部神经网络的参数，所述策略梯度模型M包括Actor当前网络，Critic当前网络，Actor目标网络以及Critic目标网络；

计算模块，用于基于所述被控测试车辆的第一状态观测值、所述被控测试车辆预定的位置目标以及所述损失函数，根据所述策略梯度模型M计算出所述被控测试车辆在所述t时刻的最优控制动作序列A_1t，A_2t，......，A_Nt；

执行模块，用于将所述最优控制序列中的第一个动作A_1t传输至所述被控测试车辆，并使所述被控测试车辆在仿真环境中执行所述第一个动作A_1t；

第二获取模块，用于获取当前所述测试场景中t+1时刻所述被控测试车辆所响应的第二状态观测值，并获取所述被控测试车辆对应的即时奖励R_t+1，且将所述被控测试车辆获取到的经验值放入预设经验池中；

更新模块，用于分别对所述Actor当前网络、所述Critic当前网络、所述Actor目标网络以及所述Critic目标网络对应的权重参数θ_t，ω_t，θ′_t，ω′_t进行更新；

循环模块，用于重复执行所述计算模块、所述执行模块、所述第二获取模块以及所述更新模块的功能，直至所述损失函数等于0或者达到预设最小值。

其中，上述车辆状态跟踪系统中，所述更新模块具体用于：

其中，上述车辆状态跟踪系统中，所述计算模块具体用于：

其中，上述车辆状态跟踪系统中，所述反向传播梯度公式的表达式为：

其中，▽J表示损失梯度；m表示批量梯度下降的样本数；表示控测试车辆在状态S_i下根据策略π_θ(s)采取了动作A_i所获得的长期收益梯度；/>表示所述被控测试车辆在状态S_i下所采用的策略。

其中，上述车辆状态跟踪系统中，所述预测时序差分公式的表达式为：

其中，表示所述被控测试车辆在t－1时刻的状态S′_t-1＝s下采取了动作A′_t＝a，A′_t+1＝a₁，A′_t+2＝a₂，......，A′_t+n＝a_n时在非确定性仿真环境模型以及确定性状态更新环境获得的混合收获，γ表示衰减因子，Q(S_t+1，A_t+1，a′₁，......，a′_n)为被控测试车辆在t+1时刻的状态S_t+1下采取了动作A_t+1，a′₁，......，a′_n时所预计获得的长期收益，Q(S_t，A_t，a₁，a₂，......，a_n)为被控测试车辆在t时刻的状态S_t下采取了动作A_t，a₁，a₂，......，a_n时所预计获得的长期收益。

其中，上述车辆状态跟踪系统中，所述损失函数的表达式为：

本发明实施例第三方面提出了一种计算机，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上面所述的车辆状态跟踪方法。

本发明实施例第四方面提出了一种可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上面所述的车辆状态跟踪方法。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

图1为本发明第一实施例提供的车辆状态跟踪方法的流程图；

图2为本发明第一实施例提供的车辆状态跟踪方法的执行流程示意图；

图3为本发明第一实施例提供的车辆状态跟踪方法中的反向传播梯度算法的执行流程图；

图4为本发明第一实施例提供的车辆状态跟踪方法中的被控测试车辆在t时刻的车辆状态跟踪图；

图5为本发明第一实施例提供的车辆状态跟踪方法中的被控测试车辆在t+1时刻的车辆状态跟踪图；

图6为本发明第一实施例提供的车辆状态跟踪方法中的被控测试车辆在t时刻至t+N时刻的车辆轨迹跟踪图；

图7为本发明第二实施例提供的车辆状态跟踪系统的结构框图。

如下具体实施方式将结合上述附图进一步说明本发明。

具体实施方式

为了便于理解本发明，下面将参照相关附图对本发明进行更全面的描述。附图中给出了本发明的若干实施例。但是，本发明可以以许多不同的形式来实现，并不限于本文所描述的实施例。相反地，提供这些实施例的目的是使对本发明的公开内容更加透彻全面。

需要说明的是，当元件被称为“固设于”另一个元件，它可以直接在另一个元件上或者也可以存在居中的元件。当一个元件被认为是“连接”另一个元件，它可以是直接连接到另一个元件或者可能同时存在居中元件。本文所使用的术语“垂直的”、“水平的”、“左”、“右”以及类似的表述只是为了说明的目的。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。

请参阅图1，所示为本发明第一实施例提供的车辆状态跟踪方法，本实施例提供的车辆状态跟踪方法能够在异步决策的前提下对车辆的状态进行跟踪，同时将MPC中的非线性求解器使用神经网络代替，通过最小化神经网络LOSS，以达到最优控制，从而能够大幅减少计算所需的时间，进而能够更加快速、高效的对车辆状态进行跟踪。

具体的，本实施例提供的车辆状态跟踪方法具体包括以下步骤：

具体的，在本实施例中，首先需要说明的是，本实施例提供的车辆状态跟踪方法是基于Frenet坐标系下实施的，进一步的，本实施例还会基于上述Frenet坐标系构建出适用于当前被控测试车辆的测试场景以及车辆仿真环境。

在此基础之上，本步骤会首先获取到当前测试场景中的被控测试车辆在t时刻生成的第一状态观测值S_t(s_t，s′_t，s″_t，d_t，d′_t，d″_t，y_t)、被控测试车辆预定的位置目标S_end(s_end，s′_end，s″_end，d_end，d′_end，d″_end，y_end)以及与当前被控测试车辆对应的损失函数J。

其中，上述损失函数的表达式为：

另外，本步骤还会初始化与当前被控测试车辆对应的策略梯度模型M中的全部神经网络的参数，即初始化当前策略梯度模型M中的Actor当前网络，Critic当前网络，Actor目标网络以及Critic目标网络中的参数。

进一步的，在本步骤中，需要说明的是，在通过上述步骤S10获取到当前被控测试车辆在t时刻产生的第一状态观测值S_t(s_t，s′_t，s″_t，d_t，d′_t，d″_t，y_t)、被控测试车辆预定的位置目标S_end(s_end，s′_end，s″_end，d_end，d′_end，d″_end，y_end)以及与当前被控测试车辆对应的损失函数J后，本步骤会进一步通过预设程序检测出当前被控测试车辆在上述t时刻对应的车辆状态；进一步的，将当前t时刻对应的车辆状态S_t输入至上述Actor目标网络中，以使当前Actor目标网络输出当前被控测试车辆在当前t时刻产生的最优控制动作序列A_1t，A_2t，......，A_Nt。

具体的，在本步骤中，在通过上述步骤S20获取到当前被控测试车辆在上述t时刻产生的最优控制动作序列A_1t，A_2t，......，A_Nt后，本步骤会将当前最优控制动作序列A_1t，A_2t，......，A_Nt)中的第一个动作A_1t传输至当前被控测试车辆的车载终端上，以使该车载终端控制当前被控测试车辆在上述仿真环境中执行上述第一个动作A_1t，以使当前被控测试车辆开始运动。

进一步的，在本步骤中，当被控测试车辆开始运动后，本步骤会进一步获取当前被控测试车辆在上述测试场景中的t+1时刻所响应的第二状态观测值S_t+1(s_t+1，s′_t+1，s″₊₁，d_t+1，d′_t+1，d″_t+1，y_t+1)，与此同时，本步骤还会对应获取到当前被控测试车辆在当前t+1时刻所对应产生的即时奖励Rt+1，且将所述被控测试车辆获取到的经验值(S_t，A_1t，S_t+1，R_t+1)放入预设经验池(experience buffer)中。

具体的，在本步骤中，需要说明的是，本步骤会首先在上述预设经验池(experiencebuffer)中获取到与当前被控测试车辆对应的经验值S_t，A_1t，S_t+1，R_t+1，进一步的，将当前经验值中的S_t，A_1t输入至上述Critic当前网络中，且同时获取到当前被控测试车辆在上述t时刻的收益期望的预估值Q(S_t，A_1t)；

进一步的，将上述t时刻的收益期望的预估值Q(S_t，A_1t)通过预设好的反向传播梯度算法返回至上述Actor当前网络中，并同时通过当前收益期望的预估值Q(S_t，A_1t)中的最大化收益期望的预估值将上述Actor当前网络的权重参数θ_t更新为θ_t+1从而能够有效的完成对Actor当前网络的权重参数θ_t的更新；

其中，上述反向传播梯度算法的表达式为：

更进一步的，本步骤还会将上述经验值(S_t，A_1t，S_t+1，R_t+1)中的S_t+1，A_1t+1输入至上述Critic目标网络中，并同时获取到上述t+1时刻的收益期望的预估值Q(S_t+1，A_1t+1)；

在此基础之上，本步骤进一步通过预设好的最小化时序差分算法更新上述Critic当前网络的权重参数ω_t，并同时将上述t时刻的收益期望的预估值Q(S_t，A_1t)和上述t+1时刻的收益期望的预估值Q(S_t+1，A_1t+1)均代入至预设好的预测时序差分算法中进行计算；

其中，上述预测时序差分算法的表达式为：

其中，表示所述被控测试车辆在t－1时刻的状态S′_t-1＝s下采取了动作A′_t＝a，A′_t+1＝a₁，A′_t+2＝a₂，......，A′_t+n＝a_n时在非确定性仿真环境模型以及确定性状态更新环境获得的混合收获，γ表示衰减因子，Q(S_t+1，A_t+1，a′₁，......，a′_n)为被控测试车辆在t+1时刻的状态S_t+1下采取了动作A_t+1，a′₁，......，a′_n时所预计获得的长期收益，Q(S_t，A_t，a₁，a₂，......，a_n)为被控测试车辆在t时刻的状态St下采取了动作A_t，a₁，a₂，......，a_n时所预计获得的长期收益。

进一步的，在通过上述步骤完成对上述t时刻的收益期望的预估值Q(S_t，A_1t)和上述t+1时刻的收益期望的预估值Q(S_t+1，A_1t+1)的处理过后，本步骤还会每隔预设时间分别通过上述Actor当前网络和上述Critic当前网络的权重参数θ和ω分别对应更新上述Actor目标网络和上述Critic目标网络的权重参数θ′和ω′；

具体的，更新权重参数的表达式为：

ω′+τω+(1-τ)ω′

θ′←τθ+(1-τ)θ′

其中，τ为软更新系数。

最后，本步骤将上述t+1时刻的被控测试车辆所响应的状态观测值S_t+1作为新的位置初始值S传递回上述策略梯度模型M中，以完成对上述Actor当前网络、上述Critic当前网络、上述Actor目标网络以及上述Critic目标网络的权重参数的更新。

最后，在本步骤中，需要说明的是，若上述损失函数在经过上述步骤S20至步骤S50后的输出结果没有达到预设值时，即没有等于0或者没有达到最小值时，则需要重复执行上述步骤S20至上述步骤S50，直至当前损失函数的输出至等于0或者达到预设最小值，以完成车辆状态的跟踪。

使用时，通过首先获取当前测试场景中t时刻被控测试车辆的第一状态观测值、预定位置目标以及损失函数，并初始化策略梯度模型M中的全部神经网络的参数，进一步的，基于上述参数以及策略梯度模型M计算出当前被控测试车辆在t时刻的最优控制动作序列A_1t，A_2t，......，A_Nt；并将当前最优控制序列中的第一个动作A_1t传输至所述被控测试车辆，并使上述被控测试车辆在仿真环境中执行第一个动作A_1t；再获取当前测试场景中t+1时刻的被控测试车辆所响应的第二状态观测值，并获取被控测试车辆对应的即时奖励R_t+1，且将被控测试车辆获取到的经验值放入预设经验池中；从而能够分别对Actor当前网络、Critic当前网络、Actor目标网络以及Critic目标网络对应的权重参数θ_t，ω_t，θ′_t，ω′_t进行更新；最后只需重复执行上述步骤，直至损失函数等于0或者达到预设最小值。通过上述方式能够在异步决策的前提下对车辆的状态进行跟踪，同时将MPC中的非线性求解器使用神经网络代替，通过最小化神经网络LOSS，以达到最优控制，从而能够大幅减少计算所需的时间，进而能够更加快速、高效的对车辆状态进行跟踪。

需要说明的是，上述的实施过程只是为了说明本申请的可实施性，但这并不代表本申请的车辆状态跟踪方法只有上述唯一一种实施流程，相反的，只要能够将本申请的车辆状态跟踪方法实施起来，都可以被纳入本申请的可行实施方案。

综上，本发明上述实施例当提供的车辆状态跟踪方法能够在异步决策的前提下对车辆的状态进行跟踪，同时将MPC中的非线性求解器使用神经网络代替，通过最小化神经网络LOSS，以达到最优控制，从而能够大幅减少计算所需的时间，进而能够更加快速、高效的对车辆状态进行跟踪。

请参阅图7，所示为本发明第二实施例提供的车辆状态跟踪系统，所述系统包括：

第一获取模块12，用于获取当前测试场景中t时刻被控测试车辆的第一状态观测值、所述被控测试车辆预定的位置目标以及损失函数，并初始化策略梯度模型M中的全部神经网络的参数，所述策略梯度模型M包括Actor当前网络，Critic当前网络，Actor目标网络以及Critic目标网络；

计算模块22，用于基于所述被控测试车辆的第一状态观测值、所述被控测试车辆预定的位置目标以及所述损失函数，根据所述策略梯度模型M计算出所述被控测试车辆在所述t时刻的最优控制动作序列A_1t，A_2t，......，A_Nt；

执行模块32，用于将所述最优控制序列中的第一个动作A_1t传输至所述被控测试车辆，并使所述被控测试车辆在仿真环境中执行所述第一个动作A_1t；

第二获取模块42，用于获取当前所述测试场景中t+1时刻所述被控测试车辆所响应的第二状态观测值，并获取所述被控测试车辆对应的即时奖励R_t+1，且将所述被控测试车辆获取到的经验值放入预设经验池中；

更新模块52，用于分别对所述Actor当前网络、所述Critic当前网络、所述Actor目标网络以及所述Critic目标网络对应的权重参数θ_t，ω_t，θ′_t，ω′_t进行更新；

循环模块62，用于重复执行所述计算模块、所述执行模块、所述第二获取模块以及所述更新模块的功能，直至所述损失函数等于0或者达到预设最小值。

其中，上述车辆状态跟踪系统中，所述更新模块52具体用于：

每隔预设时间分别通过所述Actor当前网络和所述Critic当前网络的权重参数θ和ω分别对应更新所述Actor目标网络和所述Critic目标网络的权重参数0′和ω′；

其中，上述车辆状态跟踪系统中，所述计算模块22具体用于：

本发明第三实施例提供了一种计算机，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述第一实施例提供的车辆状态跟踪方法。

本发明第四实施例提供了一种可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述第一实施例提供的车辆状态跟踪方法。

综上所述，本发明上述实施例当提供的车辆状态跟踪方法、系统、计算机及可读存储介质能够在异步决策的前提下对车辆的状态进行跟踪，同时将MPC中的非线性求解器使用神经网络代替，通过最小化神经网络LOSS，以达到最优控制，从而能够大幅减少计算所需的时间，进而能够更加快速、高效的对车辆状态进行跟踪。

需要说明的是，上述各个模块可以是功能模块也可以是程序模块，既可以通过软件来实现，也可以通过硬件来实现。对于通过硬件来实现的模块而言，上述各个模块可以位于同一处理器中；或者上述各个模块还可以按照任意组合的形式分别位于不同的处理器中。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。

计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种车辆状态跟踪方法，其特征在于，所述方法包括：

2.根据权利要求1所述的车辆状态跟踪方法，其特征在于：所述分别对所述Actor当前网络、所述Critic当前网络、所述Actor目标网络以及所述Critic目标网络对应的权重参数θ_t，ω_t，θ′_t，ω′_t进行更新的步骤包括：

3.根据权利要求1所述的车辆状态跟踪方法，其特征在于：所述基于所述被控测试车辆的第一状态观测值、所述被控测试车辆预定的位置目标以及所述损失函数，根据所述策略梯度模型M计算出所述被控测试车辆在所述t时刻的最优控制动作序列A_1t，A_2t，......，A_Nt的步骤包括：

4.根据权利要求2所述的车辆状态跟踪方法，其特征在于：所述反向传播梯度算法的表达式为：

其中，表示损失梯度；m表示批量梯度下降的样本数；/>表示控测试车辆在状态S_i下根据策略π_θ(s)采取了动作A_i所获得的长期收益梯度；/>表示所述被控测试车辆在状态S_i下所采用的策略。

5.根据权利要求2所述的车辆状态跟踪方法，其特征在于：所述预测时序差分算法的表达式为：

其中，表示所述被控测试车辆在t-1时刻的状态S′_t-1＝s下采取了动作A′_t＝a，A′_t+1＝a₁，A′_t+2＝a₂，......，A′_t+n＝a_n时在非确定性仿真环境模型以及确定性状态更新环境获得的混合收获，γ表示衰减因子，Q(S_t+1，A_t+1，a′₁，......，a′_n)为被控测试车辆在t+1时刻的状态S_t+1下采取了动作A_t+1，a′₁，......，a′_n时所预计获得的长期收益，Q(S_t，A_t，a₁，a₂，......，a_n)为被控测试车辆在t时刻的状态S_t下采取了动作A_t，a₁，a₂，......，a_n时所预计获得的长期收益。

6.根据权利要求1所述的车辆状态跟踪方法，其特征在于：所述损失函数的表达式为：

7.一种车辆状态跟踪系统，其特征在于，所述系统包括：

8.根据权利要求7所述的车辆状态跟踪系统，其特征在于：所述更新模块具体用于：

9.一种计算机，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至6中任意一项所述的车辆状态跟踪方法。

10.一种可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1至6中任意一项所述的车辆状态跟踪方法。