CN115077549B - 车辆状态跟踪方法、系统、计算机及可读存储介质 - Google Patents

车辆状态跟踪方法、系统、计算机及可读存储介质 Download PDF

Info

Publication number
CN115077549B
CN115077549B CN202210680760.6A CN202210680760A CN115077549B CN 115077549 B CN115077549 B CN 115077549B CN 202210680760 A CN202210680760 A CN 202210680760A CN 115077549 B CN115077549 B CN 115077549B
Authority
CN
China
Prior art keywords
test vehicle
controlled test
vehicle
state
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210680760.6A
Other languages
English (en)
Other versions
CN115077549A (zh
Inventor
陈君毅
凃梦祺
张灵童
马依宁
熊璐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanchang Intelligent New Energy Vehicle Research Institute
Original Assignee
Nanchang Intelligent New Energy Vehicle Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanchang Intelligent New Energy Vehicle Research Institute filed Critical Nanchang Intelligent New Energy Vehicle Research Institute
Priority to CN202210680760.6A priority Critical patent/CN115077549B/zh
Publication of CN115077549A publication Critical patent/CN115077549A/zh
Application granted granted Critical
Publication of CN115077549B publication Critical patent/CN115077549B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/26Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 specially adapted for navigation in a road network
    • G01C21/34Route searching; Route guidance
    • G01C21/3446Details of route searching algorithms, e.g. Dijkstra, A*, arc-flags, using precalculated routes
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/26Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 specially adapted for navigation in a road network
    • G01C21/34Route searching; Route guidance
    • G01C21/3407Route searching; Route guidance specially adapted for specific applications
    • G01C21/343Calculating itineraries, i.e. routes leading from a starting point to a series of categorical destinations using a global route restraint, round trips, touristic trips
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01MTESTING STATIC OR DYNAMIC BALANCE OF MACHINES OR STRUCTURES; TESTING OF STRUCTURES OR APPARATUS, NOT OTHERWISE PROVIDED FOR
    • G01M17/00Testing of vehicles
    • G01M17/007Wheeled or endless-tracked vehicles
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明提供了一种车辆状态跟踪方法、系统、计算机及可读存储介质,该方法包括:获取t时刻被控测试车辆的第一状态观测值、预定的位置目标以及损失函数,并初始化策略梯度模型M中的全部神经网络的参数;基于上述参数以及策略梯度模型M计算出被控测试车辆在t时刻的最优控制动作序列;获取被控测试车辆在t+1时刻所响应的第二状态观测值,将被控测试车辆获取到的经验值放入预设经验池中;分别对Actor当前网络、Critic当前网络、Actor目标网络以及Critic目标网络的权重参数θt,ωt,θ′t,ω′t进行更新;重复执行上述步骤,直至所述损失函数等于0或者达到预设最小值。通过上述方式能够在异步决策的前提下对车辆的状态进行跟踪,同时能够大幅减少计算所需的时间。

Description

车辆状态跟踪方法、系统、计算机及可读存储介质
技术领域
本发明涉及新能源汽车技术领域,特别涉及一种车辆状态跟踪方法、系统、计算机及可读存储介质。
背景技术
随着科技的进步以及生产力的快速发展,新能源汽车已经逐渐得到人们的认可,并且在人们的日常生活中得到普及,大幅方便了人们的生活。
其中,自动驾驶汽车技术是当前新能源汽车研究的热点之一,然而自动驾驶技术距离大批量的运用到实际道路上仍有一段很长的路要走。其中,亟待解决的问题之一就是如何在异步决策的前提下对车辆的状态进行准确的跟踪。然而,现有技术的强化学习方法只能解决同步决策控制问题,即决策与动作集往往是并发的,一旦决策以目标点或参考曲线的形式给出,则决策与动作就不能同步,从而制约了自动驾驶技术的发展。
因此,针对现有技术的不足,提供一种能够在异步决策的前提下对车辆状态进行准确跟踪的方法很有必要。
发明内容
基于此,本发明的目的是提供一种车辆状态跟踪方法、系统、计算机及可读存储介质,以提供一种能够在异步决策的前提下对车辆状态进行准确跟踪的方法。
本发明实施例第一方面提出了一种车辆状态跟踪方法,所述方法包括:
步骤S10:获取当前测试场景中t时刻被控测试车辆的第一状态观测值、所述被控测试车辆预定的位置目标以及损失函数,并初始化策略梯度模型M中的全部神经网络的参数,所述策略梯度模型M包括Actor当前网络,Critic当前网络,Actor目标网络以及Critic目标网络;
步骤S20:基于所述被控测试车辆的第一状态观测值、所述被控测试车辆预定的位置目标以及所述损失函数,根据所述策略梯度模型M计算出所述被控测试车辆在所述t时刻的最优控制动作序列A1t,A2t,......,ANt
步骤S30:将所述最优控制序列中的第一个动作A1t传输至所述被控测试车辆,并使所述被控测试车辆在仿真环境中执行所述第一个动作A1t
步骤S40:获取当前所述测试场景中t+1时刻所述被控测试车辆所响应的第二状态观测值,并获取所述被控测试车辆对应的即时奖励Rt+1,且将所述被控测试车辆获取到的经验值放入预设经验池中;
步骤S50:分别对所述Actor当前网络、所述Critic当前网络、所述Actor目标网络以及所述Critic目标网络对应的权重参数θt,ωt,θ′t,ω′t进行更新;
步骤S60:重复执行所述步骤S20至所述步骤S50,直至所述损失函数等于0或者达到预设最小值。
本发明的有益效果是:通过首先获取当前测试场景中t时刻被控测试车辆的第一状态观测值、预定位置目标以及损失函数,并初始化策略梯度模型M中的全部神经网络的参数,进一步的,基于上述参数以及策略梯度模型M计算出当前被控测试车辆在t时刻的最优控制动作序列A1t,A2t,......,ANt;并将当前最优控制序列中的第一个动作A1t传输至所述被控测试车辆,并使上述被控测试车辆在仿真环境中执行第一个动作A1t;再获取当前测试场景中t+1时刻的被控测试车辆所响应的第二状态观测值,并获取被控测试车辆对应的即时奖励Rt+1,且将被控测试车辆获取到的经验值放入预设经验池中;从而能够分别对Actor当前网络、Critic当前网络、Actor目标网络以及Critic目标网络对应的权重参数θt,ωt,θ′t,ω′t进行更新;最后只需重复执行上述步骤,直至损失函数等于0或者达到预设最小值。通过上述方式能够在异步决策的前提下对车辆的状态进行跟踪,同时将MPC中的非线性求解器使用神经网络代替,通过最小化神经网络LOSS,以达到最优控制,从而能够大幅减少计算所需的时间,进而能够更加快速、高效的对车辆状态进行跟踪。
优选的,所述分别对所述Actor当前网络、所述Critic当前网络、所述Actor目标网络以及所述Critic目标网络对应的权重参数θt,ωt,θ′t,ω′t进行更新的步骤包括:
在所述预设经验池中获取经验值St,A1t,St+1,Rt+1,并将所述经验值中的St,A1t输入至所述Critic当前网络中,且获取所述被控测试车辆在所述t时刻的收益期望的预估值Q(St,A1t);
将所述t时刻的收益期望的预估值Q(St,A1t)通过反向传播梯度算法返回至所述Actor当前网络中,并通过所述收益期望的预估值Q(St,A1t)中的最大化收益期望的预估值将所述Actor当前网络的权重参数θt更新为θt+1
将所述经验值中的St+1,A1t+1输入至所述Critic目标网络中,并获取所述t+1时刻的收益期望的预估值Q(St+1,A1t+1);
通过最小化时序差分算法更新所述Critic当前网络的权重参数ωt,并将所述t时刻的收益期望的预估值Q(St,A1t)和所述t+1时刻的收益期望的预估值Q(St+1,A1t+1)均代入至预设预测时序差分算法中进行计算;
每隔预设时间分别通过所述Actor当前网络和所述Critic当前网络的权重参数θ和ω分别对应更新所述Actor目标网络和所述Critic目标网络的权重参数θ′和ω′;
将所述t+1时刻的所述被控测试车辆所响应的状态观测值St+1作为新的位置初始值S传递回所述策略梯度模型M中。
优选的,所述基于所述被控测试车辆的第一状态观测值、所述被控测试车辆预定的位置目标以及所述损失函数,根据所述策略梯度模型M计算出所述被控测试车辆在所述t时刻的最优控制动作序列A1t,A2t,......,ANt的步骤包括:
通过预设程序检测出所述被控测试车辆在所述t时刻对应的车辆状态St
将所述t时刻对应的车辆状态St输入至所述Actor目标网络中,以使所述Actor目标网络输出所述被控测试车辆在所述t时刻产生的最优控制动作序列A1t,A2t,......,ANt
优选的,所述反向传播梯度公式的表达式为:
其中,▽J表示损失梯度;m表示批量梯度下降的样本数;表示控测试车辆在状态Si下根据策略πθ(s)采取了动作Ai所获得的长期收益梯度;/>表示所述被控测试车辆在状态Si下所采用的策略。
优选的,所述预测时序差分公式的表达式为:
其中,表示所述被控测试车辆在t-1时刻的状态S′t-1=s下采取了动作A′t=a,A′t+1=a1,A′t+2=a2,......,A′t+n=an时在非确定性仿真环境模型以及确定性状态更新环境获得的混合收获,γ表示衰减因子,Q(St+1,At+1,a1′,......,an′)为被控测试车辆在t+1时刻的状态St+1下采取了动作At+1,a1′,......,an′时所预计获得的长期收益,Q(St,At,a1,a2,......,an)为被控测试车辆在t时刻的状态St下采取了动作At,a1,a2,......,an时所预计获得的长期收益。
优选的,所述损失函数的表达式为:
其中,Send表示所述被控测试车辆的实际最终状态;S* end表示所述被控测试车辆的预定最终状态;St表示所述被控测试车辆在所述t时刻的状态;P、Q以及K均表示所述被控测试车辆在t时刻的状态下采取了动作A1t的动作价值函数所组成的惩罚项矩阵;Ut表示所述t时刻的控制量所组成的矩阵。
本发明实施例第二方面提出了一种车辆状态跟踪系统,所述系统包括:
第一获取模块,用于获取当前测试场景中t时刻被控测试车辆的第一状态观测值、所述被控测试车辆预定的位置目标以及损失函数,并初始化策略梯度模型M中的全部神经网络的参数,所述策略梯度模型M包括Actor当前网络,Critic当前网络,Actor目标网络以及Critic目标网络;
计算模块,用于基于所述被控测试车辆的第一状态观测值、所述被控测试车辆预定的位置目标以及所述损失函数,根据所述策略梯度模型M计算出所述被控测试车辆在所述t时刻的最优控制动作序列A1t,A2t,......,ANt
执行模块,用于将所述最优控制序列中的第一个动作A1t传输至所述被控测试车辆,并使所述被控测试车辆在仿真环境中执行所述第一个动作A1t
第二获取模块,用于获取当前所述测试场景中t+1时刻所述被控测试车辆所响应的第二状态观测值,并获取所述被控测试车辆对应的即时奖励Rt+1,且将所述被控测试车辆获取到的经验值放入预设经验池中;
更新模块,用于分别对所述Actor当前网络、所述Critic当前网络、所述Actor目标网络以及所述Critic目标网络对应的权重参数θt,ωt,θ′t,ω′t进行更新;
循环模块,用于重复执行所述计算模块、所述执行模块、所述第二获取模块以及所述更新模块的功能,直至所述损失函数等于0或者达到预设最小值。
其中,上述车辆状态跟踪系统中,所述更新模块具体用于:
在所述预设经验池中获取经验值St,A1t,St+1,Rt+1,并将所述经验值中的St,A1t输入至所述Critic当前网络中,且获取所述被控测试车辆在所述t时刻的收益期望的预估值Q(St,A1t);
将所述t时刻的收益期望的预估值Q(St,A1t)通过反向传播梯度算法返回至所述Actor当前网络中,并通过所述收益期望的预估值Q(St,A1t)中的最大化收益期望的预估值将所述Actor当前网络的权重参数θt更新为θt+1
将所述经验值中的St+1,A1t+1输入至所述Critic目标网络中,并获取所述t+1时刻的收益期望的预估值Q(St+1,A1t+1);
通过最小化时序差分算法更新所述Critic当前网络的权重参数ωt,并将所述t时刻的收益期望的预估值Q(St,A1t)和所述t+1时刻的收益期望的预估值Q(St+1,A1t+1)均代入至预设预测时序差分算法中进行计算;
每隔预设时间分别通过所述Actor当前网络和所述Critic当前网络的权重参数θ和ω分别对应更新所述Actor目标网络和所述Critic目标网络的权重参数θ′和ω′;
将所述t+1时刻的所述被控测试车辆所响应的状态观测值St+1作为新的位置初始值S传递回所述策略梯度模型M中。
其中,上述车辆状态跟踪系统中,所述计算模块具体用于:
通过预设程序检测出所述被控测试车辆在所述t时刻对应的车辆状态St
将所述t时刻对应的车辆状态St输入至所述Actor目标网络中,以使所述Actor目标网络输出所述被控测试车辆在所述t时刻产生的最优控制动作序列A1t,A2t,......,ANt
其中,上述车辆状态跟踪系统中,所述反向传播梯度公式的表达式为:
其中,▽J表示损失梯度;m表示批量梯度下降的样本数;表示控测试车辆在状态Si下根据策略πθ(s)采取了动作Ai所获得的长期收益梯度;/>表示所述被控测试车辆在状态Si下所采用的策略。
其中,上述车辆状态跟踪系统中,所述预测时序差分公式的表达式为:
其中,表示所述被控测试车辆在t-1时刻的状态S′t-1=s下采取了动作A′t=a,A′t+1=a1,A′t+2=a2,......,A′t+n=an时在非确定性仿真环境模型以及确定性状态更新环境获得的混合收获,γ表示衰减因子,Q(St+1,At+1,a′1,......,a′n)为被控测试车辆在t+1时刻的状态St+1下采取了动作At+1,a′1,......,a′n时所预计获得的长期收益,Q(St,At,a1,a2,......,an)为被控测试车辆在t时刻的状态St下采取了动作At,a1,a2,......,an时所预计获得的长期收益。
其中,上述车辆状态跟踪系统中,所述损失函数的表达式为:
其中,Send表示所述被控测试车辆的实际最终状态;S* end表示所述被控测试车辆的预定最终状态;St表示所述被控测试车辆在所述t时刻的状态;P、Q以及K均表示所述被控测试车辆在t时刻的状态下采取了动作A1t的动作价值函数所组成的惩罚项矩阵;Ut表示所述t时刻的控制量所组成的矩阵。
本发明实施例第三方面提出了一种计算机,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上面所述的车辆状态跟踪方法。
本发明实施例第四方面提出了一种可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上面所述的车辆状态跟踪方法。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
图1为本发明第一实施例提供的车辆状态跟踪方法的流程图;
图2为本发明第一实施例提供的车辆状态跟踪方法的执行流程示意图;
图3为本发明第一实施例提供的车辆状态跟踪方法中的反向传播梯度算法的执行流程图;
图4为本发明第一实施例提供的车辆状态跟踪方法中的被控测试车辆在t时刻的车辆状态跟踪图;
图5为本发明第一实施例提供的车辆状态跟踪方法中的被控测试车辆在t+1时刻的车辆状态跟踪图;
图6为本发明第一实施例提供的车辆状态跟踪方法中的被控测试车辆在t时刻至t+N时刻的车辆轨迹跟踪图;
图7为本发明第二实施例提供的车辆状态跟踪系统的结构框图。
如下具体实施方式将结合上述附图进一步说明本发明。
具体实施方式
为了便于理解本发明,下面将参照相关附图对本发明进行更全面的描述。附图中给出了本发明的若干实施例。但是,本发明可以以许多不同的形式来实现,并不限于本文所描述的实施例。相反地,提供这些实施例的目的是使对本发明的公开内容更加透彻全面。
需要说明的是,当元件被称为“固设于”另一个元件,它可以直接在另一个元件上或者也可以存在居中的元件。当一个元件被认为是“连接”另一个元件,它可以是直接连接到另一个元件或者可能同时存在居中元件。本文所使用的术语“垂直的”、“水平的”、“左”、“右”以及类似的表述只是为了说明的目的。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。
请参阅图1,所示为本发明第一实施例提供的车辆状态跟踪方法,本实施例提供的车辆状态跟踪方法能够在异步决策的前提下对车辆的状态进行跟踪,同时将MPC中的非线性求解器使用神经网络代替,通过最小化神经网络LOSS,以达到最优控制,从而能够大幅减少计算所需的时间,进而能够更加快速、高效的对车辆状态进行跟踪。
具体的,本实施例提供的车辆状态跟踪方法具体包括以下步骤:
步骤S10:获取当前测试场景中t时刻被控测试车辆的第一状态观测值、所述被控测试车辆预定的位置目标以及损失函数,并初始化策略梯度模型M中的全部神经网络的参数,所述策略梯度模型M包括Actor当前网络,Critic当前网络,Actor目标网络以及Critic目标网络;
具体的,在本实施例中,首先需要说明的是,本实施例提供的车辆状态跟踪方法是基于Frenet坐标系下实施的,进一步的,本实施例还会基于上述Frenet坐标系构建出适用于当前被控测试车辆的测试场景以及车辆仿真环境。
在此基础之上,本步骤会首先获取到当前测试场景中的被控测试车辆在t时刻生成的第一状态观测值St(st,s′t,s″t,dt,d′t,d″t,yt)、被控测试车辆预定的位置目标Send(send,s′end,s″end,dend,d′end,d″end,yend)以及与当前被控测试车辆对应的损失函数J。
其中,上述损失函数的表达式为:
其中,Send表示所述被控测试车辆的实际最终状态;S* end表示所述被控测试车辆的预定最终状态;St表示所述被控测试车辆在所述t时刻的状态;P、Q以及K均表示所述被控测试车辆在t时刻的状态下采取了动作A1t的动作价值函数所组成的惩罚项矩阵;Ut表示所述t时刻的控制量所组成的矩阵。
另外,本步骤还会初始化与当前被控测试车辆对应的策略梯度模型M中的全部神经网络的参数,即初始化当前策略梯度模型M中的Actor当前网络,Critic当前网络,Actor目标网络以及Critic目标网络中的参数。
步骤S20:基于所述被控测试车辆的第一状态观测值、所述被控测试车辆预定的位置目标以及所述损失函数,根据所述策略梯度模型M计算出所述被控测试车辆在所述t时刻的最优控制动作序列A1t,A2t,......,ANt
进一步的,在本步骤中,需要说明的是,在通过上述步骤S10获取到当前被控测试车辆在t时刻产生的第一状态观测值St(st,s′t,s″t,dt,d′t,d″t,yt)、被控测试车辆预定的位置目标Send(send,s′end,s″end,dend,d′end,d″end,yend)以及与当前被控测试车辆对应的损失函数J后,本步骤会进一步通过预设程序检测出当前被控测试车辆在上述t时刻对应的车辆状态;进一步的,将当前t时刻对应的车辆状态St输入至上述Actor目标网络中,以使当前Actor目标网络输出当前被控测试车辆在当前t时刻产生的最优控制动作序列A1t,A2t,......,ANt
步骤S30:将所述最优控制序列中的第一个动作A1t传输至所述被控测试车辆,并使所述被控测试车辆在仿真环境中执行所述第一个动作A1t
具体的,在本步骤中,在通过上述步骤S20获取到当前被控测试车辆在上述t时刻产生的最优控制动作序列A1t,A2t,......,ANt后,本步骤会将当前最优控制动作序列A1t,A2t,......,ANt)中的第一个动作A1t传输至当前被控测试车辆的车载终端上,以使该车载终端控制当前被控测试车辆在上述仿真环境中执行上述第一个动作A1t,以使当前被控测试车辆开始运动。
步骤S40:获取当前所述测试场景中t+1时刻所述被控测试车辆所响应的第二状态观测值,并获取所述被控测试车辆对应的即时奖励Rt+1,且将所述被控测试车辆获取到的经验值放入预设经验池中;
进一步的,在本步骤中,当被控测试车辆开始运动后,本步骤会进一步获取当前被控测试车辆在上述测试场景中的t+1时刻所响应的第二状态观测值St+1(st+1,s′t+1,s″+1,dt+1,d′t+1,d″t+1,yt+1),与此同时,本步骤还会对应获取到当前被控测试车辆在当前t+1时刻所对应产生的即时奖励Rt+1,且将所述被控测试车辆获取到的经验值(St,A1t,St+1,Rt+1)放入预设经验池(experience buffer)中。
步骤S50:分别对所述Actor当前网络、所述Critic当前网络、所述Actor目标网络以及所述Critic目标网络对应的权重参数θt,ωt,θ′t,ω′t进行更新;
具体的,在本步骤中,需要说明的是,本步骤会首先在上述预设经验池(experiencebuffer)中获取到与当前被控测试车辆对应的经验值St,A1t,St+1,Rt+1,进一步的,将当前经验值中的St,A1t输入至上述Critic当前网络中,且同时获取到当前被控测试车辆在上述t时刻的收益期望的预估值Q(St,A1t);
进一步的,将上述t时刻的收益期望的预估值Q(St,A1t)通过预设好的反向传播梯度算法返回至上述Actor当前网络中,并同时通过当前收益期望的预估值Q(St,A1t)中的最大化收益期望的预估值将上述Actor当前网络的权重参数θt更新为θt+1从而能够有效的完成对Actor当前网络的权重参数θt的更新;
其中,上述反向传播梯度算法的表达式为:
其中,▽J表示损失梯度;m表示批量梯度下降的样本数;表示控测试车辆在状态Si下根据策略πθ(s)采取了动作Ai所获得的长期收益梯度;/>表示所述被控测试车辆在状态Si下所采用的策略。
更进一步的,本步骤还会将上述经验值(St,A1t,St+1,Rt+1)中的St+1,A1t+1输入至上述Critic目标网络中,并同时获取到上述t+1时刻的收益期望的预估值Q(St+1,A1t+1);
在此基础之上,本步骤进一步通过预设好的最小化时序差分算法更新上述Critic当前网络的权重参数ωt,并同时将上述t时刻的收益期望的预估值Q(St,A1t)和上述t+1时刻的收益期望的预估值Q(St+1,A1t+1)均代入至预设好的预测时序差分算法中进行计算;
其中,上述预测时序差分算法的表达式为:
其中,表示所述被控测试车辆在t-1时刻的状态S′t-1=s下采取了动作A′t=a,A′t+1=a1,A′t+2=a2,......,A′t+n=an时在非确定性仿真环境模型以及确定性状态更新环境获得的混合收获,γ表示衰减因子,Q(St+1,At+1,a′1,......,a′n)为被控测试车辆在t+1时刻的状态St+1下采取了动作At+1,a′1,......,a′n时所预计获得的长期收益,Q(St,At,a1,a2,......,an)为被控测试车辆在t时刻的状态St下采取了动作At,a1,a2,......,an时所预计获得的长期收益。
进一步的,在通过上述步骤完成对上述t时刻的收益期望的预估值Q(St,A1t)和上述t+1时刻的收益期望的预估值Q(St+1,A1t+1)的处理过后,本步骤还会每隔预设时间分别通过上述Actor当前网络和上述Critic当前网络的权重参数θ和ω分别对应更新上述Actor目标网络和上述Critic目标网络的权重参数θ′和ω′;
具体的,更新权重参数的表达式为:
ω′+τω+(1-τ)ω′
θ′←τθ+(1-τ)θ′
其中,τ为软更新系数。
最后,本步骤将上述t+1时刻的被控测试车辆所响应的状态观测值St+1作为新的位置初始值S传递回上述策略梯度模型M中,以完成对上述Actor当前网络、上述Critic当前网络、上述Actor目标网络以及上述Critic目标网络的权重参数的更新。
步骤S60:重复执行所述步骤S20至所述步骤S50,直至所述损失函数等于0或者达到预设最小值。
最后,在本步骤中,需要说明的是,若上述损失函数在经过上述步骤S20至步骤S50后的输出结果没有达到预设值时,即没有等于0或者没有达到最小值时,则需要重复执行上述步骤S20至上述步骤S50,直至当前损失函数的输出至等于0或者达到预设最小值,以完成车辆状态的跟踪。
使用时,通过首先获取当前测试场景中t时刻被控测试车辆的第一状态观测值、预定位置目标以及损失函数,并初始化策略梯度模型M中的全部神经网络的参数,进一步的,基于上述参数以及策略梯度模型M计算出当前被控测试车辆在t时刻的最优控制动作序列A1t,A2t,......,ANt;并将当前最优控制序列中的第一个动作A1t传输至所述被控测试车辆,并使上述被控测试车辆在仿真环境中执行第一个动作A1t;再获取当前测试场景中t+1时刻的被控测试车辆所响应的第二状态观测值,并获取被控测试车辆对应的即时奖励Rt+1,且将被控测试车辆获取到的经验值放入预设经验池中;从而能够分别对Actor当前网络、Critic当前网络、Actor目标网络以及Critic目标网络对应的权重参数θt,ωt,θ′t,ω′t进行更新;最后只需重复执行上述步骤,直至损失函数等于0或者达到预设最小值。通过上述方式能够在异步决策的前提下对车辆的状态进行跟踪,同时将MPC中的非线性求解器使用神经网络代替,通过最小化神经网络LOSS,以达到最优控制,从而能够大幅减少计算所需的时间,进而能够更加快速、高效的对车辆状态进行跟踪。
需要说明的是,上述的实施过程只是为了说明本申请的可实施性,但这并不代表本申请的车辆状态跟踪方法只有上述唯一一种实施流程,相反的,只要能够将本申请的车辆状态跟踪方法实施起来,都可以被纳入本申请的可行实施方案。
综上,本发明上述实施例当提供的车辆状态跟踪方法能够在异步决策的前提下对车辆的状态进行跟踪,同时将MPC中的非线性求解器使用神经网络代替,通过最小化神经网络LOSS,以达到最优控制,从而能够大幅减少计算所需的时间,进而能够更加快速、高效的对车辆状态进行跟踪。
请参阅图7,所示为本发明第二实施例提供的车辆状态跟踪系统,所述系统包括:
第一获取模块12,用于获取当前测试场景中t时刻被控测试车辆的第一状态观测值、所述被控测试车辆预定的位置目标以及损失函数,并初始化策略梯度模型M中的全部神经网络的参数,所述策略梯度模型M包括Actor当前网络,Critic当前网络,Actor目标网络以及Critic目标网络;
计算模块22,用于基于所述被控测试车辆的第一状态观测值、所述被控测试车辆预定的位置目标以及所述损失函数,根据所述策略梯度模型M计算出所述被控测试车辆在所述t时刻的最优控制动作序列A1t,A2t,......,ANt
执行模块32,用于将所述最优控制序列中的第一个动作A1t传输至所述被控测试车辆,并使所述被控测试车辆在仿真环境中执行所述第一个动作A1t
第二获取模块42,用于获取当前所述测试场景中t+1时刻所述被控测试车辆所响应的第二状态观测值,并获取所述被控测试车辆对应的即时奖励Rt+1,且将所述被控测试车辆获取到的经验值放入预设经验池中;
更新模块52,用于分别对所述Actor当前网络、所述Critic当前网络、所述Actor目标网络以及所述Critic目标网络对应的权重参数θt,ωt,θ′t,ω′t进行更新;
循环模块62,用于重复执行所述计算模块、所述执行模块、所述第二获取模块以及所述更新模块的功能,直至所述损失函数等于0或者达到预设最小值。
其中,上述车辆状态跟踪系统中,所述更新模块52具体用于:
在所述预设经验池中获取经验值St,A1t,St+1,Rt+1,并将所述经验值中的St,A1t输入至所述Critic当前网络中,且获取所述被控测试车辆在所述t时刻的收益期望的预估值Q(St,A1t);
将所述t时刻的收益期望的预估值Q(St,A1t)通过反向传播梯度算法返回至所述Actor当前网络中,并通过所述收益期望的预估值Q(St,A1t)中的最大化收益期望的预估值将所述Actor当前网络的权重参数θt更新为θt+1
将所述经验值中的St+1,A1t+1输入至所述Critic目标网络中,并获取所述t+1时刻的收益期望的预估值Q(St+1,A1t+1);
通过最小化时序差分算法更新所述Critic当前网络的权重参数ωt,并将所述t时刻的收益期望的预估值Q(St,A1t)和所述t+1时刻的收益期望的预估值Q(St+1,A1t+1)均代入至预设预测时序差分算法中进行计算;
每隔预设时间分别通过所述Actor当前网络和所述Critic当前网络的权重参数θ和ω分别对应更新所述Actor目标网络和所述Critic目标网络的权重参数0′和ω′;
将所述t+1时刻的所述被控测试车辆所响应的状态观测值St+1作为新的位置初始值S传递回所述策略梯度模型M中。
其中,上述车辆状态跟踪系统中,所述计算模块22具体用于:
通过预设程序检测出所述被控测试车辆在所述t时刻对应的车辆状态St
将所述t时刻对应的车辆状态St输入至所述Actor目标网络中,以使所述Actor目标网络输出所述被控测试车辆在所述t时刻产生的最优控制动作序列A1t,A2t,......,ANt
其中,上述车辆状态跟踪系统中,所述反向传播梯度公式的表达式为:
其中,▽J表示损失梯度;m表示批量梯度下降的样本数;表示控测试车辆在状态Si下根据策略πθ(s)采取了动作Ai所获得的长期收益梯度;/>表示所述被控测试车辆在状态Si下所采用的策略。
其中,上述车辆状态跟踪系统中,所述预测时序差分公式的表达式为:
其中,表示所述被控测试车辆在t-1时刻的状态S′t-1=s下采取了动作A′t=a,A′t+1=a1,A′t+2=a2,......,A′t+n=an时在非确定性仿真环境模型以及确定性状态更新环境获得的混合收获,γ表示衰减因子,Q(St+1,At+1,a′1,......,a′n)为被控测试车辆在t+1时刻的状态St+1下采取了动作At+1,a′1,......,a′n时所预计获得的长期收益,Q(St,At,a1,a2,......,an)为被控测试车辆在t时刻的状态St下采取了动作At,a1,a2,......,an时所预计获得的长期收益。
其中,上述车辆状态跟踪系统中,所述损失函数的表达式为:
其中,Send表示所述被控测试车辆的实际最终状态;S* end表示所述被控测试车辆的预定最终状态;St表示所述被控测试车辆在所述t时刻的状态;P、Q以及K均表示所述被控测试车辆在t时刻的状态下采取了动作A1t的动作价值函数所组成的惩罚项矩阵;Ut表示所述t时刻的控制量所组成的矩阵。
本发明第三实施例提供了一种计算机,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述第一实施例提供的车辆状态跟踪方法。
本发明第四实施例提供了一种可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述第一实施例提供的车辆状态跟踪方法。
综上所述,本发明上述实施例当提供的车辆状态跟踪方法、系统、计算机及可读存储介质能够在异步决策的前提下对车辆的状态进行跟踪,同时将MPC中的非线性求解器使用神经网络代替,通过最小化神经网络LOSS,以达到最优控制,从而能够大幅减少计算所需的时间,进而能够更加快速、高效的对车辆状态进行跟踪。
需要说明的是,上述各个模块可以是功能模块也可以是程序模块,既可以通过软件来实现,也可以通过硬件来实现。对于通过硬件来实现的模块而言,上述各个模块可以位于同一处理器中;或者上述各个模块还可以按照任意组合的形式分别位于不同的处理器中。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。
计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种车辆状态跟踪方法,其特征在于,所述方法包括:
步骤S10:获取当前测试场景中t时刻被控测试车辆的第一状态观测值、所述被控测试车辆预定的位置目标以及损失函数,并初始化策略梯度模型M中的全部神经网络的参数,所述策略梯度模型M包括Actor当前网络,Critic当前网络,Actor目标网络以及Critic目标网络;
步骤S20:基于所述被控测试车辆的第一状态观测值、所述被控测试车辆预定的位置目标以及所述损失函数,根据所述策略梯度模型M计算出所述被控测试车辆在所述t时刻的最优控制动作序列A1t,A2t,......,ANt
步骤S30:将所述最优控制序列中的第一个动作A1t传输至所述被控测试车辆,并使所述被控测试车辆在仿真环境中执行所述第一个动作A1t
步骤S40:获取当前所述测试场景中t+1时刻所述被控测试车辆所响应的第二状态观测值,并获取所述被控测试车辆对应的即时奖励Rt+1,且将所述被控测试车辆获取到的经验值放入预设经验池中;
步骤S50:分别对所述Actor当前网络、所述Critic当前网络、所述Actor目标网络以及所述Critic目标网络对应的权重参数θt,ωt,θ′t,ω′t进行更新;
步骤S60:重复执行所述步骤S20至所述步骤S50,直至所述损失函数等于0或者达到预设最小值。
2.根据权利要求1所述的车辆状态跟踪方法,其特征在于:所述分别对所述Actor当前网络、所述Critic当前网络、所述Actor目标网络以及所述Critic目标网络对应的权重参数θt,ωt,θ′t,ω′t进行更新的步骤包括:
在所述预设经验池中获取经验值St,A1t,St+1,Rt+1,并将所述经验值中的St,A1t输入至所述Critic当前网络中,且获取所述被控测试车辆在所述t时刻的收益期望的预估值Q(St,A1t);
将所述t时刻的收益期望的预估值Q(St,A1t)通过反向传播梯度算法返回至所述Actor当前网络中,并通过所述收益期望的预估值Q(St,A1t)中的最大化收益期望的预估值将所述Actor当前网络的权重参数θt更新为θt+1
将所述经验值中的St+1,A1t+1输入至所述Critic目标网络中,并获取所述t+1时刻的收益期望的预估值Q(St+1,A1t+1);
通过最小化时序差分算法更新所述Critic当前网络的权重参数ωt,并将所述t时刻的收益期望的预估值Q(St,A1t)和所述t+1时刻的收益期望的预估值Q(St+1,A1t+1)均代入至预设预测时序差分算法中进行计算;
每隔预设时间分别通过所述Actor当前网络和所述Critic当前网络的权重参数θ和ω分别对应更新所述Actor目标网络和所述Critic目标网络的权重参数θ′和ω′;
将所述t+1时刻的所述被控测试车辆所响应的状态观测值St+1作为新的位置初始值S传递回所述策略梯度模型M中。
3.根据权利要求1所述的车辆状态跟踪方法,其特征在于:所述基于所述被控测试车辆的第一状态观测值、所述被控测试车辆预定的位置目标以及所述损失函数,根据所述策略梯度模型M计算出所述被控测试车辆在所述t时刻的最优控制动作序列A1t,A2t,......,ANt的步骤包括:
通过预设程序检测出所述被控测试车辆在所述t时刻对应的车辆状态St
将所述t时刻对应的车辆状态St输入至所述Actor目标网络中,以使所述Actor目标网络输出所述被控测试车辆在所述t时刻产生的最优控制动作序列A1t,A2t,......,ANt
4.根据权利要求2所述的车辆状态跟踪方法,其特征在于:所述反向传播梯度算法的表达式为:
其中,表示损失梯度;m表示批量梯度下降的样本数;/>表示控测试车辆在状态Si下根据策略πθ(s)采取了动作Ai所获得的长期收益梯度;/>表示所述被控测试车辆在状态Si下所采用的策略。
5.根据权利要求2所述的车辆状态跟踪方法,其特征在于:所述预测时序差分算法的表达式为:
其中,表示所述被控测试车辆在t-1时刻的状态S′t-1=s下采取了动作A′t=a,A′t+1=a1,A′t+2=a2,......,A′t+n=an时在非确定性仿真环境模型以及确定性状态更新环境获得的混合收获,γ表示衰减因子,Q(St+1,At+1,a′1,......,a′n)为被控测试车辆在t+1时刻的状态St+1下采取了动作At+1,a′1,......,a′n时所预计获得的长期收益,Q(St,At,a1,a2,......,an)为被控测试车辆在t时刻的状态St下采取了动作At,a1,a2,......,an时所预计获得的长期收益。
6.根据权利要求1所述的车辆状态跟踪方法,其特征在于:所述损失函数的表达式为:
其中,Send表示所述被控测试车辆的实际最终状态;S* end表示所述被控测试车辆的预定最终状态;St表示所述被控测试车辆在所述t时刻的状态;P、Q以及K均表示所述被控测试车辆在t时刻的状态下采取了动作A1t的动作价值函数所组成的惩罚项矩阵;Ut表示所述t时刻的控制量所组成的矩阵。
7.一种车辆状态跟踪系统,其特征在于,所述系统包括:
第一获取模块,用于获取当前测试场景中t时刻被控测试车辆的第一状态观测值、所述被控测试车辆预定的位置目标以及损失函数,并初始化策略梯度模型M中的全部神经网络的参数,所述策略梯度模型M包括Actor当前网络,Critic当前网络,Actor目标网络以及Critic目标网络;
计算模块,用于基于所述被控测试车辆的第一状态观测值、所述被控测试车辆预定的位置目标以及所述损失函数,根据所述策略梯度模型M计算出所述被控测试车辆在所述t时刻的最优控制动作序列A1t,A2t,......,ANt
执行模块,用于将所述最优控制序列中的第一个动作A1t传输至所述被控测试车辆,并使所述被控测试车辆在仿真环境中执行所述第一个动作A1t
第二获取模块,用于获取当前所述测试场景中t+1时刻所述被控测试车辆所响应的第二状态观测值,并获取所述被控测试车辆对应的即时奖励Rt+1,且将所述被控测试车辆获取到的经验值放入预设经验池中;
更新模块,用于分别对所述Actor当前网络、所述Critic当前网络、所述Actor目标网络以及所述Critic目标网络对应的权重参数θt,ωt,θ′t,ω′t进行更新;
循环模块,用于重复执行所述计算模块、所述执行模块、所述第二获取模块以及所述更新模块的功能,直至所述损失函数等于0或者达到预设最小值。
8.根据权利要求7所述的车辆状态跟踪系统,其特征在于:所述更新模块具体用于:
在所述预设经验池中获取经验值St,A1t,St+1,Rt+1,并将所述经验值中的St,A1t输入至所述Critic当前网络中,且获取所述被控测试车辆在所述t时刻的收益期望的预估值Q(St,A1t);
将所述t时刻的收益期望的预估值Q(St,A1t)通过反向传播梯度算法返回至所述Actor当前网络中,并通过所述收益期望的预估值Q(St,A1t)中的最大化收益期望的预估值将所述Actor当前网络的权重参数θt更新为θt+1
将所述经验值中的St+1,A1t+1输入至所述Critic目标网络中,并获取所述t+1时刻的收益期望的预估值Q(St+1,A1t+1);
通过最小化时序差分算法更新所述Critic当前网络的权重参数ωt,并将所述t时刻的收益期望的预估值Q(St,A1t)和所述t+1时刻的收益期望的预估值Q(St+1,A1t+1)均代入至预设预测时序差分算法中进行计算;
每隔预设时间分别通过所述Actor当前网络和所述Critic当前网络的权重参数θ和ω分别对应更新所述Actor目标网络和所述Critic目标网络的权重参数θ′和ω′;
将所述t+1时刻的所述被控测试车辆所响应的状态观测值St+1作为新的位置初始值S传递回所述策略梯度模型M中。
9.一种计算机,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至6中任意一项所述的车辆状态跟踪方法。
10.一种可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至6中任意一项所述的车辆状态跟踪方法。
CN202210680760.6A 2022-06-16 2022-06-16 车辆状态跟踪方法、系统、计算机及可读存储介质 Active CN115077549B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210680760.6A CN115077549B (zh) 2022-06-16 2022-06-16 车辆状态跟踪方法、系统、计算机及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210680760.6A CN115077549B (zh) 2022-06-16 2022-06-16 车辆状态跟踪方法、系统、计算机及可读存储介质

Publications (2)

Publication Number Publication Date
CN115077549A CN115077549A (zh) 2022-09-20
CN115077549B true CN115077549B (zh) 2024-04-26

Family

ID=83252801

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210680760.6A Active CN115077549B (zh) 2022-06-16 2022-06-16 车辆状态跟踪方法、系统、计算机及可读存储介质

Country Status (1)

Country Link
CN (1) CN115077549B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110221611A (zh) * 2019-06-11 2019-09-10 北京三快在线科技有限公司 一种轨迹跟踪控制方法、装置及无人驾驶车辆
CN111284485A (zh) * 2019-10-10 2020-06-16 中国第一汽车股份有限公司 一种障碍车辆驾驶行为预测方法、装置、车辆及存储介质
CN111368938A (zh) * 2020-03-19 2020-07-03 南京因果人工智能研究院有限公司 一种基于mdp的多目标车辆跟踪方法
CN112162555A (zh) * 2020-09-23 2021-01-01 燕山大学 混合车队中基于强化学习控制策略的车辆控制方法
WO2021189507A1 (zh) * 2020-03-24 2021-09-30 南京新一代人工智能研究院有限公司 一种用于车辆检测跟踪的旋翼无人机系统及检测跟踪方法
WO2022000967A1 (zh) * 2020-07-02 2022-01-06 苏州艾吉威机器人有限公司 一种路径跟踪控制方法、系统及计算机可读存储介质
CN114463997A (zh) * 2022-02-14 2022-05-10 中国科学院电工研究所 一种无信号灯交叉路口车辆协同控制方法及系统
CN114537401A (zh) * 2022-01-21 2022-05-27 山东伟创信息技术有限公司 基于元强化学习的智能车辆交叉口决策方法、设备及介质
CN114627447A (zh) * 2022-03-10 2022-06-14 山东大学 基于注意力机制和多目标跟踪的公路车辆跟踪方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11586200B2 (en) * 2020-06-22 2023-02-21 The Boeing Company Method and system for vehicle engagement control

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110221611A (zh) * 2019-06-11 2019-09-10 北京三快在线科技有限公司 一种轨迹跟踪控制方法、装置及无人驾驶车辆
CN111284485A (zh) * 2019-10-10 2020-06-16 中国第一汽车股份有限公司 一种障碍车辆驾驶行为预测方法、装置、车辆及存储介质
CN111368938A (zh) * 2020-03-19 2020-07-03 南京因果人工智能研究院有限公司 一种基于mdp的多目标车辆跟踪方法
WO2021189507A1 (zh) * 2020-03-24 2021-09-30 南京新一代人工智能研究院有限公司 一种用于车辆检测跟踪的旋翼无人机系统及检测跟踪方法
WO2022000967A1 (zh) * 2020-07-02 2022-01-06 苏州艾吉威机器人有限公司 一种路径跟踪控制方法、系统及计算机可读存储介质
CN112162555A (zh) * 2020-09-23 2021-01-01 燕山大学 混合车队中基于强化学习控制策略的车辆控制方法
CN114537401A (zh) * 2022-01-21 2022-05-27 山东伟创信息技术有限公司 基于元强化学习的智能车辆交叉口决策方法、设备及介质
CN114463997A (zh) * 2022-02-14 2022-05-10 中国科学院电工研究所 一种无信号灯交叉路口车辆协同控制方法及系统
CN114627447A (zh) * 2022-03-10 2022-06-14 山东大学 基于注意力机制和多目标跟踪的公路车辆跟踪方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
交通视频中的Kalman滤波的多车辆跟踪算法;贲晛烨;王科俊;李阳;谢滨姣;;应用科技;20110315(03);全文 *
基于加权组合预测模型的城市用水量预测;欧阳嘉;黄细和;罗金荣;;市政技术;20160510(03);全文 *

Also Published As

Publication number Publication date
CN115077549A (zh) 2022-09-20

Similar Documents

Publication Publication Date Title
CN111708355B (zh) 基于强化学习的多无人机动作决策方法和装置
US20220363259A1 (en) Method for generating lane changing decision-making model, method for lane changing decision-making of unmanned vehicle and electronic device
CN110956148B (zh) 无人车的自主避障方法及装置、电子设备、可读存储介质
US11983245B2 (en) Unmanned driving behavior decision-making and model training
CN113051667B (zh) 一种混合动力汽车能量管理策略的加速学习方法
CN109405843B (zh) 一种路径规划方法及装置和移动设备
CN112329948A (zh) 一种多智能体策略预测方法及装置
US20230367934A1 (en) Method and apparatus for constructing vehicle dynamics model and method and apparatus for predicting vehicle state information
CN114261400B (zh) 一种自动驾驶决策方法、装置、设备和存储介质
CN111352419B (zh) 基于时序差分更新经验回放缓存的路径规划方法及系统
CN112580801A (zh) 一种强化学习训练方法及基于强化学习的决策方法
CN118365099B (zh) 一种多agv调度方法、装置、设备及存储介质
CN117273057A (zh) 基于强化学习的多智能体协同对抗决策方法及装置
CN115077549B (zh) 车辆状态跟踪方法、系统、计算机及可读存储介质
CN114662656A (zh) 一种深度神经网络模型训练方法、自主导航方法及系统
CN110450164A (zh) 机器人控制方法、装置、机器人及存储介质
CN115338610A (zh) 双轴孔装配方法、装置、电子设备和存储介质
CN114298302A (zh) 智能体任务学习方法及装置
CN114037049A (zh) 基于值函数可信度的多智能体强化学习方法及相关装置
CN115210590A (zh) 优化电池管理系统的方法和设备
Zhang et al. Vehicle driving longitudinal control based on double deep Q network
CN115496208B (zh) 协同模式多样化导向的无监督多智能体强化学习方法
CN116484942B (zh) 用于多智能体强化学习的方法、系统、设备和存储介质
CN112861951B (zh) 一种图像神经网络参数的确定方法及电子设备
CN115577766A (zh) 一种基于状态引导策略的离线强化学习方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant