CN113501008B - 一种基于强化学习算法的自动驾驶行为决策方法 - Google Patents

一种基于强化学习算法的自动驾驶行为决策方法 Download PDF

Info

Publication number
CN113501008B
CN113501008B CN202110928217.9A CN202110928217A CN113501008B CN 113501008 B CN113501008 B CN 113501008B CN 202110928217 A CN202110928217 A CN 202110928217A CN 113501008 B CN113501008 B CN 113501008B
Authority
CN
China
Prior art keywords
state
target
reinforcement learning
behavior
vehicle
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110928217.9A
Other languages
English (en)
Other versions
CN113501008A (zh
Inventor
田小青
骆嫚
万骞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dongfeng Yuexiang Technology Co Ltd
Original Assignee
Dongfeng Yuexiang Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dongfeng Yuexiang Technology Co Ltd filed Critical Dongfeng Yuexiang Technology Co Ltd
Priority to CN202110928217.9A priority Critical patent/CN113501008B/zh
Publication of CN113501008A publication Critical patent/CN113501008A/zh
Application granted granted Critical
Publication of CN113501008B publication Critical patent/CN113501008B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W60/00Drive control systems specially adapted for autonomous road vehicles
    • B60W60/001Planning or execution of driving tasks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2420/00Indexing codes relating to the type of sensors based on the principle of their operation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Abstract

本发明的目的在于公开一种基于强化学习算法的自动驾驶行为决策方法,基于传感器对周围目标信息的感知,自动驾驶车辆可以完成在巡航,跟车,换道,超车,制动等状态间的切换,基于预先规划的路线完成自主行驶功能。基于强化学习的行为决策系统采用了在演员‑评论家(Actor‑Critic)算法上改进的TD3算法,有效避免了可能存在的迭代训练无法收敛的问题,同时具有更快的学习速度。

Description

一种基于强化学习算法的自动驾驶行为决策方法
技术领域
本发明涉及自动驾驶技术领域,涉及了一种用于L4级自动驾驶车辆的基于深度强化学习的行为决策方法。
背景技术
随着汽车保有量的不断增加,随之带来的交通拥堵问题与交通安全问题开始得到越来越多的重视。而发展自动驾驶可以很好的应对这一系列的问题,因此,自动驾驶技术开始受到越来越多的重视,也是未来汽车比不可少的功能之一。自动驾驶系统按照层次可以分为环境感知,行为决策,运动控制三个部分。行为决策系统的主要功能可以概括为基于上层感知层输入的汽车当前的行驶状态,周围环境信息,以及驾驶任务等信息对驾驶行为进行决策。
发明内容
(一)要解决的技术问题
本发明的目的在于公开一种基于强化学习算法的自动驾驶行为决策方法,基于传感器对周围目标信息的感知,自动驾驶车辆可以完成在巡航,跟车,换道,超车,制动等状态间的切换,基于预先规划的路线完成自主行驶功能。
(二)发明内容
为实现上述目的,本发明实施例提供如下技术方案:一种基于强化学习算法的自动驾驶行为决策方法,基于传感器对周围目标信息的感知,自动驾驶车辆完成各种行驶状态间的切换,其特征是包括以下步骤:
步骤S1:利用有限状态机来建立基于规则的行为决策系统,有限状态机可以表示为一个五元组:
F=(S,s0,F,∑,δ) ,
其中,S为状态集;s0为状态机的默认状态,即初始状态集;F为终止状态,中止状态可能为空集,即无结束状态;∑为事件集合,即状态机的所有可能的输入的集合;δ为转移逻辑,输入事件与当前状态共同作用造成状态转移:∑×S→S 。
在有限状态机中,对象由事件触发和状态迁移来表征,当输入目标输入信息到有限状态机当中时,状态会通过转移路径发生转移,最终输出状态对应的动作 ,基于规则的行为决策系统将自动驾驶车辆的目标进行分类,包括初始化,巡航,跟车,换道,制动状态;
步骤S2:自动驾驶车辆基于自车当前时刻状态,车辆传感器得到行为决策必须的基于周围环境的目标输入信息,目标输入信息包括目标的位置与状态ID信息,基于目标输入信息,基于规则的行为决策系统出下一时刻自动驾驶车辆目标状态;
步骤S3:结合经验池与强化学习模型,建立基于强化学习的行为决策系统,将采集到的人类驾驶员驾驶行为进行抽取得到状态行为集合,并放入经验池进行存储,训练基于强化学习的行为决策系统,基于当前时刻状态与目标输入信息,输出下一时刻车辆目标状态;
步骤S4:建立仲裁系统,仲裁系统对基于规则的行为决策系统与基于强化学习的行为决策系统做出的结论进行评估与仲裁,输出最终确定的下一时刻的自动驾驶车辆目标状态。
作为优选,所述步骤S3包括以下分步骤:
S301:采集到的人类驾驶员驾驶行为,得到状态行为集合;
S302:将状态行为集合放入经验池进行存储,系统基于经验池对强化学习模型进行训练,基于自车当前时刻状态与目标输入信息,结合经验池与强化学习模型,输出下一时刻车辆目标状态。
作为优选,所述步骤S301又包括以下分步骤:
S3011:采集人类驾驶员在不同驾驶场景下的动作序列τi
Figure SMS_1
Figure SMS_2
:第i个序列中第n个状态,
Figure SMS_3
:第i个序列中第n个动作;
S3012:对序列中的动作-行为对进行抽取,得到基于抽取的状态-行为对构件状态行为集合:D=<(s1,a1),(s2,a2)...,(sn,an)>,sn为第n个状态,an为第n个动作。
作为优选,所述步骤S302又包括以下分步骤:
S3021:基于步骤S3011得到的状态行为集合,构件经验池;
S3022:构建基于TD3算法的深度强化学习结构,并利用经验池训练深度强化学习结构,基于目标输入信息与自车当前时刻状态,基于深度强化学习结构,输出自车对应下一时刻目标动作与目标状态;
作为优选,所述步骤S3022还包括以下分步骤:
S30221:利用二次采样经验优先级回放,对ID3算法进行优化,以提高学习数据的质量,并加快学习速度;二次采样可以分为两步:从序列中采样,采集的序列组成样本经验池后,再从采样得到序列中进行样本采集;
从序列中采样:序列经验池E={l1,l2,l3...,lN}由一系列序列
Figure SMS_4
i=(1,2,...,ni)组成;
每一序列的累计回报Gi可表示为:
Figure SMS_5
基于每一序列的累计回报,可以计算该序列的采样优先级pi
pi=Gi+ε,
基于每一序列的采样优先级,可以对该序列的采样概率p(i)进行分配,优先级值pi越大,采样概率越大:
Figure SMS_6
采集到的n个序列
Figure SMS_7
(i=1,2,...,n)组成样本经验池/>
Figure SMS_8
,其中,在序列li中,样本数为ni,每个样本表示为/>
Figure SMS_9
,/>
Figure SMS_10
为布尔变量,用于表示状态/>
Figure SMS_11
是否为终止状态。从序列中采样时,每一序列的采样优先级由累计回报来表示,而从样本经验池中采样时,每一样本的采样优先级/>
Figure SMS_12
由样本的TD偏差δi表示:
Figure SMS_13
样本经验池E*中每一序列
Figure SMS_14
的样本数为/>
Figure SMS_15
,则样本经验池E*中样本总数可以表示为:
Figure SMS_16
故基于每一样本的采样优先级
Figure SMS_17
,可以求得该样本的采样概率p(i)*
Figure SMS_18
S30222:基于当前的状态st,演员网络Cφ输出当前动作at
S30223:基于当前的状态st与动作at,评论家网络Qθ1与Qθ2分别计算出当前动作价值函数Q值Qθi(st,at)(i=1,2);
S30224:基于下一时刻状态St+1,演员目标网络Cφ′输出目标动作
Figure SMS_19
S30225:基于下一时刻状态St+1与目标动作
Figure SMS_20
,评论家目标网络Qθ1′与Qθ2′分别计算出目标Q值 />
Figure SMS_21
(i=1,2);
S30226:评论家网络通过演员目标网络与评论家目标网络进行更新。由于对Q值的估计如果过高,可能会造成,误差的累计,所以选取两个评论家目标网络输出的Q值的较小值用于计算目标值yt,以用于更新评论家网络;
S30227:计算演员网络(Actor Network)与评论家网络(Critic Network)的损失函数;
S30228:重复步骤S30221-S30227,直至S30227中的演员网络与评论家网络的损失函数均小于阈值或迭代步数达到最大步数;
作为优选,所述步骤S4具体为:
基于目标输入信息与当前自车状态,基于规则的决策系统(状态机输出状态)输出下一时刻状态st+1(1),并输出达到下一时刻状态的目标动作at(1),基于强化学习的行为决策系统(神经网络输出状态)输出下一时刻的目标动作at(2);
若目标动作at(1)与at(2)相同,则输出;
若目标动作at(1)与at(2)不同,则计算两者对应的目标价值函数Q(1)与Q(2),输出价值函数较高的动作。
本发明通过基于规则的行为决策系统,可以在不同环境的道路下快速做出相应的行为决策,同时基于强化学习的行为决策系统对基于规则的行为决策系统起到互补的作用,训练好的强化学习模块可以学习基于规则的决策系统未定义驾驶场景的新的驾驶策略,从而对行为决策系统进行更新。同时,基于强化学习的行为决策系统采用了在演员-评论家(Actor-Critic)算法上改进的TD3算法,有效避免了可能存在的迭代训练无法收敛的问题,同时具有更快的学习速度,同时,本专利采用了二次采用优先级回放的方法对TD3算法进行了进一步优化,减小了因学习到不理想的策略而使网络训练进入歧途的可能性。
(三)有益效果:
基于规则的行为决策系统,可以在不同环境的道路下快速做出相应的行为决策,同时基于强化学习的行为决策系统对基于规则的行为决策系统起到互补的作用,训练好的强化学习模块可以学习基于规则的决策系统未定义驾驶场景的新的驾驶策略,从而对行为决策系统进行更新。基于强化学习的行为决策系统采用了在演员-评论家(Actor-Critic)算法上改进的TD3算法,有效避免了可能存在的迭代训练无法收敛的问题,同时具有更快的学习速度。
附图说明
图1为本发明实施例提供的一种状态机的状态转移逻辑图;
图2为本发明实施例提供的一种深度强化学习结构的构件图;
图3为本发明实施例提供的一种基于规则与学习的自动驾驶车辆行为决策系统具体工作流程图。
具体实施方式
以下通过具体示例对本发明进行详细描述,通过本说明书所揭露的内容,本领域的相关技术人员可以了解到本公开的其他优点与功效。本发明还可以通过另外不同的实施方式加以实施或利用,本说明书中的各项细节也可以在不背离本发明的精神的情况下,基于各种观点与应用而做出修饰与改变。
基于规则与学习的自动驾驶车辆行为决策系统具体工作流程如图所示(可参考图3),可以在城市道路环境中,基于感知模块得到的环境信息,并结合车辆当前时刻处于的行驶状态,输出下一时刻的目标行驶状态与对应的状态转移需要的动作,从而使自动驾驶车辆在规划的路线上完成自主行驶。自动驾驶车辆做出的行为决策由两个模块同时生成:一是基于规则的行为决策系统;二是基于学习的行为决策系统,基于规则的系统可以基于基本的规则,快速生成对应决策,而基于学习的行为决策系统相比于基于规则的决策系统,在陌生环境中完成自学习功能,二者为互补关系。生成的两个决策会经过仲裁模块进行评价,从而输出两者中较优的决策。
本发明中的基于规则与基于学习的自动驾驶车辆行为决策方法具体来说可以包括以下步骤:
步骤S1:利用有限状态机来建立基于规则的行为决策系统,有限状态机可以表示为一个五元组:
F=(S,s0,F,∑,δ) ,
其中,S为状态集;s0为状态机的默认状态,即初始状态集;F为终止状态,中止状态可能为空集,即无结束状态;∑为事件集合,即状态机的所有可能的输入的集合;δ为转移逻辑,输入事件与当前状态共同作用造成状态转移:∑×S→S 。
在有限状态机中,对象由事件触发和状态迁移来表征,当输入目标输入信息到有限状态机当中时,状态会通过转移路径发生转移,最终输出状态对应的动作,基于规则的行为决策系统将自动驾驶车辆的目标状态进行分类,包括初始化,巡航,跟车,换道,制动状态;
步骤S2:自动驾驶车辆基于自车当前时刻状态,车辆传感器得到行为决策必须的基于周围环境的目标输入信息,目标输入信息包括目标的位置与状态ID信息,基于目标输入信息,基于规则的行为决策系统出下一时刻自动驾驶车辆目标状态;
步骤S2具体可表示为:
前方切入,造成前方切入危险,此时判断前方为危险时,需要该目标的位置与状态信息;
换道时,需要获取前方与后方目标的位置与状态信息;
这些目标所需的状态信息相似,但不同目标的作用完全不同,故考虑设置一个目标ID信息,以对不同目标进行分类,再获取不同目标的状态ID信息,具体包括周围目标(跟车目标,前方切入目标,后方切入目标)的相对位置,速度,加速度信息,同时还需要自车当前的状态和当前车道ID。(可参考图1)
故初步将输入输出接口定义为:
t时刻输入接口:
[stateID(t),laneID,tarID-i,Vxi,Vyi,Xi,Yi,tarlaneID](i=1,2,3 ..)
stateID:自车当前时刻状态(1:初始化2:跟车3:巡航4:换道5:制动)
laneID:自车当前车道ID(从左至右分别为-1,0,1)
tarID-i:目标i的ID(1:跟车目标2:前方切入目标3:后方切入目标)
Vxi,Vyi:目标i的纵向与横向速度信息
Xi,Yi:目标i的纵向与横向位置信息
tarlaneID:目标i的车道ID。
步骤S3:结合经验池与强化学习模型,建立基于强化学习的行为决策系统,将采集到的人类驾驶员驾驶行为进行抽取得到状态行为集合,并放入经验池进行存储,训练基于强化学习的行为决策系统,基于当前时刻状态与目标输入信息,基于强化学习的行为决策系统输出下一时刻车辆目标状态。
立仲裁系统,仲裁系统对基于规则的行为决策系统与基于强化学习的行为决策系统做出的结论进行评估与仲裁,输出最终确定的下一时刻的自动驾驶车辆目标状态;
步骤S3包括以下分步骤:
S301:采集到的人类驾驶员驾驶行为,得到状态行为集合;
步骤S301又包括以下分步骤:
S3011:采集人类驾驶员在不同驾驶场景下的动作序列τi
Figure SMS_22
Figure SMS_23
:第i个序列中第n个状态,
Figure SMS_24
:第i个序列中第n个动作;
S3012:对序列中的动作-行为对进行抽取,得到基于抽取的状态-行为对构件状态行为集合:
D=<(s1,a1),(s2,a2)...,(sn,an)>,sn为第n个状态,an为第n个动作;
S302:将状态行为集合放入经验池进行存储,系统基于经验池对强化学习模型进行训练,基于自车当前时刻状态与目标输入信息,结合经验池与强化学习模型,输出下一时刻车辆目标状态;
步骤S302又包括以下分步骤:
S3021:基于步骤S3011得到的状态行为集合,构件经验池;
S3022:构建基于TD3算法的深度强化学习结构,并利用经验池训练深度强化学习结构,基于目标输入信息与自车当前时刻状态,基于深度强化学习结构,输出自车对应下一时刻目标动作与目标状态(可参考图2)
S3022:训练步骤S3022还包括以下分步骤:
S30221:利用二次采样经验优先级回放,对ID3算法进行优化,以提高学习数据的质量,并加快学习速度。二次采样可以分为两步:从序列中采样,采集的序列组成样本经验池后,再从采样得到序列中进行样本采集;
二次采样可以分为两步:从序列中采样,采集的序列组成样本经验池后,再从采样得到序列中进行样本采集;
从序列中采样:序列经验池E= {l1,l2,l3 ...,lN}由一系列序列
Figure SMS_25
i=(1,2,...,ni)组成。
每一序列的累计回报Gi可表示为:
Figure SMS_26
基于每一序列的累计回报,可以计算该序列的采样优先级pi
pi=Gi +ε ,
基于每一序列的采样优先级,可以对该序列的采样概率p(i)进行分配,优先级值pi越大,采样概率越大:
Figure SMS_27
采集到的n个序列
Figure SMS_28
(i=1,2,...,n)组成样本经验池/>
Figure SMS_29
,其中,在序列li中,样本数为ni,每个样本表示为/>
Figure SMS_30
,/>
Figure SMS_31
为布尔变量,用于表示状态/>
Figure SMS_32
是否为终止状态。从序列中采样时,每一序列的采样优先级由累计回报来表示,而从样本经验池中采样时,每一样本的采样优先级/>
Figure SMS_33
由样本的TD偏差δi表示:
Figure SMS_34
样本经验池E*中每一序列
Figure SMS_35
的样本数为/>
Figure SMS_36
,则样本经验池E*中样本总数可以表示为:
Figure SMS_37
故基于每一样本的采样优先级
Figure SMS_38
,可以求得该样本的采样概率p(i)*:/>
Figure SMS_39
S30222:基于当前的状态st,演员网络Cφ输出当前动作at
S30223:基于当前的状态st与动作at,评论家网络Qθ1与Qθ2分别计算出当前动作价值函数Q值Qθi(st,at)(i=1,2);
S30224基于下一时刻状态st+1,演员目标网络Cφ′输出目标动作
Figure SMS_40
S30225:基于下一时刻状态st+1与目标动作
Figure SMS_41
,评论家目标网络Qθ1′与Qθ2′分别计算出目标Q值/>
Figure SMS_42
(i=1,2);
S30226:评论家网络通过演员目标网络与评论家目标网络进行更新。由于对Q值的估计如果过高,可能会造成,误差的累计,所以选取两个评论家目标网络输出的Q值的较小值用于计算目标值yt,以用于更新评论家网络;
S30227:计算演员网络(Actor Network)与评论家网络(Critic Network)的损失函数;
S30228:重复步骤S30221-S30227,直至S30227中的演员网络与评论家网络的损失函数均小于阈值或迭代步数达到最大步数;
其中,步骤S3024构建的的深度强化学习结构是主要基于TD3算法,是一种基于Actor-Critic算法改进而来的结构。TD3算法的基本框架由6个网络构成:演员(Actor)网络Cφ,演员目标(Actor Target)网络Cφ′,评论家(Critic)网络Qθ1与Qθ2,评论家目标(CriticTarget)网络Qθ1′与Qθ2′。演员网络,演员目标网络,评论家网络,评论家目标网络由卷积神经网络构建而成。
步骤S4具体为:
基于目标输入信息与当前自车状态,基于规则的决策系统(状态机输出状态)输出下一时刻状态st+1(1),并输出达到下一时刻状态的目标动作at(1),基于强化学习的行为决策系统(神经网络输出状态)输出下一时刻的目标动作at(2);
若目标动作at(1)与at(2)相同,则输出;
若目标动作at(1)与at(2)不同,则计算两者对应的目标价值函数Q(1)与Q(2),输出价值函数较高的动作。
需要说明的是,在本文中,变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法或者装置中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,这些均属于本发明的保护之内。

Claims (7)

1.一种基于强化学习算法的自动驾驶行为决策方法,基于传感器对围目标信息的感知,自动驾驶车辆完成各种行驶状态间的切换,其特征是包括以下步骤:
步骤 S1:利用有限状态机来建立基于规则的行为决策系统,有限状态机可以表示为一个五元组:F=(S,s0,F,∑,δ),
其中,S为状态集;s0为状态机的默认状态,即初始状态集;F为终止状态,中止状态可能为空集,即无结束状态;∑为事件集合,即状态机的所有可能的输入的集合;δ为转移逻辑,输入事件与当前状态共同作用造成状态转移:∑×S→S,
在有限状态机中,对象由事件触发和状态迁移来表征,当输入目标输入信息到有限状态机当中时,状态会通过转移路径发生转移,最终输出状态对应的动作,基于规则的行为决策系统将自动驾驶车辆的目标进行分类,包括初始化,巡航,跟车,换道,制动状态;
步骤S2:自动驾驶车辆基于自车当前时刻状态,车辆传感器得到行为决策必须的基于周围环境的目标输入信息,目标输入信息包括目标的位置与状态ID信息,基于目标输入信息,基于规则的行为决策系统出下一时刻自动驾驶车辆目标状态;
步骤S3:结合经验池与强化学习模型,建立基于强化学习的行为决策系统,将采集到的人类驾驶员驾驶行为进行抽取得到状态行为集合,并放入经验池进行存储,训练基于强化学习的行为决策系统,基于当前时刻状态与目标输入信息,输出下一时刻车辆目标状态;
步骤S4:建立仲裁系统,仲裁系统对基于规则的行为决策系统与基于强化学习的行为决策系统做出的结论进行评估与仲裁,输出最终确定的下一时刻的自动驾驶车辆目标状态。
2.根据权利要求1所述的一种基于强化学习算法的自动驾驶行为决策方法,其特征是所述步骤S3包括以下分步骤:
S301:采集到的人类驾驶员驾驶行为,得到状态行为集合;
S302:将状态行为集合放入经验池进行存储,系统基于经验池对强化学习模型进行训练,基于自车当前时刻状态与目标输入信息,结合经验池与强化学习模型,输出下一时刻车辆目标状态。
3.根据权利要求2所述的一种基于强化学习算法的自动驾驶行为决策方法,其特征是所述步骤S301又包括以下分步骤:
S3011:采集人类驾驶员在不同驾驶场景下的动作序列τi
Figure QLYQS_1
Figure QLYQS_2
:第i个序列中第n个状态,
Figure QLYQS_3
:第i个序列中第n个动作;
S3012:对序列中的动作-行为对进行抽取,得到基于抽取的状态-行为对构件状态行为集合:D=<(s1,a1),(s2,a2)...,(sn,an)>,sn为第n个状态,an为第n个动作。
4.根据权利要求2所述的一种基于强化学习算法的自动驾驶行为决策方法,其特征是所述步骤S302又包括以下分步骤:
S3021:基于步骤S3011得到的状态行为集合,构件经验池;
S3022:构建基于TD3算法的深度强化学习结构,并利用经验池训练深度强化学习结构,基于目标输入信息与自车当前时刻状态,基于深度强化学习结构,输出自车对应下一时刻目标动作与目标状态。
5.根据权利要求4所述的一种基于强化学习算法的自动驾驶行为决策方法,其特征是所述步骤S3022还包括以下分步骤:
S30221:利用二次采样经验优先级回放,对ID3算法进行优化,以提高学习数据的质量,并加快学习速度;
S30222:基于当前的状态st,演员网络Cφ输出当前动作at
S30223:基于当前的状态st与动作at,评论家网络Qθ1与Qθ2分别计算出当前动作价值函数Q值Qθi(st,at)(i=1,2);
S30224: 基于下一时刻状态st+1,演员目标网络
Figure QLYQS_4
输出目标动作/>
Figure QLYQS_5
S30225:基于下一时刻状态st+1与目标动作
Figure QLYQS_6
,评论家目标网络/>
Figure QLYQS_7
与/>
Figure QLYQS_8
分别计算出目标Q值/>
Figure QLYQS_9
(i=1,2);
S30226:评论家网络通过演员目标网络与评论家目标网络进行更新,选取两个评论家目标网络输出的Q值的较小值用于计算目标值yt,以用于更新评论家网络;
S30227:计算演员网络与评论家网络的损失函数;
S30228:重复步骤S30221-S30227,直至S30227中的演员网络与评论家网络的损失函数均小于阈值或迭代步数达到最大步数;
6.根据权利要求5所述的一种基于强化学习算法的自动驾驶行为决策方法,其特征是所述二次采样可以分为两步:1)从序列中采样,2)采集的序列组成样本经验池后,再从采样得到序列中进行样本采集;
7.根据权利要求5所述的一种基于强化学习算法的自动驾驶行为决策方法,其特征是所述步骤S4具体为:
基于目标输入信息与当前自车状态,基于规则的决策系统输出下一时刻状态st+1(1),并输出达到下一时刻状态的目标动作at(1),基于强化学习的行为决策系统输出下一时刻的目标动作at(2);
若目标动作at(1)与at(2)相同,则输出;
若目标动作at(1)与at(2)不同,则计算两者对应的目标价值函数Q(1)与Q(2),输出价值函数较高的动作。
CN202110928217.9A 2021-08-12 2021-08-12 一种基于强化学习算法的自动驾驶行为决策方法 Active CN113501008B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110928217.9A CN113501008B (zh) 2021-08-12 2021-08-12 一种基于强化学习算法的自动驾驶行为决策方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110928217.9A CN113501008B (zh) 2021-08-12 2021-08-12 一种基于强化学习算法的自动驾驶行为决策方法

Publications (2)

Publication Number Publication Date
CN113501008A CN113501008A (zh) 2021-10-15
CN113501008B true CN113501008B (zh) 2023-05-19

Family

ID=78015985

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110928217.9A Active CN113501008B (zh) 2021-08-12 2021-08-12 一种基于强化学习算法的自动驾驶行为决策方法

Country Status (1)

Country Link
CN (1) CN113501008B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113682312B (zh) * 2021-09-23 2023-07-25 中汽创智科技有限公司 一种融合深度强化学习的自主换道方法及系统
CN114237267B (zh) * 2021-11-02 2023-11-24 中国人民解放军海军航空大学航空作战勤务学院 基于强化学习的飞行机动决策的辅助方法

Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109213148A (zh) * 2018-08-03 2019-01-15 东南大学 一种基于深度强化学习的车辆低速跟驰决策方法
CN110322017A (zh) * 2019-08-13 2019-10-11 吉林大学 基于深度强化学习的自动驾驶智能车轨迹跟踪控制策略
CN110901656A (zh) * 2018-09-17 2020-03-24 长城汽车股份有限公司 用于自动驾驶车辆控制的实验设计方法和系统
CN110969848A (zh) * 2019-11-26 2020-04-07 武汉理工大学 一种对向双车道下基于强化学习的自动驾驶超车决策方法
US10620631B1 (en) * 2017-12-29 2020-04-14 Apex Artificial Intelligence Industries, Inc. Self-correcting controller systems and methods of limiting the operation of neural networks to be within one or more conditions
CN111605565A (zh) * 2020-05-08 2020-09-01 昆山小眼探索信息科技有限公司 基于深度强化学习的自动驾驶行为决策方法
CN111674345A (zh) * 2020-05-29 2020-09-18 东风汽车集团有限公司 一种适用于高度自动驾驶的网络电气结构
CN111752269A (zh) * 2020-06-30 2020-10-09 东风商用车有限公司 自动驾驶控制器和整车控制器的交互系统及方法
CN111845773A (zh) * 2020-07-06 2020-10-30 北京邮电大学 基于强化学习的自动驾驶车辆微观决策方法
CN111985614A (zh) * 2020-07-23 2020-11-24 中国科学院计算技术研究所 一种构建自动驾驶决策系统的方法、系统和介质
CN112009467A (zh) * 2019-05-30 2020-12-01 罗伯特·博世有限公司 用于自动驾驶系统的冗余环境感知跟踪
CN112201069A (zh) * 2020-09-25 2021-01-08 厦门大学 基于深度强化学习的驾驶员纵向跟车行为模型构建方法
CN112749729A (zh) * 2019-10-31 2021-05-04 辉达公司 基于比较模型参数的精度训练机器学习模型的处理器和系统
CN112840350A (zh) * 2018-10-16 2021-05-25 法弗人工智能有限公司 自动驾驶车辆规划和预测
CN112965499A (zh) * 2021-03-08 2021-06-15 哈尔滨工业大学(深圳) 基于注意力模型和深度强化学习的无人车行驶决策方法
CN113044064A (zh) * 2021-04-01 2021-06-29 南京大学 基于元强化学习的车辆自适应的自动驾驶决策方法及系统

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10459441B2 (en) * 2016-12-30 2019-10-29 Baidu Usa Llc Method and system for operating autonomous driving vehicles based on motion plans
EP3575172A1 (en) * 2018-05-31 2019-12-04 Visteon Global Technologies, Inc. Adaptive longitudinal control using reinforcement learning
US10747224B2 (en) * 2018-06-19 2020-08-18 Toyota Research Institute, Inc. Debugging an autonomous driving machine learning model

Patent Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10620631B1 (en) * 2017-12-29 2020-04-14 Apex Artificial Intelligence Industries, Inc. Self-correcting controller systems and methods of limiting the operation of neural networks to be within one or more conditions
CN109213148A (zh) * 2018-08-03 2019-01-15 东南大学 一种基于深度强化学习的车辆低速跟驰决策方法
CN110901656A (zh) * 2018-09-17 2020-03-24 长城汽车股份有限公司 用于自动驾驶车辆控制的实验设计方法和系统
CN112840350A (zh) * 2018-10-16 2021-05-25 法弗人工智能有限公司 自动驾驶车辆规划和预测
CN112009467A (zh) * 2019-05-30 2020-12-01 罗伯特·博世有限公司 用于自动驾驶系统的冗余环境感知跟踪
CN110322017A (zh) * 2019-08-13 2019-10-11 吉林大学 基于深度强化学习的自动驾驶智能车轨迹跟踪控制策略
CN112749729A (zh) * 2019-10-31 2021-05-04 辉达公司 基于比较模型参数的精度训练机器学习模型的处理器和系统
CN110969848A (zh) * 2019-11-26 2020-04-07 武汉理工大学 一种对向双车道下基于强化学习的自动驾驶超车决策方法
CN111605565A (zh) * 2020-05-08 2020-09-01 昆山小眼探索信息科技有限公司 基于深度强化学习的自动驾驶行为决策方法
CN111674345A (zh) * 2020-05-29 2020-09-18 东风汽车集团有限公司 一种适用于高度自动驾驶的网络电气结构
CN111752269A (zh) * 2020-06-30 2020-10-09 东风商用车有限公司 自动驾驶控制器和整车控制器的交互系统及方法
CN111845773A (zh) * 2020-07-06 2020-10-30 北京邮电大学 基于强化学习的自动驾驶车辆微观决策方法
CN111985614A (zh) * 2020-07-23 2020-11-24 中国科学院计算技术研究所 一种构建自动驾驶决策系统的方法、系统和介质
CN112201069A (zh) * 2020-09-25 2021-01-08 厦门大学 基于深度强化学习的驾驶员纵向跟车行为模型构建方法
CN112965499A (zh) * 2021-03-08 2021-06-15 哈尔滨工业大学(深圳) 基于注意力模型和深度强化学习的无人车行驶决策方法
CN113044064A (zh) * 2021-04-01 2021-06-29 南京大学 基于元强化学习的车辆自适应的自动驾驶决策方法及系统

Also Published As

Publication number Publication date
CN113501008A (zh) 2021-10-15

Similar Documents

Publication Publication Date Title
CN111046919B (zh) 一种融合行为意图的周围动态车辆轨迹预测系统及方法
CN113501008B (zh) 一种基于强化学习算法的自动驾驶行为决策方法
Zhang et al. Query-efficient imitation learning for end-to-end simulated driving
CN110834644B (zh) 一种车辆控制方法、装置、待控制车辆及存储介质
US11584379B2 (en) System and method for learning naturalistic driving behavior based on vehicle dynamic data
CN113291308B (zh) 一种考虑驾驶行为特性的车辆自学习换道决策系统及方法
CN110406530B (zh) 一种自动驾驶方法、装置、设备和车辆
CN115516464A (zh) 通过停放的车辆的处理能力进行的ann训练
US20200114924A1 (en) System and method for utilizing a temporal recurrent network for online action detection
CN111845773B (zh) 基于强化学习的自动驾驶车辆微观决策方法
CN112965499A (zh) 基于注意力模型和深度强化学习的无人车行驶决策方法
CN111267846A (zh) 一种基于博弈论的周围车辆交互行为预测方法
CN110843789A (zh) 一种基于时序卷积网络的车辆换道意图预测方法
US11465611B2 (en) Autonomous vehicle behavior synchronization
CN113722835B (zh) 拟人化随机换道驾驶行为建模方法
CN115257745A (zh) 一种基于规则融合强化学习的自动驾驶换道决策控制方法
CN115179959A (zh) 基于行驶道路自适应更新阈值的智能驾驶车辆行为预测方法
CN114035575B (zh) 基于语义分割的无人驾驶车辆运动规划方法及系统
CN115257746A (zh) 一种考虑不确定性的自动驾驶汽车换道决策控制方法
CN114559959A (zh) 一种基于驾驶偏好的自动驾驶行为决策系统及方法
CN111753371B (zh) 一种车身控制网络模型的训练方法、系统、终端和存储介质
CN111754816B (zh) 一种移动物体意图识别装置、方法、系统、终端和介质
CN112896166A (zh) 车辆换道方法、装置和电子设备
CN115034281A (zh) 一种基于RoboSim的自动驾驶行为决策模型的构建方法
CN112977477B (zh) 一种基于神经网络的混合车车协同汇流系统和方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant