CN109213148A - 一种基于深度强化学习的车辆低速跟驰决策方法 - Google Patents

一种基于深度强化学习的车辆低速跟驰决策方法 Download PDF

Info

Publication number
CN109213148A
CN109213148A CN201810875924.4A CN201810875924A CN109213148A CN 109213148 A CN109213148 A CN 109213148A CN 201810875924 A CN201810875924 A CN 201810875924A CN 109213148 A CN109213148 A CN 109213148A
Authority
CN
China
Prior art keywords
vehicle
unmanned vehicle
low speed
speeding
decision
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810875924.4A
Other languages
English (en)
Other versions
CN109213148B (zh
Inventor
孙立博
秦文虎
翟金凤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN201810875924.4A priority Critical patent/CN109213148B/zh
Publication of CN109213148A publication Critical patent/CN109213148A/zh
Application granted granted Critical
Publication of CN109213148B publication Critical patent/CN109213148B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0223Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving speed control of the vehicle
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0214Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory in accordance with safety or protection criteria, e.g. avoiding hazardous areas
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0221Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0276Control of position or course in two dimensions specially adapted to land vehicles using signals provided by a source external to the vehicle

Landscapes

  • Engineering & Computer Science (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Traffic Control Systems (AREA)

Abstract

本发明公开了一种基于深度强化学习的车辆低速跟驰决策方法,所述方法通过以下方式实现:首先通过车联网实时接收前方车辆和后方车辆的位置、速度、加速度信息,作为环境状态,对无人车的当前状态和行为进行表达,然后构建基于Actor‑Critic框架的深度强化学习结构,最后Actor根据当前环境状态选择合适动作,并通过Critic给出的评价不断进行训练学习,从而获取最优控制策略,使得无人车能够与前方车辆以及后方车辆保持一定的安全距离,在城市拥堵工况下实现车辆低速自动跟踪前车行驶。本发明提出的基于深度强化学习的车辆低速跟驰决策方法不仅提高了驾驶的舒适性,而且保证了交通的安全性,更提高了拥堵车道的畅通率。

Description

一种基于深度强化学习的车辆低速跟驰决策方法
技术领域
本发明涉及汽车自动驾驶领域,特别是涉及一种基于深度强化学习的车辆低速跟驰决策方法。
背景技术
随着城市和交通的发展,很多城市早晚高峰主要路段经常出现交通拥堵现象,在车辆拥堵路段时人们的驾驶行为主要是走走停停的状态,长时间在拥堵路段驾驶会造成驾驶员心情烦躁和驾驶疲劳,从而出现疏忽或过激驾驶行为,导致擦碰、追尾等交通事故,进一步加重城市道路交通拥堵,给人们驾车出行带来很大不便。
现有的基于高级辅助驾驶技术的车辆跟驰技术主要是根据前后车距离和基于车辆动力学模型构建车辆跟驰决策模型,提醒驾驶员实施加速或减速驾驶行为。这种决策模型只能定性地提醒驾驶员是加速还是减速驾驶行为,对加速和减速的程度还是需要驾驶员自身判断,同时这种方式还不能够将驾驶员从高频度重复的驾驶操作中解放出来。自动驾驶技术能实现车辆的无人驾驶,解放驾驶员的劳动强度,但目前基于自动驾驶的车辆跟驰决策还不能拟人化地重现人类驾驶员的跟驰过程。因此,研究基于自动驾驶的拟人化的车辆低速跟驰决策方法能真正将驾驶员在拥堵路况下的操作解放出来,并提高驾驶舒适性和交通安全性。
车辆跟驰模型的发展已有60多年,并出现了很多知名的模型,如GM模型,安全距离模型,线性模型,Wiedemann模型,模糊推理模型,元胞自动机模型等。
GM模型是典型的“刺激-反应”模型。该模型的刺激来源由随时间变化的和灵敏度常数组成,灵敏度常数的评估数据由英国Mersey隧道的实验得到。该模型常被用于宏观交通流仿真中。
安全距离模型也称为防撞模型,根据前导车和后随车的实时速度来计算安全跟驰距离,后车驾驶员的行为是保持安全跟驰距离。该模型在交通仿真软件中有广泛的应用,如英国的SISTM,美国的VARSIM。但实际驾驶中,驾驶员很难按照安全距离行驶。
线性模型是一种考虑驾驶员行为决策过程的模型,包括自适应加速度随前车行驶状态的变化,并考虑驾驶员反应时间对决策的影响,通过期望时距公式来实现。该模型随着速度和车辆的不同而变化,很难应用到实际中。
Wiedemann模型是一种心理-生理模型。基于不同驾驶员可能对同一个刺激产生不同的反应,该模型定义了四种驾驶状态下的人的感知和反应:自由驾驶、接近驾驶、跟随模式和制动模式。这种模型受个体因素影响很大,很难校验。
模糊推理模型的输入量是前后车的相对车距和相对车速,输出为后车的加减速度,推理主要由模糊推理构成,该模型减小了前后车距达到安全车距时的振荡及相对速度的振荡。
元胞自动机模型是把交通道路描述为大小相同的元胞网格,使用一些规则来控制车辆在元胞之间的移动。元胞的运动在空间和时间上是离散的,这种方法主要用于交通仿真中,与实际环境中的驾驶有较大差距。
专利[CN 107145936]一种基于强化学习的车辆跟驰模型建立方法,主要是通过创建Q值网络,根据车辆执行动作计算长期回报,更新Q值网络权重,不断迭代到最大回合数。通过不断对环境进行探索和对已经学到的经验进行利用,最终得到一个无须驾驶数据驱动的无人汽车跟驰模型。
发明内容
为解决以上问题,本发明提供一种基于深度强化学习的车辆低速跟驰决策方法,该方法不仅提高了驾驶的舒适性,而且保证了交通的安全性,更提高了拥堵车道的畅通率,一种基于深度强化学习的车辆低速跟驰决策方法包括步骤如下,其特征在于:
(1)通过车联网实时接收前方车辆和后方车辆的位置、速度、加速度信息,作为环境状态,对无人车的当前状态和行为进行表达;
(2)构建基于Actor-Critic框架的深度强化学习结构,该结构以环境状态、无人车的当前状态作为输入,无人车的加速度作为输出;
(3)对深度强化学习结构中的Actor网络和Critic网络的参数进行训练,并对Critic网络参数θv和Actor网络参数θμ进行更新,多次训练完成后,无人车能够与前方车辆以及后方车辆保持一定的安全距离,在城市拥堵工况下实现车辆低速自动跟踪前车行驶。
进一步的,所述步骤一中通过车联网实时接收前方车辆和后方车辆的位置、速度、加速度信息,作为环境状态,对无人车的当前状态和行为进行表达,包括:
(1.1)通过车联网实时接收的前方三辆车的位置、速度、加速度信息表示为xf1、vf1、af1、xf2、vf2、af2、xf3、vf3、af3,其中,f1为无人车前方距离最近的一辆车,f2、f3依次类推;后方车辆的位置、速度、加速度信息表示为xr、vr、ar
(1.2)将环境状态表达为E(xf1,vf1,af1,xf2,vf2,af2,xf3,vf3,af3,xr,vr,ar);
(1.3)将无人车的当前状态表达为C(x,v),其中,x为无人车当前状态下的位置,v为无人车当前状态下的速度;将无人车的行为表达为A(a),a为无人车行驶的加速度,为更加真实地模拟低速跟驰下的无人车行为,a需满足-3≤θa≤3,且加速度之间取值连续,单位为m/s2
进一步的,所述步骤二中构建基于Actor-Critic框架的深度强化学习结构,该结构以环境状态、无人车的当前状态作为输入,无人车的加速度作为输出,包括:
(2.1)分别为Actor和Critic构建结构相同的包括m层的深度卷积神经网络,该网络由一维卷积层、全连接层和输出层组成;
(2.2)环境状态和无人车的当前状态首先通过一维卷积层获得一个中间特征向量,然后再通过若干次全连接层的变换,最后输出无人车的行为。
进一步的,所述步骤三中对深度强化学习结构中的Actor网络和Critic网络的参数进行训练,包括步骤:
(3.1)Actor根据当前环境状态s选择合适动作a,在通过计算回报函数获得奖励r后,状态从s转移到s′,将s,a,r,s′组合为一个元组τ=(s,a,r,s′),并将其存放在经验回放池D中,其中,奖励r由无人车与前方三辆车的间距xf1-x、xf2-x、xf3-x、无人车与后方车辆的间距x-xr以及无人车的加速度a共同决定;
(3.2)无人车采用步骤(3.1)的方式低速跟驰,直至达到指定步数T;
(3.3)更新Critic网络参数θv
(3.4)更新Actor网络参数θμ
(3.5)重复步骤(3.1)至步骤(3.4),直到迭代达到最大步数或损失值小于给定阈值;
进一步的,所述步骤三中更新Critic网络参数θv,包括步骤:
(4.1)从经验回放池D中随机采样n个元组τi=(si,ai,ri,s′i);
(4.2)对每个τi,计算yi=ri+γV(s′iv);
(4.3)更新θv,即
进一步的,所述步骤三中更新Actor网络参数θμ,包括步骤:
(5.1)从经验回放池D中随机采样n个元组τj=(sj,aj,rj,s′j);
(5.2)对每个τj,计算δj=rj+γV(s′jv)-V(siv);
(5.3)更新θμ,即
本发明的优点主要体现在:
1、本发明的一种基于深度强化学习的车辆低速跟驰决策方法不仅不受应用场景和环境因素的限制,而且不需要预先设定参数和提供驾驶数据,因此,该方法具有较强的通用性和灵活性。
2、本发明的一种基于深度强化学习的车辆低速跟驰决策方法解决了传统的强化学习状态和动作空间必须离散的问题,不仅提高了跟驰行为的逼真性,而且提高了驾驶舒适性和交通安全性。
附图说明
图1为本发明的一种基于深度强化学习的车辆低速跟驰决策方法的框架图;
图2为本发明实施例中基于Actor-Critic框架的深度强化学习结构;
图3为本发明对深度强化学习结构中的Actor网络和Critic网络的参数进行训练的流程图。
具体实施方式
下面结合附图与具体实施方式对本发明作进一步详细描述:
本发明提供一种基于深度强化学习的车辆低速跟驰决策方法,基于深度强化学习的车辆低速跟驰决策方法不仅提高了驾驶的舒适性,而且保证了交通的安全性,更提高了拥堵车道的畅通率
在本实施例中,如图1所示的框架图给出了本实施例的具体过程:
步骤101、通过车联网实时接收前方车辆和后方车辆的位置、速度、加速度信息,作为环境状态,对无人车的当前状态和行为进行表达,具体包括:
(1)通过车联网实时接收的前方三辆车的位置、速度、加速度信息表示为xf1、vf1、af1、xf2、vf2、af2、xf3、vf3、af3,其中,f1为无人车前方距离最近的一辆车,f2、f3依次类推;后方车辆的位置、速度、加速度信息表示为xr、vr、ar
(2)将环境状态表达为E(xf1,vf1,af1,xf2,vf2,af2,xf3,vf3,af3,xr,vr,ar);
(3)将无人车的当前状态表达为C(x,v),其中,x为无人车当前状态下的位置,v为无人车当前状态下的速度;将无人车的行为表达为A(a),a为无人车行驶的加速度,为更加真实地模拟低速跟驰下的无人车行为,a需满足-3≤θa≤3,且加速度之间取值连续,单位为m/s2
步骤102、如图2所示,构建基于Actor-Critic框架的深度强化学习结构,该结构以环境状态、无人车的当前状态作为输入,无人车的加速度作为输出,具体包括:
(1)分别为Actor和Critic构建结构相同的包括4层的深度卷积神经网络,该网络由1个卷积层、2个全连接层和输出层组成,前3层的激活函数均为Relu函数,其表达式为f(x)=max(0,x);
(2)环境状态和无人车的当前状态首先通过卷积核为5×1的卷积层获得一个中间特征向量,然后再通过两个节点数分别16和8的全连接层的变换,输出无人车的行为。
步骤103、对深度强化学习结构中的Actor网络和Critic网络的参数进行训练,如图3所示,具体步骤包括:
(1)Actor根据当前环境状态s选择合适动作a,在通过计算回报函数获得奖励r后,状态从s转移到s′,将s,a,r,s′组合为一个元组τ=(s,a,r,s′),并将其存放在经验回放池D中,其中,奖励r由无人车与前方车辆的间距xf1-x、xf2-x、xf3-x、无人车与后方车辆的间距x-xr以及无人车的加速度a共同决定,
其中,由于较近的车辆对无人车的行驶影响较大,所以需满足w1>w2>w3,同时满足
(2)无人车采用步骤(3.1)的方式低速跟驰,直至达到指定步数T;
(3)更新Critic网络参数θv
(4)更新Actor网络参数θμ
(5)重复步骤(3)至步骤(4),直到迭代达到最大步数或损失值小于给定阈值。
具体地,步骤(3)更新Critic网络参数θv,包括步骤:
(1)从经验回放池D中随机采样n个元组τi=(si,ai,ri,s′i);
(2)对每个τi,计算yi=ri+γV(s′iv);
(3)更新θv,即
具体地,步骤(4)更新Actor网络参数θμ,包括步骤:
(5.1)从经验回放池D中随机采样n个元组τj=(sj,aj,rj,s′j);
(5.2)对每个τj,计算δj=rj+γV(s′jv)-V(siv);
(5.3)更新θμ,即
以上所述,仅是本发明的较佳实施例而已,并非是对本发明作任何其他形式的限制,
而依据本发明的技术实质所作的任何修改或等同变化,仍属于本发明所要求保护的范围。

Claims (6)

1.一种基于深度强化学习的车辆低速跟驰决策方法,该算法包括步骤如下,其特征在于:
(1)通过车联网实时接收前方车辆和后方车辆的位置、速度、加速度信息,作为环境状态,对无人车的当前状态和行为进行表达;
(2)构建基于Actor-Critic框架的深度强化学习结构,该结构以环境状态、无人车的当前状态作为输入,无人车的加速度作为输出;
(3)对深度强化学习结构中的Actor网络和Critic网络的参数进行训练,并对Critic网络参数θv和Actor网络参数θμ进行更新,多次训练完成后,无人车能够与前方车辆以及后方车辆保持一定的安全距离,在城市拥堵工况下实现车辆低速自动跟踪前车行驶。
2.根据权利要求1所述的一种基于深度强化学习的车辆低速跟驰决策方法,其特征在于:步骤一中通过车联网实时接收前方车辆和后方车辆的位置、速度、加速度信息,作为环境状态,对无人车的当前状态和行为进行表达,包括:
(1.1)通过车联网实时接收的前方三辆车的位置、速度、加速度信息表示为xf1、vf1、af1、xf2、vf2、af2、xf3、vf3、af3,其中,f1为无人车前方距离最近的一辆车,f2、f3依次类推;后方车辆的位置、速度、加速度信息表示为xr、vr、ar
(1.2)将环境状态表达为E(xf1,vf1,af1,xf2,vf2,af2,xf3,vf3,af3,xr,vr,ar);
(1.3)将无人车的当前状态表达为C(x,v),其中,x为无人车当前状态下的位置,v为无人车当前状态下的速度;将无人车的行为表达为A(a),a为无人车行驶的加速度,为更加真实地模拟低速跟驰下的无人车行为,a需满足-3≤θa≤3,且加速度之间取值连续,单位为m/s2
3.根据权利要求1所述的一种基于深度强化学习的车辆低速跟驰决策方法,其特征在于:步骤二中构建基于Actor-Critic框架的深度强化学习结构,该结构以环境状态、无人车的当前状态作为输入,无人车的加速度作为输出,包括:
(2.1)分别为Actor和Critic构建结构相同的包括m层的深度卷积神经网络,该网络由一维卷积层、全连接层和输出层组成;
(2.2)环境状态和无人车的当前状态首先通过一维卷积层获得一个中间特征向量,然后再通过若干次全连接层的变换,最后输出无人车的行为。
4.根据权利要求1所述的一种基于深度强化学习的车辆低速跟驰决策方法,其特征在于:步骤三中对深度强化学习结构中的Actor网络和Critic网络的参数进行训练,包括步骤:
(3.1)Actor根据当前环境状态s选择合适动作a,在通过计算回报函数获得奖励r后,状态从s转移到s′,将s,a,r,s′组合为一个元组τ=(s,a,r,s′),并将其存放在经验回放池D中,其中,奖励r由无人车与前方三辆车的间距xf1-x、xf2-x、xf3-x、无人车与后方车辆的间距x-xr以及无人车的加速度a共同决定;
(3.2)无人车采用步骤(3.1)的方式低速跟驰,直至达到指定步数T;
(3.3)更新Critic网络参数θv
(3.4)更新Actor网络参数θμ
(3.5)重复步骤(3.1)至步骤(3.4),直到迭代达到最大步数或损失值小于给定阈值。
5.根据权利要求1所述的一种基于深度强化学习的车辆低速跟驰决策方法,其特征在于:步骤三中更新Critic网络参数θv,包括步骤:
(4.1)从经验回放池D中随机采样n个元组τi=(si,ai,ri,s′i);
(4.2)对每个τi,计算yi=ri+γV(s′iv);
(4.3)更新θv,即
6.根据权利要求1所述的一种基于深度强化学习的车辆低速跟驰决策方法,其特征在于:步骤三中更新Actor网络参数θμ,包括步骤:
(5.1)从经验回放池D中随机采样n个元组τj=(sj,aj,rj,s′j);
(5.2)对每个τj,计算δj=rj+γV(s′jv)-V(siv);
(5.3)更新θμ,即
CN201810875924.4A 2018-08-03 2018-08-03 一种基于深度强化学习的车辆低速跟驰决策方法 Active CN109213148B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810875924.4A CN109213148B (zh) 2018-08-03 2018-08-03 一种基于深度强化学习的车辆低速跟驰决策方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810875924.4A CN109213148B (zh) 2018-08-03 2018-08-03 一种基于深度强化学习的车辆低速跟驰决策方法

Publications (2)

Publication Number Publication Date
CN109213148A true CN109213148A (zh) 2019-01-15
CN109213148B CN109213148B (zh) 2021-05-28

Family

ID=64988601

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810875924.4A Active CN109213148B (zh) 2018-08-03 2018-08-03 一种基于深度强化学习的车辆低速跟驰决策方法

Country Status (1)

Country Link
CN (1) CN109213148B (zh)

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110347043A (zh) * 2019-07-15 2019-10-18 武汉天喻信息产业股份有限公司 一种智能驾驶控制方法及装置
CN110750877A (zh) * 2019-09-27 2020-02-04 西安理工大学 一种Apollo平台下的车辆跟驰行为预测方法
CN110816531A (zh) * 2019-11-22 2020-02-21 辽宁工业大学 一种无人驾驶汽车车辆间安全距离的控制系统及控制方法
CN110989576A (zh) * 2019-11-14 2020-04-10 北京理工大学 速差滑移转向车辆的目标跟随及动态障碍物避障控制方法
CN111311945A (zh) * 2020-02-20 2020-06-19 南京航空航天大学 一种融合视觉和传感器信息的驾驶决策系统及方法
CN111338353A (zh) * 2020-03-26 2020-06-26 吉林大学 一种动态驾驶环境下智能车辆变道轨迹规划方法
CN111605565A (zh) * 2020-05-08 2020-09-01 昆山小眼探索信息科技有限公司 基于深度强化学习的自动驾驶行为决策方法
CN111679577A (zh) * 2020-05-27 2020-09-18 北京交通大学 一种高速列车的速度跟踪控制方法和自动驾驶控制系统
CN111845773A (zh) * 2020-07-06 2020-10-30 北京邮电大学 基于强化学习的自动驾驶车辆微观决策方法
CN112172813A (zh) * 2020-10-14 2021-01-05 长安大学 基于深度逆强化学习的模拟驾驶风格的跟车系统及方法
CN112201069A (zh) * 2020-09-25 2021-01-08 厦门大学 基于深度强化学习的驾驶员纵向跟车行为模型构建方法
CN112580148A (zh) * 2020-12-20 2021-03-30 东南大学 基于深度强化学习的重型营运车辆防侧翻驾驶决策方法
CN113104050A (zh) * 2021-04-07 2021-07-13 天津理工大学 一种基于深度强化学习的无人驾驶端到端决策方法
CN113156961A (zh) * 2021-04-28 2021-07-23 广州极飞科技股份有限公司 驾驶控制模型训练方法、驾驶控制方法及相关装置
CN113386790A (zh) * 2021-06-09 2021-09-14 扬州大学 一种面向跨海大桥路况的自动驾驶决策方法
CN113501008A (zh) * 2021-08-12 2021-10-15 东风悦享科技有限公司 一种基于强化学习算法的自动驾驶行为决策方法
CN113553934A (zh) * 2021-07-19 2021-10-26 吉林大学 基于深度强化学习的地面无人车智能决策方法及系统
CN113885497A (zh) * 2021-09-30 2022-01-04 湘潭大学 一种基于竞争深度q网络的车辆纵向动力学标定方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107886750A (zh) * 2017-10-24 2018-04-06 北京邮电大学 一种基于超视距协同认知的无人驾驶汽车控制方法与系统

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107886750A (zh) * 2017-10-24 2018-04-06 北京邮电大学 一种基于超视距协同认知的无人驾驶汽车控制方法与系统

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
ZHEN NI 等: "An Online Actor-Critic Learning Approach with", 《PROCEEDINGS OF INTERNATIONAL JOINT CONFERENCE ON NEURAL NETWORKS》 *
刘春明: "基于增强学习和车辆动力学的高速公路自主", 《中国博士学位论文全文数据库 基础科学辑》 *
曹诗雨 等: "基于 Fast R-CNN 的车辆目标检测", 《中国图像图形学报》 *
韩向敏等: "一种基于深度强化学习的自适应巡航控制算法", 《计算机工程》 *

Cited By (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110347043B (zh) * 2019-07-15 2023-03-10 武汉天喻信息产业股份有限公司 一种智能驾驶控制方法及装置
CN110347043A (zh) * 2019-07-15 2019-10-18 武汉天喻信息产业股份有限公司 一种智能驾驶控制方法及装置
CN110750877A (zh) * 2019-09-27 2020-02-04 西安理工大学 一种Apollo平台下的车辆跟驰行为预测方法
CN110750877B (zh) * 2019-09-27 2024-05-03 西安理工大学 一种Apollo平台下的车辆跟驰行为预测方法
CN110989576A (zh) * 2019-11-14 2020-04-10 北京理工大学 速差滑移转向车辆的目标跟随及动态障碍物避障控制方法
CN110989576B (zh) * 2019-11-14 2022-07-12 北京理工大学 速差滑移转向车辆的目标跟随及动态障碍物避障控制方法
CN110816531B (zh) * 2019-11-22 2020-12-04 辽宁工业大学 一种无人驾驶汽车车辆间安全距离的控制系统及控制方法
CN110816531A (zh) * 2019-11-22 2020-02-21 辽宁工业大学 一种无人驾驶汽车车辆间安全距离的控制系统及控制方法
CN111311945A (zh) * 2020-02-20 2020-06-19 南京航空航天大学 一种融合视觉和传感器信息的驾驶决策系统及方法
CN111338353A (zh) * 2020-03-26 2020-06-26 吉林大学 一种动态驾驶环境下智能车辆变道轨迹规划方法
CN111605565A (zh) * 2020-05-08 2020-09-01 昆山小眼探索信息科技有限公司 基于深度强化学习的自动驾驶行为决策方法
CN111679577A (zh) * 2020-05-27 2020-09-18 北京交通大学 一种高速列车的速度跟踪控制方法和自动驾驶控制系统
CN111679577B (zh) * 2020-05-27 2021-11-05 北京交通大学 一种高速列车的速度跟踪控制方法和自动驾驶控制系统
CN111845773A (zh) * 2020-07-06 2020-10-30 北京邮电大学 基于强化学习的自动驾驶车辆微观决策方法
CN111845773B (zh) * 2020-07-06 2021-10-26 北京邮电大学 基于强化学习的自动驾驶车辆微观决策方法
CN112201069A (zh) * 2020-09-25 2021-01-08 厦门大学 基于深度强化学习的驾驶员纵向跟车行为模型构建方法
CN112201069B (zh) * 2020-09-25 2021-10-29 厦门大学 基于深度强化学习的驾驶员纵向跟车行为模型构建方法
CN112172813A (zh) * 2020-10-14 2021-01-05 长安大学 基于深度逆强化学习的模拟驾驶风格的跟车系统及方法
CN112580148A (zh) * 2020-12-20 2021-03-30 东南大学 基于深度强化学习的重型营运车辆防侧翻驾驶决策方法
CN113104050A (zh) * 2021-04-07 2021-07-13 天津理工大学 一种基于深度强化学习的无人驾驶端到端决策方法
CN113104050B (zh) * 2021-04-07 2022-04-12 天津理工大学 一种基于深度强化学习的无人驾驶端到端决策方法
CN113156961A (zh) * 2021-04-28 2021-07-23 广州极飞科技股份有限公司 驾驶控制模型训练方法、驾驶控制方法及相关装置
CN113156961B (zh) * 2021-04-28 2024-04-12 广州极飞科技股份有限公司 驾驶控制模型训练方法、驾驶控制方法及相关装置
CN113386790A (zh) * 2021-06-09 2021-09-14 扬州大学 一种面向跨海大桥路况的自动驾驶决策方法
CN113553934A (zh) * 2021-07-19 2021-10-26 吉林大学 基于深度强化学习的地面无人车智能决策方法及系统
CN113553934B (zh) * 2021-07-19 2024-02-20 吉林大学 基于深度强化学习的地面无人车智能决策方法及系统
CN113501008A (zh) * 2021-08-12 2021-10-15 东风悦享科技有限公司 一种基于强化学习算法的自动驾驶行为决策方法
CN113501008B (zh) * 2021-08-12 2023-05-19 东风悦享科技有限公司 一种基于强化学习算法的自动驾驶行为决策方法
CN113885497A (zh) * 2021-09-30 2022-01-04 湘潭大学 一种基于竞争深度q网络的车辆纵向动力学标定方法

Also Published As

Publication number Publication date
CN109213148B (zh) 2021-05-28

Similar Documents

Publication Publication Date Title
CN109213148A (zh) 一种基于深度强化学习的车辆低速跟驰决策方法
CN103324085B (zh) 基于监督式强化学习的最优控制方法
CN109733415B (zh) 一种基于深度强化学习的拟人化自动驾驶跟驰模型
Bai et al. Hybrid reinforcement learning-based eco-driving strategy for connected and automated vehicles at signalized intersections
CN114495527B (zh) 一种混合交通环境下网联交叉口车路协同优化方法及系统
CN110750877A (zh) 一种Apollo平台下的车辆跟驰行为预测方法
CN113781806A (zh) 一种用于智能网联环境下的混合交通流通行方法
CN111267830B (zh) 一种混合动力公交车能量管理方法、设备和存储介质
CN111625989B (zh) 一种基于a3c-sru的智能车汇入车流方法及系统
CN110956851B (zh) 一种智能网联汽车协同调度换道方法
CN114973650B (zh) 车辆匝道入口合流控制方法、车辆、电子设备及存储介质
CN110182217A (zh) 一种面向复杂超车场景的行驶任务复杂度量化评估方法
CN115257819A (zh) 城市低速环境下的大型营运车辆安全驾驶决策方法
CN114802306A (zh) 一种基于人机共驾理念的智能车辆集成式决策系统
CN115257789A (zh) 城市低速环境下的营运车辆侧向防撞驾驶决策方法
CN117227755A (zh) 基于强化学习的复杂交通场景下自动驾驶决策方法及系统
CN115123159A (zh) 一种基于ddpg深度强化学习的aeb控制方法及系统
CN114023108A (zh) 一种混合交通流变道模型及变道仿真方法
Shi et al. Efficient Lane-changing Behavior Planning via Reinforcement Learning with Imitation Learning Initialization
CN115973179A (zh) 模型训练方法、车辆控制方法、装置、电子设备及车辆
CN116432454A (zh) 基于性格选择的自动驾驶汽车决策规划方法
Tang et al. Research on decision-making of lane-changing of automated vehicles in highway confluence area based on deep reinforcement learning
Shen et al. Collaborative optimisation of lane change decision and trajectory based on double-layer deep reinforcement learning
Zhang et al. Enhancement of driving strategy of electric vehicle by consideration of individual driver intention
CN115273501B (zh) 一种基于maddpg的自动驾驶车辆匝道合流协同控制方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant