CN111275249A - 基于dqn神经网络和高精度定位的驾驶行为优化方法 - Google Patents
基于dqn神经网络和高精度定位的驾驶行为优化方法 Download PDFInfo
- Publication number
- CN111275249A CN111275249A CN202010043096.5A CN202010043096A CN111275249A CN 111275249 A CN111275249 A CN 111275249A CN 202010043096 A CN202010043096 A CN 202010043096A CN 111275249 A CN111275249 A CN 111275249A
- Authority
- CN
- China
- Prior art keywords
- neural network
- data
- dqn
- dqn neural
- action
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 96
- 238000000034 method Methods 0.000 title claims abstract description 38
- 238000005457 optimization Methods 0.000 title claims abstract description 30
- 230000009471 action Effects 0.000 claims abstract description 76
- 230000006399 behavior Effects 0.000 claims abstract description 42
- 238000012549 training Methods 0.000 claims abstract description 27
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 18
- 238000012545 processing Methods 0.000 claims abstract description 11
- 238000007781 pre-processing Methods 0.000 claims abstract description 4
- 230000006870 function Effects 0.000 claims description 64
- 230000008859 change Effects 0.000 claims description 28
- 230000001133 acceleration Effects 0.000 claims description 26
- 238000011156 evaluation Methods 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 7
- 230000008569 process Effects 0.000 claims description 7
- 238000005516 engineering process Methods 0.000 claims description 6
- 230000003993 interaction Effects 0.000 claims description 5
- 239000011159 matrix material Substances 0.000 claims description 5
- 230000000670 limiting effect Effects 0.000 claims description 4
- 238000005259 measurement Methods 0.000 claims description 3
- 230000007704 transition Effects 0.000 claims description 3
- 230000002787 reinforcement Effects 0.000 description 8
- 230000008901 benefit Effects 0.000 description 3
- 230000008447 perception Effects 0.000 description 3
- 206010039203 Road traffic accident Diseases 0.000 description 2
- 238000013480 data collection Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000000630 rising effect Effects 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Game Theory and Decision Science (AREA)
- Development Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Traffic Control Systems (AREA)
Abstract
本发明提供了一种基于DQN神经网络和高精度定位的驾驶行为优化方法,包括以下步骤:获取无人车驾驶时观测环境所得到的数据;对获取的所述数据进行预处理,以过滤所述数据中与车辆驾驶行为无关的噪音;基于DQN神经网络,对预处理后的一部分所述数据利用卷积神经网络进行处理,处理后同另一部分所述数据使用全连接网络进行拼接,以确定所述DQN神经网络架构;根据确定的所述DQN神经网络进行所述DQN神经网络训练和计算,得出车辆的目标奖励惩罚值,选取所述目标奖励惩罚值最大的动作并执行。本发明的驾驶行为优化方法,采用DQN神经网络学习得出的目标奖励惩罚值最大的动作并执行,能够最大化地提高车辆行驶的安全性的舒适性。
Description
技术领域
本发明涉及无人驾驶技术领域,特别是涉及一种基于DQN(Deep Q Network的简称,中文名称:深度强化学习网路)神经网络和高精度定位的驾驶行为优化方法。
背景技术
随着汽车工业的发展和人民生活水平的提高,汽车的保有量呈现出逐年上涨的趋势。汽车给人们出行带来极大便利的同时,交通事故的发生也是不断的攀升。而导致交通事故的罪魁祸首就是驾驶员自己的驾驶行为,例如弯道超车、变道不打转向灯、见缝插针、行车安全车距保持不够、疲劳驾驶等等。可见,驾驶行为的研究对于汽车的安全性起着至关重要的作用。
从被动安全到主动安全再到智能网联无人驾驶的技术发展中,汽车行驶的安全性得到了长足的发展。在无人驾驶的技术中,摄像头和激光雷达取代了人眼,机器学习和神经网络则取代了人的大脑。
现有的无人驾驶技术中,一般采用传统的安全自动驾驶框架(感知、规划和控制),无法拥有独立自主的学习道路行驶的能力,很多驾驶行为评估仅仅使用几个关键的车辆行驶参数(例如速度、加速、制动和转弯等)作为算法的输入,不能根据天气、道路情况等不同行驶环境采用不同的形式策略。而且现有的无人驾驶技术中,主要侧重于提高车辆行驶的平均速度、缩短行车的平均行驶时间和行驶里程或者采用最畅通最省时的路径等等,而无法最大化的提高车辆行驶的安全性和舒适性。并且车辆环境距离感知的精度只能达到米级别,无法满足无人驾驶业务的进一步需求。
发明内容
本发明的一个目的是要提供一种基于DQN神经网络和高精度定位的驾驶行为优化方法,无人车将直接采用DQN神经网络学习得出的目标奖励惩罚值最大的动作并执行,该驾驶行为优化方法评价驾驶行为的数据来源多样且全面,车辆环境距离感知的精度能够达到厘米级别,最大化地提高车辆行驶的安全性的舒适性。
特别地,本发明提供了一种基于DQN神经网络和高精度定位的驾驶行为优化方法,包括以下步骤:
获取无人车驾驶时观测环境所得到的数据,所述数据至少包括:摄像头图像和高精度定位数据;
对获取的所述数据进行预处理,以过滤所述数据中与车辆驾驶行为无关的噪音;
基于DQN神经网络,对预处理后的一部分所述数据利用卷积神经网络进行处理,处理后同另一部分所述数据使用全连接网络进行拼接,以确定所述DQN神经网络架构;
根据确定的所述DQN神经网络进行所述DQN神经网络训练和计算,得出车辆的目标奖励惩罚值,选取所述目标奖励惩罚值最大的动作并执行。
进一步地,所述数据还包括:CAN总线数据、激光雷达采集的视屏和点云数据以及地图API提供的天气和交通信息的数据。
进一步地,所述高精度定位数据由全球定位系统、惯性测量单元和载波相位差分技术相结合得出。
进一步地,所述的基于DQN神经网络,对预处理后的一部分所述数据利用卷积神经网络进行处理,处理后同另一部分所述数据使用全连接网络进行拼接,以确定所述DQN神经网络架构的步骤包括:
将预处理后的摄像头图像处理成数据矩阵作为一个输入层,以适配所述卷积神经网络的输入要求;
将预处理后的其他数据组成一维数组作为另一个输入层;
将两个输入层进入全连接神经网络进行拼接形成全连接层,以确定所述DQN神经网络架构。
进一步地,所述DQN神经网络包括:训练网络和评估网络,所述训练网络用于训练网络参数,并将所述网络参数传给所述评估网络,所述评估网络用于进行车辆的奖励惩罚值和损失函数的计算,同时根据计算得出的损失函数值更新所述所述网络参数。
进一步地,所述的根据确定的所述DQN神经网络进行所述DQN神经网络训练和计算,得出车辆的目标奖励惩罚值,选取所述目标奖励惩罚值最大的动作并执行的步骤包括:
获取所述DQN神经网络需要的训练样本,制作数据集;
确定车辆与道路环境交互的动作集合;
确定DQN神经网络的损失函数和奖励惩罚函数;
根据DQN神经网络计算车辆的目标奖励惩罚值,选取所述目标奖励惩罚值最大的动作并执行。
进一步地,所述DQN神经网络中车辆与道路环境之间交互的形式采用马尔科夫决策过程:MDP={S,A,Pr,R,γ}来描述,其中,MDP由元组组成,S为状态集合,A为动作集合,Pr为状态转移概率,R为所述奖励惩罚函数,γ为衰退系数。
进一步地,所述损失函数为:
Loss(θ)=1/2[R+γmaxq(s’,a’,θ)-q(s,a,θ)]2
其中,θ为DQN神经网络参数,R为所述奖励惩罚函数,γ为所述衰退系数,q为某一状态下的奖励惩罚值,s和a分别为当前状态和动作,s’和a’分别为下一个状态和动作。
进一步地,所述奖励惩罚函数为:
R(s,a,s’)=A1×R急加速、急刹车+A2×R急转弯+A3×R交通违规,包括限速+A4×R最短距离阀值+A5×R变道频率+A6×R速度智能变化+A7×R碰撞
其中,A1、A2、A3、A4、A5、A6和A7分别为预设系数,A1、A2和A5的取值范围分别为0.05至0.15,A3和A6的取值范围分别为0.1至0.2,A4和A7的取值范围分别为0.15至0.25;
R为所述奖励惩罚函数,s和a分别为当前状态和动作,s’为下一个状态;
R急加速、急刹车为急加速、急刹车动作的所述奖励惩罚函数,R急转弯为急转弯动作的所述奖励惩罚函数,R限速为限速动作的所述奖励惩罚函数,且R急加速、急刹车、R急转弯和R限速均通过当前值和标准值的比较而确定;
R最短距离阀值和R碰撞分别为最短距离阀值和碰撞动作的所述奖励惩罚函数,且R最短距离阀值和R碰撞均通过激光雷达测距所得到的目标级数据而确定;
R交通违规为交通违规动作的所述奖励惩罚函数,R交通违规通过卷积神经网络而确定;
R变道频率和R速度智能变化分别为变道频率和速度智能变化动作的所述奖励惩罚函数,且R变道频率和R速度智能变化均通过计算机代码计算得出。
进一步地,所述目标奖励惩罚值为:
Qtarget=R(s,a)+γmaxa’q(s’,a’;θ-)
其中,Qtarget为目标奖励惩罚值,R为所述奖励惩罚函数,s和a分别为当前状态和动作,s’和a’分别为下一个状态和动作,θ为所述DQN神经网络参数,q为某一状态下的奖励惩罚值。
本发明的基于DQN神经网络和高精度定位的驾驶行为优化方法,无人车将直接采用DQN神经网络学习得出的目标奖励惩罚值最大的动作并执行,该驾驶行为优化方法评价驾驶行为的数据来源多样且全面,车辆环境距离感知的精度能够达到厘米级别,最大化地提高车辆行驶的安全性的舒适性。
根据下文结合附图对本发明具体实施例的详细描述,本领域技术人员将会更加明了本发明的上述以及其他目的、优点和特征。
附图说明
后文将参照附图以示例性而非限制性的方式详细描述本发明的一些具体实施例。附图中相同的附图标记标示了相同或类似的部件或部分。本领域技术人员应该理解,这些附图未必是按比例绘制的。附图中:
图1是根据本发明实施例的基于DQN神经网络和高精度定位的驾驶行为优化方法的流程图。
具体实施方式
本发明的基于DQN神经网络和高精度定位的驾驶行为优化方法,包括以下步骤:
S1、获取无人车驾驶时观测环境所得到的数据,数据至少包括:摄像头图像和高精度定位数据;
S2、对获取的数据进行预处理,以过滤数据中与车辆驾驶行为无关的噪音;
S3、基于DQN神经网络,对预处理后的一部分数据利用卷积神经网络进行处理,处理后同另一部分数据使用全连接网络进行拼接,以确定DQN神经网络架构;
S4、根据确定的DQN神经网络进行DQN神经网络训练和计算,得出车辆的目标奖励惩罚值,选取目标奖励惩罚值最大的动作并执行。
具体来说,参见图1,在本发明的基于DQN神经网络和高精度定位的驾驶行为优化方法中,首先,需要获取无人车驾驶时观测环境所得到的数据,其中获取的数据至少包括:摄像头图像和高精度定位数据,并且本发明的驾驶行为优化方法中获取的数据还包括:CAN总线数据、激光雷达采集的视屏和点云数据以及地图API提供的天气和交通信息的数据。其中,CAN总线数据包括行驶车速、加速度、横向加速度、纵向加速度、转向角、最小跟车距离、车道偏离预警功能触发次数等。高精度定位数据可以由全球定位系统(GPS)、惯性测量单元(IMU)和载波相位差分技术(RTK)相结合得出。IMU可以弥补GPS更新频率低的缺点(在无人驾驶系统中,GPS的更新频率为10Hz,而IMU的更新频率为100Hz)。而RTK则解决了GPS米级定位无法满足无人车应用标准的问题,RTK可使定位的精度提高到厘米级别。
然后,需要对获取的数据进行预处理,通过预处理可以过滤掉数据中与车辆驾驶行为无关的噪音。具体来说,根据GPS、IMU和RTK得到的高精度定位数据从高精度地图服务商获取道路详细信息,然后进行数据过滤,过滤掉图片、点云数据、CAN总线数据和天气道路信息中与车辆驾驶行为无关的噪音,比如通过图像分割技术过滤掉摄像头拍摄到的高速公路以外的树木和建筑物,只留下高速公路道路和道路上面的车辆,以减少深度神经网络的计算量。
接着,基于DQN神经网络,对上述预处理后的一部分数据利用卷积神经网络进行处理,处理后同另一部分数据使用全连接网络进行拼接,以确定DQN神经网络架构。其中,DQN是深度强化学习的一种,是将深度学习的感知能力和强化学习的决策能力相结合的一种学习方式。深度学习利用卷积神经网络在图像处理方面的优势识别车辆周围的物体和道路天气环境,再加上对激光雷达点云数据、CAN总线数据、高精度定位数据和地图API数据进行全连接神经网络处理,车辆能够精准的感知自身和外部道路环境的状态。强化学习是指通过车辆与道路周围的环境进行实时的交互并采取最优的驾驶行为,驾驶行为的优劣可以根据舒适度、安全性、是否存在急加速、急减速和急转弯等项目进行评估打分和奖励惩罚,并根据打分的结果对影响无人车行驶行为的参数如行驶速度、横向和纵向加速度等进行持续实时的优化和控制。在本发明的例子中,控制车辆的是油门、刹车和转向角,强化学习需要以最大化车辆行驶的舒适稳定性(加减速度和转向角的最小化)和最大化其安全性(与其它车辆、行人、物体、道路交通线和道路两侧距离的最大化)的方式进行奖励建模以及对超速、驶入禁区、频繁变道等行为进行惩罚建模。
最后,根据确定的DQN神经网络进行DQN神经网络训练和计算,得出车辆的目标奖励惩罚值,选取目标奖励惩罚值最大的动作并执行。在数据收集完成之后,通过卷积神经网络对无人车所处的环境和道路情况进行感知,并结合CAN总线数据、高精度定位数据和地图API数据,通过DQN神经网络训练和计算,得到车辆当前的一个状态S。在该状态下,车辆有多个可选的动作,根据计算目标奖励惩罚值,车辆会选出环境给出奖励最大的动作并执行这个动作。执行完该动作之后,车辆达到下一个状态S’,如此反复迭代并一直进行下去。
根据本发明的一个实施例,基于DQN神经网络,对预处理后的一部分数据利用卷积神经网络进行处理,处理后同另一部分数据使用全连接网络进行拼接,以确定DQN神经网络架构的步骤包括:
将预处理后的摄像头图像处理成数据矩阵作为一个输入层,以适配卷积神经网络的输入要求;
将预处理后的其他数据组成一维数组作为另一个输入层;
将两个输入层进入全连接神经网络进行拼接形成全连接层,以确定DQN神经网络架构。
具体来说,在确定DQN神经网络架构的步骤中,DQN神经网络采用两个输入层,摄像头图像整理成M行×N列的数据矩阵作为一个输入层,点云数据、CAN总线数据、高精度地图的天气道路数据等整理成一个L大小的一维数组作为另外一个输入层。摄像头图片矩阵数据经过25个卷积层和2个全连接层得到一个一维数组,另一个输入层的一维数组经过两个全连接层,经过拼接层后再经过1个全连接层,并根据强化学习算法计算目标奖励惩罚值,其中一个输出层(输出该状态和动作下的奖励值),激活函数选择ReLU,损失函数采用均方误差,神经网络参数优化采用Adam优化器,神经网络参数的更新采用梯度下降的方法,从而得到最优解。
DQN神经网络包括:训练网络和评估网络,训练网络用于训练网络参数,并将网络参数传给评估网络,评估网络用于进行车辆的奖励惩罚值和损失函数的计算,同时根据计算得出的损失函数值更新网络参数。
根据本发明的一个实施例,根据确定的DQN神经网络进行DQN神经网络训练和计算,得出车辆的目标奖励惩罚值,选取目标奖励惩罚值最大的动作并执行的步骤包括:
获取DQN神经网络需要的训练样本,制作数据集;
确定车辆与道路环境交互的动作集合;
确定DQN神经网络的损失函数和奖励惩罚函数;
根据DQN神经网络计算车辆的目标奖励惩罚值,选取目标奖励惩罚值最大的动作并执行。
具体来说,使用DQN神经网络进行训练需要数据集。在深度强化学习的算法中,无人车首先进行道路环境的探索和观察,然后将观察所得的经验存储在记忆库中。这里的经验可以理解为当前状态s,采取的动作a,获得的奖励惩罚值R,执行动作后的状态s’。DQN设置首先需要设置开始不训练只进行观察的轮数(比如100万轮)和保存训练样本队列的大小(比如500万)。这样就得到训练DQN所需要的样本数据集。本发明的动作集合可以根据踩油门,刹车和转向角进行区间划分,将油门和刹车的力度集合O{-Fmax,Fmax}划分为20个区间,转向角的集合A{-βmax,+βmax}划分为10个区间,由此得出整个动作的集合包含20╳10共200个动作,这样整个动作集的粒度为200。
其中,DQN神经网络中车辆与道路环境之间交互的形式采用马尔科夫决策过程:MDP={S,A,Pr,R,γ}来描述,其中,MDP由元组组成,S为状态集合,A为动作集合,Pr为状态转移概率,R为奖励惩罚函数,γ为衰退系数。马尔可夫决策过程产生的状态序列可以表示为(s0,a0,R1,s1,a1,R2,…,sT)。给定马尔可夫决策过程,强化学习的问题可以定义为寻找最优的策略π*,对任意s∈S,使得价值函数qπ*(s,a)的值最大。马尔可夫决策过程描述了车辆与周围环境相互的作用,是驾驶策略学习的数学模型。车辆使用深度强化学习可以更好的自主学习,为驾驶决策学习定义了状态s,动作a和奖励函数R。现实中车辆的状态数量很多甚至是接近无限的,则可以将奖励惩罚函数参数化,用深度神经网络来拟合奖励惩罚函数,这样便可以用有限的参数刻画无限的状态。
DQN神经网络的损失函数为:
Loss(θ)=1/2[R+γmaxq(s’,a’,θ)-q(s,a,θ)]2
其中,θ为DQN神经网络参数,R为奖励惩罚函数,γ为衰退系数,q为某一状态下的奖励惩罚值,s和a分别为当前状态和动作,s’和a’分别为下一个状态和动作。
在本发明的驾驶行为优化方法中可以制定奖励惩罚条例,车辆行驶舒适度方面(车辆的急加速和急刹车次数最少,车辆急转弯次数最少),每出现一次扣5分。急加速、急刹车的定义标准为|a|≥2.22m/s。急转弯的定义标准为综合横向力系数≥0.4。
车辆每超过从地图API中获取到的道路限速时受到惩罚,即v>vmap,每识别到一次扣4分。
车辆的速度应该会随着道路环境中识别到的移动物体(包括车、行人、电瓶车、自行车等等)的最短距离的变化而变化(例如识别到的运动物体多并且最短距离很小如闹市区,车辆的速度应该很低,徐徐前进甚至要停下来(当最短距离超过某个阀值,例如0.2m时,车辆必须停下来,如不停下来则扣5分;如停下来则加8分);识别到的运动物体少并且距离较大如高速路段则应当提高速度)。每识别到行车速度随着识别移动物体数和最短距离的一次智能变化加8分。
车辆每违反交通规则的区域将受到相应的惩罚,每出现一次扣4分。
在某个时间段内变道次数超过某个阀值(比如1分钟之内变道3次)将受到相应的惩罚,每出现一次扣4分;如在1分钟之内变道次数小于3次,则奖励4分。
出现碰撞的情况则受到10分的惩罚。
根据上述的奖励惩罚条例,本发明的驾驶行为优化方法中给出车辆从状态s执行动作a到下一个状态s’的DQN神经网络的奖励惩罚函数为:
R(s,a,s’)=A1×R急加速、急刹车+A2×R急转弯+A3×R交通违规,包括限速+A4×R最短距离阀值+A5×R变道频率+A6×R速度智能变化+A7×R碰撞
其中,A1、A2、A3、A4、A5、A6和A7分别为预设系数,A1、A2和A5的取值范围分别为0.05至0.15,A3和A6的取值范围分别为0.1至0.2,A4和A7的取值范围分别为0.15至0.25;
R为奖励惩罚函数,s和a分别为当前状态和动作,s’为下一个状态;
R急加速、急刹车为急加速、急刹车动作的奖励惩罚函数,R急转弯为急转弯动作的奖励惩罚函数,R限速为限速动作的奖励惩罚函数,且R急加速、急刹车、R急转弯和R限速均通过当前值和标准值的比较而确定;
R最短距离阀值和R碰撞分别为最短距离阀值和碰撞动作的奖励惩罚函数,且R最短距离阀值和R碰撞均通过激光雷达测距所得到的目标级数据而确定;
R交通违规为交通违规动作的奖励惩罚函数,R交通违规通过卷积神经网络而确定;
R变道频率和R速度智能变化分别为变道频率和速度智能变化动作的奖励惩罚函数,且R变道频率和R速度智能变化均通过计算机代码计算得出。
优选地,本发明的驾驶行为优化方法中给出车辆从状态s执行动作a到下一个状态s’的DQN神经网络的奖励惩罚函数为:
R(s,a,s’)=0.1×R急加速、急刹车+0.1×R急转弯+0.15×R交通违规,包括限速+0.2×R最短距离阀值+0.1×R变道频率+0.15×R速度智能变化+0.2×R碰撞
其中,
R为奖励惩罚函数,s和a分别为当前状态和动作,s’为下一个状态;
R急加速、急刹车为急加速、急刹车动作的奖励惩罚函数,R急转弯为急转弯动作的奖励惩罚函数,R限速为限速动作的奖励惩罚函数,且R急加速、急刹车、R急转弯和R限速均通过当前值和标准值的比较而确定;
R最短距离阀值和R碰撞分别为最短距离阀值和碰撞动作的奖励惩罚函数,且R最短距离阀值和R碰撞均通过激光雷达测距所得到的目标级数据而确定;
R交通违规为交通违规动作的奖励惩罚函数,R交通违规通过卷积神经网络而确定;
R变道频率和R速度智能变化分别为变道频率和速度智能变化动作的奖励惩罚函数,且R变道频率和R速度智能变化均通过计算机代码计算得出。
目标奖励惩罚值为:
Qtarget=R(s,a)+γmaxa’q(s’,a’;θ-)
其中,Qtarget为目标奖励惩罚值,R为奖励惩罚函数,s和a分别为当前状态和动作,s’和a’分别为下一个状态和动作,θ为DQN神经网络参数,q为某一状态下的奖励惩罚值。
在解决了DQN训练样本的问题之后,接着可以训练DQN网络。通过从记忆库中随机抽取出一批样本进行训练,随机抽取打破了训练样本的连续性和相关性,使神经网络的更新更加有效,在DQN网络的定义当中需要指出随机抽取训练集的大小。每条样本的格式为(s,a,R,s’),分别表示当前状态、动作、奖励函数、下一个状态,将样本中的下一个状态s’的列表当作参数传入训练网络(训练网络使用以前的参数),得到在s’状态下所有可执行动作的Q值表的集合,这样可以计算目标奖励惩罚值(目标Q值):Qtarget=R(s,a)+γmaxa’q(s’,a’;θ-)。
在数据收集完成之后,通过卷积神经网络对无人车所处的环境和道路情况进行感知,并结合CAN总线数据、高精度定位数据和地图API数据,得到车辆当前的一个状态S。在该状态下,车辆有200个可选的动作,根据计算目标奖励惩罚值(Q值),车辆会选出环境给出奖励最大的动作并执行这个动作。执行完该动作之后,车辆达到下一个状态S’,如此反复迭代并一直进行下去。
总而言之,本发明的基于DQN神经网络和高精度定位的驾驶行为优化方法,无人车将直接采用DQN神经网络学习得出的目标奖励惩罚值最大的动作并执行,该驾驶行为优化方法评价驾驶行为的数据来源多样且全面,车辆环境距离感知的精度能够达到厘米级别,最大化地提高车辆行驶的安全性的舒适性。
至此,本领域技术人员应认识到,虽然本文已详尽示出和描述了本发明的多个示例性实施例,但是,在不脱离本发明精神和范围的情况下,仍可根据本发明公开的内容直接确定或推导出符合本发明原理的许多其他变型或修改。因此,本发明的范围应被理解和认定为覆盖了所有这些其他变型或修改。
Claims (10)
1.一种基于DQN神经网络和高精度定位的驾驶行为优化方法,其特征在于,包括以下步骤:
获取无人车驾驶时观测环境所得到的数据,所述数据至少包括:摄像头图像和高精度定位数据;
对获取的所述数据进行预处理,以过滤所述数据中与车辆驾驶行为无关的噪音;
基于DQN神经网络,对预处理后的一部分所述数据利用卷积神经网络进行处理,处理后同另一部分所述数据使用全连接网络进行拼接,以确定所述DQN神经网络架构;
根据确定的所述DQN神经网络进行所述DQN神经网络训练和计算,得出车辆的目标奖励惩罚值,选取所述目标奖励惩罚值最大的动作并执行。
2.根据权利要求1所述的基于DQN神经网络和高精度定位的驾驶行为优化方法,其特征在于,
所述数据还包括:CAN总线数据、激光雷达采集的视屏和点云数据以及地图API提供的天气和交通信息的数据。
3.根据权利要求1所述的基于DQN神经网络和高精度定位的驾驶行为优化方法,其特征在于,
所述高精度定位数据由全球定位系统、惯性测量单元和载波相位差分技术相结合得出。
4.根据权利要求1所述的基于DQN神经网络和高精度定位的驾驶行为优化方法,其特征在于,所述的基于DQN神经网络,对预处理后的一部分所述数据利用卷积神经网络进行处理,处理后同另一部分所述数据使用全连接网络进行拼接,以确定所述DQN神经网络架构的步骤包括:
将预处理后的摄像头图像处理成数据矩阵作为一个输入层,以适配所述卷积神经网络的输入要求;
将预处理后的其他数据组成一维数组作为另一个输入层;
将两个输入层进入全连接神经网络进行拼接形成全连接层,以确定所述DQN神经网络架构。
5.根据权利要求1所述的基于DQN神经网络和高精度定位的驾驶行为优化方法,其特征在于,
所述DQN神经网络包括:训练网络和评估网络,所述训练网络用于训练网络参数,并将所述网络参数传给所述评估网络,所述评估网络用于进行车辆的奖励惩罚值和损失函数的计算,同时根据计算得出的损失函数值更新所述所述网络参数。
6.根据权利要求5所述的基于DQN神经网络和高精度定位的驾驶行为优化方法,其特征在于,所述的根据确定的所述DQN神经网络进行所述DQN神经网络训练和计算,得出车辆的目标奖励惩罚值,选取所述目标奖励惩罚值最大的动作并执行的步骤包括:
获取所述DQN神经网络需要的训练样本,制作数据集;
确定车辆与道路环境交互的动作集合;
确定DQN神经网络的损失函数和奖励惩罚函数;
根据DQN神经网络计算车辆的目标奖励惩罚值,选取所述目标奖励惩罚值最大的动作并执行。
7.根据权利要求6所述的基于DQN神经网络和高精度定位的驾驶行为优化方法,其特征在于,
所述DQN神经网络中车辆与道路环境之间交互的形式采用马尔科夫决策过程:MDP={S,A,Pr,R,γ}来描述,其中,MDP由元组组成,S为状态集合,A为动作集合,Pr为状态转移概率,R为所述奖励惩罚函数,γ为衰退系数。
8.根据权利要求7所述的基于DQN神经网络和高精度定位的驾驶行为优化方法,其特征在于,所述损失函数为:
Loss(θ)=1/2[R+γmaxq(s’,a’,θ)-q(s,a,θ)]2
其中,θ为DQN神经网络参数,R为所述奖励惩罚函数,γ为所述衰退系数,q为某一状态下的奖励惩罚值,s和a分别为当前状态和动作,s’和a’分别为下一个状态和动作。
9.根据权利要求7所述的基于DQN神经网络和高精度定位的驾驶行为优化方法,其特征在于,所述奖励惩罚函数为:
R(s,a,s’)=A1×R急加速、急刹车+A2×R急转弯+A3×R交通违规,包括限速+A4×R最短距离阀值+A5×R变道频率+A6×R速度智能变化+A7×R碰撞
其中,A1、A2、A3、A4、A5、A6和A7分别为预设系数,A1、A2和A5的取值范围分别为0.05至0.15,A3和A6的取值范围分别为0.1至0.2,A4和A7的取值范围分别为0.15至0.25;
R为所述奖励惩罚函数,s和a分别为当前状态和动作,s’为下一个状态;
R急加速、急刹车为急加速、急刹车动作的所述奖励惩罚函数,R急转弯为急转弯动作的所述奖励惩罚函数,R限速为限速动作的所述奖励惩罚函数,且R急加速、急刹车、R急转弯和R限速均通过当前值和标准值的比较而确定;
R最短距离阀值和R碰撞分别为最短距离阀值和碰撞动作的所述奖励惩罚函数,且R最短距离阀值和R碰撞均通过激光雷达测距所得到的目标级数据而确定;
R交通违规为交通违规动作的所述奖励惩罚函数,R交通违规通过卷积神经网络而确定;
R变道频率和R速度智能变化分别为变道频率和速度智能变化动作的所述奖励惩罚函数,且R变道频率和R速度智能变化均通过计算机代码计算得出。
10.根据权利要求7所述的基于DQN神经网络和高精度定位的驾驶行为优化方法,其特征在于,所述目标奖励惩罚值为:
Qtarget=R(s,a)+γmaxa’q(s’,a’;θ-)
其中,Qtarget为所述目标奖励惩罚值,R为所述奖励惩罚函数,s和a分别为当前状态和动作,s’和a’分别为下一个状态和动作,θ为所述DQN神经网络参数,q为某一状态下的奖励惩罚值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010043096.5A CN111275249A (zh) | 2020-01-15 | 2020-01-15 | 基于dqn神经网络和高精度定位的驾驶行为优化方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010043096.5A CN111275249A (zh) | 2020-01-15 | 2020-01-15 | 基于dqn神经网络和高精度定位的驾驶行为优化方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111275249A true CN111275249A (zh) | 2020-06-12 |
Family
ID=71002193
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010043096.5A Pending CN111275249A (zh) | 2020-01-15 | 2020-01-15 | 基于dqn神经网络和高精度定位的驾驶行为优化方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111275249A (zh) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112084680A (zh) * | 2020-09-02 | 2020-12-15 | 沈阳工程学院 | 一种基于dqn算法的能源互联网优化策略方法 |
CN112382165A (zh) * | 2020-11-19 | 2021-02-19 | 北京罗克维尔斯科技有限公司 | 驾驶策略生成方法、装置、介质、设备及仿真系统 |
CN112406867A (zh) * | 2020-11-19 | 2021-02-26 | 清华大学 | 基于强化学习和避让策略的应急车辆混合换道决策方法 |
CN113074738A (zh) * | 2021-04-06 | 2021-07-06 | 武汉理工大学 | 一种基于Dyna框架的混合智能路径规划方法及装置 |
CN113128770A (zh) * | 2021-04-23 | 2021-07-16 | 新疆大学 | 基于dqn的不确定车间环境下物料配送实时优化方法 |
CN113380048A (zh) * | 2021-06-25 | 2021-09-10 | 中科路恒工程设计有限公司 | 基于神经网络的高危路段车辆驾驶行为识别方法 |
CN113554875A (zh) * | 2021-03-12 | 2021-10-26 | 北京航空航天大学 | 一种基于边缘计算的高速公路异质交通流可变限速控制方法 |
CN113561995A (zh) * | 2021-08-19 | 2021-10-29 | 崔建勋 | 一种基于多维奖励架构深度q学习的自动驾驶决策方法 |
CN115171388A (zh) * | 2022-07-20 | 2022-10-11 | 辽宁工程技术大学 | 一种智能网联车的多交叉口旅行时间协同优化方法 |
CN116540602A (zh) * | 2023-04-28 | 2023-08-04 | 金陵科技学院 | 一种基于路段安全级别dqn的车辆无人驾驶方法 |
CN117348415A (zh) * | 2023-11-08 | 2024-01-05 | 重庆邮电大学 | 一种基于有限状态机的自动驾驶决策方法 |
US12097859B2 (en) | 2021-11-23 | 2024-09-24 | Ford Global Technologies, Llc | Vehicle lane-change operations |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190101917A1 (en) * | 2017-10-04 | 2019-04-04 | Hengshuai Yao | Method of selection of an action for an object using a neural network |
CN109814565A (zh) * | 2019-01-30 | 2019-05-28 | 上海海事大学 | 时空双流数据驱动深度q学习的无人船智能航行控制方法 |
US10345822B1 (en) * | 2018-01-26 | 2019-07-09 | Ford Global Technologies, Llc | Cognitive mapping for vehicles |
US20190220737A1 (en) * | 2018-01-17 | 2019-07-18 | Hengshuai Yao | Method of generating training data for training a neural network, method of training a neural network and using neural network for autonomous operations |
US20190299978A1 (en) * | 2018-04-03 | 2019-10-03 | Ford Global Technologies, Llc | Automatic Navigation Using Deep Reinforcement Learning |
CN110322017A (zh) * | 2019-08-13 | 2019-10-11 | 吉林大学 | 基于深度强化学习的自动驾驶智能车轨迹跟踪控制策略 |
CN110363295A (zh) * | 2019-06-28 | 2019-10-22 | 电子科技大学 | 一种基于dqn的智能车多车道换道方法 |
US20190332110A1 (en) * | 2018-04-27 | 2019-10-31 | Honda Motor Co., Ltd. | Reinforcement learning on autonomous vehicles |
US20190339702A1 (en) * | 2018-05-01 | 2019-11-07 | Honda Motor Co., Ltd. | Systems and methods for generating instructions for navigating intersections with autonomous vehicles |
CN110646009A (zh) * | 2019-09-27 | 2020-01-03 | 北京邮电大学 | 一种基于dqn的车辆自动驾驶路径规划的方法及装置 |
-
2020
- 2020-01-15 CN CN202010043096.5A patent/CN111275249A/zh active Pending
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190101917A1 (en) * | 2017-10-04 | 2019-04-04 | Hengshuai Yao | Method of selection of an action for an object using a neural network |
US20190220737A1 (en) * | 2018-01-17 | 2019-07-18 | Hengshuai Yao | Method of generating training data for training a neural network, method of training a neural network and using neural network for autonomous operations |
US10345822B1 (en) * | 2018-01-26 | 2019-07-09 | Ford Global Technologies, Llc | Cognitive mapping for vehicles |
US20190299978A1 (en) * | 2018-04-03 | 2019-10-03 | Ford Global Technologies, Llc | Automatic Navigation Using Deep Reinforcement Learning |
US20190332110A1 (en) * | 2018-04-27 | 2019-10-31 | Honda Motor Co., Ltd. | Reinforcement learning on autonomous vehicles |
US20190339702A1 (en) * | 2018-05-01 | 2019-11-07 | Honda Motor Co., Ltd. | Systems and methods for generating instructions for navigating intersections with autonomous vehicles |
CN110427021A (zh) * | 2018-05-01 | 2019-11-08 | 本田技研工业株式会社 | 用于生成自动驾驶车辆交叉路口导航指令的系统和方法 |
CN109814565A (zh) * | 2019-01-30 | 2019-05-28 | 上海海事大学 | 时空双流数据驱动深度q学习的无人船智能航行控制方法 |
CN110363295A (zh) * | 2019-06-28 | 2019-10-22 | 电子科技大学 | 一种基于dqn的智能车多车道换道方法 |
CN110322017A (zh) * | 2019-08-13 | 2019-10-11 | 吉林大学 | 基于深度强化学习的自动驾驶智能车轨迹跟踪控制策略 |
CN110646009A (zh) * | 2019-09-27 | 2020-01-03 | 北京邮电大学 | 一种基于dqn的车辆自动驾驶路径规划的方法及装置 |
Non-Patent Citations (2)
Title |
---|
刘志荣 等: ""基于深度Q学习的移动机器人路径规划"" * |
王立群 等: ""基于深度Q值网络的自动小车控制方法"" * |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112084680B (zh) * | 2020-09-02 | 2023-12-26 | 沈阳工程学院 | 一种基于dqn算法的能源互联网优化策略方法 |
CN112084680A (zh) * | 2020-09-02 | 2020-12-15 | 沈阳工程学院 | 一种基于dqn算法的能源互联网优化策略方法 |
CN112382165B (zh) * | 2020-11-19 | 2022-10-04 | 北京罗克维尔斯科技有限公司 | 驾驶策略生成方法、装置、介质、设备及仿真系统 |
CN112382165A (zh) * | 2020-11-19 | 2021-02-19 | 北京罗克维尔斯科技有限公司 | 驾驶策略生成方法、装置、介质、设备及仿真系统 |
CN112406867A (zh) * | 2020-11-19 | 2021-02-26 | 清华大学 | 基于强化学习和避让策略的应急车辆混合换道决策方法 |
CN113554875A (zh) * | 2021-03-12 | 2021-10-26 | 北京航空航天大学 | 一种基于边缘计算的高速公路异质交通流可变限速控制方法 |
CN113074738A (zh) * | 2021-04-06 | 2021-07-06 | 武汉理工大学 | 一种基于Dyna框架的混合智能路径规划方法及装置 |
CN113128770A (zh) * | 2021-04-23 | 2021-07-16 | 新疆大学 | 基于dqn的不确定车间环境下物料配送实时优化方法 |
CN113380048A (zh) * | 2021-06-25 | 2021-09-10 | 中科路恒工程设计有限公司 | 基于神经网络的高危路段车辆驾驶行为识别方法 |
CN113380048B (zh) * | 2021-06-25 | 2022-09-02 | 中科路恒工程设计有限公司 | 基于神经网络的高危路段车辆驾驶行为识别方法 |
CN113561995B (zh) * | 2021-08-19 | 2022-06-21 | 崔建勋 | 一种基于多维奖励架构深度q学习的自动驾驶决策方法 |
CN113561995A (zh) * | 2021-08-19 | 2021-10-29 | 崔建勋 | 一种基于多维奖励架构深度q学习的自动驾驶决策方法 |
US12097859B2 (en) | 2021-11-23 | 2024-09-24 | Ford Global Technologies, Llc | Vehicle lane-change operations |
CN115171388A (zh) * | 2022-07-20 | 2022-10-11 | 辽宁工程技术大学 | 一种智能网联车的多交叉口旅行时间协同优化方法 |
CN116540602A (zh) * | 2023-04-28 | 2023-08-04 | 金陵科技学院 | 一种基于路段安全级别dqn的车辆无人驾驶方法 |
CN116540602B (zh) * | 2023-04-28 | 2024-02-23 | 金陵科技学院 | 一种基于路段安全级别dqn的车辆无人驾驶方法 |
CN117348415A (zh) * | 2023-11-08 | 2024-01-05 | 重庆邮电大学 | 一种基于有限状态机的自动驾驶决策方法 |
CN117348415B (zh) * | 2023-11-08 | 2024-06-04 | 重庆邮电大学 | 一种基于有限状态机的自动驾驶决策方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111275249A (zh) | 基于dqn神经网络和高精度定位的驾驶行为优化方法 | |
US20220212693A1 (en) | Method and apparatus for trajectory prediction, device and storage medium | |
CN112703459B (zh) | 对抗场景的迭代生成 | |
US20230124864A1 (en) | Graph Representation Querying of Machine Learning Models for Traffic or Safety Rules | |
US11537134B1 (en) | Generating environmental input encoding for training neural networks | |
CN110562258B (zh) | 一种车辆自动换道决策的方法、车载设备和存储介质 | |
US20220187087A1 (en) | Systems and methods for predicting fuel consumption efficiency | |
US9053433B2 (en) | Assisting vehicle guidance over terrain | |
DE102016113903A1 (de) | Fahrzeugfahrstreckenbestimmung | |
US11919545B2 (en) | Scenario identification for validation and training of machine learning based models for autonomous vehicles | |
CN113743469B (zh) | 一种融合多源数据及综合多维指标的自动驾驶决策方法 | |
CN109084992A (zh) | 基于台架测试无人车智能性的方法 | |
US11325589B2 (en) | Vehicle control device | |
CN112829747A (zh) | 一种驾驶行为决策方法、装置及存储介质 | |
JP7520444B2 (ja) | 乗り物に基づくデータ処理方法、データ処理装置、コンピュータ機器、及びコンピュータプログラム | |
DE102021128503A1 (de) | Verfahren und systeme für einen adaptiven stopp-start-hemmer | |
CN113918615A (zh) | 一种基于仿真的驾驶经验数据挖掘模型构建方法及系统 | |
EP2405383A1 (en) | Assisting with guiding a vehicle over terrain | |
CN114932918A (zh) | 一种智能网联车在各种路况下行驶的行为决策方法及系统 | |
Siboo et al. | An empirical study of ddpg and ppo-based reinforcement learning algorithms for autonomous driving | |
CN117242460A (zh) | 不安全驾驶场景的计算机化检测 | |
CN110426215B (zh) | 一种用于车辆平顺性测试的模型建立方法及智能驾驶系统 | |
DE102023114042A1 (de) | Bildbasierte Fußgängergeschwindigkeitsschätzung | |
Gadepally | Estimation of driver behavior for autonomous vehicle applications | |
CN116101303B (zh) | 一种车辆辅助驾驶方法、系统、装置和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200612 |
|
RJ01 | Rejection of invention patent application after publication |