CN113867332B - 一种无人车自学习控制方法、装置、设备及可读存储介质 - Google Patents
一种无人车自学习控制方法、装置、设备及可读存储介质 Download PDFInfo
- Publication number
- CN113867332B CN113867332B CN202110949314.6A CN202110949314A CN113867332B CN 113867332 B CN113867332 B CN 113867332B CN 202110949314 A CN202110949314 A CN 202110949314A CN 113867332 B CN113867332 B CN 113867332B
- Authority
- CN
- China
- Prior art keywords
- vehicle
- motion control
- control rule
- learning
- driving
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 78
- 238000012549 training Methods 0.000 claims abstract description 23
- 230000009471 action Effects 0.000 claims abstract description 14
- 230000006870 function Effects 0.000 claims description 30
- 230000002787 reinforcement Effects 0.000 claims description 17
- 241000282414 Homo sapiens Species 0.000 claims description 15
- 238000004590 computer program Methods 0.000 claims description 9
- 238000007670 refining Methods 0.000 claims description 6
- 238000004088 simulation Methods 0.000 claims description 6
- 230000001133 acceleration Effects 0.000 claims description 4
- 230000008569 process Effects 0.000 description 23
- 230000000875 corresponding effect Effects 0.000 description 7
- 230000000750 progressive effect Effects 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 230000001276 controlling effect Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 230000007246 mechanism Effects 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 238000013461 design Methods 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 3
- 230000007613 environmental effect Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000019771 cognition Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 102100029469 WD repeat and HMG-box DNA-binding protein 1 Human genes 0.000 description 1
- 101710097421 WD repeat and HMG-box DNA-binding protein 1 Proteins 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0212—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
- G05D1/0221—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Aviation & Aerospace Engineering (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Automation & Control Theory (AREA)
- Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
- Control Of Driving Devices And Active Controlling Of Vehicle (AREA)
Abstract
本发明提供一种无人车自学习控制方法、装置、设备及可读存储介质,涉及无人驾驶技术领域,该方法包括以下步骤:获取车辆在当前驾驶环境的运动控制规则;其中,所述运动控制规则输出的是所述车辆的执行动作,输入的是所述车辆的行驶状态;根据所述运动控制规则,对无人车进行训练,控制所述车辆进行自主驾驶;在自主驾驶过程中,获取所述行驶状态;根据所述行驶状态,生成车辆的行驶能力,并根据所述行驶能力调整及更新所述运动控制规则,本发明实现无人车控制器可以从无到有逐步提升,进而掌握熟练的驾驶能力。
Description
技术领域
本发明涉及无人驾驶技术领域,尤其涉及一种无人车自学习控制方法、装置、设备及可读存储介质。
背景技术
近年来,无人驾驶技术引起了社会的广泛关注,并随着计算机技术和人工智能技术的发展,无人驾驶在物流、公共交通、环卫、零售等领域得到了广泛应用,其应用环境也从简单的受控环境变成了复杂多变的开放环境。
无人车运动控制系统包含感知、认知、决策和控制四个层面,其中:感知指的是通过摄像头、激光雷达或其他传感器采集周围的环境信息;认知指的是从感知信息中解析出环境信息的具体意义,如道路宽度、道路曲率等;决策指的是根据认知解析出的环境信息如何做出使汽车达到驾驶目的指令,如油门、刹车、转向等;控制指的是按照决策层的指令对车辆执行相应操作。
随着深度学习和强化学习理论的不断发展,计算机已具备对某项特定任务的学习能力,但是传统的无人车运动控制方法一般需要先建立被控对象的数学模型,上述的建模过程是非常繁琐的,因此,能够省略掉上述的建模过程的无人车自学习控制方法是业界亟待解决的重要课题。
发明内容
本发明提供一种无人车自学习控制方法、装置、设备及可读存储介质,用以解决现有技术中无人车运动控制方法的建模过程繁琐的缺陷,实现无人车控制器可以从无到有逐步提升,进而掌握熟练的驾驶能力。
本发明提供一种无人车自学习控制方法,包括以下步骤:
获取车辆在当前驾驶环境的运动控制规则;其中,所述运动控制规则输出的是所述车辆的执行动作,输入的是所述车辆的行驶状态;
根据所述运动控制规则,对无人车进行训练,控制所述车辆进行自主驾驶;
在自主驾驶过程中,获取所述行驶状态;
根据所述行驶状态,生成车辆的行驶能力,并根据所述行驶能力调整及更新所述运动控制规则。
根据本发明提供的一种无人车自学习控制方法,所述获取车辆在当前驾驶环境的运动控制规则,具体包括以下步骤:
分析典型城镇道路环境下,车辆的具体行驶任务;
针对不同的所述行驶任务,基于人类驾驶车辆时所关注到的信息,获取车辆在当前驾驶环境的运动控制规则;其中,所述信息包括交通规则、车辆与车道的相对位置、车辆的油门开度以及方向盘角度。
根据本发明提供的一种无人车自学习控制方法,当要求不与周围车辆发生碰撞时,所述运动控制规则为:
If Collision vehicle=0,Continue run;
Else reward=-200。
根据本发明提供的一种无人车自学习控制方法,当要求无人车以平稳车速行驶时,所述运动控制规则为:
If Δspeed>2then reward=-1,Else reward=1
其中,Δspeed为车辆的加速度,单位为m/s2。
根据本发明提供的一种无人车自学习控制方法,所述根据所述行驶状态,生成车辆的行驶能力,并根据所述行驶能力调整及更新所述运动控制规则,具体包括以下步骤:
根据所述行驶状态,获取无人车每回合的训练情况,并根据所述每回合的训练情况得到总步骤的平均奖励值,生成车辆的行驶能力;其中,所述行驶状态包括车辆的速度信息以及车辆中心与导航指示路径点的偏差;
比较所述平均奖励数值与奖励规则中的步骤最大奖励值,当所述平均奖励数值满足所述步骤最大奖励值的预设比例时,对所述运动控制规则进行调整及更新。
根据本发明提供的一种无人车自学习控制方法,针对直线行驶情况,当所述平均奖励数值满足所述步骤最大奖励值的预设比例时,对所述运动控制规则进行调整及更新,具体形式如公式(1)至公式(3):
When Direction=Straight;
其中,当所述平均奖励数值满足公式(1)中所述步骤最大奖励值的预设比例时,所述运动控制规则的奖励函数由公式(1)调整至公式(2),当所述平均奖励数值满足调整后的公式(2)中所述步骤最大奖励值的预设比例时,所述运动控制规则的奖励函数由公式(2)调整至公式(3),并以此类推,且,r3>r2>r1>rnegative,steer为方向盘的旋转角度。
根据本发明提供的一种无人车自学习控制方法,所述运动控制规则采用了深度强化学习算法,并基于Carla无人驾驶仿真平台。
本发明还提供一种无人车自学习控制装置,包括:
规则提炼模块,用于获取车辆在当前驾驶环境的运动控制规则;其中,所述运动控制规则输出的是所述车辆的执行动作,输入的是所述车辆的行驶状态;
自主驾驶模块,用于根据所述运动控制规则,控制所述车辆进行自主驾驶;
状态获取模块,用于在自主驾驶过程中,获取所述车辆行驶状态;
自学习模块,用于根据所述车辆行驶状态,生成车辆的行驶能力,并根据所述行驶能力调整及更新所述运动控制规则。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述无人车自学习控制方法的步骤。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述无人车自学习控制方法的步骤。
本发明提供的无人车自学习控制方法、装置、设备及可读存储介质,提出一种新式的自学习装置,省去了复杂的建模过程,借鉴人类学习驾驶车辆的渐进过程,实现无人车控制器可以从无到有逐步提升,进而掌握熟练的驾驶能力,在训练过程中无需手动设计奖励函数,首先去学习构建的奖励函数并进行训练,然后在该奖励函数的指导下执行强化学习的过程学习策略,在自主驾驶过程中,同步地采集行驶状态,之后,基于深度强化学习的无人车自学习装置,根据当前行驶状态的车辆的行驶状态,选择对应的动作策略,并对车辆当前状态给予评价,返回相应的奖励值,以对奖励函数进行调整及更新。通过上述方式学习到的奖励函数鲁棒性较好,可以应对专家数据中未出现的情况。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的无人车自学习控制方法的流程示意图;
图2是本发明提供的无人车自学习控制方法的逻辑示意图;
图3是本发明提供的无人车自学习控制方法中步骤S100具体的流程示意图;
图4是本发明提供的无人车自学习控制方法中步骤S400具体的流程示意图;
图5是本发明提供的无人车自学习控制装置的结构示意图;
图6是本发明提供的无人车自学习控制装置中规则提炼模块具体的结构示意图;
图7是本发明提供的无人车自学习控制装置中自学习模块具体的结构示意图;
图8是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合图1和图2描述本发明的无人车自学习控制方法,该方法包括以下步骤:
S100、获取车辆在当前驾驶环境的运动控制规则。其中,运动控制规则输出的是车辆的执行动作,输入的是车辆的行驶状态。
在该方法中,运动控制规则采用了深度强化学习深度确定性策略梯度(DeepDeterministic Policy Gradient,DDPG)算法,具体实现是基于开源的Carla无人驾驶仿真平台,利用TensorFlow搭建网络结构。车辆的行驶状态利用传感器仿真,其中,行驶状态包括车辆的速度信息以及车辆中心与导航指示路径点的偏差,并且,导航指示路径点可以通过仿真场景中的全球定位系统(Global Positioning System,GPS)的定位信息获得,车辆的执行动作包含横向控制量和纵向控制量,其中横、纵向控制量可以以油门、刹车和方向盘开度的形式表示。
S200、根据运动控制规则,对无人车进行训练,控制车辆进行自主驾驶。
在步骤S200中,具体的,记录数据状态st、动作at、奖励值r、以及下一个状态st+1,并根据记录到的上述数据对无人车控制器开展训练,实现车辆的无人自主驾驶。
S300、在自主驾驶过程中,获取行驶状态。
在该方法中,会根据运动控制规则构建动态的奖励机制,在本实施例中,奖励机制是通过奖励函数来具体的实现的。具体的,根据运动控制规则构建动态的奖励机制,通过评价车辆的自主行驶能力水平,形成与车辆自主行驶能力相关的奖励函数。
S400、根据行驶状态,生成车辆的行驶能力,并根据行驶能力调整及更新运动控制规则。步骤S400的作用在于参照人类学习驾驶的渐进过程,设计一套可以评价车辆行驶能力的运动控制规则(奖励规则)体系。
随着深度学习在图像识别、语音技术、自然语言处理等领域取得了重大突破,将深度神经网络和强化学习结合的深度强化学习在大规模策略优化问题上获得了超越人类的表现,而强化学习的瓶颈之一在于:在面临诸如自动驾驶、机器人等实际控制问题时,根据专家经验设计合理的奖励函数费时费力。
在本发明的无人车自学习控制方法,提出一种新式的自学习方法,省去了复杂的建模过程,借鉴人类学习驾驶车辆的渐进过程,实现无人车控制器可以从无到有逐步提升,进而掌握熟练的驾驶能力,在训练过程中无需手动设计奖励函数,首先通过步骤S200去学习步骤S100构建的奖励函数并进行训练,然后在该奖励函数的指导下执行强化学习的过程学习策略,步骤S300中,在自主驾驶过程中,同步地采集行驶状态,之后在步骤S400中,基于深度强化学习的无人车自学习方法,根据当前行驶状态的车辆的行驶状态,选择对应的动作策略,并对车辆当前状态给予评价,返回相应的奖励值,以对奖励函数进行调整及更新。通过上述方式学习到的奖励函数鲁棒性较好,可以应对专家数据中未出现的情况。
下面结合图3描述本发明的无人车自学习控制方法,步骤S100具体包括以下步骤:
S110、分析典型城镇道路环境下,车辆的具体行驶任务。
S120、针对不同的行驶任务,基于人类驾驶车辆时所关注到的信息,获取车辆在当前驾驶环境的运动控制规则。其中,信息包括交通规则、车辆与车道的相对位置、车辆的油门开度以及方向盘角度。
例如,当要求不与周围车辆发生碰撞时,运动控制规则(奖励规则)为:
If Collision vehicle=0,Continue run;
Else reward=-200;
当要求无人车以平稳车速行驶时,运动控制规则(奖励规则)为:
If Δspeed>2then reward=-1,Else reward=1
其中,Δspeed为车辆的加速度,单位为m/s2。
因此通过步骤S100可以提取人类学习驾驶车辆所关注到的运动控制规则,并以此为基础设计规则迭代的无人车自学习控制方法。
下面结合图4描述本发明的无人车自学习控制方法,步骤S400具体包括以下步骤:
S410、根据行驶状态,获取无人车每回合的训练情况,并根据每回合的训练情况得到总步骤的平均奖励值,生成车辆的行驶能力;
S420、比较平均奖励数值与奖励规则中的步骤最大奖励值rmax,当平均奖励数值满足步骤最大奖励值rmax的预设比例时,即平均奖励数值相对于步骤最大奖励值rmax的比例大于等于预设比例时,对运动控制规则进行调整及更新。满足步骤最大奖励值的预设比例即为对运动控制规则进行调整及更新的判断条件。
动态的奖励机制依照人类学习驾驶这一渐进过程,针对某一行驶状态下,车辆的每一具体规则均可以表示为分段函数,用于评价某一步骤的具体状态的优良程度,并且其中最佳的状态将给予步骤最大奖励值rmax。
以直线行驶情况为例,当平均奖励数值满足步骤最大奖励值rmax的预设比例时,对运动控制规则进行调整及更新,具体形式如公式(1)至公式(3):
When Direction=Straight;
其中,当平均奖励数值满足公式(1)中步骤最大奖励值的预设比例时,运动控制规则的奖励函数由公式(1)调整至公式(2),当平均奖励数值满足调整后的公式(2)中步骤最大奖励值的预设比例时,运动控制规则的奖励函数由公式(2)调整至公式(3),并以此类推,且,r3>r2>r1>rnegative,在公式(1)中r1为步骤最大奖励值rmax,在公式(2)中r2为步骤最大奖励值rmax,在公式(3)中r3为步骤最大奖励值rmax,rnegative为负数奖惩值,steer为方向盘的旋转角度,steer以(-1,1)表示,是一种开度的表示形式,-1表示方向盘向左转到底,+1表示方向盘向右转到底,steer=0表示方向盘角度为0即车辆沿直线方向行驶,也可以理解的是,在直线行驶情况下,steer=0是较优的策略,并且学习奖励函数和驾驶过程中,steer的数值与当前状态有关,与过往状态没有关系。
需要说明的是,公式(1)中的r1(rmax)、公式(2)中的r2(rmax)、公式(3)中的r3(rmax)是递增关系,分段函数将奖励值进行具体的细化。
下面对本发明提供的无人车自学习控制装置进行描述,下文描述的无人车自学习控制装置与上文描述的无人车自学习控制方法可相互对应参照。
下面结合图5描述本发明的无人车自学习控制装置,该装置包括:
规则提炼模块100,用于获取车辆在当前驾驶环境的运动控制规则。其中,运动控制规则输出的是车辆的执行动作,输入的是车辆的行驶状态。
在该装置中,运动控制规则采用了深度强化学习DDPG算法,具体实现是基于开源的Carla无人驾驶仿真平台,利用TensorFlow搭建网络结构。车辆的行驶状态利用传感器仿真,其中,行驶状态包括车辆的速度信息以及车辆中心与导航指示路径点的偏差,并且,导航指示路径点可以通过仿真场景中的GPS的定位信息获得,车辆的执行动作包含横向控制量和纵向控制量,其中横、纵向控制量可以以油门、刹车和方向盘开度的形式表示。
自主驾驶模块200,用于根据运动控制规则,对无人车进行训练,控制车辆进行自主驾驶。
在自主驾驶模块200中,具体的,记录数据状态st、动作at、奖励值r、以及下一个状态st+1,并根据记录到的上述数据对无人车控制器开展训练,实现车辆的无人自主驾驶。
状态获取模块300,用于在自主驾驶过程中,获取行驶状态。
在该装置中,会根据运动控制规则构建动态的奖励机制,在本实施例中,奖励机制是通过奖励函数来具体的实现的。具体的,根据运动控制规则构建动态的奖励机制,通过评价车辆的自主行驶能力水平,形成与车辆自主行驶能力相关的奖励函数。
自学习模块400,用于根据行驶状态,生成车辆的行驶能力,并根据行驶能力调整及更新运动控制规则。自学习模块400的作用在于参照人类学习驾驶的渐进过程,设计一套可以评价车辆行驶能力的运动控制规则(奖励规则)体系。
随着深度学习在图像识别、语音技术、自然语言处理等领域取得了重大突破,将深度神经网络和强化学习结合的深度强化学习在大规模策略优化问题上获得了超越人类的表现,而强化学习的瓶颈之一在于:在面临诸如自动驾驶、机器人等实际控制问题时,根据专家经验设计合理的奖励函数费时费力。
在本发明的无人车自学习控制装置,提出一种新式的自学习装置,省去了复杂的建模过程,借鉴人类学习驾驶车辆的渐进过程,实现无人车控制器可以从无到有逐步提升,进而掌握熟练的驾驶能力,在训练过程中无需手动设计奖励函数,首先通过自主驾驶模块200去学习规则提炼模块100构建的奖励函数并进行训练,然后在该奖励函数的指导下执行强化学习的过程学习策略,状态获取模块300中,在自主驾驶过程中,同步地采集行驶状态,之后在自学习模块400中,基于深度强化学习的无人车自学习装置,根据当前行驶状态的车辆的行驶状态,选择对应的动作策略,并对车辆当前状态给予评价,返回相应的奖励值,以对奖励函数进行调整及更新。通过上述方式学习到的奖励函数鲁棒性较好,可以应对专家数据中未出现的情况。
下面结合图6描述本发明的无人车自学习控制装置,规则提炼模块100具体包括:
任务提取单元110,用于分析典型城镇道路环境下,车辆的具体行驶任务。
规则提炼单元120,用于针对不同的行驶任务,基于人类驾驶车辆时所关注到的信息,获取车辆在当前驾驶环境的运动控制规则。其中,信息包括交通规则、车辆与车道的相对位置、车辆的油门开度以及方向盘角度。
例如,当要求不与周围车辆发生碰撞时,运动控制规则(奖励规则)为:
If Collision vehicle=0,Continue run;
Else reward=-200;
当要求无人车以平稳车速行驶时,运动控制规则(奖励规则)为:
If Δspeed>2then reward=-1,Else reward=1
其中,Δspeed为车辆的加速度,单位为m/s2。
因此通过规则提炼模块100可以提取人类学习驾驶车辆所关注到的运动控制规则,并以此为基础设计规则迭代的无人车自学习控制装置。
下面结合图7描述本发明的无人车自学习控制装置,自学习模块400具体包括:
行驶能力评价单元410,用于根据行驶状态,获取无人车每回合的训练情况,并根据每回合的训练情况得到总步骤的平均奖励值,生成车辆的行驶能力;
调整更新单元420,用于比较平均奖励数值与奖励规则中的步骤最大奖励值rmax,当平均奖励数值满足步骤最大奖励值rmax的预设比例时,即平均奖励数值相对于步骤最大奖励值rmax的比例大于等于预设比例时,对运动控制规则进行调整及更新。满足步骤最大奖励值的预设比例即为对运动控制规则进行调整及更新的判断条件。
动态的奖励机制依照人类学习驾驶这一渐进过程,针对某一行驶状态下,车辆的每一具体规则均可以表示为分段函数,用于评价某一步骤的具体状态的优良程度,并且其中最佳的状态将给予步骤最大奖励值rmax。
图8示例了一种电子设备的实体结构示意图,如图8所示,该电子设备可以包括:处理器(processor)810、通信接口(Communications Interface)820、存储器(memory)830和通信总线840,其中,处理器810,通信接口820,存储器830通过通信总线840完成相互间的通信。处理器810可以调用存储器830中的逻辑指令,以执行无人车自学习控制方法,该方法包括以下步骤:
S100、获取车辆在当前驾驶环境的运动控制规则;其中,所述运动控制规则输出的是所述车辆的执行动作,输入的是所述车辆的行驶状态;
S200、根据所述运动控制规则,对无人车进行训练,控制所述车辆进行自主驾驶;
S300、在自主驾驶过程中,获取所述行驶状态;
S400、根据所述行驶状态,生成车辆的行驶能力,并根据所述行驶能力调整及更新所述运动控制规则。
此外,上述的存储器830中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的无人车自学习控制方法,该方法包括以下步骤:
S100、获取车辆在当前驾驶环境的运动控制规则;其中,所述运动控制规则输出的是所述车辆的执行动作,输入的是所述车辆的行驶状态;
S200、根据所述运动控制规则,对无人车进行训练,控制所述车辆进行自主驾驶;
S300、在自主驾驶过程中,获取所述行驶状态;
S400、根据所述行驶状态,生成车辆的行驶能力,并根据所述行驶能力调整及更新所述运动控制规则。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各提供的无人车自学习控制方法,该方法包括以下步骤:
S100、获取车辆在当前驾驶环境的运动控制规则;其中,所述运动控制规则输出的是所述车辆的执行动作,输入的是所述车辆的行驶状态;
S200、根据所述运动控制规则,对无人车进行训练,控制所述车辆进行自主驾驶;
S300、在自主驾驶过程中,获取所述行驶状态;
S400、根据所述行驶状态,生成车辆的行驶能力,并根据所述行驶能力调整及更新所述运动控制规则。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (9)
1.一种无人车自学习控制方法,其特征在于,包括以下步骤:
获取车辆在当前驾驶环境的运动控制规则;其中,所述运动控制规则输出的是所述车辆的执行动作,输入的是所述车辆的行驶状态;
根据所述运动控制规则,对无人车进行训练,控制所述车辆进行自主驾驶;
在自主驾驶过程中,获取所述行驶状态;
根据所述行驶状态,生成车辆的行驶能力,并根据所述行驶能力调整及更新所述运动控制规则;
所述根据所述行驶状态,生成车辆的行驶能力,并根据所述行驶能力调整及更新所述运动控制规则,具体包括以下步骤:
根据所述行驶状态,获取无人车每回合的训练情况,并根据所述每回合的训练情况得到总步骤的平均奖励值,生成车辆的行驶能力;其中,所述行驶状态包括车辆的速度信息以及车辆中心与导航指示路径点的偏差;
比较所述平均奖励数值与奖励规则中的步骤最大奖励值,当所述平均奖励数值满足所述步骤最大奖励值的预设比例时,对所述运动控制规则进行调整及更新。
2.根据权利要求1所述的无人车自学习控制方法,其特征在于,所述获取车辆在当前驾驶环境的运动控制规则,具体包括以下步骤:
分析典型城镇道路环境下,车辆的具体行驶任务;
针对不同的所述行驶任务,基于人类驾驶车辆时所关注到的信息,获取车辆在当前驾驶环境的运动控制规则;其中,所述信息包括交通规则、车辆与车道的相对位置、车辆的油门开度以及方向盘角度。
3.根据权利要求1所述的无人车自学习控制方法,其特征在于,当要求不与周围车辆发生碰撞时,所述运动控制规则为:
If Collision vehicle=0,Continue run;
Else reward=-200。
4.根据权利要求1所述的无人车自学习控制方法,其特征在于,当要求无人车以平稳车速行驶时,所述运动控制规则为:
IfΔspeed>2then reward=-1,Else reward=1
其中,Δspeed为车辆的加速度,单位为m/s2。
5.根据权利要求1所述的无人车自学习控制方法,其特征在于,针对直线行驶情况,当所述平均奖励数值满足所述步骤最大奖励值的预设比例时,对所述运动控制规则进行调整及更新,具体形式如公式(1)至公式(3):
其中,当所述平均奖励数值满足公式(1)中所述步骤最大奖励值的预设比例时,所述运动控制规则的奖励函数由公式(1)调整至公式(2),当所述平均奖励数值满足调整后的公式(2)中所述步骤最大奖励值的预设比例时,所述运动控制规则的奖励函数由公式(2)调整至公式(3),并以此类推,且,r3>r2>r1>rnegative,steer为方向盘的旋转角度,在公式(1)中r1为步骤最大奖励值rmax,在公式(2)中r2为步骤最大奖励值rmax,在公式(3)中r3为步骤最大奖励值rmax,rnegative为负数奖惩值。
6.根据权利要求1所述的无人车自学习控制方法,其特征在于,所述运动控制规则采用了深度强化学习算法,并基于Carla无人驾驶仿真平台。
7.一种无人车自学习控制装置,其特征在于,包括:
规则提炼模块(100),用于获取车辆在当前驾驶环境的运动控制规则;其中,所述运动控制规则输出的是所述车辆的执行动作,输入的是所述车辆的行驶状态;
自主驾驶模块(200),用于根据所述运动控制规则,控制所述车辆进行自主驾驶;
状态获取模块(300),用于在自主驾驶过程中,获取所述车辆行驶状态;
自学习模块(400),用于根据所述车辆行驶状态,生成车辆的行驶能力,并根据所述行驶能力调整及更新所述运动控制规则;
所述自学习模块(400),具体用于:
根据所述行驶状态,获取无人车每回合的训练情况,并根据所述每回合的训练情况得到总步骤的平均奖励值,生成车辆的行驶能力;其中,所述行驶状态包括车辆的速度信息以及车辆中心与导航指示路径点的偏差;
比较所述平均奖励数值与奖励规则中的步骤最大奖励值,当所述平均奖励数值满足所述步骤最大奖励值的预设比例时,对所述运动控制规则进行调整及更新。
8.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至6任一项所述无人车自学习控制方法的步骤。
9.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述无人车自学习控制方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110949314.6A CN113867332B (zh) | 2021-08-18 | 2021-08-18 | 一种无人车自学习控制方法、装置、设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110949314.6A CN113867332B (zh) | 2021-08-18 | 2021-08-18 | 一种无人车自学习控制方法、装置、设备及可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113867332A CN113867332A (zh) | 2021-12-31 |
CN113867332B true CN113867332B (zh) | 2024-05-14 |
Family
ID=78990568
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110949314.6A Active CN113867332B (zh) | 2021-08-18 | 2021-08-18 | 一种无人车自学习控制方法、装置、设备及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113867332B (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107092256A (zh) * | 2017-05-27 | 2017-08-25 | 中国科学院自动化研究所 | 一种无人车转向控制方法 |
CN110244701A (zh) * | 2018-03-08 | 2019-09-17 | 通用汽车环球科技运作有限责任公司 | 用于基于自动生成的课程序列的自主车辆的强化学习的方法和装置 |
WO2020056875A1 (zh) * | 2018-09-20 | 2020-03-26 | 初速度(苏州)科技有限公司 | 一种基于深度强化学习的停车策略 |
CN111222630A (zh) * | 2020-01-17 | 2020-06-02 | 北京工业大学 | 一种基于深度强化学习的自主驾驶规则学习方法 |
KR20200096096A (ko) * | 2019-01-31 | 2020-08-11 | 주식회사 스트라드비젼 | 라이더, 레이더 및 카메라 센서의 데이터를 사용하는 강화 학습을 기초로 하여 자율 주행 시 최적화된 자원 할당을 위한 방법 및 장치 |
CN111679660A (zh) * | 2020-06-16 | 2020-09-18 | 中国科学院深圳先进技术研究院 | 一种融合类人驾驶行为的无人驾驶深度强化学习方法 |
EP3742343A1 (en) * | 2019-05-20 | 2020-11-25 | NVIDIA Corporation | Autonomous vehicle simulation using machine learning |
CN112289044A (zh) * | 2020-11-02 | 2021-01-29 | 南京信息工程大学 | 基于深度强化学习的高速公路道路协同控制系统及方法 |
CN113255054A (zh) * | 2021-03-14 | 2021-08-13 | 南京晓庄学院 | 一种基于异构融合特征的强化学习自动驾驶方法 |
-
2021
- 2021-08-18 CN CN202110949314.6A patent/CN113867332B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107092256A (zh) * | 2017-05-27 | 2017-08-25 | 中国科学院自动化研究所 | 一种无人车转向控制方法 |
CN110244701A (zh) * | 2018-03-08 | 2019-09-17 | 通用汽车环球科技运作有限责任公司 | 用于基于自动生成的课程序列的自主车辆的强化学习的方法和装置 |
WO2020056875A1 (zh) * | 2018-09-20 | 2020-03-26 | 初速度(苏州)科技有限公司 | 一种基于深度强化学习的停车策略 |
KR20200096096A (ko) * | 2019-01-31 | 2020-08-11 | 주식회사 스트라드비젼 | 라이더, 레이더 및 카메라 센서의 데이터를 사용하는 강화 학습을 기초로 하여 자율 주행 시 최적화된 자원 할당을 위한 방법 및 장치 |
EP3742343A1 (en) * | 2019-05-20 | 2020-11-25 | NVIDIA Corporation | Autonomous vehicle simulation using machine learning |
CN111222630A (zh) * | 2020-01-17 | 2020-06-02 | 北京工业大学 | 一种基于深度强化学习的自主驾驶规则学习方法 |
CN111679660A (zh) * | 2020-06-16 | 2020-09-18 | 中国科学院深圳先进技术研究院 | 一种融合类人驾驶行为的无人驾驶深度强化学习方法 |
CN112289044A (zh) * | 2020-11-02 | 2021-01-29 | 南京信息工程大学 | 基于深度强化学习的高速公路道路协同控制系统及方法 |
CN113255054A (zh) * | 2021-03-14 | 2021-08-13 | 南京晓庄学院 | 一种基于异构融合特征的强化学习自动驾驶方法 |
Non-Patent Citations (2)
Title |
---|
Automated Vehicle’s behavior decision making using deep reinforcement learning and high-fidelity simulation environment;Yingjun Ye a 等;《Transportation Research Part C: Emerging Technologies》;155-170 * |
基于深度强化学习的无人驾驶优化评价方法;李文韬 等;《现代计算机》;4-10 * |
Also Published As
Publication number | Publication date |
---|---|
CN113867332A (zh) | 2021-12-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112099496B (zh) | 一种自动驾驶训练方法、装置、设备及介质 | |
CN111483468B (zh) | 基于对抗模仿学习的无人驾驶车辆换道决策方法和系统 | |
Gidado et al. | A survey on deep learning for steering angle prediction in autonomous vehicles | |
CN110969848A (zh) | 一种对向双车道下基于强化学习的自动驾驶超车决策方法 | |
CN110646009A (zh) | 一种基于dqn的车辆自动驾驶路径规划的方法及装置 | |
CN110631596B (zh) | 一种基于迁移学习的装备车辆路径规划方法 | |
CN115303297B (zh) | 基于注意力机制与图模型强化学习的城市场景下端到端自动驾驶控制方法及装置 | |
US20210341886A1 (en) | System and Method of Efficient, Continuous, and Safe Learning Using First Principles and Constraints | |
CN116476863A (zh) | 基于深度强化学习的自动驾驶横纵向一体化决策方法 | |
Youssef et al. | Comparative study of end-to-end deep learning methods for self-driving car | |
CN111923916B (zh) | 一种基于视觉感知行为和anfis的仿人转向建模方法及转向控制系统 | |
CN112835362B (zh) | 一种自动变道规划方法及装置、电子设备和存储介质 | |
Ilievski | Wisebench: A motion planning benchmarking framework for autonomous vehicles | |
Siboo et al. | An empirical study of ddpg and ppo-based reinforcement learning algorithms for autonomous driving | |
Xu et al. | Modeling Lateral Control Behaviors of Distracted Drivers for Haptic-Shared Steering System | |
CN116872971A (zh) | 一种基于人机协同增强的自动驾驶控制决策方法及系统 | |
CN113867332B (zh) | 一种无人车自学习控制方法、装置、设备及可读存储介质 | |
Zhang et al. | Learning how to avoiding obstacles for end-to-end driving with conditional imitation learning | |
CN115107948B (zh) | 一种高效强化学习自主船舶避碰方法 | |
CN114779764A (zh) | 基于行车风险分析的车辆强化学习运动规划方法 | |
CN110378460B (zh) | 决策方法 | |
Wang et al. | An end-to-end deep reinforcement learning model based on proximal policy optimization algorithm for autonomous driving of off-road vehicle | |
Zhang et al. | An automated driving strategy generating method based on WGAIL–DDPG | |
Ayyagari | Comparative Study of Model-based Lateral Controllers with Selected Deep Learning Methods for Autonomous Driving | |
Kuutti et al. | Deep Learning for Vehicle Control |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |