CN109871010A - 基于强化学习型的方法及系统 - Google Patents
基于强化学习型的方法及系统 Download PDFInfo
- Publication number
- CN109871010A CN109871010A CN201811586865.5A CN201811586865A CN109871010A CN 109871010 A CN109871010 A CN 109871010A CN 201811586865 A CN201811586865 A CN 201811586865A CN 109871010 A CN109871010 A CN 109871010A
- Authority
- CN
- China
- Prior art keywords
- driving behavior
- vehicle
- current
- data
- driving
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 30
- 230000002787 reinforcement Effects 0.000 title abstract 2
- 230000006399 behavior Effects 0.000 claims abstract description 185
- 230000001133 acceleration Effects 0.000 claims description 30
- 230000006870 function Effects 0.000 claims description 16
- 230000007613 environmental effect Effects 0.000 claims description 14
- 238000012549 training Methods 0.000 claims description 9
- 230000003542 behavioural effect Effects 0.000 claims description 8
- 230000008569 process Effects 0.000 claims description 8
- 150000001875 compounds Chemical class 0.000 claims description 6
- 238000012986 modification Methods 0.000 claims description 3
- 230000004048 modification Effects 0.000 claims description 3
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 230000006872 improvement Effects 0.000 description 7
- 238000004891 communication Methods 0.000 description 5
- 210000004556 brain Anatomy 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000002093 peripheral effect Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000033001 locomotion Effects 0.000 description 2
- 238000004886 process control Methods 0.000 description 2
- 230000031068 symbiosis, encompassing mutualism through parasitism Effects 0.000 description 2
- 206010039203 Road traffic accident Diseases 0.000 description 1
- 208000027418 Wounds and injury Diseases 0.000 description 1
- 230000006378 damage Effects 0.000 description 1
- 230000034994 death Effects 0.000 description 1
- 231100000517 death Toxicity 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 208000014674 injury Diseases 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
Landscapes
- Control Of Driving Devices And Active Controlling Of Vehicle (AREA)
- Traffic Control Systems (AREA)
Abstract
本发明公开了一种基于强化学习型的方法及系统,通过获取车辆驾驶行为数据及车辆当前位置信息,基于预学习驾驶轨迹数据,调整车辆自动驾驶行为,实现车辆的自动控制,通过对驾驶行为进行精准聚类,提高车辆自动驾驶执行精度,提高自动驾驶事故应急管理,有效减少事故的发生。另外,通过将驾驶行为数据实时发送至远程控制端,当车辆驾驶处于失配状态时,接收远程控制端调整车辆驾驶行为指令,使远程控制人员可以在车辆遇到紧急情况时远程遥控车辆驾驶行为,使车辆自动驾驶更加安全可靠。本发明涉及机械电子与人工智能技术领域。
Description
技术领域
本发明涉及机械电子与人工智能技术领域,尤其涉及一种基于强化学习型的方法及系统。
背景技术
复分数方差即复数分数方差。
随着社会的进步,我国居民生活水平不断提高,汽车已成为我们不能缺少的重要交通工具。由于任意场景的自动驾驶环境相对复杂,车毁人亡的交通事故被告纠纷较大,需要有云端智能的协助,形成共生自动驾驶的架构,特殊场景的智能援助作业对事故库管理有非常高的实时性要求,作为政府部门事故库管理人员、运营商自动驾驶随车安全员,行业协会远程监督员和其它保险公司流动评估人员应能够与事故库调度室及时取得语音或非语音联系,将事故库一线的各种情况图文并茂的共享,实现智能援助过程统一指挥统一调度。虽然工程师对事故库安全都非常重视,但事故的发生是不确定性的,事故发生前必须依据当时情况,采取果断的快速有组织的反应措施进行处理,对共生自动驾驶数据进行全方位应急调用。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本发明的一个目的是提供一种基于强化学习型的方法及系统,提高自动驾驶事故应急管理,有效减少事故的发生。
本发明所采用的技术方案是:一种基于强化学习型的方法,所述方法包括:
获取车辆在行驶过程中的批量训练数据,生成预学习驾驶轨迹数据,并存储在数据库中,所述驾驶轨迹数据包括驾驶行为数据和相应的线路数据;
获取车辆当前驾驶行为数据,基于复分数模型对驾驶行为数据进行处理,根据驾驶行为数据处理结果以确定是否锁定当前驾驶参数;
获取车辆当前位置与环境信息,基于预学习驾驶轨迹数据,根据驾驶行为数据,调整车辆自动驾驶行为;
将获取的驾驶行为数据输入深度Q网络模块和学习损失函数模块,对获取的驾驶行为数据进行按复分数模型计算并记分聚类存储,更新数据库。
作为上述方案的进一步改进,所述获取车辆当前驾驶行为数据,基于复分数模型对驾驶行为数据进行处理,根据驾驶行为数据处理结果以确定是否锁定当前驾驶速度具体包括:
采集当前车辆加速度,基于复分数模型计算车辆加速度的复分数方差,判断车辆加速度是否超过加速度预设阈值,若是,则锁定当前车辆加速度,所述车辆加速度包括油门加速度、方向盘加速度和刹车加速度。
作为上述方案的进一步改进,所述获取车辆当前位置与环境信息,基于预学习驾驶轨迹数据,根据驾驶行为数据,调整车辆自动驾驶行为具体包括:
获取车辆当前位置与环境信息,包括当前车身位置、当前航向角及当前道路状况,从数据库中匹配相应的自动驾驶曲线及指令驾驶行为;
根据车辆当前驾驶行为数据,判断车辆当前驾驶行为是否与指令驾驶行为匹配,若不匹配,则调整车辆自动驾驶行为。
作为上述方案的进一步改进,所述将获取的驾驶行为数据输入深度Q网络模块和学习损失函数模块,对获取的驾驶行为数据进行按复分数模型计算并记分聚类存储,更新数据库具体包括:
将获取的驾驶行为数据输入深度Q网络模块和学习损失函数模块;
对获取的驾驶行为数据按复分数模型进行计算,获取驾驶行为记分聚类表,根据驾驶行为记分聚类表的打分准则,得到当前驾驶行为数据的驾驶行为分值;
根据驾驶行为分值,对当前的驾驶行为进行记分聚类存储,并更新数据库。
作为上述方案的进一步改进,所述方法还包括将车辆当前驾驶行为数据和车辆当前位置信息实时发送至远程控制端,当车辆驾驶处于失配状态时,接收远程控制端调整车辆驾驶行为指令。
一种基于强化学习型的系统,包括:
存储模块,用于获取车辆在行驶过程中的批量训练数据,生成预学习驾驶轨迹数据,并存储在数据库中,所述驾驶轨迹数据包括驾驶行为数据和相应的线路数据;
锁定模块,用于获取车辆当前驾驶行为数据,基于复分数模型对驾驶行为数据进行处理,根据驾驶行为数据处理结果以确定是否锁定当前驾驶参数;
调整模块,用于获取车辆当前位置与环境信息,基于预学习驾驶轨迹数据,根据驾驶行为数据,调整车辆自动驾驶行为;
聚类模块,用于将获取的驾驶行为数据输入深度Q网络模块和学习损失函数模块,对获取的驾驶行为数据进行按复分数模型计算并记分聚类存储,更新数据库。
作为上述方案的进一步改进,所述调整模块具体包括:
获取单元,用于获取车辆当前位置与环境信息,包括当前车身位置、当前航向角及当前道路状况,从数据库中匹配相应的自动驾驶曲线及指令驾驶行为;
匹配调整单元,用于根据车辆当前驾驶行为数据,判断车辆当前驾驶行为是否与指令驾驶行为匹配,若不匹配,则调整车辆自动驾驶行为。
作为上述方案的进一步改进,所述聚类模块具体包括:
学习单元,用于将获取的驾驶行为数据输入深度Q网络模块和学习损失函数模块;
记分单元,用于对获取的驾驶行为数据按复分数模型进行计算,获取驾驶行为记分聚类表,根据驾驶行为记分聚类表的打分准则,得到当前驾驶行为数据的驾驶行为分值;
聚类存储单元,用于根据驾驶行为分值,对当前的驾驶行为进行记分聚类存储,并更新数据库。
作为上述方案的进一步改进,所述系统还包括:
发送接收模块,用于将车辆当前驾驶行为数据和车辆当前位置信息实时发送至远程控制端,当车辆驾驶处于失配状态时,接收远程控制端调整车辆驾驶行为指令。
本发明的有益效果是:
一种基于强化学习型的方法及系统,通过获取车辆驾驶行为数据及车辆当前位置信息,基于预学习驾驶轨迹数据,调整车辆自动驾驶行为,实现车辆的自动控制,通过对驾驶行为进行精准聚类,提高车辆自动驾驶执行精度,提高自动驾驶事故应急管理,有效减少事故的发生。
另外,通过将驾驶行为数据实时发送至远程控制端,当车辆驾驶处于失配状态时,接收远程控制端调整车辆驾驶行为指令,使远程控制人员可以在车辆遇到紧急情况时远程遥控车辆驾驶行为,使车辆自动驾驶更加安全可靠。
附图说明
下面结合附图对本发明的具体实施方式作进一步说明:
图1是本发明一种基于强化学习型的方法流程图;
图2是本发明一种基于强化学习型的系统模块框图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
实施例一
图1是本发明一种基于强化学习型的方法流程图,参照图1,一种基于强化学习型的方法,包括步骤S1至步骤S5。
S1,获取车辆在行驶过程中的批量训练数据,生成预学习驾驶轨迹数据,并存储在数据库中,驾驶轨迹数据包括驾驶行为数据和相应的线路数据;
S2,获取车辆当前驾驶行为数据,基于复分数模型对驾驶行为数据进行处理,根据驾驶行为数据处理结果以确定是否锁定当前驾驶参数;
S3,获取车辆当前位置与环境信息,基于预学习驾驶轨迹数据,根据驾驶行为数据,调整车辆自动驾驶行为;
S4,将获取的驾驶行为数据输入深度Q网络模块和学习损失函数模块,对获取的驾驶行为数据进行按复分数模型计算并记分聚类存储,并更新数据库;
S5,将车辆当前驾驶行为数据和车辆当前位置信息实时发送至远程控制端,当车辆驾驶处于失配状态时,接收远程控制端调整车辆驾驶行为指令。
在本实施例中,自动驾驶车辆可以由车辆电脑控制或者人类控制。
本实施例中,获取车辆在行驶过程中的批量训练数据,生成预学习驾驶轨迹数据具体包括:基于专业司机的T-BOX与GPS线路场景对应同步的刹车油门方向盘转向经验数据对模型进行预训练(即人脑驾驶在无电脑辅助驾驶情形下的训练),生成预学习驾驶轨迹数据。
具体的,步骤S2包括:
采集当前车辆加速度,基于复分数模型计算车辆加速度的复分数方差,判断车辆加速度是否超过加速度预设阈值,若是,则锁定当前车辆加速度,车辆加速度包括油门加速度、方向盘加速度和刹车加速度。超过加速度预设阈值则锁定车辆加速度,可避免危险驾驶行为带来的潜在事故。本实施例中,计算车辆加速度复分数方差的复分数模型为:
ξi=ξi-1+ai·Δt(1)
其中,a表示加速度,Δt是采样间隔时间,ξ表示速度,i表示采集加速度的序列号,n表示采集加速度的次数。
在本实施例中,步骤S3包括子步骤:
S31,获取车辆当前位置与环境信息,包括当前车身位置、当前航向角及当前道路状况,从数据库中匹配相应的自动驾驶曲线及指令驾驶行为;
S32,根据车辆当前驾驶行为数据,判断车辆当前驾驶行为是否与指令驾驶行为匹配,若不匹配,则调整车辆自动驾驶行为。
在具体实施例中,步骤S31具体为:获取车辆当前车身位置、当前航向角,及当前道路状况,包括当前道路的宽度、弯度、坡度、植被覆盖指数及特征物密度等,从数据库中匹配相应的自动驾驶曲线及指令驾驶行为。
步骤S32具体为:根据车辆当前驾驶行为数据,包括当前车辆姿势信息,判断车辆姿势信息与指令驾驶行为中的车辆姿势信息是否匹配,若不匹配,则调整车辆自动驾驶行为,直至实时车辆驾驶行为与指令驾驶行为匹配为止。
根据快慢车道等级及路段特征,判断驾驶行为是否为异常,对自动驾驶行为进行调整,减少车辆频繁的左右转向与超车行为,减少危险事故发生。
本实施例中,步骤S4包括:
将获取的驾驶行为数据输入深度Q网络模块和学习损失函数模块;
本实施例中,损失函数定义为电脑驾驶行为记分与人脑驾驶行为最优记分之间的差值。
对获取的驾驶行为数据按复分数模型进行计算,获取驾驶行为记分聚类表,根据驾驶行为记分聚类表的打分准则,得到当前驾驶行为数据的驾驶行为分值;
根据驾驶行为分值,对当前的驾驶行为进行记分聚类存储,并更新数据库。将获取的驾驶行为数据输入深度Q网络模块和学习损失函数模块,以生成更有的电脑驾驶指令,控制自动驾驶行为。
通过对驾驶行为进行精准聚类,提高车辆自动驾驶执行精度,避免交通伤亡事故的发生。
表1为驾驶行为记分模板列表。
表1:
参照表1,e表示实验测得人脑驾驶的统计值,c表示电脑驾驶仿真的获取值,M为均值,SD为标准差,CM为复数均值,CFD为复分数方差。
本实施例中,步骤S5具体包括:
将车辆当前驾驶行为数据和车辆当前位置信息实时发送至远程控制端,包括将普通刹车信息、紧急刹车信息、转向信息、油门信息与GPS时间位置信息实时发送至远程控制端,根据当前车辆姿势信息、当前车身位置及当前航向角,计算在预设时间内抵达预设地点的误差,对误差进行分类估算评分,并将误差及相应评分存储在数据库中,若误差超过预设值时,则认为车辆驾驶处于失配状态,由远程控制端调整车辆驾驶行为,车辆接收远程控制端调整车辆驾驶行为指令。
远程控制端通过无线组网实时红绿灯安全观察及数据库数据,制定最准确的应急事故方案,调整车辆驾驶行为。
误差包括观察误差、动作误差和决策误差,观察误差指摄像头获取图像数据误差,动作误差指传感器误差,决策误差指调整当前车辆驾驶行为产生误差,对此三类误差进行估算评分后存储在数据库中,作为自动驾驶行为学习的参考数据,使学习数据更加精确。
当遭遇紧急情况时,通过远程控制端远程遥控车辆驾驶行为,使车辆自动驾驶更加安全可靠。
实施例二
图2是本发明一种基于强化学习型的系统模块框图,参照图2,一种基于强化学习型的系统,包括:
存储模块,用于获取车辆在行驶过程中的批量训练数据,生成预学习驾驶轨迹数据,并存储在数据库中,驾驶轨迹数据包括驾驶行为数据和相应的线路数据;
锁定模块,用于获取车辆当前驾驶行为数据,基于复分数模型对驾驶行为数据进行处理,根据驾驶行为数据处理结果以确定是否锁定当前驾驶参数;
调整模块,用于获取车辆当前位置与环境信息,基于预学习驾驶轨迹数据,根据驾驶行为数据,调整车辆自动驾驶行为;
聚类模块,用于将获取的驾驶行为数据输入深度Q网络模块和学习损失函数模块,对获取的驾驶行为数据进行按复分数模型计算并记分聚类存储,更新数据库;
发送接收模块,用于将车辆当前驾驶行为数据和车辆当前位置信息实时发送至远程控制端,当车辆驾驶处于失配状态时,接收远程控制端调整车辆驾驶行为指令。
本实施例中,调整模块包括:
获取单元,用于获取车辆当前位置与环境信息,包括当前车身位置、当前航向角及当前道路状况,从数据库中匹配相应的自动驾驶曲线及指令驾驶行为;
匹配调整单元,用于根据车辆当前驾驶行为数据,判断车辆当前驾驶行为是否与指令驾驶行为匹配,若不匹配,则调整车辆自动驾驶行为。
本实施例中,聚类模块包括:
学习单元,用于将获取的驾驶行为数据输入深度Q网络模块和学习损失函数模块;
记分单元,用于对获取的驾驶行为数据按复分数模型进行计算,获取驾驶行为记分聚类表,根据驾驶行为记分聚类表的打分准则,得到当前驾驶行为数据的驾驶行为分值;
聚类存储单元,用于根据驾驶行为分值,对当前的驾驶行为进行记分聚类存储,并更新数据库。
本发明实施例提供的一种基于强化学习型的系统用于执行上述的基于强化学习型的方法,其工作原理和有益效果一一对应,因而不再赘述。
实施例三
本实施例的一种基于强化学习型的系统由电脑驾驶与人脑协同自动驾驶。
系统包括控制器、执行器、无线通信模块和外设模块,其中,控制器分别与执行器、无线通信模块和外设模块连接。
具体的,外设模块用于实时采集车辆当前驾驶行为数据和当前位置信息。外设模块包括传感器单元和定位单元,定位单元具有多种工作模式,包括GPS和/或SLAM。传感单元实时采集车辆运动数据包括车辆角速度、车辆移动速度等。
控制器负责系统的整体控制、运动传感信号的控制、数据缺省使能的控制、信号处理和模式识别的实现。
执行器接收控制器的控制指令并执行控制指令,进而调整车辆的驾驶行为。
无线通信模块为5G通信模块,无线通信模块将车辆当前驾驶行为数据和当前位置信息实时发送至远程控制端及云端服务器,实现数据共享。
本实施例中,系统还包括存储器,存储区用于存储预学习驾驶轨迹数据,存储器与控制器连接,控制器将驾驶行为记分聚类后存储在存储器中。
本发明实施例提供的一种基于强化学习型的系统用于执行上述的基于强化学习型的方法,其工作原理和有益效果一一对应,因而不再赘述。
一种基于强化学习型的方法及系统,通过获取车辆驾驶行为数据及车辆当前位置信息,基于预学习驾驶轨迹数据,调整车辆自动驾驶行为,实现车辆的自动控制,通过对驾驶行为进行精准聚类,提高车辆自动驾驶执行精度,提高自动驾驶事故应急管理,有效减少事故的发生。
另外,通过将驾驶行为数据实时发送至远程控制端,当车辆驾驶处于失配状态时,接收远程控制端调整车辆驾驶行为指令,使远程控制人员可以在车辆遇到紧急情况时远程遥控车辆驾驶行为,使车辆自动驾驶更加安全可靠。
以上是对本发明的较佳实施进行了具体说明,但本发明创造并不限于所述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可作出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。
Claims (9)
1.一种基于强化学习型的方法,其特征在于,所述方法包括:
获取车辆在行驶过程中的批量训练数据,生成预学习驾驶轨迹数据,并存储在数据库中,所述驾驶轨迹数据包括驾驶行为数据和相应的线路数据;
获取车辆当前驾驶行为数据,基于复分数模型对驾驶行为数据进行处理,根据驾驶行为数据处理结果以确定是否锁定当前驾驶参数;
获取车辆当前位置与环境信息,基于预学习驾驶轨迹数据,根据驾驶行为数据,调整车辆自动驾驶行为;
将获取的驾驶行为数据输入深度Q网络模块和学习损失函数模块,对获取的驾驶行为数据进行按复分数模型计算并记分聚类存储,更新数据库。
2.根据权利要求1所述的一种基于强化学习型的方法,其特征在于,所述获取车辆当前驾驶行为数据,基于复分数模型对驾驶行为数据进行处理,根据驾驶行为数据处理结果以确定是否锁定当前驾驶速度具体包括:
采集当前车辆加速度,基于复分数模型计算车辆加速度的复分数方差,判断车辆加速度是否超过加速度预设阈值,若是,则锁定当前车辆加速度,所述车辆加速度包括油门加速度、方向盘加速度和刹车加速度。
3.根据权利要求1所述的一种基于强化学习型的方法,其特征在于,所述获取车辆当前位置与环境信息,基于预学习驾驶轨迹数据,根据驾驶行为数据,调整车辆自动驾驶行为具体包括:
获取车辆当前位置与环境信息,包括当前车身位置、当前航向角及当前道路状况,从数据库中匹配相应的自动驾驶曲线及指令驾驶行为;
根据车辆当前驾驶行为数据,判断车辆当前驾驶行为是否与指令驾驶行为匹配,若不匹配,则调整车辆自动驾驶行为。
4.根据权利要求1所述的一种基于强化学习型的方法,其特征在于,所述将获取的驾驶行为数据输入深度Q网络模块和学习损失函数模块对获取的驾驶行为数据进行按复分数模型计算并记分聚类存储,更新数据库具体包括:
将获取的驾驶行为数据输入深度Q网络模块和学习损失函数模块;
对获取的驾驶行为数据按复分数模型进行计算,获取驾驶行为记分聚类表,根据驾驶行为记分聚类表的打分准则,得到当前驾驶行为数据的驾驶行为分值;
根据驾驶行为分值,对当前的驾驶行为进行记分聚类存储,并更新数据库。
5.根据权利要求1至4任一项所述的一种基于强化学习型的方法,其特征在于,所述方法还包括将车辆当前驾驶行为数据和车辆当前位置信息实时发送至远程控制端,当车辆驾驶处于失配状态时,接收远程控制端调整车辆驾驶行为指令。
6.一种基于强化学习型的系统,其特征在于,其包括:
存储模块,用于获取车辆在行驶过程中的批量训练数据,生成预学习驾驶轨迹数据,并存储在数据库中,所述驾驶轨迹数据包括驾驶行为数据和相应的线路数据;
锁定模块,用于获取车辆当前驾驶行为数据,基于复分数模型对驾驶行为数据进行处理,根据驾驶行为数据处理结果以确定是否锁定当前驾驶参数;
调整模块,用于获取车辆当前位置与环境信息,基于预学习驾驶轨迹数据,根据驾驶行为数据,调整车辆自动驾驶行为;
聚类模块,用于将获取的驾驶行为数据输入深度Q网络模块和学习损失函数模块,对获取的驾驶行为数据进行按复分数模型计算并记分聚类存储,更新数据库。
7.根据权利要求6所述的一种基于强化学习型的系统,其特征在于,所述调整模块具体包括:
获取单元,用于获取车辆当前位置与环境信息,包括当前车身位置、当前航向角及当前道路状况,从数据库中匹配相应的自动驾驶曲线及指令驾驶行为;
匹配调整单元,用于根据车辆当前驾驶行为数据,判断车辆当前驾驶行为是否与指令驾驶行为匹配,若不匹配,则调整车辆自动驾驶行为。
8.根据权利要求6所述的一种基于强化学习型的系统,其特征在于,所述聚类模块具体包括:
学习单元,用于将获取的驾驶行为数据输入深度Q网络模块和学习损失函数模块;
记分单元,用于对获取的驾驶行为数据按复分数模型进行计算,获取驾驶行为记分聚类表,根据驾驶行为记分聚类表的打分准则,得到当前驾驶行为数据的驾驶行为分值;
聚类存储单元,用于根据驾驶行为分值,对当前的驾驶行为进行记分聚类存储,并更新数据库。
9.根据权利要求6所述的一种基于强化学习型的系统,其特征在于,所述系统还包括:
发送接收模块,用于将车辆当前驾驶行为数据和车辆当前位置信息实时发送至远程控制端,当车辆驾驶处于失配状态时,接收远程控制端调整车辆驾驶行为指令。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811586865.5A CN109871010B (zh) | 2018-12-25 | 2018-12-25 | 基于强化学习型的方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811586865.5A CN109871010B (zh) | 2018-12-25 | 2018-12-25 | 基于强化学习型的方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109871010A true CN109871010A (zh) | 2019-06-11 |
CN109871010B CN109871010B (zh) | 2022-03-22 |
Family
ID=66917305
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811586865.5A Active CN109871010B (zh) | 2018-12-25 | 2018-12-25 | 基于强化学习型的方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109871010B (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110481561A (zh) * | 2019-08-06 | 2019-11-22 | 北京三快在线科技有限公司 | 无人驾驶车辆自动控制信号生成方法和装置 |
CN110530371A (zh) * | 2019-09-06 | 2019-12-03 | 电子科技大学 | 一种基于深度强化学习的室内地图匹配方法 |
CN111341102A (zh) * | 2020-03-02 | 2020-06-26 | 北京理工大学 | 运动基元库构建方法和装置、连接运动基元的方法和装置 |
CN112415904A (zh) * | 2019-08-23 | 2021-02-26 | 郑州宇通客车股份有限公司 | 一种自动驾驶车辆的远程控制方法、装置及系统 |
CN112435464A (zh) * | 2020-10-23 | 2021-03-02 | 江苏大学 | 一种基于q强化学习的高速路主线行驶车辆的接管时间预测系统及预测方法 |
CN112904852A (zh) * | 2021-01-18 | 2021-06-04 | 国汽智控(北京)科技有限公司 | 一种自动驾驶控制方法、装置及电子设备 |
CN113325721A (zh) * | 2021-08-02 | 2021-08-31 | 北京中超伟业信息安全技术股份有限公司 | 一种工业系统无模型自适应控制方法及系统 |
CN113771874A (zh) * | 2021-08-02 | 2021-12-10 | 北京百度网讯科技有限公司 | 自动驾驶车辆的控制方法、装置、电子设备及可读存储介质 |
CN114132333A (zh) * | 2021-12-14 | 2022-03-04 | 阿维塔科技(重庆)有限公司 | 一种智能驾驶系统优化方法、装置及计算机可读存储介质 |
CN114200937A (zh) * | 2021-12-10 | 2022-03-18 | 新疆工程学院 | 一种基于gps定位和5g技术的无人驾驶控制方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140229206A1 (en) * | 2000-05-26 | 2014-08-14 | Hartford Fire Insurance Company | Method and system for processing data relating to determining subrogation recovery |
CN105774810A (zh) * | 2014-12-24 | 2016-07-20 | 中国电信股份有限公司 | 车辆驾驶行为处理方法和装置 |
CN107169567A (zh) * | 2017-03-30 | 2017-09-15 | 深圳先进技术研究院 | 一种用于车辆自动驾驶的决策网络模型的生成方法及装置 |
US20180032082A1 (en) * | 2016-01-05 | 2018-02-01 | Mobileye Vision Technologies Ltd. | Machine learning navigational engine with imposed constraints |
CN107862346A (zh) * | 2017-12-01 | 2018-03-30 | 驭势科技(北京)有限公司 | 一种进行驾驶策略模型训练的方法与设备 |
US20180129970A1 (en) * | 2016-11-10 | 2018-05-10 | Justin E. Gottschlich | Forward-looking machine learning for decision systems |
CN108068815A (zh) * | 2016-11-14 | 2018-05-25 | 百度(美国)有限责任公司 | 用于自动驾驶车辆的基于规划反馈的决策改进系统 |
-
2018
- 2018-12-25 CN CN201811586865.5A patent/CN109871010B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140229206A1 (en) * | 2000-05-26 | 2014-08-14 | Hartford Fire Insurance Company | Method and system for processing data relating to determining subrogation recovery |
CN105774810A (zh) * | 2014-12-24 | 2016-07-20 | 中国电信股份有限公司 | 车辆驾驶行为处理方法和装置 |
US20180032082A1 (en) * | 2016-01-05 | 2018-02-01 | Mobileye Vision Technologies Ltd. | Machine learning navigational engine with imposed constraints |
US20180129970A1 (en) * | 2016-11-10 | 2018-05-10 | Justin E. Gottschlich | Forward-looking machine learning for decision systems |
CN108068815A (zh) * | 2016-11-14 | 2018-05-25 | 百度(美国)有限责任公司 | 用于自动驾驶车辆的基于规划反馈的决策改进系统 |
CN107169567A (zh) * | 2017-03-30 | 2017-09-15 | 深圳先进技术研究院 | 一种用于车辆自动驾驶的决策网络模型的生成方法及装置 |
CN107862346A (zh) * | 2017-12-01 | 2018-03-30 | 驭势科技(北京)有限公司 | 一种进行驾驶策略模型训练的方法与设备 |
Non-Patent Citations (4)
Title |
---|
MENEGAZ, M 等: "Using the GTSOM network for mobile robot navigation with reinforcement learning", 《 PROCEEDINGS 2009 INTERNATIONAL JOINT CONFERENCE ON NEURAL NETWORKS (IJCNN 2009 - ATLANTA) 》 * |
夏伟: "基于深度强化学习的自动驾驶决策仿真", 《中国优秀硕士学位论文全文数据库 工程科技II辑》 * |
罗志祥: "基于强化学习的智能车移动模型研究", 《中国优秀硕士学位论文全文数据库 工程科技Ⅱ辑》 * |
韩向敏 等: "一种基于深度强化学习的自适应巡航控制算法", 《计算机工程》 * |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110481561A (zh) * | 2019-08-06 | 2019-11-22 | 北京三快在线科技有限公司 | 无人驾驶车辆自动控制信号生成方法和装置 |
CN112415904A (zh) * | 2019-08-23 | 2021-02-26 | 郑州宇通客车股份有限公司 | 一种自动驾驶车辆的远程控制方法、装置及系统 |
CN110530371B (zh) * | 2019-09-06 | 2021-05-18 | 电子科技大学 | 一种基于深度强化学习的室内地图匹配方法 |
CN110530371A (zh) * | 2019-09-06 | 2019-12-03 | 电子科技大学 | 一种基于深度强化学习的室内地图匹配方法 |
CN111341102A (zh) * | 2020-03-02 | 2020-06-26 | 北京理工大学 | 运动基元库构建方法和装置、连接运动基元的方法和装置 |
CN111341102B (zh) * | 2020-03-02 | 2021-04-23 | 北京理工大学 | 运动基元库构建方法和装置、连接运动基元的方法和装置 |
CN112435464A (zh) * | 2020-10-23 | 2021-03-02 | 江苏大学 | 一种基于q强化学习的高速路主线行驶车辆的接管时间预测系统及预测方法 |
CN112904852A (zh) * | 2021-01-18 | 2021-06-04 | 国汽智控(北京)科技有限公司 | 一种自动驾驶控制方法、装置及电子设备 |
CN113325721A (zh) * | 2021-08-02 | 2021-08-31 | 北京中超伟业信息安全技术股份有限公司 | 一种工业系统无模型自适应控制方法及系统 |
CN113771874A (zh) * | 2021-08-02 | 2021-12-10 | 北京百度网讯科技有限公司 | 自动驾驶车辆的控制方法、装置、电子设备及可读存储介质 |
CN114200937A (zh) * | 2021-12-10 | 2022-03-18 | 新疆工程学院 | 一种基于gps定位和5g技术的无人驾驶控制方法 |
CN114200937B (zh) * | 2021-12-10 | 2023-07-14 | 新疆工程学院 | 一种基于gps定位和5g技术的无人驾驶控制方法 |
CN114132333A (zh) * | 2021-12-14 | 2022-03-04 | 阿维塔科技(重庆)有限公司 | 一种智能驾驶系统优化方法、装置及计算机可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN109871010B (zh) | 2022-03-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109871010A (zh) | 基于强化学习型的方法及系统 | |
CN109421731B (zh) | 可信度检验模块、驾驶辅助系统和校准传感器的方法 | |
Gadepally et al. | A framework for estimating driver decisions near intersections | |
Kabzan et al. | AMZ driverless: The full autonomous racing system | |
US9989964B2 (en) | System and method for controlling vehicle using neural network | |
CN108088456B (zh) | 一种具有时间一致性的无人驾驶车辆局部路径规划方法 | |
CN107958269B (zh) | 一种基于隐马尔可夫模型的行车危险度预测方法 | |
Gao et al. | Robust lateral trajectory following control of unmanned vehicle based on model predictive control | |
CN108137052B (zh) | 驾驶控制装置、驾驶控制方法和计算机可读介质 | |
CN108657189B (zh) | 基于bp神经网络和安全距离移线工况自动驾驶转向系统及其控制方法 | |
Cao et al. | Trajectory tracking control algorithm for autonomous vehicle considering cornering characteristics | |
CN107015477B (zh) | 基于状态反馈的车辆路径跟踪h∞控制方法 | |
Bosetti et al. | On curve negotiation: From driver support to automation | |
CN108445885A (zh) | 一种基于纯电动物流车的自动驾驶系统及其控制方法 | |
US20210269065A1 (en) | Perpendicular cut-in detection | |
CN109641591A (zh) | 自动驾驶装置 | |
CN111775949A (zh) | 一种人机共驾控制系统的个性化驾驶员转向行为辅助方法 | |
US12055935B2 (en) | Perpendicular cut-in training | |
CN111290399B (zh) | 一种车队协同驾驶组队控制方法 | |
CN111583636B (zh) | 一种基于车路协同的混合交通横纵耦合控制方法 | |
US20210390349A1 (en) | Label-free performance evaluator for traffic light classifier system | |
CN115195748A (zh) | 基于数据驱动的智能汽车拟人化决策规划系统及方法 | |
CN111267852B (zh) | 一种车队协同驾驶巡航控制方法 | |
CN114830204A (zh) | 通过神经网络来训练神经网络 | |
CN111290400A (zh) | 一种车队协同驾驶拆分控制方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |