CN116205272A - 基于好奇心机制和优先经验回放机制的自适应控制方法 - Google Patents

基于好奇心机制和优先经验回放机制的自适应控制方法 Download PDF

Info

Publication number
CN116205272A
CN116205272A CN202310175691.8A CN202310175691A CN116205272A CN 116205272 A CN116205272 A CN 116205272A CN 202310175691 A CN202310175691 A CN 202310175691A CN 116205272 A CN116205272 A CN 116205272A
Authority
CN
China
Prior art keywords
value
feature vector
curiosity
adaptive
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310175691.8A
Other languages
English (en)
Inventor
骆祥峰
肖文文
谢少荣
陈雪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Shanghai for Science and Technology
Original Assignee
University of Shanghai for Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Shanghai for Science and Technology filed Critical University of Shanghai for Science and Technology
Priority to CN202310175691.8A priority Critical patent/CN116205272A/zh
Publication of CN116205272A publication Critical patent/CN116205272A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/7715Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种基于好奇心机制和优先经验回放机制的自适应控制方法,所述决策方法利用传感器获得多源感知数据,将感知数据输入训练好的自适应决策模型,由自适应决策模型输出自适应决策;所述自适应决策模型包括以下部分:卷积神经网络,输入感知数据,得到感知特征向量;好奇心机制和优先经验回放机制,分别输入感知特征向量,获取语义特征融合向量;评估网络和演示网络,分别输入语义特征融合向量,输出自适应决策。与现有技术相比,本发明提高了对未见过和动态变化的场景自适应性,提升在障碍物避障场景中的成功率。

Description

基于好奇心机制和优先经验回放机制的自适应控制方法
技术领域
本发明涉及无人车自适应决策和强化学习领域,尤其是涉及一种基于好奇心机制和优先经验回放机制的无人车适应控制方法。
背景技术
无人车自适应学习是深度强化学习领域与智能无人系统相结合的子课题之一,是在无人车自主决策的基础上从元任务中学习到基础技能,再迁移到新任务中使其具备自适应的能力。目前主流的方法主要有领域自适应,领域随机化和参数调整等方法。
领域自适应是将虚拟环境和现实环境的状态信息映射到一个共同的隐变量空间,在虚拟环境中,使用映射后的隐变量空间中的数据进行算法的训练。当迁移到现实环境中时,同样将现实感知状态映射到隐变量空间后,可直接将虚拟环境训练好的模型迁移到现实场景。无人车在源域中训练,再将训练好的模型迁移到目标域中,在此过程需要巧妙的设置其约束条件,才可以获得好的决策效果。
领域随机化是对虚拟环境中的视觉信息或者物理参数进行随机化,如障碍物避障任务中,随机化墙壁颜色、地板颜色、目标颜色、地面摩擦力、光照的强度等,使得无人车可以在动态变化的场景中进行学习。
参数调整是将虚拟场景中训练好的自适应决策模型迁移到真实场景中,根据真实场景中的无人车决策动作好坏的反馈,及时手动调整相关参数优化决策动作。
综上,当前的无人车自适应决策方法需要依靠大量的感知数据,且感知数据都是同源的,视野范围有限,由于以上问题导致无人车的训练效率低、对从未见过和动态变化的场景自适应性差和稳定性低。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于好奇心机制和优先经验回放机制的无人车适应决策方法。
本发明的目的可以通过以下技术方案来实现:
一种基于好奇心机制和优先经验回放机制的自适应控制方法,所述控制方法利用多种异质传感器获得多源感知数据,将感知数据输入训练好的自适应决策模型,自适应决策模型输出自适应决策至无人车;
所述自适应决策模型包括以下部分:
卷积神经网络,基于输入的感知数据,得到感知特征向量;
好奇心机制和优先经验回放机制,分别基于输入的感知特征向量,获取语义特征融合向量;
评估网络和演示网络,分别基于输入的语义特征融合向量,输出自适应决策。
进一步的,所述异质传感器包括视觉、雷达、位置传感器;
获得多源感知数据后,分别对视觉传感器输出的图像维度和雷达数据的雷达维度进行预处理;由位置传感器数据得到无人车的位置状态信息向量Pw,包括无人车的速度、无人车的转向角、无人车横坐标、无人车纵坐标、目标横坐标以及目标纵坐标。
进一步的,将感知数据输入到所述卷积神经网络中,得到感知特征向量,具体包括如下过程:
图像特征提取:将视觉传感器输出图像数据输入到卷积层后,再输入到全连接层,输出图像特征向量Iw
雷达特征提取:将雷达数据经过卷积层和全连接层之后输出雷达特征向量Rw
获得感知特征向量:将图像、雷达和位置特征向量根据不同的权重参数相加得到感知融合特征向量Ztotal,其公式为:
Ztotal=F1×Iw+F2×RW+F3×PW
其中,F1,F2,F2为权重参数,Pw为位置状态信息向量。
进一步的,所述视觉传感器包括部署在无人车左、前、右摄像头,三个摄像头的图像分别通过卷积层和全连接层,最后输出三个特征向量,分别是左特征向量Iwl、前特征向量Iwf和右特征向量Iwr
将三个特征向量根据不同权重值组合成图像融合特征向量Iwtotal,再将Iwtotal经过卷积层和全连接层之后,输出图像特征向量Iw
进一步的,将感知特征向量分别输入到所述好奇心机制和优先经验回放机制中,好奇心机制和优先经验回放机制,具体如下:
优先经验回放机制:将感知特征向量Ztotal作为当前时刻状态Gt,输入到经验回放池中;所述经验回放池是感知特征向量的集合,再通过TD-Error获得状态差异值Serror,其公式为:
Serror=Rt+1+r×V(gt+1)-V(Gt)
其中,Rt+1为下一时刻的奖励值,所述奖励值R的公式以成功躲避障碍物、到达指定位置和找到目标表示完成障碍物避障任务进行设置,r为超参数,V(Gt+1)为下一时刻Gt+1的评估值,V(Gt)为当前时刻Gt的评估值,根据状态差异值Serror,迭代V(Gt),表达式为:V(Gt)←V(Gt)+α×Serror
其中,α为学习率,V(x)是值函数包括卷积层、激活函数和全连接层,将Gt输入到卷积层后,经过ReLU激活函数,再通过全连接层,输出当前时刻Gt评估值V(Gt);
根据V(Gt)值的大小筛选出高语义特征的状态向量得到语义特征向量Gv
好奇心机制:将感知特征融合向量Ztotal作为当前时刻状态向量Ht,将其输入到卷积层中获得特征向量b(Ht);
将特征向量b(Ht)和当前时刻的动作At=[speed,steer],共同输入到NET网络中,所述NET网络由卷积层和全连接层组成,输出预测特征b′(Ht+1)和预测动作A’t,speed为无人车的速度,steer为无人车的转向角;
将下一时刻的状态Ht+1输入到卷积层中获得特征向量b(Ht+1);
将预测特征向量b′(Ht+1)和特征向量b(Ht+1)计算得到内部奖励值rt,公式为:
Figure BDA0004100763010000031
其中,n>0,n为规范因子,rt为当前时刻内部奖励值;
根据rt值的大小筛选出高语义特征的状态向量得到语义特征向量Hb
语义特征融合向量:将感知特征向量通过优先经验回放机制和好奇心机制获得语义特征向量Gv和Hb对其进行融合,公式为:
Gtotal=e1×Gv+e2×Hb
其中,e1,e2为超参数,Gtotal为语义特征融合向量。
进一步的,所述评估网络和演示网络,具体如下:
评估网络:将语义融合特征向量Gtotal的下一时刻状态和内部奖励值rt输入到评估网络中,输出采用当前策略的评估值;
所述评估网络包括卷积层、Tanh激活函数和全连接层;
演示网络:将语义特征向量Gtotal的当前状态和预测动作输入演示网络中,分别获得动作值和策略概率;所述演示网络包括卷积层、ReLU激活函数和全连接层。
进一步的,所述自适应决策模型的训练步骤包括:
构建训练场景;
基于构建训练场景对自适应决策模型进行训练;
计算自适应决策模型输出的累积奖励值;
当累积奖励值收敛时,输出自适应决策模型。
进一步的,所述构建训练场景,具体包括如下过程:
任务集初始化:构建任务集合D={D1,D2…,Dn},n为总任务数;将集合子任务分为多组,包括一组光照强度参数值为固定值以及一组光照强度参数值在0到1之间每隔设定时间变换一次,通过光照强度参数值的随机变化构建动态变化场景;
障碍物避障场景构建:构建避障场景边界;同组的子任务中对象位置、静态障碍物位置、动态障碍物位置和目标位置的初始位置相同,训练过程中对象、静态障碍物和动态障碍物中每个回合的位置随机生成。
进一步的,所述累积奖励值计算步骤为:设置障碍物避障场景中学习率hd,回合数ed,最大步数Dstep,再计算最大累积奖励值Rdynamic,公式为:
Figure BDA0004100763010000045
其中,Rj是障碍物避障场景中训练第j个回合数获的奖励值R的和,step是在障碍物避障场景中完成每个回合所用的步数;
所述奖励值R1的公式以成功躲避障碍物、到达指定位置和找到目标表示完成障碍物避障任务进行设置。
进一步的,所述当累积奖励值收敛时,输出自适应决策模型,具体包括如下过程:
评估指标:障碍物避障场景中最大累积奖励值Rdynamic,随着训练回合数的增加其评估指标Rindex在设定个回合后其值仍保持不变,表示在障碍物避障场景中已经收敛,输出自适应决策模型,所述奖励评估指标Rindex公式为:
Figure BDA0004100763010000042
/>
其中,
Figure BDA0004100763010000043
为当前时刻在障碍物避障场景中的奖励值,/>
Figure BDA0004100763010000044
为下一时刻在障碍物避障场景中的奖励值。
与现有技术相比,本发明具有以下有益效果:
1)本发明通过好奇心机制和优先经验回放机制获取语义融合特征向量,再利用评估网络和演示网络对无人车自适应决策模型参数进行优化更新,并获取最优决策动作,保证无人车在动态变化的场景中能够高效的完成任务。该方法可迁移到其它无人系统如无人艇、无人机和潜水器等,其能够在动态变化环境中具备自适应决策的能力。
2)本发明所述方法与其它无人车自适应决策方法相比,通过随机化训练场景中的各个部件,同时进行多任务学习,使其具有好的自适应性,解决无人车对从未见过和动态变化的场景自适应性差的问题,从而提升无人车在障碍物避障场景中的成功率。
附图说明
图1为本发明实施例所提供无人车自适应决策方法构建与训练流程示意图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
实施例1
本发明提出了一种基于好奇心机制和优先经验回放机制的无人车自适应决策方法,使用同源和异质传感器感知数据的融合构建完备感知环境,然后利用好奇心机制和优先经验回放机制提取无人车的语义融合征向量用于决策网络的输入,最后通过演示网络和评估网络输出无人车的自适应决策模型。本发明的基本特征主要有以下几个方面:一是构建无人车障碍物避障训练场景;二是利用好奇心机制和优先经验回放机制提取无人车语义特征融合向量;三是通过演示网络和评估网络对无人车自适应决策模型参数进行优化更新。
如图1所示,为本发明其中提供的基于好奇心机制和优先经验回放机制的无人车自适应决策方法构建与训练流程图,该过程的具体实施步骤包括以下步骤:
步骤1:构建无人车的训练场景,具体过程为:
(1-1)无人车任务集初始化:通过Unity虚拟引擎构建无人车任务集合D={D1,D2…,Dn},n为总任务数且为偶数,m1,m2为集合D中的子任务数,具体值见公式(1)。
Figure BDA0004100763010000061
任务中的光照强度为强光,光照强度参数WQ=1,,/>
Figure BDA0004100763010000062
任务中的光照强度参数值在0到1之间每隔10秒变换一次。其中WQ=0、WQ=0.5和WQ=1分别表示弱光、中弱光和强光。通过光照强度参数值的随机变化构建动态变化场景,障碍物场景中的动态子任务数m1=5,m2=6。
Figure BDA0004100763010000063
/>
其中,n为场景中总任务数且为偶数等于10,mi为第i个子任务。
(1-2)障碍物避障场景构建:将a(xa=0,ya=0),b(xb=2,yb=0),c(xc=2,yc=2),d(xd=0,yd=2)四个点按照顺序依次相连,构建成一个正方形边界的避障场景,a为原点。
Figure BDA0004100763010000064
与/>
Figure BDA0004100763010000065
中无人车位置、静态障碍物位置、动态障碍物位置和目标位置的初始位置相同。训练过程中无人车、静态障碍物和动态障碍物中每个回合的位置都是随机生成,以提高无人车的自适应能力。无人车初始位置为PD(Xca=1,Yca=0),目标位置为OD(Xta=1.5,Yta=1),静态障碍物G位置和静态障碍物H位置分别是Ds1(Xobs1=0,Yobs1=0.5)和Ds2(Xobs2=1.8,Yobs2=0),动态障碍物J的位置和动态障碍物U的位置分别是DD1(Xdyn1=1,Ydyn1=0.5)和DD2(Xdyn2=1.7,Ydy=0.5)。无人车成功躲避障碍物、到达指定位置和找到目标表示无人车完成障碍物避障任务。障碍物避障场景中的奖励函数公式为:
Figure BDA0004100763010000066
步骤2:利用视觉、雷达、位置传感器获得多源感知数据,具体过程如下:
对视觉传感器输出的图像维度预处理为84×84×3。对雷达数据预处理,使其雷达维度为402,通过位置传感器收集无人车详细位置状态信息,其维度Pw为6,Pw=[speed,steer,carx,cary,targetx,targety],speed为无人车的速度,steer为无人车的转向角,carx为无人车横坐标,cary为无人车纵坐标,targetx为目标横坐标,targety为目标纵坐标。
步骤3:感知数据输入到卷积神经网络中,得到感知特征向量,具体过程如下:
(3-1)图像特征提取:将步骤2中的图像数据输入到2层卷积层后,再输入到1层全连接层,输出8维的特征向量。将部署在无人车左、前、右3个摄像头的图像分别通过2层卷积层和1层全连接层,最后输出3个8维的特征向量,分别是左特征向量Iwl、前特征向量Iwf和右特征向量Iwr。将以上三个特征向量根据不同权重值组合成图像融合特征向量Iwtotal,再将Iwtotal经过3层卷积层和1层全连接层之后,输出图像特征向量Iw,其维度为8。Iwtotal公式为:
Iwtotal=l1×Iwl+l2×Iwf+l3×Iwr (3)
其中,l1=0.5,l2=0.3,l3=0.2为权重参数。
(3-2)雷达特征提取:将步骤3中的雷达数据经过2层卷积层和1层全连接层之后输出8维的特征向量RW
(3-3)获得感知特征向量:将图像、雷达和位置特征向量根据不同的权重参数相加得到感知融合特征向量Ztotal,其公式为:
Ztotal=F1×Iw+F2×RW+F3×PW (4)
其中,F1=0.6,F2=0.2,F2=0.2为权重参数。
步骤4:感知特征向量分别输入到好奇心机制和优先经验回放机制中,获取语义特征融合向量,其过程如下:
(4-1)优先经验回放机制:将步骤3的感知特征向量Ztotal作为当前时刻状态Gt,输入到经验回放池中。经验回放池是特征向量的集合,最大存储大小为max-size,每次批量存入到经验回放池的感知特征向量大小为batch-size,再通过TD-Error获得状态差异值Serror,其公式为:
Serror=Rt+1+r×V(Gt+1)-V(Gt) (5)
其中,Rt+1为下一时刻的奖励值,r为超参数等于0.98,V(Gt+1)为下一时刻Gt+1的评估值,V(Gt)为当前时刻Gt的评估值。V(x)是值函数由卷积层、激活函数和全连接层组成,将Gt输入到1层卷积层后,经过ReLU激活函数,再通过1层全连接层,输出当前时刻Gt评估值V(Gt)。根据公式(5)的状态差异值Serror,迭代V(Gt),公式为:
V(Gt)←V(Gt)+α×Serror (6)
其中,α为学习率等于0.0003。
根据V(Gt)值的大小筛选出高语义特征的语义状态向量Gv,V(Gt)值越大,获得语义特征向量Gv越有利于决策。
(4-2)好奇心机制:将步骤3的感知特征融合向量Ztotal作为当前时刻状态Ht,将其输入到卷积层中获得特征向量b(Ht),再将特征向量b(Ht)和当前时刻的动作At=[speed,steer],共同输入到NET网络中,其中NET网络由1层卷积层和2层全连接层组成,输出预测特征b′(Ht+1)以及预测动作A‘t。将下一时刻的状态Ht+1输入到卷积层中获得特征向量b(Ht+1)。将b′(Ht+1)和特征向量b(Ht+1)输入到内部奖励函数rt中,公式为:
Figure BDA0004100763010000081
其中,n>0,n为规范因子等于0.95,rt为当前时刻内部奖励值,rt值越大,获取的语义特征向量Hb质量越高,根据内部奖励值rt的大小筛选出高语义特征的语义状态向量Hb
(4-3)语义特征融合向量:将感知特征向量通过优先经验回放机制和好奇心机制获得语义特征向量Gv和Hb对其进行融合,公式为:
Gtotal=e1×Gv+e2×Hb (8)
其中,e1=0.7,e2=0.3为超参数,Gtotal为综合语义特征融合向量。
步骤5:语义特征融合向量分别输入到评估网络和演示网络中输出累积奖励值,具体过程如下:
(5-1)评估网络:将步骤4中获得综合语义特征融合向量Gtotal的下一时刻状态和奖励Rt输入到评估网络中,输出采用当前策略的评估值。评估网络由2个卷积层,1个Tanh激活函数和2层全连接层组成,通过以上网络结构输出当前策略的评估值。
(5-2)演示网络:将步骤4中获得综合语义特征融合向量Gtotal的当前状态和预测动作输入演示网络中,分别获得动作值和策略概率。演示网络由2层卷积层、1个ReLU激活函数和2层全连接层组成。
(5-3)损失函数:将当前时刻的状态和奖励值R输入到均方损失函数中,输出Loss值,其中输入的数据维度必须是一致的,公式为:
Loss(x,y)=(x-y)2 (9)
其中x为输入的当前时刻状态Gtotal,y为当前时刻的奖励值R1
(5-4)累积奖励值:设置无人车障碍物避障场景中学习率hd=0.0003,回合数ed=1000,最大步数Dstep=200,再计算最大累积奖励值Rdynamic,公式为:
Figure BDA0004100763010000091
其中,Rj是障碍物避障场景中无人车训练第j个回合数获的奖励值R的和,step是无人车在障碍物避障场景中完成每个回合所用的步数。
步骤6:当累积奖励值收敛时,输出无人车自适应决策模型,具体过程如下:
评估指标:障碍物避障场景中最大累积奖励值Rdynamic,随着训练回合数的增加其评估指标Rindex在10个回合后其值仍保持不变,表示无人车在障碍物避障场景中已经收敛,输出无人车自适应决策模型。奖励评估指标
Figure BDA0004100763010000096
公式为:
Figure BDA0004100763010000092
其中,
Figure BDA0004100763010000093
为当前时刻在障碍物避障场景中的奖励值,/>
Figure BDA0004100763010000094
为下一时刻在障碍物避障场景中的奖励,由式(2)计算得到。
实验说明及结果:实验场景为步骤1所述的障碍物避障场景。验证场景为无人车从未见过的障碍物避障验证场景。表1显示本发明方法与其它基准方法在障碍物避障验证场景中的对比结果。其中,评估指标有2个,分别是成功率和碰撞次数。成功率是任务成功次数除以总的任务次数再乘百分数,任务成功表示不与物体发生碰撞且快速的找到目标;碰撞次数表示在无人车执行任务过程中与周围的墙体、静态障碍物和动态障碍物发生碰撞的次数。
基于好奇心机制和优先经验回放机制的无人车自适应决策方法是本发明的方法,通过同源和异质传感器感知数据的融合构建完备感知环境,通过好奇心机制和优先经验回放经验机制获取语义特征向量,利用评估网络和演示网络对无人车的决策动作进行优化,提升无人车的自适应能力。MAML表示无模型元学习,在少量样本数据中快速学习新任务;EPG表示演化策略梯度方法,学习损失函数,实现在新任务中的快速学习;RL2表示通过慢速强化学习实现快速学习,再利用RNN神经网络获取经验;PEARL表示演示评估的概率嵌入,利用隐层特征对任务进行推断;PPO表示近端策略优化,设计新的目标函数,对小批量的数据进行更新。
表1实验结果(测试1000次得到的平均结果)
Figure BDA0004100763010000095
Figure BDA0004100763010000101
可以看出,本发明在障碍物避障场景下完成任务成功率最高,碰撞次数最少,并且平均成功率达到75%,与其它方法相比分别高出30个百分点、14个百分点、20个百分点、40个百分点、30个百分点。
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术人员无需创造性劳动就可以根据本发明的构思做出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。

Claims (10)

1.一种基于好奇心机制和优先经验回放机制的自适应控制方法,其特征在于,所述控制方法利用多种异质传感器获得多源感知数据,将感知数据输入训练好的自适应决策模型,自适应决策模型输出自适应决策至无人车;
所述自适应决策模型包括以下部分:
卷积神经网络,基于输入的感知数据,得到感知特征向量;
好奇心机制和优先经验回放机制,分别基于输入的感知特征向量,获取语义特征融合向量;
评估网络和演示网络,分别基于输入的语义特征融合向量,输出自适应决策。
2.根据权利要求1所述的一种基于好奇心机制和优先经验回放机制的自适应控制方法,其特征在于,所述异质传感器包括视觉、雷达、位置传感器;
获得多源感知数据后,分别对视觉传感器输出的图像维度和雷达数据的雷达维度进行预处理;由位置传感器数据得到无人车的位置状态信息向量Pw,包括无人车的速度、无人车的转向角、无人车横坐标、无人车纵坐标、目标横坐标以及目标纵坐标。
3.根据权利要求2所述的一种基于好奇心机制和优先经验回放机制的自适应控制方法,其特征在于,将感知数据输入到所述卷积神经网络中,得到感知特征向量,具体包括如下过程:
图像特征提取:将视觉传感器输出图像数据输入到卷积层后,再输入到全连接层,输出图像特征向量Iw
雷达特征提取:将雷达数据经过卷积层和全连接层之后输出雷达特征向量Rw
获得感知特征向量:将图像、雷达和位置特征向量根据不同的权重参数相加得到感知融合特征向量Ztotal,其公式为:
Ztotal=F1×Iw+F2×RW+F3×PW
其中,F1,F2,F2为权重参数,Pw为位置状态信息向量。
4.根据权利要求3所述的一种基于好奇心机制和优先经验回放机制的自适应控制方法,其特征在于,所述视觉传感器包括部署在无人车左、前、右摄像头,三个摄像头的图像分别通过卷积层和全连接层,最后输出三个特征向量,分别是左特征向量Iwl、前特征向量Iwf和右特征向量Iwr
将三个特征向量根据不同权重值组合成图像融合特征向量Iwtotal,再将Iwtotal经过卷积层和全连接层之后,输出图像特征向量Iw
5.根据权利要求1所述的一种基于好奇心机制和优先经验回放机制的自适应控制方法,其特征在于,将感知特征向量分别输入到所述好奇心机制和优先经验回放机制中,好奇心机制和优先经验回放机制,具体如下:
优先经验回放机制:将感知特征向量Ztotal作为当前时刻状态Gt,输入到经验回放池中;所述经验回放池是感知特征向量的集合,再通过TD-Error获得状态差异值Serror,其公式为:
Serror=Rt+1+r×V(Gt+1)-y(Gt)
其中,Rt+1为下一时刻的奖励值,所述奖励值R的公式以成功躲避障碍物、到达指定位置和找到目标表示完成障碍物避障任务进行设置,r为超参数,V(Gt+1)为下一时刻Gt+1的评估值,V(Gt)为当前时刻Gt的评估值,根据状态差异值Serror,迭代V(Gt),表达式为:V(Gt)←V(Gt)+α×Serror
其中,α为学习率,V(x)是值函数包括卷积层、激活函数和全连接层,将Gt输入到卷积层后,经过ReLU激活函数,再通过全连接层,输出当前时刻Gt评估值V(Gt);
根据V(Gt)值的大小筛选出高语义特征的状态向量得到语义特征向量Gv
好奇心机制:将感知特征融合向量Ztotal作为当前时刻状态向量Ht,将其输入到卷积层中获得特征向量b(Ht);
将特征向量b(Ht)和当前时刻的动作At=[speed,steer],共同输入到NET网络中,所述NET网络由卷积层和全连接层组成,输出预测特征b′(Ht+1)和预测动作A’t,speed为无人车的速度,steer为无人车的转向角;
将下一时刻的状态Ht+1输入到卷积层中获得特征向量b(Ht+1);
将预测特征向量b′(Ht+1)和特征向量b(Ht+1)计算得到内部奖励值rt,公式为:
Figure FDA0004100762990000021
其中,n>0,n为规范因子,rt为当前时刻内部奖励值;
根据rt值的大小筛选出高语义特征的状态向量得到语义特征向量Hb
语义特征融合向量:将感知特征向量通过优先经验回放机制和好奇心机制获得语义特征向量Gv和Hb对其进行融合,公式为:
Gtotal=e1×Gv+e2×Hb
其中,e1,e2为超参数,Gtotal为语义特征融合向量。
6.根据权利要求5所述的一种基于好奇心机制和优先经验回放机制的自适应控制方法,其特征在于,所述评估网络和演示网络,具体如下:
评估网络:将语义融合特征向量Gtotal的下一时刻状态和内部奖励值rt输入到评估网络中,输出采用当前策略的评估值;
所述评估网络包括卷积层、Tanh激活函数和全连接层;
演示网络:将语义特征向量Gtotal的当前状态和预测动作输入演示网络中,分别获得动作值和策略概率;所述演示网络包括卷积层、ReLU激活函数和全连接层。
7.根据权利要求1所述的一种基于好奇心机制和优先经验回放机制的自适应控制方法,其特征在于,所述自适应决策模型的训练步骤包括:
构建训练场景;
基于构建训练场景对自适应决策模型进行训练;
计算自适应决策模型输出的累积奖励值;
当累积奖励值收敛时,输出自适应决策模型。
8.根据权利要求7所述的一种基于好奇心机制和优先经验回放机制的自适应控制方法,其特征在于,所述构建训练场景,具体包括如下过程:
任务集初始化:构建任务集合D={D1,D2…,Dn},n为总任务数;将集合子任务分为多组,包括一组光照强度参数值为固定值以及一组光照强度参数值在0到1之间每隔设定时间变换一次,通过光照强度参数值的随机变化构建动态变化场景;
障碍物避障场景构建:构建避障场景边界;同组的子任务中对象位置、静态障碍物位置、动态障碍物位置和目标位置的初始位置相同,训练过程中对象、静态障碍物和动态障碍物中每个回合的位置随机生成。
9.根据权利要求7所述的一种基于好奇心机制和优先经验回放机制的自适应控制方法,其特征在于,所述累积奖励值计算步骤为:设置障碍物避障场景中学习率hd,回合数ed,最大步数Dstep,再计算最大累积奖励值Rdynamic,公式为:
Figure FDA0004100762990000031
其中,Rj是障碍物避障场景中训练第j个回合数获的奖励值R的和,step是在障碍物避障场景中完成每个回合所用的步数;
所述奖励值R1的公式以成功躲避障碍物、到达指定位置和找到目标表示完成障碍物避障任务进行设置。
10.根据权利要求7所述的一种基于好奇心机制和优先经验回放机制的自适应控制方法,其特征在于,所述当累积奖励值收敛时,输出自适应决策模型,具体包括如下过程:
评估指标:障碍物避障场景中最大累积奖励值Rdynamic,随着训练回合数的增加其评估指标Rindex在设定个回合后其值仍保持不变,表示在障碍物避障场景中已经收敛,输出自适应决策模型,所述奖励评估指标Rindex公式为:
Figure FDA0004100762990000041
其中,
Figure FDA0004100762990000042
为当前时刻在障碍物避障场景中的奖励值,/>
Figure FDA0004100762990000043
为下一时刻在障碍物避障场景中的奖励值。/>
CN202310175691.8A 2023-02-28 2023-02-28 基于好奇心机制和优先经验回放机制的自适应控制方法 Pending CN116205272A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310175691.8A CN116205272A (zh) 2023-02-28 2023-02-28 基于好奇心机制和优先经验回放机制的自适应控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310175691.8A CN116205272A (zh) 2023-02-28 2023-02-28 基于好奇心机制和优先经验回放机制的自适应控制方法

Publications (1)

Publication Number Publication Date
CN116205272A true CN116205272A (zh) 2023-06-02

Family

ID=86510882

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310175691.8A Pending CN116205272A (zh) 2023-02-28 2023-02-28 基于好奇心机制和优先经验回放机制的自适应控制方法

Country Status (1)

Country Link
CN (1) CN116205272A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117313561A (zh) * 2023-11-30 2023-12-29 中国科学院自动化研究所 无人机智能决策模型训练方法及无人机智能决策方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117313561A (zh) * 2023-11-30 2023-12-29 中国科学院自动化研究所 无人机智能决策模型训练方法及无人机智能决策方法
CN117313561B (zh) * 2023-11-30 2024-02-13 中国科学院自动化研究所 无人机智能决策模型训练方法及无人机智能决策方法

Similar Documents

Publication Publication Date Title
CN110471444B (zh) 基于自主学习的无人机智能避障方法
CN111600851B (zh) 面向深度强化学习模型的特征过滤防御方法
CN112131660B (zh) 一种基于多智能体强化学习的无人机集群协同学习方法
CN112465151A (zh) 一种基于深度强化学习的多智能体联邦协作方法
CN111240356B (zh) 一种基于深度强化学习的无人机集群会合方法
CN114952828B (zh) 一种基于深度强化学习的机械臂运动规划方法和系统
CN112232490A (zh) 一种基于视觉的深度模仿强化学习驾驶策略训练方法
CN110488859A (zh) 一种基于改进Q-learning算法的无人机航路规划方法
CN111260040B (zh) 基于内在奖励的视频游戏决策方法
CN112809689B (zh) 基于语言引导的机械臂动作元模仿学习方法及存储介质
CN113741533A (zh) 一种基于模仿学习与强化学习的无人机智能决策系统
CN110281949B (zh) 一种自动驾驶统一分层决策方法
CN116205272A (zh) 基于好奇心机制和优先经验回放机制的自适应控制方法
CN116225016A (zh) 一种基于分布式协同深度强化学习模型的多智能体路径规划方法
CN114967721B (zh) 一种基于DQ-CapsNet的无人机自助路径规划和避障策略方法
CN112783199A (zh) 一种基于迁移学习的无人机自主导航方法
Wu et al. Digital twin-enabled reinforcement learning for end-to-end autonomous driving
CN114757362A (zh) 一种基于边缘增强的多智能体系统通信方法及相关装置
CN117406762A (zh) 一种基于分段式强化学习的无人机远程控制算法
CN113894780B (zh) 多机器人协作对抗方法、装置、电子设备和存储介质
CN109190751B (zh) 一种基于深度强化学习的机器自主决策方法
CN113232016A (zh) 一种强化学习与模糊避障融合的机械臂路径规划方法
CN117872800A (zh) 一种基于离散状态空间下强化学习的决策规划方法
CN116729433A (zh) 一种结合元学习多任务优化的端到端自动驾驶决策规划方法及设备
CN112100787B (zh) 车辆动作预测方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination