CN114708568B - 基于改进RTFNet的纯视觉自动驾驶控制系统、方法、介质 - Google Patents

基于改进RTFNet的纯视觉自动驾驶控制系统、方法、介质 Download PDF

Info

Publication number
CN114708568B
CN114708568B CN202210632703.0A CN202210632703A CN114708568B CN 114708568 B CN114708568 B CN 114708568B CN 202210632703 A CN202210632703 A CN 202210632703A CN 114708568 B CN114708568 B CN 114708568B
Authority
CN
China
Prior art keywords
module
traffic state
layer
thermal infrared
fusion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210632703.0A
Other languages
English (en)
Other versions
CN114708568A (zh
Inventor
刘洋
王永富
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northeastern University China
Original Assignee
Northeastern University China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northeastern University China filed Critical Northeastern University China
Priority to CN202210632703.0A priority Critical patent/CN114708568B/zh
Publication of CN114708568A publication Critical patent/CN114708568A/zh
Application granted granted Critical
Publication of CN114708568B publication Critical patent/CN114708568B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W60/00Drive control systems specially adapted for autonomous road vehicles
    • B60W60/001Planning or execution of driving tasks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Abstract

本发明公开了基于改进RTFNet的纯视觉自动驾驶控制系统、方法、介质,涉及自动驾驶控制领域。针对传统自动驾驶方法在夜间、迎面车灯眩光、雨\雪、沙尘暴和雾霾等低可见度环境下行驶效果欠佳的问题,在语义分割模块引入一种改进的基于多模态特征融合的语义分割方法RTFNet,使用自制数据集训练改进RTFNet网络模型,融合RGB图像和热红外图像并进行语义分割生成分割图,将分割图作为强化学习系统的输入状态进行训练,使两类图像数据优势互补,从而提高自动驾驶系统的感知能力、泛化能力和可靠性。在强化学习模块引入模仿学习预训练和DDPG算法,通过在自动驾驶仿真试验台和真实环境中训练强化学习模型使得自动驾驶系统逐步达到人类可以接受的驾驶水平。

Description

基于改进RTFNet的纯视觉自动驾驶控制系统、方法、介质
技术领域
本发明涉及自动驾驶控制领域,特别是涉及基于改进RTFNet的纯视觉自动驾驶控制系统、方法、介质。
背景技术
随着科技的发展和人民生活水平的提高,自动驾驶技术在生产和生活中得到了广泛的普及,能够有效地减少驾驶员的疲劳、增加驾驶安全性。自动驾驶技术是指汽车等交通工具在驾驶过程中可以通过车载传感器接收外界驾驶环境的相关信息,将所探测到的道路、车辆位置和障碍物等信息输入到车载设备上位机的CPU或GPU进行逻辑推理和运算,然后将结果指令输出到执行器,进而通过改变转向、速度等控制交通工具的运行,实现交通工具在限定或非限定条件下代替人类驾驶员进行部分自动或全自动驾驶。低可见度环境下自动驾驶技术是自动驾驶领域的一个热点问题,得到了十分广泛的关注。
目前大多数自动驾驶技术都是基于激光雷达和RGB摄像头提供的外界驾驶环境的相关信息,使用传统控制方法进行决策的。传统控制方法一般是建立发动机和交通工具行驶过程的近似数学模型,在此基础上设计控制器进行控制,对模型的数学建模具有依赖性,当模型阶数和参数出现误差时,控制就达不到预期的效果。由于现实低可见度环境具有特征稀疏、高度复杂以及不确定性强的特点,无法向车载设备上位机提供外界驾驶环境的准确信息,导致强化学习算法的鲁棒性差且不易收敛。激光雷达工作时易受恶劣环境影响且存在定位误差,激光雷达和与之配套的高精度地图价格高昂。算法在夜间、迎面车灯眩光和雾霾等低可见度环境下效果欠佳。这些问题大大影响了自动驾驶的经济性、实用性和可靠性。
发明内容
本发明解决的是目前自动驾驶在低可见度环境下行驶效果不佳的问题,提供了基于改进RTFNet的纯视觉自动驾驶控制系统、方法、介质,能够提高自动驾驶控制系统的感知能力、泛化能力和可靠性,减少低可见度环境下自动驾驶的事故率。应用于自动驾驶时,能够更好的适应夜间、迎面车灯眩光、雨\雪、沙尘暴和雾霾等低可见度环境,从而实现全天候自动驾驶。
本发明为了达到上述目的采用的技术方案是:
基于改进RTFNet的纯视觉自动驾驶控制系统,包括探测单元、车载上位机。
所述探测单元布置在汽车预设的探测位置处,采用车载RGB摄像头和车载FLIR红外热像仪采集道路交通状态的RGB图像和热红外图像。
所述车载上位机嵌入自动驾驶车辆控制程序,所述自动驾驶车辆控制程序包括语义分割模块、强化学习模块、决策模块。
所述语义分割模块,采用改进的RTFNet网络模型,用于训练探测单元采集的热红外-RGB联合数据集,用以对图像中的自行车、汽车、人体、车道线、障碍物和道路边缘进行语义分割生成分割图。
所述热红外-RGB联合数据集:利用探测单元采集的道路交通状态的RGB图像和热红外图像。
所述强化学习模块:根据专家经验数据集,对DDPG模型进行预训练,将分割图输入经预训练的DDPG模型,获得DDPG模型的损失函数值和优化DDPG模型参数。
所述决策模块:根据DDPG模型获取的损失函数值和优化DDPG模型参数在自动驾驶仿真实验台环境中迭代获得离线决策模型;对离线决策模型在真实环境中进行迭代获得最终决策模型,根据外界驾驶环境进行推理决策。
所述改进的RTFNet网络模型,包括道路交通状态的RGB图像分支、道路交通状态的热红外图像分支、第一融合层、第二融合层、语义特征融合模块、上采样层模块、解码器层、解码器模块及softmax激活函数;
其中,道路交通状态的RGB图像分支包括依次连接的编码器、多头自注意力模块(MHSA)、第一残差模块、第二残差模块、第三残差模块和第四残差模块;道路交通状态的热红外图像分支包括依次连接的编码器、多头自注意力模块、最大池化模块和连接的三个残差模块;第四残差模块的输出的语义特征及道路交通状态的热红外图像分支的最后一个残差模块的输出的语义特征经第一融合层融合后依次传递到上采样层模块、解码器层、解码器模块,在道路交通状态的RGB图像分支和热红外图像分支中编码器的ReLu激活函数分别与上采样层A之间增加跃层连接;经softmax激活函数作用后生成分割图;
其中,所述编码器包括依次连接的可分离卷积层(separable convolution)、批归一化层、ReLu激活函数;
所述第一残差模块包括依次连接的融合层、最大池化层、残差模块;
所述第二残差模块包括连接的融合层及残差模块;
所述第三残差模块包括连接的融合层及残差模块;
所述第四残差模块包括连接的融合层及残差模块;
所述最大池化模块包括连接的融合层及最大池化层;
所述上采样层模块包括连接的上采样层A及上采样层B;
解码器模块包括依次连接的三个解码器层;
设计连接的第二融合层和语义特征融合模块,其中,第二融合层有四个输入分支,分别接收道路交通状态的热红外图像分支中多头自注意力模块输出的语义特征和输入到三个残差模块的语义特征,经融合层融合后传递给语义特征融合模块,其中,每一个输入分支的权重都设置为可学习权重;语义特征融合模块有四个输出分支,分别连接RGB图像分支第一残差模块、第二残差模块、第三残差模块、第四残差模块中的四个融合层,将四个融合层的输入语义特征分别融合,其中,每一个输出分支的权重都设置为可学习权重。
基于改进RTFNet的纯视觉自动驾驶控制方法,采用所述控制系统,包括以下步骤:
S1:使用预先采集的规范驾驶的经验样本集(st,at,rt,st+1)p作为专家经验数据集,对DDPG模型进行预训练直至达到设定的最大迭代次数n1或算法收敛为止;其中,st是交通状态,at是驾驶动作指令,st+1是新的交通状态,rt是本次驾驶动作指令的奖励值;
S2:利用车载FLIR红外热像仪和车载RGB摄像头采集道路交通状态的热红外图像和RGB图像,建立热红外-RGB联合数据集,采用热红外-RGB联合数据集对改进的RTFNet网络模型进行训练,得到用以分割自行车、汽车、人体、车道线、障碍物和道路边缘的语义分割模块;通过车载RGB摄像头采集自动驾驶车辆前方的交通状态RGB图像I1,通过车载FLIR红外热像仪采集自动驾驶车辆前方的交通状态热红外图像I2。在语义分割模块使用改进的RTFNet网络模型将I1、I2进行多模态融合和语义分割生成分割图I3
所述改进的RTFNet网络模型,包括道路交通状态的RGB图像分支、道路交通状态的热红外图像分支、第一融合层、第二融合层、语义特征融合模块、上采样层模块、解码器层、解码器模块及softmax激活函数;
其中,道路交通状态的RGB图像分支包括依次连接的编码器、多头自注意力模块(MHSA)、第一残差模块、第二残差模块、第三残差模块和第四残差模块;道路交通状态的热红外图像分支包括依次连接的编码器、多头自注意力模块、最大池化模块和连接的三个残差模块;第四残差模块的输出的语义特征及道路交通状态的热红外图像分支的最后一个残差模块的输出的语义特征经第一融合层融合后依次传递到上采样层模块、解码器层、解码器模块,在道路交通状态的RGB图像分支和热红外图像分支中编码器的ReLu激活函数分别与上采样层A之间增加跃层连接;经softmax激活函数作用后生成分割图;
其中,所述编码器包括依次连接的可分离卷积层(separable convolution)、批归一化层、ReLu激活函数;
所述第一残差模块包括依次连接的融合层、最大池化层、残差模块;
所述第二残差模块包括连接的融合层及残差模块;
所述第三残差模块包括连接的融合层及残差模块;
所述第四残差模块包括连接的融合层及残差模块;
所述最大池化模块包括连接的融合层及最大池化层;
所述上采样层模块包括连接的上采样层A及上采样层B;
解码器模块包括依次连接的三个解码器层;
设计连接的第二融合层和语义特征融合模块,其中,第二融合层有四个输入分支,分别接收道路交通状态的热红外图像分支中多头自注意力模块输出的语义特征和输入到三个残差模块的语义特征,经融合层融合后传递给语义特征融合模块,其中,每一个输入分支的权重都设置为可学习权重;语义特征融合模块有四个输出分支,分别连接RGB图像分支第一残差模块、第二残差模块、第三残差模块、第四残差模块中的四个融合层,将四个融合层的输入语义特征分别融合,其中,每一个输出分支的权重都设置为可学习权重;
S3:将I3作为交通状态st输入到经过预训练的DDPG模型中,经过预训练的DDPG模型依据交通状态st从其动作空间中选择相应的驾驶动作指令at并输出,经驾驶动作指令at后形成新的交通状态st+1,通过奖励函数计算本次驾驶动作指令的奖励值rt,并将交通状态st、驾驶动作指令at、本次驾驶动作指令的奖励值rt和新的交通状态st+1作为转移样本(st,at,rt,st+1)存入经验回放池中;从经验回放池中随机抽取转移样本,计算DDPG模型的损失函数值L和优化DDPG模型参数w;
S4:在自动驾驶仿真试验台重复步骤S2-S3直至达到设定的最大迭代次数n2或者算法收敛为止,生成离线决策模型π1;在真实环境中采集真实数据集重复步骤S2-S4,对离线决策模型π1进行优化更新直至迭代次数达到n3次或者算法收敛为止,生成最终决策模型π2
S5:根据最终决策模型π2进行自动驾驶控制实车决策。
所述的S1具体过程,包括以下步骤:
S1.1:使用真实低可见度环境中严格按照交通规则在各种交通状态时行驶时的驾驶动作指令at和环境感知传感器提供的交通状态st、经驾驶动作指令at后形成新的交通状态st+1、通过奖励函数r计算的驾驶动作的奖励值rt组成的样本集(st,at,rt,st+1)p作为专家经验数据集。
S1.2:将专家经验数据集输入到DDPG模型中进行训练直至迭代次数达到n1次或者算法收敛为止,得到经过预训练的DDPG模型。
所述的S2中建立热红外-RGB联合数据集的具体过程,包括以下步骤:
S2.1.1:利用车载FLIR红外热像仪和车载RGB摄像头采集道路的交通状态,获取同步时间戳的热红外图像和RGB图像;
S2.1.2:使用图像标注工具软件对原始图像进行标注,生成语义图像和标签图像。
S2.1.3:将同一时间戳的热红外图像和RGB图像及共同对应的标签图像作为一个训练样本,按照比例n4将所有训练样本随机划分为训练集与测试集。
所述图像标注工具软件采用Labelme图像标注工具软件。
所述的S2生成分割图I3的具体过程,包括以下步骤:
S2.2.1:使用RGB图像编码器对自动驾驶车辆前方的交通状态RGB图像I1进行特征提取;
S2.2.2:使用热红外图像编码器对自动驾驶车辆前方的交通状态热红外图像I2进行特征提取并与I1进行多模态特征融合生成多模态特征图;
S2.2.3:使用解码器恢复多模态特征图的分辨率并生成分割图I3
所述的步骤S3中,奖励函数r包括行驶方向角度奖励函数r1、安全距离奖励函数r2、规则驾驶奖励函数r3、速度奖励函数r4,具体为:
行驶方向角度奖励函数r1和安全距离奖励函数r2,如式(1)所示:
Figure GDA0003822095950000051
其中,k1、k2为常数;Δθ为自动驾驶车辆前进方向与车道线或路肩之间的夹角,
Figure GDA0003822095950000052
Δs为自动驾驶车辆中心点到车道中轴线的距离;Δd为自动驾驶车辆周围障碍物与自动驾驶车辆的间距,Δθ、Δs、Δd均由探测单元算获取。
规则驾驶奖励函数r3,如式(2)所示:
Figure GDA0003822095950000053
其中,k3是常数;
速度奖励函数r4,如式(3)所示:
r4=-k4|V-Vmax| (3)
其中,k4是常数,Vmax为路段允许行驶的最高时速,V为自动驾驶车辆当前行驶时速,单位均为km/h;
总奖励函数r,如式(4)所示:
r=r1+r2+r3+r4 (4)。
所述S3中,计算DDPG模型的损失函数值L和优化DDPG模型参数w的具体过程,包括以下步骤:
S3.1:构建Actor网络和Critic网络,共同构成主网络,网络参数分别用θμ、θQ表示;其中,Actor网络以交通状态st为输入进行at=μ(stμ)计算得到驾驶动作指令at,Critic网络以交通状态st和驾驶动作指令at为输入进行计算得到Q(st,atQ);
S3.2:分别构建Actor网络和Critic网络的目标网络μ(stμ')和Q(st,atQ'),参数分别用θμ'、θQ'表示;建立经验回放池的存储空间R并得到初始交通状态s1
S3.3:通过在Actor网络参数θQ上施加高斯扰动N对驾驶动作进行探索,如式(5)所示:
at=μ(stμ)+N (5)
S3.4:将交通状态st、驾驶动作指令at、在交通状态st时执行驾驶动作指令at得到的奖励值rt和下一个交通状态st+1构成一个元组(st,at,rt,st+1)并存储到经验回放池的存储空间R中;
S3.5:从R中随机选择一个小批量元组数据(si,ai,ri,si+1),通过贝尔曼方程对Q值进行估计,如式(6)所示:
yi=ri+γQ'(si+1,μ'(si+1μ')|θQ') (6)
其中,γ是衰减因子;
通过yi和Q(s,a|θQ)的差值对Critic网络进行更新,如式(7)所示:
Figure GDA0003822095950000061
其中,L表示Loss损失函数,M表示用于网络更新的元组数据样本数量,i表示在经验回放池的存储空间R中随机选择的元组数据的序号;
S3.6:Critic网络更新完毕后,使用策略梯度的方式进行Actor网络的更新,如式(8)所示:
Figure GDA0003822095950000071
其中,
Figure GDA0003822095950000072
表示在策略网络参数θμ下的策略梯度,
Figure GDA0003822095950000073
Figure GDA0003822095950000074
分别表示Critic网络状态-动作值函数梯度和Actor网络策略函数的梯度,μ(si)表示在策略网络在交通状态si时选取的驾驶动作策略,
Figure GDA0003822095950000075
Figure GDA0003822095950000076
分别表示在交通状态si下采取驾驶动作a=μ(si)时Critic网络的状态-动作值和交通状态下Actor网络的动作值,M表示用于网络更新的元组数据样本数量;
S3.7:对目标网络参数进行更新,如式(9)所示:
Figure GDA0003822095950000077
其中,τ是软更新比例系数;
S3.8:循环运行S3.3-S3.7直到直至达到最大迭代次数或者算法收敛为止。
一种计算机可读存储介质,所述可读存储介质上存储有自动驾驶车辆控制程序,其中所述自动驾驶车辆控制程序被处理器执行时,实现所述基于改进RTFNet的纯视觉自动驾驶控制方法的步骤。
有益效果技术
1、使用红外摄像头代替激光雷达接收外界驾驶环境的相关信息,显著节约了自动驾驶硬件成本,避免了恶劣环境对激光雷达的不利影响。
2、为了克服传统控制方法对外界驾驶环境的模型依赖性大以及模型误差较大导致的精度差、适应性差的缺点,引入深度强化学习算法DDPG,充分利用了真实低可见度环境中严格按照交通规则在各种交通状态时行驶的信息来加强自动驾驶车辆的规划和控制。
3、为了向车载设备上位机提供外界驾驶环境的准确信息,将车载RGB摄像头采集的RGB图像和车载FLIR红外热像仪采集的热红外图像进行多模态特征融合,生成了具有RGB图像的色彩和外观特征和热红外图像的轮廓特征的融合图,融合了二者的优点,更全面有效地表示驾驶环境的特征。
4、应用语义分割方法处理融合图,在剔除无关信息的同时使得强化学习系统能够获得更为全面系统的交通状态特征描述。
5、进行多模态特征融合和语义分割时,采用了改进RTFNet网络模型,能够提高网络模型的运行速度、分割结果的全局准确率和平均交并比;
6、基于模仿学习的方法对DDPG网络模型进行预训练并且为自动驾驶控制方法建立了奖励函数,使得DDPG算法更好地完成特征提取和决策相关性的建立,从而克服了稀疏奖励在长阶段任务中的影响,提高模型收敛速度和最终性能。
7、提出了多层次联合训练方法,分别在试验台和真实环境中训练自动驾驶车辆。通过自动驾驶车辆与真实环境直接进行交互,使得误差、延迟和噪声等干扰因素作为环境模型的一部分被DDPG算法隐式地建模,并在值估计和决策生成过程中被充分地考虑,既能避免强化学习模型对训练数据集的依赖的问题,又提高了算法的训练效率和鲁棒性。
附图说明
图1为本发明实施例提供的基于改进RTFNet的纯视觉自动驾驶控制系统结构示意图;
图2为本发明实施例提供的基于改进RTFNet的纯视觉自动驾驶控制方法流程示意图;
图3为本发明实施例提供的基于改进RTFNet的纯视觉自动驾驶控制方法的热红外-RGB联合数据集中的热红外图像和RGB图像、实际图像测试结果;
图4为本发明实施例提供的改进前基于RTFNet的纯视觉自动驾驶控制方法的RTFNet网络模型结构图;
图5为本发明实施例提供的基于改进RTFNet的纯视觉自动驾驶控制方法的MHSA模块示意图;
图6为本发明实施例提供的基于改进RTFNet的纯视觉自动驾驶控制方法的改进RTFNet网络模型结构图;
图7为本发明实施例提供的基于改进RTFNet的纯视觉自动驾驶控制方法DDPG算法流程示意图;
图8为本发明实施例提供的基于改进RTFNet的纯视觉自动驾驶控制方法的仿真试验台示意图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。
本实施例提供了基于改进RTFNet的纯视觉自动驾驶控制系统、方法、介质,能够提高自动驾驶控制系统的感知能力、泛化能力和可靠性,减少低可见度环境下自动驾驶的事故率。应用于自动驾驶时,能够更好的适应夜间、迎面车灯眩光、雨\雪、沙尘暴和雾霾等低可见度环境,从而实现全天候自动驾驶。
一方面,本实施例提出了基于改进RTFNet的纯视觉自动驾驶控制系统,包括探测单元、车载上位机。
所述探测单元布置在汽车预设的探测位置处,采用车载RGB摄像头和车载FLIR红外热像仪采集道路交通状态的RGB图像和热红外图像。
所述车载上位机嵌入自动驾驶车辆控制程序,所述自动驾驶车辆控制程序包括语义分割模块、强化学习模块、决策模块。
所述语义分割模块,采用改进的RTFNet网络模型:用于训练探测单元采集的热红外-RGB联合数据集,用以对图像中的自行车、汽车、人体、车道线、障碍物和道路边缘进行语义分割生成分割图。
所述热红外-RGB联合数据集:利用探测单元采集的道路交通状态的RGB图像和热红外图像。
所述改进的RTFNet网络模型,包括道路交通状态的RGB图像分支、道路交通状态的热红外图像分支、第一融合层、第二融合层、语义特征融合模块、上采样层模块、解码器层、解码器模块及softmax激活函数;
其中,道路交通状态的RGB图像分支包括依次连接的编码器、多头自注意力模块(MHSA)、第一残差模块、第二残差模块、第三残差模块和第四残差模块;道路交通状态的热红外图像分支包括依次连接的编码器、多头自注意力模块、最大池化模块和连接的三个残差模块;第四残差模块的输出的语义特征及道路交通状态的热红外图像分支的最后一个残差模块的输出的语义特征经第一融合层融合后依次传递到上采样层模块、解码器层、解码器模块,在道路交通状态的RGB图像分支和热红外图像分支中编码器的ReLu激活函数分别与上采样层A之间增加跃层连接;经softmax激活函数作用后生成分割图;
其中,所述编码器包括依次连接的可分离卷积层(separable convolution)、批归一化层、ReLu激活函数;
所述第一残差模块包括依次连接的融合层、最大池化层、残差模块;
所述第二残差模块包括连接的融合层及残差模块;
所述第三残差模块包括连接的融合层及残差模块;
所述第四残差模块包括连接的融合层及残差模块;
所述最大池化模块包括连接的融合层及最大池化层;
所述上采样层模块包括连接的上采样层A及上采样层B;
解码器模块包括依次连接的三个解码器层;
设计连接的第二融合层和语义特征融合模块,其中,第二融合层有四个输入分支,分别接收道路交通状态的热红外图像分支中多头自注意力模块输出的语义特征和输入到三个残差模块的语义特征,经融合层融合后传递给语义特征融合模块,其中,每一个输入分支的权重都设置为可学习权重;语义特征融合模块有四个输出分支,分别连接RGB图像分支第一残差模块、第二残差模块、第三残差模块、第四残差模块中的四个融合层,将四个融合层的输入语义特征分别融合,其中,每一个输出分支的权重都设置为可学习权重。
所述决策模块:根据DDPG模型获取的损失函数值和优化DDPG模型参数在自动驾驶仿真实验台环境中迭代获得离线决策模型;对离线决策模型在真实环境中进行迭代获得最终决策模型,根据外界驾驶环境进行推理决策。
另一方面,本实施例提供了基于改进RTFNet的纯视觉自动驾驶控制方法,如图2所示,包括以下步骤:
S1:使用预先采集的规范驾驶的经验样本集(st,at,rt,st+1)p作为专家经验数据集对DDPG模型进行预训练直至迭代次数达到3000次或者算法收敛为止。其中:st是交通状态,at是驾驶动作指令,st+1是新的交通状态,rt是本次驾驶动作指令的奖励值;包括以下步骤:
S1.1:使用真实低可见度环境中严格按照交通规则在各种交通状态时行驶时的驾驶动作指令和环境感知传感器提供的交通状态、经驾驶动作指令后形成新的交通状态、通过奖励函数计算的驾驶动作的奖励值组成的样本集作为专家经验数据集。
S1.2:将专家经验数据集输入到DDPG模型中进行训练直至迭代次数达到3000次或者算法收敛为止,得到经过预训练的DDPG模型。
S2:利用车载FLIR红外热像仪和车载RGB摄像头采集道路交通状态的热红外图像和RGB图像,如图3所示,建立热红外-RGB联合数据集,如图4所示,采用热红外-RGB联合数据集对改进的RTFNet网络模型进行训练,得到用以分割自行车、汽车、人体、车道线、障碍物和道路边缘的语义分割模块;通过车载RGB摄像头采集自动驾驶车辆前方的交通状态RGB图像I1,通过车载FLIR红外热像仪采集自动驾驶车辆前方的交通状态热红外图像I2;在语义分割模块使用改进的RTFNet网络模型将I1、I2进行多模态融合和语义分割生成分割图I3
所述改进的RTFNet网络模型,包括道路交通状态的RGB图像分支、道路交通状态的热红外图像分支、第一融合层、第二融合层、语义特征融合模块、上采样层模块、解码器层、解码器模块及softmax激活函数;
其中,道路交通状态的RGB图像分支包括依次连接的编码器、多头自注意力模块(MHSA)、第一残差模块、第二残差模块、第三残差模块和第四残差模块;道路交通状态的热红外图像分支包括依次连接的编码器、多头自注意力模块、最大池化模块和连接的三个残差模块;第四残差模块的输出的语义特征及道路交通状态的热红外图像分支的最后一个残差模块的输出的语义特征经第一融合层融合后依次传递到上采样层模块、解码器层、解码器模块,在道路交通状态的RGB图像分支和热红外图像分支中编码器的ReLu激活函数分别与上采样层A之间增加跃层连接;经softmax激活函数作用后生成分割图;
其中,所述编码器包括依次连接的可分离卷积层(separable convolution)、批归一化层、ReLu激活函数;
所述第一残差模块包括依次连接的融合层、最大池化层、残差模块;
所述第二残差模块包括连接的融合层及残差模块;
所述第三残差模块包括连接的融合层及残差模块;
所述第四残差模块包括连接的融合层及残差模块;
所述最大池化模块包括连接的融合层及最大池化层;
所述上采样层模块包括连接的上采样层A及上采样层B;
解码器模块包括依次连接的三个解码器层;
设计连接的第二融合层和语义特征融合模块,其中,第二融合层有四个输入分支,分别接收道路交通状态的热红外图像分支中多头自注意力模块输出的语义特征和输入到三个残差模块的语义特征,经融合层融合后传递给语义特征融合模块,其中,每一个输入分支的权重都设置为可学习权重;语义特征融合模块有四个输出分支,分别连接RGB图像分支第一残差模块、第二残差模块、第三残差模块、第四残差模块中的四个融合层,将四个融合层的输入语义特征分别融合,其中,每一个输出分支的权重都设置为可学习权重;
S2.1:利用车载FLIR红外热像仪和车载RGB摄像头采集道路交通状态的热红外图像和RGB图像,建立热红外-RGB联合数据集,采用热红外-RGB联合数据集对改进的RTFNet网络模型进行训练;得到用以分割自行车、汽车、人体、车道线、障碍物和道路边缘的语义分割模块;
S2.1.1:利用型号为Asens M2的车载FLIR红外热像仪和型号为MV-CE003-20GC的车载RGB摄像头采集道路的交通状态,获取同步时间戳的热红外图像和RGB图像。
S2.1.2:使用Labelme图像标注工具软件对原始图像进行标注,生成语义图像和标签图像。
S2.1.3:将同一时间戳的热红外图像和RGB图像及共同对应的标签图像作为一个训练样本,按照比例4:1将所有训练样本随机划分为训练集与测试集。
所述改进的RTFNet网络模型,具体为:
如图5所示,在用于提取RGB图像特征的RGB图像编码器中增加一个多头自注意力(MHSA)模块;在用于提取热红外图像特征的热红外图像编码器中增加一个多头自注意力(MHSA)模块;
如图6所示,将RGB图像编码器和热红外图像编码器中的卷积模块(conv)改为可分离卷积(separableconvolution)模块;
在现有的RTFNet网络模型基础上增加跃层连接;采用改进的RTFNet网络模型作为语义特征融合模块,所述语义特征融合模块的输入分支和输出分支的权重均设置为可学习型。
S2.2:通过车载RGB摄像头采集自动驾驶车辆前方的交通状态RGB图像I1,通过车载FLIR红外热像仪采集自动驾驶车辆前方的交通状态热红外图像I2。在语义分割模块使用改进的RTFNet网络模型将I1、I2进行多模态融合和语义分割生成分割图I3
S2.2.1:使用RGB图像编码器对自动驾驶车辆前方的交通状态RGB图像I1进行特征提取;
S2.2.2:使用热红外图像编码器对自动驾驶车辆前方的交通状态热红外图像I2进行特征提取并与I1进行多模态特征融合生成多模态特征图;
S2.2.3:使用解码器恢复多模态特征图的分辨率并生成分割图I3
S3:将I3作为交通状态st输入到经过预训练的DDPG模型中,如图7所示,经过预训练的DDPG模型依据交通状态st从其动作空间中选择相应的驾驶动作指令at并输出,经驾驶动作指令at后形成新的交通状态st+1,通过奖励函数计算本次驾驶动作指令的奖励值rt,并将交通状态st、驾驶动作指令at、本次驾驶动作指令的奖励值rt和新的交通状态st+1作为转移样本(st,at,rt,st+1)存入经验回放池中。从经验回放池中随机抽取转移样本,计算DDPG模型的损失函数值L和优化DDPG模型参数w;包括以下步骤:
S3.1:构建Actor网络和Critic网络,共同构成主网络,网络参数分别用θμ、θQ表示;其中,Actor网络以交通状态st为输入进行at=μ(stμ)计算得到驾驶动作指令at,Critic网络以交通状态st和驾驶动作指令at为输入进行计算得到Q(st,atQ);
S3.2:分别构建Actor网络和Critic网络的目标网络μ(stμ')和Q(st,atQ'),参数分别用θμ'、θQ'表示;建立经验回放池的存储空间R并得到初始交通状态s1
S3.3:通过在Actor网络参数θQ上施加高斯扰动N对驾驶动作进行探索,如式(5)所示:
at=μ(stμ)+N (5)
S3.4:将交通状态st、驾驶动作指令at、在交通状态st时执行驾驶动作指令at得到的奖励值rt和下一个交通状态st+1构成一个元组(st,at,rt,st+1)并存储到经验回放池的存储空间R中;
S3.5:从R中随机选择一个小批量元组数据(si,ai,ri,si+1),通过贝尔曼方程对Q值进行估计,如式(6)所示:
yi=ri+γQ'(si+1,μ'(si+1μ')|θQ') (6)
其中,γ是衰减因子;
通过yi和Q(s,a|θQ)的差值对Critic网络进行更新,如式(7)所示:
Figure GDA0003822095950000131
其中,L表示Loss损失函数,M表示用于网络更新的元组数据样本数量,i表示在经验回放池的存储空间R中随机选择的元组数据的序号;
S3.6:Critic网络更新完毕后,使用策略梯度的方式进行Actor网络的更新,如式(8)所示:
Figure GDA0003822095950000132
其中,
Figure GDA0003822095950000133
表示在策略网络参数θμ下的策略梯度,
Figure GDA0003822095950000134
Figure GDA0003822095950000135
分别表示Critic网络状态-动作值函数梯度和Actor网络策略函数的梯度,μ(si)表示在策略网络在交通状态si时选取的驾驶动作策略,
Figure GDA0003822095950000136
Figure GDA0003822095950000137
分别表示在交通状态si下采取驾驶动作a=μ(si)时Critic网络的状态-动作值和交通状态下Actor网络的动作值,M表示用于网络更新的元组数据样本数量;
S3.7:对目标网络参数进行更新,如式(9)所示:
Figure GDA0003822095950000138
其中,τ是软更新比例系数;
S3.8:循环运行S3.3-S3.7直到直至达到最大迭代次数或者算法收敛为止。
为进一步说明本发明显著的实质性特点,分别采用本发明所述改进RTFNet网络模型、现有的RTFNet网络模型及现有的RTFNet-152网络模型在rtx3070Ti显卡上的每秒处理图片数量、全局准确率、平均交并比的对比如表1所示,其中采用的测试数据集为预留的热红外-RGB联合数据集1000张图片;
所述奖励函数包括行驶方向角度奖励函数、安全距离奖励函数、规则驾驶奖励函数、速度奖励函数,具体为:
行驶方向角度奖励函数r1和安全距离奖励函数r2,如式(1)所示:
Figure GDA0003822095950000141
其中,k1、k2为常数;Δθ为自动驾驶车辆前进方向与车道线或路肩之间的夹角,
Figure GDA0003822095950000142
Δs为自动驾驶车辆中心点到车道中轴线的距离;Δd为自动驾驶车辆周围障碍物与自动驾驶车辆的间距,Δθ、Δs、Δd均由探测获取。
规则驾驶奖励函数r3,如式(2)所示:
Figure GDA0003822095950000143
其中,k3是常数;
速度奖励函数r4,如式(3)所示:
r4=-k4|V-Vmax| (3)
其中,k4是常数,Vmax为路段允许行驶的最高时速,V为自动驾驶车辆当前行驶时速,单位均为km/h;
总奖励函数r,如式(4)所示:
r=r1+r2+r3+r4 (4)
S4:在自动驾驶仿真试验台重复步骤S2-S3直至迭代次数达到1500次或者算法收敛为止,如图8所示,生成离线决策模型π1;在真实环境中采集真实数据集重复步骤S2-S4,对离线决策模型π1进行更新直至迭代次数达到1500次或者算法收敛为止,生成最终决策模型π2
S5:根据最终决策模型π2进行自动驾驶控制实车决策。
一种计算机可读存储介质,所述可读存储介质上存储有自动驾驶车辆控制程序,其中所述自动驾驶车辆控制程序被处理器执行时,实现所述基于改进RTFNet的纯视觉自动驾驶控制方法的步骤。为进一步突出本发明显著的实质性效果,与现有的RTFNet模型及RTFNet-152模型,在每秒处理图片数量、全局准确率、平均交并比三个标准上进行对比。
表1:改进RTFNet网络模型与现有网络模型的每秒处理图片数量、全局准确率、平均交并比对比表
网络模型 每秒处理图片数量/张 全局准确率/% 平均交并比/%
改进RTFNet 90.89 69.5 56.9
现有的RTFNet 90.56 63.1 52.2
现有的RTFNet-152 39.81 65.3 55.0
由表1可知,本发明提出的改进的RTFNet模型相对于现有的RTFNet模型在每秒处理图片数量、全局准确率、平均交并比上均有提高,尤其在全局准确率和平均交互比上具有显著提高;相对于现有的RTFNet-152模型在每秒处理图片数量、全局准确率、平均交并比上均有提高,尤其在每秒处理图片数量上具有显著提高。

Claims (8)

1.基于改进RTFNet的纯视觉自动驾驶控制系统,包括探测单元、车载上位机,其特征在于:
所述探测单元布置在汽车预设的探测位置处,采用车载RGB摄像头和车载FLIR红外热像仪采集道路交通状态的RGB图像和热红外图像;
所述车载上位机嵌入自动驾驶车辆控制程序,所述自动驾驶车辆控制程序包括语义分割模块、强化学习模块、决策模块,模块协同工作,实现自动驾驶控制;
所述语义分割模块,采用改进的RTFNet网络模型,使用探测单元采集的热红外-RGB联合数据集进行训练,用以对图像中的自行车、汽车、人体、车道线、障碍物和道路边缘进行语义分割生成分割图;
所述强化学习模块:根据专家经验数据集,对DDPG模型进行预训练,将分割图输入经预训练的DDPG模型,获得DDPG模型的损失函数值和优化DDPG模型参数;
所述决策模块:根据DDPG模型获取的损失函数值和优化DDPG模型参数自动驾驶仿真试验台中迭代获得离线决策模型;在真实环境中采集真实驾驶动作决策数据集,对离线决策模型进行优化迭代,获得最终决策模型;根据最终决策模型进行自动驾驶控制实车决策;
所述热红外-RGB联合数据集:利用探测单元采集的道路交通状态的RGB图像和热红外图像;
所述改进的RTFNet网络模型,包括道路交通状态的RGB图像分支、道路交通状态的热红外图像分支、第一融合层、第二融合层、语义特征融合模块、上采样层模块、解码器层、解码器模块及softmax激活函数;
其中,道路交通状态的RGB图像分支包括依次连接的编码器、多头自注意力模块(MHSA)、第一残差模块、第二残差模块、第三残差模块和第四残差模块;道路交通状态的热红外图像分支包括依次连接的编码器、多头自注意力模块、最大池化模块和连接的三个残差模块;第四残差模块的输出的语义特征及道路交通状态的热红外图像分支的最后一个残差模块的输出的语义特征经第一融合层融合后依次传递到上采样层模块、解码器层、解码器模块,在道路交通状态的RGB图像分支和热红外图像分支中编码器的ReLu激活函数分别与上采样层A之间增加跃层连接;经softmax激活函数作用后生成分割图;
其中,所述编码器包括依次连接的可分离卷积层(separable convolution)、批归一化层、ReLu激活函数;
所述第一残差模块包括依次连接的融合层、最大池化层、残差模块;
所述第二残差模块包括连接的融合层及残差模块;
所述第三残差模块包括连接的融合层及残差模块;
所述第四残差模块包括连接的融合层及残差模块;
所述最大池化模块包括连接的融合层及最大池化层;
所述上采样层模块包括连接的上采样层A及上采样层B;
解码器模块包括依次连接的三个解码器层;
设计连接的第二融合层和语义特征融合模块,其中,第二融合层有四个输入分支,分别接收道路交通状态的热红外图像分支中多头自注意力模块输出的语义特征和输入到三个残差模块的语义特征,经融合层融合后传递给语义特征融合模块,其中,每一个输入分支的权重都设置为可学习权重;语义特征融合模块有四个输出分支,分别连接RGB图像分支第一残差模块、第二残差模块、第三残差模块、第四残差模块中的四个融合层,将四个融合层的输入语义特征分别融合,其中,每一个输出分支的权重都设置为可学习权重。
2.基于改进RTFNet的纯视觉自动驾驶控制方法,采用权利要求1所述系统,其特征在于:包括以下步骤:
S1:使用预先采集的规范驾驶的经验样本集(st,at,rt,st+1)p作为专家经验数据集,对DDPG模型进行预训练直至达到设定的最大迭代次数n1或算法收敛为止;其中,st是交通状态,at是驾驶动作指令,st+1是新的交通状态,rt是本次驾驶动作指令的奖励值;
S2:利用车载FLIR红外热像仪和RGB摄像头采集道路交通状态的热红外图像和RGB图像,建立热红外-RGB联合数据集,采用热红外-RGB联合数据集对改进的RTFNet网络模型进行训练,得到用以分割自行车、汽车、人体、车道线、障碍物和道路边缘的语义分割模块;通过RGB摄像头采集自动驾驶车辆前方的交通状态RGB图像I1,通过FLIR红外热像仪采集自动驾驶车辆前方的交通状态热红外图像I2;在语义分割模块使用改进的RTFNet网络模型将I1、I2进行多模态融合和语义分割生成分割图I3
所述改进的RTFNet网络模型,包括道路交通状态的RGB图像分支、道路交通状态的热红外图像分支、第一融合层、第二融合层、语义特征融合模块、上采样层模块、解码器层、解码器模块及softmax激活函数;
其中,道路交通状态的RGB图像分支包括依次连接的编码器、多头自注意力模块(MHSA)、第一残差模块、第二残差模块、第三残差模块和第四残差模块;道路交通状态的热红外图像分支包括依次连接的编码器、多头自注意力模块、最大池化模块和连接的三个残差模块;第四残差模块的输出的语义特征及道路交通状态的热红外图像分支的最后一个残差模块的输出的语义特征经第一融合层融合后依次传递到上采样层模块、解码器层、解码器模块,在道路交通状态的RGB图像分支和热红外图像分支中编码器的ReLu激活函数分别与上采样层A之间增加跃层连接;经softmax激活函数作用后生成分割图;
其中,所述编码器包括依次连接的可分离卷积层(separable convolution)、批归一化层、ReLu激活函数;
所述第一残差模块包括依次连接的融合层、最大池化层、残差模块;
所述第二残差模块包括连接的融合层及残差模块;
所述第三残差模块包括连接的融合层及残差模块;
所述第四残差模块包括连接的融合层及残差模块;
所述最大池化模块包括连接的融合层及最大池化层;
所述上采样层模块包括连接的上采样层A及上采样层B;
解码器模块包括依次连接的三个解码器层;
设计连接的第二融合层和语义特征融合模块,其中,第二融合层有四个输入分支,分别接收道路交通状态的热红外图像分支中多头自注意力模块输出的语义特征和输入到三个残差模块的语义特征,经融合层融合后传递给语义特征融合模块,其中,每一个输入分支的权重都设置为可学习权重;语义特征融合模块有四个输出分支,分别连接RGB图像分支第一残差模块、第二残差模块、第三残差模块、第四残差模块中的四个融合层,将四个融合层的输入语义特征分别融合,其中,每一个输出分支的权重都设置为可学习权重;
S3:将I3作为交通状态st输入到经过预训练的DDPG模型中,经过预训练的DDPG模型依据交通状态st从其动作空间中选择相应的驾驶动作指令at并输出,经驾驶动作指令at后形成新的交通状态st+1,通过奖励函数计算本次驾驶动作指令的奖励值rt,并将交通状态st、驾驶动作指令at、本次驾驶动作指令的奖励值rt和新的交通状态st+1作为转移样本(st,at,rt,st+1)存入经验回放池中;从经验回放池中随机抽取转移样本,计算DDPG模型的损失函数值L和优化DDPG模型参数w;
S4:在自动驾驶仿真试验台重复步骤S2-S3直至达到设定的最大迭代次数n2或者算法收敛为止,生成离线决策模型π1;在真实环境中重复步骤S2-S4,对离线决策模型π1进行更新直至迭代次数达到n3次或者算法收敛为止,生成最终决策模型π2
S5:利用最终决策模型π2进行实车推理决策。
3.根据权利要求2所述基于改进RTFNet的纯视觉自动驾驶控制方法,其特征在于:所述的S1具体过程,包括以下步骤:
S1.1:使用真实低可见度环境中严格按照交通规则在各种交通状态时行驶时的驾驶动作指令at和环境感知传感器提供的交通状态st、经驾驶动作指令at后形成新的交通状态st+1、通过奖励函数r计算的驾驶动作的奖励值rt组成的样本集(st,at,rt,st+1)p作为专家经验数据集;
S1.2:将专家经验数据集输入到DDPG模型中进行训练直至迭代次数达到n1次或者算法收敛为止,得到经过预训练的DDPG模型。
4.根据权利要求2所述基于改进RTFNet的纯视觉自动驾驶控制方法,其特征在于:
所述的S2建立热红外-RGB联合数据集的具体过程,包括以下步骤:
S2.1.1:利用车载FLIR红外热像仪和RGB摄像头采集道路的交通状态,获取同步时间戳的热红外图像和RGB图像;
S2.1.2:使用图像标注工具软件对原始图像进行标注,生成语义图像和标签图像;
S2.1.3:将同一时间戳的热红外图像和RGB图像及共同对应的标签图像作为一个训练样本,按照比例n4将所有训练样本随机划分为训练集与测试集;
所述图像标注工具软件采用Labelme图像标注工具软件。
5.根据权利要求2所述基于改进RTFNet的纯视觉自动驾驶控制方法,其特征在于:
所述生成分割图I3的具体过程,包括以下步骤:
S2.2.1:使用RGB编码器对自动驾驶车辆前方的交通状态RGB图像I1进行特征提取;
S2.2.2:使用热红外图像编码器对自动驾驶车辆前方的交通状态热红外图像I2进行特征提取并与I1进行多模态特征融合生成多模态特征图;
S2.2.3:使用解码器恢复多模态特征图的分辨率并生成分割图I3
6.根据权利要求2所述基于改进RTFNet的纯视觉自动驾驶控制方法,其特征在于:
所述的步骤S3中,奖励函数r包括行驶方向角度奖励函数r1、安全距离奖励函数r2、规则驾驶奖励函数r3、速度奖励函数r4,具体为:
行驶方向角度奖励函数r1和安全距离奖励函数r2,如式(1)所示:
Figure FDA0003822095940000041
其中,k1、k2为常数;Δθ为自动驾驶车辆前进方向与车道线或路肩之间的夹角,
Figure FDA0003822095940000051
Δs为自动驾驶车辆中心点到车道中轴线的距离;Δd为自动驾驶车辆周围障碍物与自动驾驶车辆的间距,Δθ、Δs、Δd均由车辆传感系统计算获取;
规则驾驶奖励函数r3,如式(2)所示:
Figure FDA0003822095940000052
其中,k3是常数;
速度奖励函数r4,如式(3)所示:
r4=-k4|V-Vmax| (3)
其中,k4是常数,Vmax为路段允许行驶的最高时速,V为自动驾驶车辆当前行驶时速,单位均为km/h;
总奖励函数r,如式(4)所示:
r=r1+r2+r3+r4 (4)。
7.根据权利要求2所述基于改进RTFNet的纯视觉自动驾驶控制方法,其特征在于:
所述S3中,计算DDPG模型的损失函数值L和优化DDPG模型参数w的具体过程,包括以下步骤:
S3.1:构建Actor网络和Critic网络,共同构成主网络,网络参数分别用θμ、θQ表示;其中,Actor网络以交通状态st为输入进行at=μ(stμ)计算得到驾驶动作指令at,Critic网络以交通状态st和驾驶动作指令at为输入进行计算得到Q(st,atQ);
S3.2:分别构建Actor网络和Critic网络的目标网络μ(stμ')和Q(st,atQ'),参数分别用θμ'、θQ'表示;建立经验回放池的存储空间R并得到初始交通状态s1
S3.3:通过在Actor网络参数θQ上施加高斯扰动N对驾驶动作进行探索,如式(5)所示:
at=μ(stμ)+N (5)
S3.4:将交通状态st、驾驶动作指令at、在交通状态st时执行驾驶动作指令at得到的奖励值rt和下一个交通状态st+1构成一个元组(st,at,rt,st+1)并存储到经验回放池的存储空间R中;
S3.5:从R中随机选择一个小批量元组数据(si,ai,ri,si+1),通过贝尔曼方程对Q值进行估计,如式(6)所示:
yi=ri+γQ'(si+1,μ'(si+1μ')|θQ') (6)
其中,γ是衰减因子;
通过yi和Q(s,a|θQ)的差值对Critic网络进行更新,如式(7)所示:
Figure FDA0003822095940000061
其中,L表示Loss损失函数,M表示用于网络更新的元组数据样本数量,i表示在经验回放池的存储空间R中随机选择的元组数据的序号;
S3.6:Critic网络更新完毕后,使用策略梯度的方式进行Actor网络的更新,如式(8)所示:
Figure FDA0003822095940000062
其中,
Figure FDA0003822095940000063
表示在策略网络参数θμ下的策略梯度,
Figure FDA0003822095940000064
Figure FDA0003822095940000065
分别表示Critic网络状态-动作值函数梯度和Actor网络策略函数的梯度,μ(si)表示在策略网络在交通状态si时选取的驾驶动作策略,
Figure FDA0003822095940000066
Figure FDA0003822095940000067
分别表示在交通状态si下采取驾驶动作a=μ(si)时Critic网络的状态-动作值和交通状态下Actor网络的动作值,M表示用于网络更新的元组数据样本数量;
S3.7:对目标网络参数进行更新,如式(9)所示:
Figure FDA0003822095940000068
其中,τ是软更新比例系数;
S3.8:循环运行S3.3-S3.7直到直至达到最大迭代次数或者算法收敛为止。
8.一种计算机可读存储介质,其特征在于:所述可读存储介质上存储有自动驾驶车辆控制程序,其中所述自动驾驶车辆控制程序被处理器执行时,实现权利要求1所述的基于改进RTFNet的纯视觉自动驾驶控制系统及权利要求2-权利要求7所述任一基于改进RTFNet的纯视觉自动驾驶控制方法的步骤。
CN202210632703.0A 2022-06-07 2022-06-07 基于改进RTFNet的纯视觉自动驾驶控制系统、方法、介质 Active CN114708568B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210632703.0A CN114708568B (zh) 2022-06-07 2022-06-07 基于改进RTFNet的纯视觉自动驾驶控制系统、方法、介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210632703.0A CN114708568B (zh) 2022-06-07 2022-06-07 基于改进RTFNet的纯视觉自动驾驶控制系统、方法、介质

Publications (2)

Publication Number Publication Date
CN114708568A CN114708568A (zh) 2022-07-05
CN114708568B true CN114708568B (zh) 2022-10-04

Family

ID=82177603

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210632703.0A Active CN114708568B (zh) 2022-06-07 2022-06-07 基于改进RTFNet的纯视觉自动驾驶控制系统、方法、介质

Country Status (1)

Country Link
CN (1) CN114708568B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117078923A (zh) * 2023-07-19 2023-11-17 苏州大学 面向自动驾驶环境的语义分割自动化方法、系统及介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112232490A (zh) * 2020-10-26 2021-01-15 大连大学 一种基于视觉的深度模仿强化学习驾驶策略训练方法
CN112965499A (zh) * 2021-03-08 2021-06-15 哈尔滨工业大学(深圳) 基于注意力模型和深度强化学习的无人车行驶决策方法
CN112991350A (zh) * 2021-02-18 2021-06-18 西安电子科技大学 一种基于模态差异缩减的rgb-t图像语义分割方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110320883A (zh) * 2018-03-28 2019-10-11 上海汽车集团股份有限公司 一种基于强化学习算法的车辆自动驾驶控制方法及装置
US10845815B2 (en) * 2018-07-27 2020-11-24 GM Global Technology Operations LLC Systems, methods and controllers for an autonomous vehicle that implement autonomous driver agents and driving policy learners for generating and improving policies based on collective driving experiences of the autonomous driver agents
CN112249032B (zh) * 2020-10-29 2022-02-18 浪潮(北京)电子信息产业有限公司 一种自动驾驶决策方法、系统、设备及计算机存储介质
CN112668235B (zh) * 2020-12-07 2022-12-09 中原工学院 基于离线模型预训练学习的ddpg算法的机器人控制方法
CN113255054A (zh) * 2021-03-14 2021-08-13 南京晓庄学院 一种基于异构融合特征的强化学习自动驾驶方法
CN113420368A (zh) * 2021-05-24 2021-09-21 江苏大学 一种智能车辆神经网络动力学模型、强化学习网络模型及其自动驾驶训练方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112232490A (zh) * 2020-10-26 2021-01-15 大连大学 一种基于视觉的深度模仿强化学习驾驶策略训练方法
CN112991350A (zh) * 2021-02-18 2021-06-18 西安电子科技大学 一种基于模态差异缩减的rgb-t图像语义分割方法
CN112965499A (zh) * 2021-03-08 2021-06-15 哈尔滨工业大学(深圳) 基于注意力模型和深度强化学习的无人车行驶决策方法

Also Published As

Publication number Publication date
CN114708568A (zh) 2022-07-05

Similar Documents

Publication Publication Date Title
JP6923960B2 (ja) 自動駐車システムを提供するために決定地点間の関係及び決定地点に対するリグレッション結果を利用して駐車スペースを検出する学習方法及び学習装置、そしてこれを利用したテスティング方法及びテスティング装置
CN111311945B (zh) 一种融合视觉和传感器信息的驾驶决策系统及方法
CN109263639B (zh) 基于状态栅格法的驾驶路径规划方法
CN110007675B (zh) 一种基于行车态势图的车辆自动驾驶决策系统及基于无人机的训练集制备方法
CN107246876B (zh) 一种无人驾驶汽车自主定位与地图构建的方法及系统
WO2020177217A1 (zh) 基于变尺度多特征融合卷积网络的路侧图像行人分割方法
Cai et al. Vision-based trajectory planning via imitation learning for autonomous vehicles
CN105892471B (zh) 汽车自动驾驶方法和装置
CN110745136A (zh) 一种驾驶自适应控制方法
JP2022016419A (ja) 軌跡予測方法及び装置
US10929995B2 (en) Method and apparatus for predicting depth completion error-map for high-confidence dense point-cloud
CN107703945A (zh) 一种多目标融合的智能农用机械路径规划方法
CN112731925B (zh) 用于无人驾驶方程式赛车锥桶识别和路径规划及控制方法
Hecker et al. Learning accurate, comfortable and human-like driving
CN112232490A (zh) 一种基于视觉的深度模仿强化学习驾驶策略训练方法
CN113715842B (zh) 一种基于模仿学习和强化学习的高速运动车辆控制方法
CN110599497A (zh) 一种基于深度神经网络的可行驶区域分割方法
CN114708568B (zh) 基于改进RTFNet的纯视觉自动驾驶控制系统、方法、介质
CN111580526B (zh) 面向固定车辆编队场景的协同驾驶方法
CN117141517A (zh) 数据驱动与知识引导相结合的车辆轨迹预测模型构建方法
CN110509925B (zh) 一种基于车联网数据的急转弯识别方法
Holder et al. Learning to drive: End-to-end off-road path prediction
Wang et al. An end-to-end auto-driving method based on 3D LiDAR
CN115451987A (zh) 一种自动驾驶汽车的路径规划学习方法
CN115303263A (zh) 一种基于神经网络的自动泊车方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant