CN114708568A

CN114708568A - 基于改进RTFNet的纯视觉自动驾驶控制系统、方法、介质

Info

Publication number: CN114708568A
Application number: CN202210632703.0A
Authority: CN
Inventors: 刘洋; 王永富
Original assignee: Northeastern University China
Current assignee: Northeastern University China
Priority date: 2022-06-07
Filing date: 2022-06-07
Publication date: 2022-07-05
Anticipated expiration: 2042-06-07
Also published as: CN114708568B

Abstract

本发明公开了基于改进RTFNet的纯视觉自动驾驶控制系统、方法、介质，涉及自动驾驶控制领域。针对传统自动驾驶方法在夜间、迎面车灯眩光、雨\雪、沙尘暴和雾霾等低可见度环境下行驶效果欠佳的问题，在语义分割模块引入一种改进的基于多模态特征融合的语义分割方法RTFNet，使用自制数据集训练改进RTFNet网络模型，融合RGB图像和热红外图像并进行语义分割生成分割图，将分割图作为强化学习系统的输入状态进行训练，使两类图像数据优势互补，从而提高自动驾驶系统的感知能力、泛化能力和可靠性。在强化学习模块引入模仿学习预训练和DDPG算法，通过在自动驾驶仿真试验台和真实环境中训练强化学习模型使得自动驾驶系统逐步达到人类可以接受的驾驶水平。

Description

基于改进RTFNet的纯视觉自动驾驶控制系统、方法、介质

技术领域

本发明涉及自动驾驶控制领域，特别是涉及基于改进RTFNet的纯视觉自动驾驶控制系统、方法、介质。

背景技术

随着科技的发展和人民生活水平的提高，自动驾驶技术在生产和生活中得到了广泛的普及，能够有效地减少驾驶员的疲劳、增加驾驶安全性。自动驾驶技术是指汽车等交通工具在驾驶过程中可以通过车载传感器接收外界驾驶环境的相关信息，将所探测到的道路、车辆位置和障碍物等信息输入到车载设备上位机的CPU或GPU进行逻辑推理和运算，然后将结果指令输出到执行器，进而通过改变转向、速度等控制交通工具的运行，实现交通工具在限定或非限定条件下代替人类驾驶员进行部分自动或全自动驾驶。低可见度环境下自动驾驶技术是自动驾驶领域的一个热点问题，得到了十分广泛的关注。

目前大多数自动驾驶技术都是基于激光雷达和RGB摄像头提供的外界驾驶环境的相关信息，使用传统控制方法进行决策的。传统控制方法一般是建立发动机和交通工具行驶过程的近似数学模型，在此基础上设计控制器进行控制，对模型的数学建模具有依赖性，当模型阶数和参数出现误差时,控制就达不到预期的效果。由于现实低可见度环境具有特征稀疏、高度复杂以及不确定性强的特点，无法向车载设备上位机提供外界驾驶环境的准确信息，导致强化学习算法的鲁棒性差且不易收敛。激光雷达工作时易受恶劣环境影响且存在定位误差，激光雷达和与之配套的高精度地图价格高昂。算法在夜间、迎面车灯眩光和雾霾等低可见度环境下效果欠佳。这些问题大大影响了自动驾驶的经济性、实用性和可靠性。

发明内容

本发明解决的是目前自动驾驶在低可见度环境下行驶效果不佳的问题，提供了基于改进RTFNet的纯视觉自动驾驶控制系统、方法、介质，能够提高自动驾驶控制系统的感知能力、泛化能力和可靠性，减少低可见度环境下自动驾驶的事故率。应用于自动驾驶时，能够更好的适应夜间、迎面车灯眩光、雨\雪、沙尘暴和雾霾等低可见度环境，从而实现全天候自动驾驶。

为了达到上述目的，本发明采用的技术方案为：

基于改进RTFNet的纯视觉自动驾驶控制系统，包括探测单元、车载上位机；所述探测单元布置在汽车预设的探测位置处，采用车载RGB摄像头和车载FLIR红外热像仪采集道路交通状态的RGB图像和热红外图像。

所述车载上位机嵌入自动驾驶车辆控制程序，所述自动驾驶车辆控制程序包括语义分割模块、强化学习模块、决策模块。

所述语义分割模块，采用改进的RTFNet网络模型：使用探测单元采集的热红外-RGB联合数据集进行训练，用以对图像中的自行车、汽车、人体、车道线、障碍物和道路边缘进行语义分割生成分割图。

所述强化学习模块：根据专家经验数据集，对DDPG模型进行预训练，将分割图输入经预训练的DDPG模型，获得DDPG模型的损失函数值和优化DDPG模型参数。

所述决策模块：根据DDPG模型获取的损失函数值和优化DDPG模型参数在自动驾驶仿真试验台中迭代获得离线决策模型；在真实环境中采集真实驾驶动作决策数据集，对离线决策模型进行优化迭代，获得最终决策模型；根据最终决策模型进行自动驾驶控制实车决策。

所述热红外-RGB联合数据集：利用探测单元采集的道路交通状态的RGB图像和热红外图像。

所述改进的RTFNet网络模型，用于提取RGB图像特征的RGB图像编码器中增加一个多头自注意力 (MHSA)模块；在用于提取热红外图像特征的热红外图像编码器中增加一个多头自注意力 (MHSA)模块；将RGB图像编码器和热红外图像编码器中的卷积模块(conv)改为可分离卷积(separable convolution)模块；增加跃层连接；采用改进的RTFNet网络模型作为语义特征融合模块，所述语义特征融合模块的输入分支和输出分支的权重均设置为可学习型。

另一方面，本发明还提供了基于改进RTFNet的纯视觉自动驾驶控制方法，采用所述系统，包括以下步骤：

S1：使用预先采集的规范驾驶的经验样本集(s _t,a _t,r _t,s _t+1)_p作为专家经验数据集，对DDPG模型进行预训练直至达到设定的最大迭代次数n ₁或算法收敛为止；其中，s _t是交通状态，a _t是驾驶动作指令，s _t+1是新的交通状态，r _t是本次驾驶动作指令的奖励值；

S2：利用车载FLIR红外热像仪和车载RGB摄像头采集道路交通状态的热红外图像和RGB图像，建立热红外-RGB联合数据集，采用热红外-RGB联合数据集对改进的RTFNet网络模型进行训练，得到用以分割自行车、汽车、人体、车道线、障碍物和道路边缘的语义分割模块；通过车载RGB摄像头采集自动驾驶车辆前方的交通状态RGB图像I ₁，通过车载FLIR红外热像仪采集自动驾驶车辆前方的交通状态热红外图像I ₂；在语义分割模块使用改进的RTFNet网络模型将I ₁、I ₂进行多模态融合和语义分割生成分割图I ₃；

S3：将I ₃作为交通状态输入到经过预训练的DDPG模型中，经过预训练的DDPG模型依据交通状态s _t从其动作空间中选择相应的驾驶动作指令a _t并输出，经驾驶动作指令a _t后形成新的交通状态s _t+1，通过奖励函数计算本次驾驶动作指令的奖励值r _t，并将交通状态s _t、驾驶动作指令a _t、本次驾驶动作指令的奖励值r _t和新的交通状态s _t+1作为转移样本(s _t,a _t,r _t,s _t+1)存入经验回放池中；从经验回放池中随机抽取转移样本，计算DDPG模型的损失函数值L和优化DDPG模型参数w；

S4：在自动驾驶仿真试验台重复步骤S2-S4直至达到设定的最大迭代次数n ₂或者算法收敛为止，生成离线决策模型π ₁；在真实环境中采集真实驾驶动作决策数据集重复步骤S2-S4，对离线决策模型π ₁进行优化更新直至迭代次数达到n ₃次或者算法收敛为止，生成最终决策模型π ₂；

S5：根据最终决策模型π ₂进行自动驾驶控制实车决策。

所述的S1具体过程，包括以下步骤：

S1.1：使用真实低可见度环境中严格按照交通规则在各种交通状态时行驶时的驾驶动作指令a _t和环境感知传感器提供的交通状态s _t、经驾驶动作指令a _t后形成新的交通状态s _t+1、通过奖励函数r计算的驾驶动作的奖励值r _t组成的样本集(s _t,a _t,r _t,s _t+1)_p作为专家经验数据集；

S1.2：将专家经验数据集输入到DDPG模型中进行训练直至迭代次数达到n ₁次或者算法收敛为止，得到经过预训练的DDPG模型。

所述的S2中，建立热红外-RGB联合数据集的具体过程，包括以下步骤：

S2.1.1：利用车载FLIR红外热像仪和车载RGB摄像头采集道路的交通状态，获取同步时间戳的热红外图像和RGB图像；

S2.1.2：使用图像标注工具软件对原始图像进行标注，生成语义图像和标签图像；

S2.1.3：将同一时间戳的热红外图像和RGB图像及共同对应的标签图像作为一个训练样本，按照比例n ₄将所有训练样本随机划分为训练集与测试集；

所述图像标注工具软件采用Labelme图像标注工具软件。

所述生成分割图I ₃的具体过程，包括以下步骤：

S2.2.1：使用RGB编码器对自动驾驶车辆前方的交通状态RGB图像I ₁进行特征提取；

S2.2.2：使用热红外图像编码器对自动驾驶车辆前方的交通状态热红外图像I ₂进行特征提取并与I ₁进行多模态特征融合生成多模态特征图；

S2.2.3：使用解码器恢复多模态特征图的分辨率并生成分割图I ₃。

所述的步骤S3中，奖励函数r包括行驶方向角度奖励函数r ₁、安全距离奖励函数r ₂、规则驾驶奖励函数r ₃、速度奖励函数r ₄，具体为：

行驶方向角度奖励函数r ₁和安全距离奖励函数r ₂，如式（1）所示：

（1）

其中，k ₁、 k ₂为常数

为自动驾驶车辆前进方向与车道线或路肩之间的夹角，

；

为自动驾驶车辆中心点到车道中轴线的距离；

为自动驾驶车辆周围障碍物与自动驾驶车辆的间距，

均由探测单元获取；

规则驾驶奖励函数r ₃，如式（2）所示：

（2）

其中，k ₃是常数；

速度奖励函数r ₄，如式（3）所示：

（3）

其中，k ₄是常数，V _max为该路段允许行驶的最高时速，V为自动驾驶车辆当前行驶时速，单位均为km/h；

总奖励函数r，如式（4）所示：

r= r ₁ + r ₂ + r ₃ + r ₄ （4）。

所述S3中，计算DDPG模型的损失函数值L和优化DDPG模型参数w的具体过程，包括以下步骤：

S3.1：构建Actor网络和Critic网络，共同构成主网络，网络参数分别用θ ^u 、θ ^Q表示；其中，Actor网络以交通状态s _t为输入进行

计算得到驾驶动作指令a _t，Critic网络以交通状态s _t和驾驶动作指令a _t为输入进行计算得到

；

S3.2：分别构建Actor网络和Critic网络的目标网络

和

，参数分别用θ ^u’ 、θ ^Q’表示；建立经验回放池的存储空间R并得到初始交通状态s ₁；

S3.3：通过在Actor网络参数θ ^Q上施加高斯扰动N对驾驶动作进行探索，如式（5）所示：

（5）

S3.4：将交通状态s _t、驾驶动作指令a _t、在交通状态s _t时执行驾驶动作指令a _t得到的奖励值r _t和下一个交通状态s _t+1构成一个元组(s _t,a _t,r _t,s _t+1)并存储到经验回放池的存储空间R中；

S3.5：从R中随机选择一个元组数据(s _i,a _i,r _i,s _i+1)，通过贝尔曼方程对Q值进行估计，如式（6）所示：

（6）

其中，γ是衰减因子；

通过y _i和

的差值对Critic网络进行更新，如式（7）所示：

（7）

其中，L表示Loss损失函数，M表示用于网络更新的元组数据样本数量；

S3.6：Critic网络更新完毕后，使用策略梯度的方式进行Actor网络的更新，如式（8）所示：

（8）

其中，

表示在策略网络参数θ ^u下的策略梯度，

和

分别表示Critic网络状态-动作值函数梯度和Actor网络策略函数的梯度，μ（s _i）表示在策略网络在交通状态s _i时选取的驾驶动作策略，

和

分别表示在交通状态s _i下采取驾驶动作a=μ（s _i）时Critic网络的状态-动作值和该交通状态下Actor网络的动作值，M表示用于网络更新的元组数据样本数量；

S3.7：对目标网络参数进行更新，如式（9）所示：

（9）

其中，τ是软更新比例系数；

S3.8：循环运行S3.3-S3.7直到直至达到最大迭代次数或者算法收敛为止。

另一方面，本发明还提供了一种计算机可读存储介质，所述可读存储介质上存储有自动驾驶车辆控制程序，其中所述自动驾驶车辆控制程序被处理器执行时，实现所述改进RTFNet的低可见度下纯视觉自动驾驶控制方法的步骤。

采用所述方案的有益技术效果为：

1、使用红外摄像头代替激光雷达接收外界驾驶环境的相关信息，显著节约了自动驾驶硬件成本，避免了恶劣环境对激光雷达的不利影响。

2、为了克服传统控制方法对外界驾驶环境的模型依赖性大以及模型误差较大导致的精度差、适应性差的缺点，引入深度强化学习算法DDPG，充分利用了真实低可见度环境中严格按照交通规则在各种交通状态时行驶的信息来加强自动驾驶车辆的规划和控制。

3、为了向车载设备上位机提供外界驾驶环境的准确信息，将车载RGB摄像头采集的RGB图像和车载FLIR红外热像仪采集的热红外图像进行多模态特征融合，生成了具有RGB图像的色彩和外观特征和热红外图像的轮廓特征的融合图，融合了二者的优点，更全面有效地表示驾驶环境的特征。

4、应用语义分割方法处理融合图，在剔除无关信息的同时使得强化学习系统能够获得更为全面系统的交通状态特征描述。

5、进行多模态特征融合和语义分割时，采用了改进RTFNet网络模型，能够提高网络模型的运行速度、分割结果的全局准确率和平均交并比。

6、基于模仿学习的方法对DDPG网络模型进行预训练并且为自动驾驶控制方法建立了奖励函数，使得DDPG算法更好地完成特征提取和决策相关性的建立，从而克服了稀疏奖励在长阶段任务中的影响，提高模型收敛速度和最终性能。

7、提出了多层次联合训练方法，分别在试验台和真实环境中训练自动驾驶车辆。通过自动驾驶车辆与真实环境直接进行交互，使得误差、延迟和噪声等干扰因素作为环境模型的一部分被DDPG算法隐式地建模，并在值估计和决策生成过程中被充分地考虑，既能避免强化学习模型对训练数据集的依赖的问题，又提高了算法的训练效率和鲁棒性。

附图说明

图1为本发明实施例提供的基于改进RTFNet的纯视觉自动驾驶控制系统结构示意图；

图2为本发明实施例提供的基于改进RTFNet的纯视觉自动驾驶控制方法流程示意图；

图3为本发明实施例提供的基于改进RTFNet的纯视觉自动驾驶控制方法的热红外-RGB联合数据集中的热红外图像和RGB图像、实际图像测试结果；

图4为本发明实施例提供的基于改进RTFNet的纯视觉自动驾驶控制方法的RTFNet网络模型结构图；

图5为本发明实施例提供的基于改进RTFNet的纯视觉自动驾驶控制方法的MHSA模块示意图；

图6为本发明实施例提供的基于改进RTFNet的纯视觉自动驾驶控制方法的改进RTFNet网络模型结构图；

图7为本发明实施例提供的基于改进RTFNet的纯视觉自动驾驶控制方法DDPG算法流程示意图；

图8为本发明实施例提供的基于改进RTFNet的纯视觉自动驾驶控制方法的仿真试验台示意图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。

本实施例提供了基于改进RTFNet的纯视觉自动驾驶控制系统、方法、介质，能够提高自动驾驶控制系统的感知能力、泛化能力和可靠性，减少低可见度环境下自动驾驶的事故率。应用于自动驾驶时，能够更好的适应夜间、迎面车灯眩光、雨\雪、沙尘暴和雾霾等低可见度环境，从而实现全天候自动驾驶。

一方面，本实施例提出了基于改进RTFNet的纯视觉自动驾驶控制系统，如图1所示，包括探测单元、车载上位机。

所述探测单元布置在汽车预设的探测位置处，采用车载RGB摄像头和车载FLIR红外热像仪采集道路交通状态的RGB图像和热红外图像。

所述语义分割模块，采用改进的RTFNet网络模型：用于训练探测单元采集的热红外-RGB联合数据集，用以对图像中的自行车、汽车、人体、车道线、障碍物和道路边缘进行语义分割生成分割图。

所述改进的RTFNet网络模型，在用于提取RGB图像特征的RGB图像编码器中增加一个多头自注意力 (MHSA)模块；在用于提取热红外图像特征的热红外图像编码器中增加一个多头自注意力 (MHSA)模块；将RGB图像编码器和热红外图像编码器中的卷积模块(conv)改为可分离卷积(separable convolution)模块；增加跃层连接；采用改进的RTFNet网络模型作为语义特征融合模块，所述语义特征融合模块的输入分支和输出分支的权重均设置为可学习型；

所述强化学习模块：根据经验样本集，对DDPG模型进行预训练，将分割图输入经预训练的DDPG模型，获得DDPG模型的损失函数值和优化DDPG模型参数；

所述决策模块：根据DDPG模型获取的损失函数值和优化DDPG模型参数自动驾驶仿真试验台中迭代获得离线决策模型；在真实环境中采集真实驾驶动作决策数据集，对离线决策模型进行优化迭代，获得最终决策模型；根据最终决策模型进行自动驾驶控制实车决策。

另一方面，本实施例提供了基于改进RTFNet的纯视觉自动驾驶控制方法，如图2所示，包括以下步骤：

S1：使用预先采集的规范驾驶的经验样本集(s _t,a _t,r _t,s _t+1)_p作为专家经验数据集对DDPG模型进行预训练直至迭代次数达到3000次或者算法收敛为止；其中：s _t是交通状态，a _t是驾驶动作指令，s _t+1是新的交通状态，r _t是本次驾驶动作指令的奖励值；包括以下步骤：

S1.1：使用真实低可见度环境中严格按照交通规则在各种交通状态时行驶时的驾驶动作指令和环境感知传感器提供的交通状态、经驾驶动作指令后形成新的交通状态、通过奖励函数计算的驾驶动作的奖励值组成的样本集作为专家经验数据集；

S1.2：将专家经验数据集输入到DDPG模型中进行训练直至迭代次数达到3000次或者算法收敛为止，得到经过预训练的DDPG模型；

S2：利用车载FLIR红外热像仪和车载RGB摄像头采集道路交通状态的热红外图像和RGB图像，如图3所示，建立热红外-RGB联合数据集，如图4所示，采用热红外-RGB联合数据集对改进的RTFNet网络模型进行训练，得到用以分割自行车、汽车、人体、车道线、障碍物和道路边缘的语义分割模块；通过车载RGB摄像头采集自动驾驶车辆前方的交通状态RGB图像I ₁，通过车载FLIR红外热像仪采集自动驾驶车辆前方的交通状态热红外图像I ₂；在语义分割模块使用改进的RTFNet网络模型将I ₁、I ₂进行多模态融合和语义分割生成分割图I ₃，具体包括以下步骤：

S2.1：利用车载FLIR红外热像仪和车载RGB摄像头采集道路交通状态的热红外图像和RGB图像，建立热红外-RGB联合数据集，采用热红外-RGB联合数据集对改进的RTFNet网络模型进行训练；得到用以分割自行车、汽车、人体、车道线、障碍物和道路边缘的语义分割模块；

S2.1.1：利用型号为Asens M2的车载FLIR红外热像仪和型号为MV-CE003-20GC的车载RGB摄像头采集道路的交通状态，获取同步时间戳的热红外图像和RGB图像；

S2.1.2：使用Labelme图像标注工具软件对原始图像进行标注，生成语义图像和标签图像；

S2.1.3：将同一时间戳的热红外图像和RGB图像及共同对应的标签图像作为一个训练样本，按照比例4：1将所有训练样本随机划分为训练集与测试集；

所述改进的RTFNet网络模型，具体为：

如图5所示，在用于提取RGB图像特征的RGB图像编码器中增加一个多头自注意力(MHSA)模块；在用于提取热红外图像特征的热红外图像编码器中增加一个多头自注意力(MHSA)模块；

如图6所示，将RGB图像编码器和热红外图像编码器中的卷积模块(conv)改为可分离卷积(separable convolution)模块；

在现有的RTFNet网络模型基础上增加跃层连接；采用改进的RTFNet网络模型作为语义特征融合模块，所述语义特征融合模块的输入分支和输出分支的权重均设置为可学习型；

S2.2：通过RGB摄像头采集自动驾驶车辆前方的交通状态RGB图像I ₁，通过FLIR红外热像仪采集自动驾驶车辆前方的交通状态热红外图像I ₂；在语义分割模块使用改进的RTFNet网络模型将I ₁、I ₂进行多模态融合和语义分割生成分割图I ₃；

S2.2.3：使用解码器恢复多模态特征图的分辨率并生成分割图I ₃；

S3：将I ₃作为交通状态s _t输入到经过预训练的DDPG模型中，如图7所示，经过预训练的DDPG模型依据交通状态s _t从其动作空间中选择相应的驾驶动作指令a _t并输出，经驾驶动作指令a _t后形成新的交通状态s _t+1，通过奖励函数计算本次驾驶动作指令的奖励值r _t，并将交通状态s _t、驾驶动作指令a _t、本次驾驶动作指令的奖励值r _t和新的交通状态s _t+1作为转移样本（s _t,a _t,r _t,s _t+1）存入经验回放池中；从经验回放池中随机抽取转移样本，计算DDPG模型的损失函数值L和优化DDPG模型参数w；包括以下步骤：

；

S3.2：分别构建Actor网络和Critic网络的目标网络

和

，参数分别用 θ ^u’ 、θ ^Q’表示；建立经验回放池的存储空间R并得到初始交通状态s ₁；

S3.3：通过在Actor网络参数θ ^Q上施加高斯扰动N对驾驶动作进行探索，如式（10）所示：

（10）

S3.4：将交通状态s _t、驾驶动作指令a _t、在交通状态s _t时执行驾驶动作指令a _t得到的奖励值r _t和下一个交通状态s _t+1构成一个元组（s _t,a _t,r _t,s _t+1）并存储到经验回放池的存储空间R中；

S3.5：从R中随机选择一个元组数据（s _i,a _i,r _i,s _i+1），通过贝尔曼方程对Q值进行估计，如式（11）所示：

（11）

其中，γ是衰减因子；

通过y _i和

的差值对Critic网络进行更新，如式（12）所示：

（12）

S3.6：Critic网络更新完毕后，使用策略梯度的方式进行Actor网络的更新，如式（13）所示：

（13）

其中，

表示在策略网络参数θ ^u下的策略梯度，

和

和

S3.7：对目标网络参数进行更新，如式（14）所示：

（14）

其中，τ是软更新比例系数；

S3.8：循环运行S3.3-S3.7直到直至达到最大迭代次数或者算法收敛为止；

为进一步说明本发明显著的实质性特点，分别采用本发明所述改进RTFNet网络模型、现有的RTFNet网络模型及现有的RTFNet-152网络模型在rtx3070Ti显卡上的每秒处理图片数量、全局准确率、平均交并比的对比如表1所示，其中采用的测试数据集为预留的热红外-RGB联合数据集1000张图片；

所述奖励函数r包括行驶方向角度奖励函数r ₁、安全距离奖励函数r ₂、规则驾驶奖励函数r ₃、速度奖励函数r ₄，具体为：

行驶方向角度奖励函数r ₁和安全距离奖励函数r ₂，如式（15）所示：

（15）

其中，k ₁、 k ₂为常数；

为自动驾驶车辆前进方向与车道线或路肩之间的夹角，

；

为自动驾驶车辆中心点到车道中轴线的距离；

为自动驾驶车辆周围障碍物与自动驾驶车辆的间距，

均由探测单元获取；

规则驾驶奖励函数r ₃，如式（16）所示：

（16）

其中，k ₃是常数；

速度奖励函数r ₄，如式（17）所示：

（17）

总奖励函数r，如式（18）所示：

r= r ₁ + r ₂ + r ₃ + r ₄ （18）

S4：在自动驾驶仿真试验台重复步骤S2-S4直至迭代次数达到1500次或者算法收敛为止，如图8所示，生成离线决策模型π ₁；在真实环境中采集真实数据集重复步骤S2-S4，对离线决策模型π ₁进行优化更新直至迭代次数达到1500次或者算法收敛为止，生成最终决策模型π ₂；

S5：利用最终决策模型π ₂进行自动驾驶控制实车决策。

另一方面，本实施例还提供了一种计算机可读存储介质，所述可读存储介质上存储有自动驾驶车辆控制程序，其中所述自动驾驶车辆控制程序被处理器执行时，实现所述改进RTFNet的低可见度下纯视觉自动驾驶控制方法的步骤。

为进一步突出本发明显著的实质性效果，与现有的RTFNet模型及RTFNet-152模型，在每秒处理图片数量、全局准确率、平均交并比三个标准上进行对比。

表1：改进RTFNet网络模型与现有网络模型的每秒处理图片数量、全局准确率、平均交并比对比表

网络模型	每秒处理图片数量/张	全局准确率/%	平均交并比/%
				改进RTFNet	90.89	69.5	56.9
现有的RTFNet	90.56	63.1	52.2
				现有的RTFNet-152	39.81	65.3	55.0

由表1可知，本发明提出的改进的RTFNet模型相对于现有的RTFNet模型在每秒处理图片数量、全局准确率、平均交并比上均有提高，尤其在全局准确率和平均交互比上具有显著提高；相对于现有的RTFNet-152模型在每秒处理图片数量、全局准确率、平均交并比上均有提高，尤其在每秒处理图片数量上具有显著提高。

Claims

1.基于改进RTFNet的纯视觉自动驾驶控制系统，包括探测单元、车载上位机，其特征在于：

所述探测单元布置在汽车预设的探测位置处，采用车载RGB摄像头和车载FLIR红外热像仪采集道路交通状态的RGB图像和热红外图像；

所述车载上位机嵌入自动驾驶车辆控制程序，所述自动驾驶车辆控制程序包括语义分割模块、强化学习模块、决策模块，模块协同工作，实现自动驾驶控制；

所述语义分割模块，采用改进的RTFNet网络模型：使用探测单元采集的热红外-RGB联合数据集进行训练，用以对图像中的自行车、汽车、人体、车道线、障碍物和道路边缘进行语义分割生成分割图；

所述强化学习模块：根据专家经验数据集，对DDPG模型进行预训练，将分割图输入经预训练的DDPG模型，获得DDPG模型的损失函数值和优化DDPG模型参数；

2.根据权利要求1所述的基于改进RTFNet的纯视觉自动驾驶控制系统，其特征在于：

所述热红外-RGB联合数据集：利用探测单元采集的道路交通状态的RGB图像和热红外图像；

所述改进的RTFNet网络模型，在用于提取RGB图像特征的RGB图像编码器中增加一个多头自注意力模块；在用于提取热红外图像特征的热红外图像编码器中增加一个多头自注意力模块；将RGB图像编码器和热红外图像编码器中的卷积模块改为可分离卷积模块；增加跃层连接；采用改进的RTFNet网络模型作为语义特征融合模块，所述语义特征融合模块的输入分支和输出分支的权重均设置为可学习型。

3.基于改进RTFNet的纯视觉自动驾驶控制方法，采用权利要求1所述系统，其特征在于：包括以下步骤：

S3：将I ₃作为交通状态s _t输入到经过预训练的DDPG模型中，经过预训练的DDPG模型依据交通状态s _t从其动作空间中选择相应的驾驶动作指令a _t并输出，经驾驶动作指令a _t后形成新的交通状态s _t+1，通过奖励函数计算本次驾驶动作指令的奖励值r _t，并将交通状态s _t、驾驶动作指令a _t、本次驾驶动作指令的奖励值r _t和新的交通状态s _t+1作为转移样本(s _t,a _t,r _t,s _t+1)

存入经验回放池中；从经验回放池中随机抽取转移样本，计算DDPG模型的损失函数值L和优化DDPG模型参数w；

S4：在自动驾驶仿真试验台重复步骤S2-S4直至达到设定的最大迭代次数n ₂或者算法收敛为止，生成离线决策模型π ₁；在真实环境中采集真实驾驶动作决策数据集，重复步骤S2-S4，对离线决策模型π ₁进行优化更新直至迭代次数达到n ₃次或者算法收敛为止，生成最终决策模型π ₂；

S5：根据最终决策模型进行自动驾驶控制实车决策。

4.根据权利要求3所述基于改进RTFNet的纯视觉自动驾驶控制方法，其特征在于：所述的S1具体过程，包括以下步骤：