CN117078923A

CN117078923A - 面向自动驾驶环境的语义分割自动化方法、系统及介质

Info

Publication number: CN117078923A
Application number: CN202310890206.5A
Authority: CN
Inventors: 吴澄; 叶陆琴; 盛洁; 王阳
Original assignee: Suzhou University
Current assignee: Suzhou University
Priority date: 2023-07-19
Filing date: 2023-07-19
Publication date: 2023-11-17

Abstract

本发明公开了一种面向自动驾驶环境的语义分割自动化方法、系统及介质，该方法具体步骤为：S1：获取数据集并进行数据清洗，划分为训练数据集和测试数据集；S2：将所述训练数据集输入到语义分割模型中进行训练，得到分割图像，对其进行数据评分；S3：将所述数据评分作为轨道状态输入到强化学习模型中训练，得到筛选后的分割图像；S4：汇总所述筛选后的分割图像，检索到其原始数据，输入到所述语义分割模型再训练，将待检测的图像到优化后的语义分割模型中，获得检测结果。本发明有效地解决了语义分割训练数据获取困难、模型训练依赖人工的问题，考虑到铁路无人驾驶环境的特点，对原始语义分割模型进行优化，实现了语义分割模型训练过程的自动化。

Description

面向自动驾驶环境的语义分割自动化方法、系统及介质

技术领域

本发明涉及图像语义分割技术领域，具体涉及面向自动驾驶环境的语义分割自动化方法、系统及介质。

背景技术

目前自动驾驶避障主要依靠各种图像识别算法，而语义分割正是最重要的一种环境理解手段。它能够实现像素级别的图像分类，对于自动驾驶系统精确把握周围环境信息尤其重要。但是语义分割的训练繁琐且需要大量的人力投入，不适宜模型的快速迁移部署，因此亟需一种能够自动化训练语义分割模型的方法。

近年来，自动化机器学习(AutoML)兴起。AutoML泛指在机器学习各阶段流程中有一个或多个阶段采取自动化而无需人工参与的实现方案。AutoML的目的是使人从这些机器学习应用程序中解放出来，摆脱上述繁琐的模型设计与优化等过程，实现真正意义上的机器学习。AutoML的完整流程由数据准备、特征工程、模型选择、参数优化与模型评估这些过程组成。对于上述五个过程，已经涌现出了不少的算法，甚至是全流程自动化的系统，它们在语音、视频、搜索等领域应用广泛，但是在自动驾驶领域，缺少特异化自动化机器学习方法。

语义分割自动化学习已取得不少成果。文件1指出手动设计调整语义分割网络参数需要大量专家工作，同时很难在速度与性能之间找到平衡点，难以达到某些实时应用如自动驾驶的要求。因此他提出了一种可定制的架构搜索方法来自动生成具有特定约束的轻量级网络。这是首次在语义分割自动生成网络架构方向的尝试。文件2指出由于手动设计网络乏味且难以处理，因此对于特定任务的神经网络结构自动化设计是一条非常有前途的途径。他针对语义分割设计使用RNN控制器循环输出网络结构和各层operations，并对紧凑语义分割进行专门修改并加入辅助单元以加速搜索和训练。文件3提出一个包含许多流行设计的网络级搜索空间，并开发了一个允许基于梯度的架构搜索的公式。文件4将NASNet(一种AutoML强化学习算法)应用于Deep U-Net网络以提高图像语义分割性能。文件5提出了一种解耦的、细粒度的延迟正则化方法，解决了使用NAS自动设计语义分割模型崩溃的问题，更好的实现高精度与低延迟之间的平衡。文件6等人将自动化语义分割引入医学领域，提出了一种用于密集标记的复合结构，其中定制的三维全卷积网络探索初始标记的空间强度并发性，而多向递归神经网络(RNN)编码空间顺序性，以对抗边界模糊性，从而显著细化，可以同时分割多个具有强烈临床意义的解剖结构，包括胎儿、妊娠囊和胎盘。由此可见，语义分割自动化学习正在成为一个非常重要和具有现实意义的研究方向。

当前语义分割方法存在以下缺点：

(1)在实际应用中，探索未知场景是无法避免的，这也对选取数据的典型性和通用性提出了更高的要求。人工训练语义分割网络需要大量已标注的数据，而数据的采集与标注是一件繁琐的任务。为了提升数据集的质量，不得不认真研究数据的分布，剔除遮挡重叠等不符数据。每一步都需要相当多的人力投入，同时过少的数据容易使网络进入过拟合状态，因此对数据量也提出了要求。

(2)在每个阶段训练完成后，需要研究人员评价语义分割学习效果，之后手动调整合适的参数进行二次训练，缺乏自我更新机制，同时调参的过程更是极度依赖研究者的经验判断，具有很强的主观性。

[1]Zhang,Y.,Qiu,Z.,Liu,J.,Yao,T.,Liu,D.,&Mei,T.(2019).Customizablearchitecture search for semantic segmentation.In Proceedings of the IEEEConference on Computer Vision and Pattern Recognition(pp.11641-11650).

[2]Nekrasov,V.,Chen,H.,Shen,C.,&Reid,I.(2019).Fast neuralarchitecture search of compact semantic segmentation models via auxiliarycells.In Proceedings of the IEEE Conference on Computer Vision andPatternRecognition(pp.9126-9135).

[3]Liu,C.,Chen,L.C.,Schroff,F.,Adam,H.,Hua,W.,Yuille,A.L.,&Fei-Fei,L.

(2019).Auto-deeplab:Hierarchical neural architecture search forsemantic imagesegmentation.In Proceedings of the IEEE Conference on ComputerVision andPattern Recognition(pp.82-92)

[4]Kim,Hyoung Seok,Kee-YounYoo,and Lae Hyun Kim."ImprovedPerformanceof Image Semantic Segmentation using NASNet."KoreanChemicalEngineering Research 57.2(2019):274-282.

[5]Chen,Wuyang,et al."Fasterseg:Searching for faster real-timesemanticsegmentation."arXiv preprint arXiv:1912.10917(2019).

[6]Yang,Xin,et al."Towards automated semantic segmentation inprenatalvolumetric ultrasound."IEEE transactions on medical imaging 38.1(2018):180-193.

发明内容

本发明是为了解决语义分割训练数据获取困难与模型训练依赖人工的问题，提供一种面向自动驾驶环境的语义分割自动化方法、系统及介质，考虑到铁路无人驾驶环境的特点，对原始语义分割模型进行优化，挖掘超参数的内在联系，以提高语义分割模型的收敛速度与检测精度。

为了解决上述技术问题，本发明实施例提供一种面向自动驾驶环境的语义分割自动化方法，该方法包括以下步骤：

步骤S1：获取车前可见光图像数据，对所述车前可见光图像数据进行数据清洗，得到车前可见光图像数据集，将所述车前可见光图像数据集划分为训练数据集和测试数据集；所述车前可见光图像数据包括：不同照明和天气条件下直线、弯道和岔道的轨道图像；

步骤S2：将所述训练数据集输入到语义分割模型中进行训练，得到分割图像，对所述分割图像进行评分，得到数据评分；

步骤S3：将所述分割图像的数据评分作为轨道状态输入到强化学习模型中进行训练，得到筛选后的分割图像；

步骤S4：汇总所述筛选后的分割图像，检索到其原始数据，输入到所述语义分割模型进行二次训练，得到权重参数，将所述权重参数加载到所述语义分割模型中，针对待检测的图像，运行所述语义分割模型得到检测结果。

在本发明的一个实施例中，步骤S3中，将所述分割图像的数据评分作为轨道状态输入到强化学习模型中进行训练的具体步骤为：

步骤S31：定义动作空间A＝＜a₁,a₂,...,a_N＞，S为状态空间，包含N维数据，其中1～N-1维表示之前处理后的数据，第N维表示正在处理的候选数据，状态s_t∈S表示智能体在t时刻的状态，初始化状态s₀、经验回放池D、目标Q网络以及当前Q网络；

步骤S32：智能体根据当前状态s_t，利用ε-Greedy方法选择动作a_t执行，以1-ε的概率根据当前Q网络输出的Q值选择动作同时以ε的概率从其他动作中随机选择一个动作a_t作为当前的动作，执行动作a_t后，获得奖励r_t，同时智能体转移到新状态s_t+1；

步骤S33：智能体将交互经验e_t＝(s_t,a_t,r_t,s_t+1)存放到经验回放池D_t＝{e₁,...,e_t}中，同时从D_t中随机选择一批经验{e₁,...,e_j}，计算目标值y_j和损失函数L(θ)，并采用梯度下降法更新当前Q网络的参数θ；

步骤S34：循环运行步骤S32-S33直到达到设置的最大迭代次数或者网络收敛为止；

其中，所述强化学习模型为DQN模型，DQN模型包括智能体与外界环境，智能体与外界环境的交互使用马尔科夫决策过程进行建模。

在本发明的一个实施例中，步骤S33中，所述目标值y_j的计算公式为：

其中，γ∈[0,1]为折扣因子，s′表示更新的状态，a′为根据状态s′，智能体执行最大Q值的动作，θ^-为目标Q网络的参数集合，为目标Q网络在第j条经验时输出的Q值；

所述损失函数L(θ)的计算公式为：

其中，Q(s,a；θ)表示经过当前Q网络输出的Q值，θ表示当前Q网络更新的参数集合，为目标Q网络每隔一段时间更新的目标值，/>表示方差期望。

在本发明的一个实施例中，所述奖励r的计算公式如下：

其中，score_N表示状态s_t第N维数据的评分，即正在处理的候选数据评分，score_i表示被当前候选数据替换的原数据评分。

在本发明的一个实施例中，所述当前Q网络为n个卷积层和n个全连接层的神经网络结构，所述目标Q网络的结构与所述当前Q网络的结构一致。

在本发明的一个实施例中，所述当前Q网络的输入层有N个节点，对应状态空间S的N维数据评分；所述全连接层输出最终保持在终态的N维图像。

在本发明的一个实施例中，步骤S2中，所述数据评分的评分等级划为1～100，对于分割效果越差的图像，数据评分越高。

在本发明的一个实施例中，步骤S2中，所述语义分割模型为BiSeNet模型。

基于同一发明构思，本发明还公开一种面向自动驾驶环境的语义分割自动化系统，该系统包括：

数据集构建模块，获取车前可见光图像数据，对所述车前可见光图像数据进行数据清洗，得到车前可见光图像数据集，将所述车前可见光图像数据集划分为训练数据集和测试数据集；所述车前可见光图像数据包括：不同照明和天气条件下直线、弯道和岔道的轨道图像；

获取分割图像模块，用于将所述训练数据集输入到语义分割模型中进行训练，得到分割图像，对所述分割图像进行评分，得到数据评分；

图像筛选模块，用于将所述分割图像的数据评分作为轨道状态输入到强化学习模型中进行训练，得到筛选后的分割图像；

检测结果获取模块，用于汇总所述筛选后的分割图像，检索到其原始数据，输入到所述语义分割模型进行二次训练，得到权重参数，将所述权重参数加载到所述语义分割模型中，针对待检测的图像，运行所述语义分割模型得到检测结果。

本发明还公开一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现所述面向自动驾驶环境的语义分割自动化方法的步骤。

从以上技术方案可以看出，本发明所述的面向自动驾驶环境的语义分割自动化方法采用强化学习机制实现数据选择，性能良好，在训练过程中，强化学习模型的智能体不断优化选择策略，最终达到对数据的准确选择；还通过训练智能体实现数据选择及指导语义分割自动化训练，相比传统的语义分割方法，采用该方法训练语义分割模型收敛速度更快，模型精度更高，有效地解决了语义分割模型训练数据获取困难以及模型训练过程依赖人工的问题。

附图说明

图1是面向自动驾驶环境的语义分割自动化方法实现流程图；

图2是面向自动驾驶环境的语义分割自动化方法架构图；

图3是强化学习训练流程图；

图4(a)～(b)是在夜间不同铁路轨道的分割图像；

图4(c)～(d)是在白天不同铁路轨道的分割图像；

图5是强化学习模型的数据选择实验曲线图；

图6(a)～(c)是本发明与原始BiSeNet模型的损失值、交并比和验证集精度对比实验结果图；

图7是云边协同机制图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步说明，以使本领域的技术人员可以更好地理解本发明并能予以实施，但所举实施例不作为对本发明的限定。

实施例一

参见图1所示，本发明所提供的一种面向自动驾驶环境的语义分割自动化方法具体操作步骤如下：

本发明所述的面向自动驾驶环境的语义分割自动化方法采用强化学习机制实现数据选择，具有良好的性能，在此过程中，智能体不断优化选择策略，最终达到对数据的准确选择；还通过训练智能体实现数据选择及指导语义分割自动化训练，对比传统方法，采用该方法训练语义分割模型收敛速度更快，模型精度更高。

其中，本实施例使用的数据集为已公开的MRSI数据集中提供的车前可见光图像数据，模拟在自动驾驶中可能出现的场景。MRSI数据集使用安装在车辆上的各种传感设备来记录不同照明和天气条件下的轨道场景，包括白天、黄昏和夜间以及雨天的直线、弯道和岔道。经过数据清洗后，MRSI共有5046张图片数据用于语义分割。

参见图2所示，强化学习模型被用作整个流程中数据收集与数据集调整的关键分类器。强化学习的智能体能够根据模型训练程度对训练数据进行选择，剔除无价值数据，着重增加分割有误数据的比重，并指导模型进行自动化训练，使其达到更高精度。在一般情况下，强化学习由智能体与外界环境两部分组成。在强化学习过程中，智能体与环境不断交互，智能体通过自身行为对环境产生影响，而环境又反馈给智能体奖励来更新智能体的策略。在本实施例中，定义外界环境为使用已训练模型进行语义分割后的分割图像数据集。智能体与外界环境(分割图像数据集)进行交互，挑选出对于二次训练有价值的图像数据，用于后续训练。在每一轮语义分割模型的训练中，由于模型的参数并不相同，因此筛选出的有价值图片也应是不同的，智能体自适应地探索动态筛选的标准。

参见图3所示，将所述分割图像的数据评分作为轨道状态输入到强化学习模型中进行训练的具体步骤为：

步骤S31：定义动作空间A＝＜a₁,a₂,...,a_N＞，S为状态空间，包含N维数据，其中1～N-1维表示之前处理后的数据，第N维表示正在处理的候选数据，状态s_t∈S表示智能体在t时刻的状态，初始化状态s₀、经验回放池D、当前Q网络以及目标Q网络；

步骤S32：智能体根据当前状态s_t，利用ε-Greedy方法选择动作a_t执行，以1-ε的概率根据当前Q网络输出的最大Q值选择动作同时以ε的概率从其他动作中随机选择一个动作a_t作为当前的动作，执行动作a_t后，获得奖励r_t，同时智能体转移到新状态s_t+1；

步骤S33：智能体将交互经验e_t＝(s_t,a_t,r_t,s_t+1)存放到经验回放池D_t＝{e₁,...,e_t}中，同时从D_t中随机选择一批经验{e₁,...,e_j}，计算目标值y_j和损失函数L(θ)，并采用梯度下降法更新当前Q网络参数θ；

其中，所述强化学习模型为DQN模型，DQN模型包括智能体与外界环境，智能体与外界环境的交互使用马尔科夫决策过程(MDP)进行建模。

具体地，为了使网络训练更加稳定，引入了一个由θ^-参数化的独立的目标网络。该网络的结构、输入输出等和原网络完全一致，以获得一个稳定的目标值(TDtarget)。每隔一段时间c，将其网络参数θ^-更新为当前Q网络的参数θ，因此目标值y_j的计算公式为：

所述损失函数L(θ)的计算公式为：

其中，Q(s,a；θ)表示经过当前Q网络输出的Q值，θ表示当前Q网络更新的参数集合，为目标Q网络每隔一段时间c更新的目标值，/>表示方差期望。

在本实施例中，所述奖励r的计算公式如下：

其中，当前Q网络为n个卷积层和n个全连接层的神经网络结构，并且该当前Q网络优选为包含3个卷积层和1个全连接层的神经网络，目标Q网络的结构与所述当前Q网络的结构一致；当前Q网络的输入层有N个节点，对应状态空间S的N维数据评分，代表了从外界环境中获取的N张分割图像信息；3个卷积层具有40个节点的隐藏层，全连接层输出最终保持在终态的N维图像，这是选择得到的分割效果较差的数据。

本实施例中，步骤S2中，所使用的语义分割模型为BiSeNet模型，BiSeNet是一个轻量级的实时语义分割模型，综合精度与速度都达到了较高的水平。对通过BiSeNet模型得到的分割图像(图像分割效果如图4所示，左边为原图，右边为与其对应的分割图像)进行数据评分，数据评分的评分等级划分为1～100，对于分割效果越差的图像，数据评分越高。

在训练中，以基于MDP的智能体与外界环境交互的初始状态至终止状态为一轮。每经过20轮训练，对强化学习模型进行一次评估。在每次评估中对随机选取的5次数据选择任务进行测试，并计算其输出的总奖励作为本次模型评估的结果。显然总奖励越高，表示挑选出更多有价值的训练数据。图5给出了使用基于强化学习的数据选择训练3万轮得到的实验结果，其中横坐标表示训练的回合数，纵坐标表示每轮的累计奖励值，该结果说明了基于强化学习的数据选择方法，能有效学习如何处理图像选择任务，在开始阶段，模型效果快速提升，随后逐渐趋向平缓，这表明在学习训练的过程中选择策略被不断优化，模型性能逐步变好。

除了上述的数据选择模型训练过程，本发明提出的自动化系统自适应控制语义分割模型的训练更为重要。为直观清晰显示自动控制系统效果，模型在损失值(loss)、交并比(iou)及验证集精度(validation accuracy)3个方面与原始BiSeNet模型训练效果进行了对比。

为确保起始训练参数一致，在对比实验中先部分训练语义分割网络(对应图6中两线重叠部分)，然后两者在此基础上分别继续训练。如图6(a)所示，可以看出本发明所提出的模型相较于原始BiSeNet模型，在收敛速度上有着显著的提升，从各自继续训练开始，模型仅用15轮迭代达到收敛状态，而原始模型此时远未收敛，相比之下，收敛速度平均提升46％。同时如图6(b)和图6(c)所示，本发明模型在iou及验证集精度方面同样优于原始模型，这表明本发明模型能够在兼顾精度的条件下，极大地提高了模型训练速度，同时能将研究人员从繁琐的训练流程中解放出来，从而避免了人力资源浪费。

参见图7所示，本实施例中还可以将面向自动驾驶环境的语义分割自动化模型安装在车辆端，以实现实时的语义分割。模型的训练在服务器端完成，模型的下放更新通过数据协同网络实现。同时车辆端可额外部署强化学习数据选择模型，智能体将不断挑选列车实时采集数据，将有价值的、新场景的数据保存下来，并定期上传至服务器训练，这极大地减少训练数据获取的难度与从海量数据中挑选所花费的人力，有助于后续模型训练。

实施例二

实施例三

本发明还公开一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现实施例一中所述面向自动驾驶环境的语义分割自动化方法的步骤。

本发明所述的面向自动驾驶环境的语义分割自动化方法采用强化学习机制实现数据选择，性能良好，在训练过程中，强化学习模型的智能体不断优化选择策略，最终达到对数据的准确选择；还通过训练智能体实现数据选择及指导语义分割自动化训练，经实验验证，相比人工训练语义分割方法，采用该自动化方法训练语义分割模型使得收敛速度更快，模型精度更高，也有效地解决了语义分割模型训练数据获取困难、模型训练过程依赖人工的问题。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，上述实施例仅仅是为清楚地说明所作的举例，并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引申出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims

1.一种面向自动驾驶环境的语义分割自动化方法，其特征在于，包括以下步骤：

2.如权利要求1所述的面向自动驾驶环境的语义分割自动化方法，其特征在于：步骤S3中，将所述分割图像的数据评分作为轨道状态输入到强化学习模型中进行训练的具体步骤为：

3.如权利要求2所述的面向自动驾驶环境的语义分割自动化方法，其特征在于：步骤S33中，所述目标值y_j的计算公式为：

所述损失函数L(θ)的计算公式为：

4.如权利要求2所述的面向自动驾驶环境的语义分割自动化方法，其特征在于：所述奖励r的计算公式如下：

5.如权利要求3所述的面向自动驾驶环境的语义分割自动化方法，其特征在于：所述当前Q网络为n个卷积层和n个全连接层的神经网络结构，所述目标Q网络的结构与所述当前Q网络的结构一致。

6.如权利要求5所述的面向自动驾驶环境的语义分割自动化方法，其特征在于：所述当前Q网络的输入层有N个节点，对应状态空间S的N维数据评分；所述全连接层输出最终保持在终态的N维图像。

7.如权利要求1所述的面向自动驾驶环境的语义分割自动化方法，其特征在于：步骤S2中，所述数据评分的评分等级划分为1～100，对于分割效果越差的图像，数据评分越高。

8.如权利要求1所述的面向自动驾驶环境的语义分割自动化方法，其特征在于：步骤S2中，所述语义分割模型为BiSeNet模型。

9.一种面向自动驾驶环境的语义分割自动化系统，其特征在于，包括：

10.一种计算机可读存储介质，其特征在于：所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至8任一项所述面向自动驾驶环境的语义分割自动化方法的步骤。