CN114037834A - 一种基于振动信号和rgb图像融合的语义分割方法及装置 - Google Patents
一种基于振动信号和rgb图像融合的语义分割方法及装置 Download PDFInfo
- Publication number
- CN114037834A CN114037834A CN202111454268.9A CN202111454268A CN114037834A CN 114037834 A CN114037834 A CN 114037834A CN 202111454268 A CN202111454268 A CN 202111454268A CN 114037834 A CN114037834 A CN 114037834A
- Authority
- CN
- China
- Prior art keywords
- lane line
- vibration signal
- line detection
- classification
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本申请提供了一种基于振动信号和RGB图像融合的语义分割方法及装置,涉及自动驾驶技术领域,包括:将RGB图像和振动信号输入预先训练完成的车道线检测模型,车道线检测模型包括视觉图像分割分支和振动信号分类分支,视觉图像分割分支包括压线检测子网络和车道线检测子网络;振动信号分类分支对振动信号进行特征提取及分类,得到车轮是否压线的二分类标签;压线检测子网络对RGB图像进行处理,得到车轮是否压线的预测结果;根据车轮是否压线的预测结果与二分类标签计算第一损失函数值值,更新车道线检测子网络的部分参数,利用更新参数的车道线检测子网络对RGB图像进行处理,得到车道线检测结果。本申请能够提高车辆变换车道时的车道线检测效果。
Description
技术领域
本申请涉及自动驾驶技术领域,具体涉及一种基于振动信号和RGB图像融合的语义分割方法及装置。
背景技术
车道线检测是自动驾驶中最重要的问题之一,它在车辆环境感知中起到了核心作用。许多自动驾驶系统中都包含车道线检测模块,它可以帮助车辆确定车道线的位置,以便更准确地在正确的车道上行驶并遵守交通规则。因此,一个高精度、高效率和鲁棒的车道线检测模型对于自动驾驶系统是十分必要的。
然而,车道检测目前仍然存在许多困难,例如大多只集中在单车道上,即自我行驶的车道,而不能很好地处理换道时的车道线检测。
此外,近些年来,许多学者针对纯视觉图像已提出了许多复杂的车道线检测方法,但由于单一图像本身的局限性,导致在恶劣的情况下,如:重影、标记退化、遮挡等,检测方法表现较差。因此越来越多的工作也致力于通过融合策略解决车道线检测问题,例如通过结合视觉图像和激光雷达点云或热力图,提高车道线检测模型的性能。但是,这些策略的主要问题是传感器(如雷达等)很容易受到雨雾等极端天气的影响。
最后,车道线检测模型应该帮助车辆确认它们是否违反了交通规则。一个简单的例子是区分车轮是否压线,这对车辆上的自动驾驶系统来说很重要。具体来说,自动驾驶系统需要保证当车轮部分或完全阻挡车道线时,车道线检测模型仍然应能够高效、高精度地检测车道线。
总的来说,目前缺乏一种车道线检测模型,能够在车辆换道和极端天气的情况下应仍能够表现良好,并且应能帮助车辆确认它们是否违反了交通规则。
发明内容
有鉴于此,本申请提供了一种基于振动信号和RGB图像融合的语义分割方法及装置,以解决现有技术的车道检测模型在车辆变道时会影响车道线检测结果的技术问题。
一方面,本申请实施例提供了一种基于振动信号和RGB图像融合的语义分割方法,包括:
同步获取RGB图像和振动信号;
将RGB图像和振动信号输入预先训练完成的车道线检测模型,所述车道线检测模型包括视觉图像分割分支和振动信号分类分支,所述视觉图像分割分支包括压线检测子网络和车道线识别子网络;
所述振动信号分类分支对振动信号进行特征提取及分类,得到车轮是否压线的二分类标签;所述压线检测子网络对RGB图像进行处理,得到车轮是否压线的预测结果;根据车轮是否压线的预测结果与振动信号分类分支输出的二分类标签计算第一损失函数值,根据第一损失函数值更新车道线检测子网络的部分参数,
利用更新参数的车道线检测子网络对RGB图像进行处理,得到车道线检测结果。
进一步的,所述振动信号分类分支对振动信号进行特征提取及分类,得到车轮是否压线的二分类标签;包括:
通过一个汉明窗低通滤波器滤除振动信号的高频杂波;
通过语谱图可视化表示振动信号的幅度和频率特性;
通过CNN+LSTM网络结构,从振动信号的幅度和频率特性中提取振动信号的时序特征;
通过第一全连接层对振动信号的时序特征进行处理,得到车轮是否压线的二分类标签。
进一步的,所述压线检测子网络包括:卷积层、平均池化层、第二全连接层、第三全连接层、第四全连接层、第一参数生成模块、第二参数生成模块、第三参数生成模块和第四参数生成模块,所述压线检测子分支对RGB图像进行处理,得到车轮是否压线的预测结果;包括:
通过卷积层对RGB图像进行特征提取,将提取的特征F1分别输出至平均池化层;
通过平均池化层、第二全连接层和第三全连接层对提取的特征F1进行处理,得到特征F2,将特征F2分别输入第四全连接层;
通过第四全连接层对特征F2进行处理,得到车轮是否压线的预测结果。
进一步的,所述车道线检测子网络包括顺序连接的卷积层、第一编码器、第一Conditioning模块、第二编码器、第二Conditioning模块、第三编码器、第三Conditioning模块、第四编码器、第四Conditioning模块、第一解码器和第二解码器;所述根据第一损失函数值更新车道线识别子分支的部分参数;包括:
根据第一损失函数值更新平均池化层、第二全连接层、第三全连接层和第四全连接层的参数;
通过更新参数的平均池化层、更新参数的第二全连接层和更新参数的第三全连接层对提取的特征F1进行处理,得到特征F2*,将特征F2*分别输入第一参数生成模块、第二参数生成模块、第三参数生成模块和第四参数生成模块;
通过第一参数生成模块对对特征F2*进行处理,得到第一Conditioning模块的两个映射参数γ1 *和β1 *;第一参数生成模块包括两个并行的全连接层;
通过第二参数生成模块对对特征F2*进行处理,得到第二Conditioning模块的两个映射参数γ2 *和β2 *;第二参数生成模块包括两个并行的全连接层;
通过第三参数生成模块对对特征F2*进行处理,得到第三Conditioning模块的两个映射参数γ3 *和β3 *;第三参数生成模块包括两个并行的全连接层;
通过第四参数生成模块对对特征F2*进行处理,得到第四Conditioning模块的两个映射参数γ4 *和β4 *;第四参数生成模块包括两个并行的全连接层。
进一步的,所述利用更新后的车道线检测子网络对RGB图像进行处理,得到车道线检测结果,包括:
通过第一编码器、更新映射参数的第一Conditioning模块、第二编码器、更新映射参数的第二Conditioning模块、第三编码器、更新映射参数的第三Conditioning模块、第四编码器、更新映射参数的第四Conditioning模块、第一解码器和第二解码器对提取的特征F1进行处理,得到车道线检测预测结果。
进一步的,第一Conditioning模块的映射关系式为:
其中,F1(X)是第一编码器的输出,F′1(X)是第一Conditioning模块的输出;⊙为矩阵元素同或运算,即两个输入变量值相同时时输出为1;为矩阵元素异或运算,即当两个输入变量值不同时输出为1;ReLU是整流线性单位函数,当输入大于等于0时输出等于输入,当输入小于0时输出为0;
第二Conditioning模块、第三Conditioning模块和第四Conditioning模块与第一Conditioning模块的处理过程均相同。
进一步的,所述方法还包括:对所述车道线检测模型进行训练,包括:
构建包括多个样本组的训练样本集,所述样本组包括振动信号序列和RGB图像;
通过所述振动信号分类分支对样本组的振动信号序列进行特征提取及分类,得到车轮是否压线的二分类标签;
通过视觉图像分割分支对样本组的RGB图像进行处理,得到车道线检测预测结果和车轮是否压线的预测结果;
根据车轮是否压线的预测结果与振动信号分类分支输出的二分类标签计算第二损失函数值,根据车道线检测预测结果与车道线标注结果计算第三损失函数值;
利用第二损失函数值和第三损失函数值的和更新视觉图像分割分支的参数。
进一步的,所述构建包括多个样本组的训练样本集;包括:
采集同一场景下的RGB图像数据集和振动信号数据集;
对于RGB图像数据集中的一个单帧RGB图像,通过一个滑动窗口从振动信号数据集中提取围绕单帧RGB图像的短时振动信号序列,将这个单帧RGB图像和短时振动信号序列作为一个样本组;
对单帧RGB图像进行车道线标注,将属于车道区域的像素标记为1,其他标记为0。
另一方面,本申请实施例提供了一种基于振动信号和RGB图像融合的语义分割装置,包括:
获取单元,用于同步获取RGB图像和振动信号;
车道线检测模型参数更新单元,用于将RGB图像和振动信号输入预先训练完成的车道线检测模型,所述车道线检测模型包括视觉图像分割分支和振动信号分类分支,所述视觉图像分割分支包括压线检测子网络和车道线识别子网络;所述振动信号分类分支对振动信号进行特征提取及分类,得到车轮是否压线的二分类标签;所述压线检测子网络对RGB图像进行处理,得到车轮是否压线的预测结果;根据车轮是否压线的预测结果与振动信号分类分支输出的二分类标签计算第一损失函数值,根据第一损失函数值更新车道线检测子网络的部分参数,
车道线检测单元,用于利用更新参数的车道线检测子网络对RGB图像进行处理,得到车道线检测结果。
另一方面,本申请实施例提供了一种电子设备,包括:存储器、处理器和存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现本申请实施例的基于振动信号和RGB图像融合的语义分割方法。
与现有技术相比,本申请实施例的有益效果在于:
本申请的车道检测模型首次将振动信号作为辅助信号应用到车道线检测领域,通过辅助RGB图像实现车道线的检测,解决了车辆变道影响车道线检测结果的技术问题。
附图说明
图1为本申请实施例提供的基于振动信号和RGB图像融合的语义分割方法的流程图;
图2为本申请实施例提供的车道线检测模型的结构图;
图3为本申请实施例提供的车道线检测模型的训练方法的流程图;
图4为本申请实施例提供的基于振动信号和RGB图像融合的语义分割装置的功能结构图;
图5为本申请实施例提供的电子设备的功能结构图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。
首先对本申请实施例的设计思想进行简单介绍。
目前,用于自动驾驶的车道检测模型大都只能关注车辆行驶的自我车道,很难执行变换车道场景下的车道线检测任务。
为了解决上述技术问题,本申请实施例提出了一种车道检测模型,该模型是一个由振动信号辅助的,基于语义分割的端到端车道线检测模型。模型训练的时候,输入由两部分组成,一部分是侧视摄像头采集到的RGB视频帧,另一部分是采集到该RGB视频帧对应时间点的车轮振动数据。网络的输出端是二值化车道线图像。值得注意的是,网络可以使处理器同时处理RGB图像和振动信号,有效提高计算资源利用率。当车辆变换车道压过车道线时,振动信号能够很好地反映车轮压线信息。当训练完成的模型用于车道线检测时,振动信号的分类网络又能持续微调视觉图像分割网络的参数,当车辆变换车道时,能够很好地完成此时的车道线检测。
本申请实施例采用的技术方案为:
采集同一场景下的自然图像数据集和振动信号数据集。需要指出的是两种数据必须时间同步且采集时不能破坏时间连续性。对收集的数据进行预处理,提高数据质量。具体涉及到数据扩充、数据清洗等方法。由于采集到的视觉图像数据和振动信号数据较为冗杂,对数据进行清洗,并制作了数据集。对制作的数据集进行标注。在这个数据集中,提供了两种用于判断车轮是否挤压车道线的分类标签。除了通过振动信号分类网络提供的分类标签外,还通过观察RGB图像中车轮是否压线来手动标记该分类标签。
融合网络的设计与实现。包括设计了网络的融合策略、视觉图像分割分支、振动信号分类分支。其中:
网络融合策略:设计了基于任务驱动网络的分类任务分支的任务条件融合策略。为了尽量减少模型计算和参数的数量,在提取图像特征后将图像大小进行压缩。最后,分类模型通过全连接层生成车轮是否压线的分类预测信息,并将分类预测信息与振动信号分类模块生成的标签进行比较,以此来计算出分类任务分支的损失值。
视觉图像分割分支:使用ENet-SAD作为车道线检测的基线模型。在ENet-SAD的每个Encoder模块之后添加了一个Conditioning模块来映射前一个Encoder模块的输出,从而使振动信号的标签影响Encoder的输出结果,达到驱动整体网络参数更新的效果。
振动信号分类分支:设计了一个滤波器来滤除短短时振动信号中的高频杂波。此外,选择使用语谱图来可视化表示短时振动信号的幅度和频率特性。最后,设计了LSTM网络结构提取振动信号的特征,并设计了全连接层,以输出车轮是否压线的二分类标签。
在训练时,将视觉图像分割分支和振动信号分类分支组合成融合网络,如图1所示,使用融合网络进行车道线检测,并设计了网络的训练和测试过程,给出了网络的评价指标。
评价指标:使用几种像素级评价指标,如精确度(Precision)、召回率(Recall)、F1(F1score)、像素准确度(Pixel-Accuracy)和平均交并比(mIOU)来评估车道检测模型的性能。
网络训练:将振动信号分类网络和视觉图像分割网络两个分支分别进行训练。当两者的模型损失值下降至某一值不再变化或在某一值周围震荡时,结束训练进入模型测试阶段。
网络测试:通过将模型输出的二值化图像与目标输出进行对比来判断模型性能,对比方式即为根据上述评价指标公式输出指标值。
与训练阶段不同的是,测试阶段的振动信号分类分支和视觉图像分割分支不能分步。但是,由于融合策略可以使两者在测试时部署在不同的处理器上,这减轻了单一处理器的压力,并且提升了运行速度。测试时的实验环境、参数设置与训练时相同。值得注意的是,与一般测试情况不同,此时损失函数值仍然可以通过反向传播来被用于参数更新,继而生成新的γ和β,从而实现微调车道线检测模型的目的。该方法能够让车道线检测模型参数在实际应用时根据路面不同的振动信号进行相应调整,使模型更具有普适性。而对于视觉图像分割分支,测试时通过将模型输出的二值化图像与目标输出进行对比,对比方式即为根据上述评价指标公式输出指标值。
综上所述,本申请首先通过训练样本集训练得到车道检测模型,在实际应用中,利用实时采集的振动信号对车道线检测模型的车道线检测子网络的参数进行微调,利用微调后的车道线检测子网络对RGB图像进行处理,得到车道检测结果。从而实现在车辆换道时,提升车道线检测效果。
在介绍了本申请实施例的应用场景和设计思想之后,下面对本申请实施例提供的技术方案进行详细说明。
实施例一:
如图1所示,本申请实施例提供了一种基于振动信号和RGB图像融合的语义分割方法,包括:
步骤101:同步获取RGB图像和振动信号;
步骤102:将RGB图像和振动信号输入预先训练完成的车道线检测模型;
作为一维时序信息,振动信号本身并不具有车道线检测模型所需要的空间信息,因此很难直接将振动信号与RGB图像融合来检测车道线的位置。为了解决这个问题,将车道线检测工作分为两个任务,一个是一般的车道线位置检测任务,另一个是车轮是否压到车道线的二分类任务。振动信号的二分类任务以车轮对路面的振动信号作为输入,生成车轮是否压线的标签,并将标签反馈给车道线检测分支以提高车道检测模型的精度。
为此,本申请实施例设计了基于任务驱动网络的分类任务分支的任务条件融合策略。为了尽量减少模型计算和参数的数量,在提取图像特征后直接进行了大尺寸的AvgPooling,将图像大小压缩到原始的1/14。最后,分类模型通过全连接层生成车轮是否压线的分类预测信息,并将分类预测信息与振动信号分类模块生成的标签进行比较,以此来计算出分类任务分支的损失值。
在视觉图像分割分支中,使用ENet-SAD作为基线模型。ENet-SAD是一种端到端的轻量级语义分割模型,无需后处理,非常适合作为任务驱动网络的baseline。
ENet-SAD的基本结构包括特征提取模块、编码器(Encoder)、解码器(Decoder)和确定车道线存在的分类模块。对于采集的数据集,由于它不包含车道线是否存在的标签,在实际训练中删除了ENet-SAD中确定车道线存在的分类模块。
在每个Encoder之后添加了一个Conditioning模块来映射前一个Encoder的输出。
具体的Conditioning模块映射关系式为:
其中,F(X)是前一个Encoder的输出,也即Conditioning模块的输入。F′(X)是Conditioning模块的输出。⊙为矩阵元素同或运算,即两个输入变量值相同时时输出为1。为矩阵元素异或运算,即当两个输入变量值不同时输出为1。γ和β为两个映射参数,作用于Conditioning模块的输入;ReLU是整流线性单位函数,当输入大于等于0时输出等于输入,当输入小于0时输出为0。
这样,当损失函数值根据振动信号分类网络分支生成的标签进行反向传播时,γ和β两个参数可以相应更新。然后可以影响Encoder的输出结果,从而达到驱动整体网络参数更新的效果。
具体的,如图2所示,车道线检测模型包括视觉图像分割分支和振动信号分类分支,视觉图像分割分支包括压线检测子网络和车道线检测子网络;车道线检测子网络包括顺序连接的卷积层、第一编码器、第一Conditioning模块、第二编码器、第二Conditioning模块、第三编码器、第三Conditioning模块、第四编码器、第四Conditioning模块、第一解码器和第二解码器。压线检测子网络包括:卷积层、平均池化层、第一全连接层、第二全连接层、第三全连接层、第一参数生成模块、第二参数生成模块、第三参数生成模块和第四参数生成模块。车道线检测子网络和压线检测子网络共用一个相同的卷积层。第一参数生成模块、第二参数生成模块、第三参数生成模块和第四参数生成模块均包括两个全连接层。
步骤103:所述振动信号分类分支对振动信号进行特征提取及分类,得到车轮是否压线的二分类标签;
该步骤包括:
通过一个汉明窗低通滤波器滤除振动信号的高频杂波;
通过语谱图可视化表示振动信号的幅度和频率特性;
通过CNN+LSTM网络结构,从振动信号的幅度和频率特性中提取振动信号的时序特征;
通过第一全连接层对振动信号的时序特征进行处理,得到车轮是否压线的二分类标签。
步骤104:所述压线检测子网络对RGB图像进行处理,得到车轮是否压线的预测结果;
该步骤包括:
通过卷积层对RGB图像进行特征提取,将提取的特征F1分别输出至平均池化层;
通过平均池化层、第二全连接层和第三全连接层对提取的特征F1进行处理,得到特征F2,将特征F2分别输入第四全连接层;
通过第四全连接层对特征F2进行处理,得到车轮是否压线的预测结果。
步骤105:根据车轮是否压线的预测结果与振动信号分类分支输出的二分类标签计算第一损失函数值,根据损失函数值更新车道线检测子网络的部分参数;
该步骤包括:
根据第一损失函数值更新平均池化层、第二全连接层、第三全连接层和第四全连接层的参数;
通过更新参数的平均池化层、更新参数的第二全连接层和更新参数的第三全连接层对提取的特征F1进行处理,得到特征F2*,将特征F2*分别输入第一参数生成模块、第二参数生成模块、第三参数生成模块和第四参数生成模块;
通过第一参数生成模块对对特征F2*进行处理,得到第一Conditioning模块的两个映射参数γ1 *和β1 *;
通过第二参数生成模块对对特征F2*进行处理,得到第二Conditioning模块的两个映射参数γ2 *和β2 *;
通过第三参数生成模块对对特征F2*进行处理,得到第三Conditioning模块的两个映射参数γ3 *和β3 *;
通过第四参数生成模块对对特征F2*进行处理,得到第四Conditioning模块的两个映射参数γ4 *和β4 *;
步骤106:利用更新部分参数的车道线检测子网络对RGB图像进行处理,得到车道线检测结果。
通过第一编码器、更新映射参数的第一Conditioning模块、第二编码器、更新映射参数的第二Conditioning模块、第三编码器、更新映射参数的第三Conditioning模块、第四编码器、更新映射参数的第四Conditioning模块、第一解码器和第二解码器对提取的特征F1进行处理,得到车道线检测预测结果。
第一Conditioning模块的映射关系式为:
其中,F1(X)是第一编码器的输出,F′1(X)是第一Conditioning模块的输出;⊙为矩阵元素同或运算,即两个输入变量值相同时时输出为1;为矩阵元素异或运算,即当两个输入变量值不同时输出为1;ReLU是整流线性单位函数,当输入大于等于0时输出等于输入,当输入小于0时输出为0;
第二Conditioning模块、第三Conditioning模块和第四Conditioning模块与第一Conditioning模块的处理过程均相同。
所述方法还包括:对车道线检测模型进行训练的步骤;
如图3所示,该步骤具体包括:
步骤201:构建包括多个样本组的训练样本集,所述样本组包括振动信号序列和RGB图像;
该步骤具体包括:
步骤1a:采集同一场景下的自然图像数据集和振动信号数据集;
由于车道线检测在车辆环境感知中的核心作用,车道线检测是自动驾驶中最重要的问题之一。许多自动驾驶系统都包含车道线检测模型,可帮助车辆确定车道线的位置,以便更准确地在正确的车道上行驶并遵守交通规则。因此,自动驾驶系统需要高精度、高效率和极为鲁棒的车道线检测模型。而建立这样的模型需要庞大的数据集作为基础。
为此,从2021年5月到2021年7月,使用相机(相机配置:20Hz,1920x1080)和振动信号采集传感器(传感器配置:128Hz)记录了每天17:00到19:00的车道线视频。在转弯路口和减速带等场景中收集了相机数据和振动数据。在收集数据时选择的车道线是一带凸起状物的振荡标志线。采集数据的实验车辆为BaiQi Lite,相机型号为Basler acA1920-40,振动信号采集传感器为西门子PCB 3路ICP加速度传感器。传感器的详细安装位置为:前视方向摄像头安装在前引擎盖上,左右摄像头分别安装在后视镜上。左右两侧摄像头对准车轮,可记录车轮压线的时间和情况,并验证振动数据划分结果是否正确。
步骤1b:对收集的数据进行预处理;
将整个视频分割清洗为总大小为8G的视频帧数据,并通过分类和采样制成数据集。在分类操作时,将这些视频帧分为车轮压线和车轮不压线两类。将数据集拆分为158个文件夹,每个文件夹至少包含4个连续的视频帧,以方便后续工作以连续帧进行实验。在采样操作时,以隔帧抽取的方式提取视频帧,以提高相邻两帧间的变化程度。此外,将数据集按6:2:2划分为训练集、验证集和测试集,用以在后期对训练好的模型进行验证和测试,增加实验的鲁棒性。
步骤1c:对收集的数据集进行标注;
在这个数据集中,标注了两种用于判断车轮是否挤压车道线的分类标签。除了通过振动信号分类网络提供的分类标签外,还通过观察RGB图像中车轮是否压线来手动标记该分类标签。为了消除振动信号分类网络预测的误差,使用手动标记的标签来训练和测试车道线分割网络。对于车道线RGB图像的掩码标注工作,将属于车道区域的像素标记为1,其他标记为0,得到二值图像。值得注意的是,将掩码标签分为两种不同的颜色,即水平车道线和纵向车道线。这样标记的目的是可以通过使用水平车道线或纵向车道线来训练不同的模型,以便更好地判断模型对水平车道线或纵向车道线的检测效果;
步骤202:通过振动信号分类分支对样本组的振动信号序列进行处理,得到车轮是否压线的二分类标签;包括:
该步骤具体包括:
通过一个汉明(Hemming)窗低通滤波器滤除样本组的振动信号的高频杂波;
通过语谱图可视化表示样本组的振动信号的幅度和频率特性;
通过CNN+LSTM网络结构,从振动信号的幅度和频率特性中提取振动信号的时序特征;
通过第一全连接层对振动信号的时序特征进行处理,得到车轮是否压线的二分类标签。
其中,振动信号分类分支需要提前进行训练。
步骤203:通过视觉图像分割分支对样本组的RGB图像进行处理,得到车道线检测预测结果和车轮是否压线的预测结果;
该步骤具体包括:
通过卷积层对样本组的RGB图像样本进行特征提取,将提取的特征F1分别输出至池化层和第一编码器;
通过平均池化层、第二全连接层和第三全连接层对提取的特征进行处理,得到特征F2,将特征F2分别输入第四全连接层、第一参数生成模块、第二参数生成模块、第三参数生成模块和第四参数生成模块;
通过第四全连接层对特征F2进行处理,得到车轮是否压线的预测结果;
通过第一参数生成模块对对特征F2进行处理,得到第一Conditioning模块的两个映射参数γ1和β1;
通过第二参数生成模块对对特征F2进行处理,得到第二Conditioning模块的两个映射参数γ2和β2;
通过第三参数生成模块对对特征F2进行处理,得到第三Conditioning模块的两个映射参数γ3和β3;
通过第四参数生成模块对对特征F2进行处理,得到第四Conditioning模块的两个映射参数γ4和β4;
通过第一编码器、第一Conditioning模块、第二编码器、第二Conditioning模块、第三编码器、第三Conditioning模块、第四编码器、第四Conditioning模块、第一解码器和第二解码器对提取的特征F1进行处理,得到车道线检测预测结果。
步骤204:根据车轮是否压线的预测结果与振动信号分类分支输出的二分类标签计算第二损失函数值,根据车道线检测预测结果与车道线标注结果计算第三损失函数值;利用第二损失函数值和第三损失函数值的和更新视觉图像分割分支的参数;
由于振动信号仅为网络提供辅助标记,因此振动信号分类分支与车道线检测分支在训练阶段互不影响,可以独立训练。在实验环境方面,使用PyTorch作为框架,在两台NVIDIA GTX 2080Ti上完成的。实验的参数设置batch size为16,所有型号输入图像尺寸为800*288。在设定合适的网络Backbone、编码器(Encoder)和解码器(Decoder)的尺寸大小和个数,训练epochs,处理器数量,数据路径等需要人工预设的超参数后,开始对车道线检测分支进行训练。在训练时网络的Backbone将提取Input图像的特征,将该特征传入解码器。编码器将计算特征图得到中间层的隐向量,再由解码器解码得到图像。将该图像同目标输出作比较,根据所使用的损失函数值计算出损失值以后,在反向传播步骤中更新网络参数,从而完成一轮训练。当训练到一定轮次后,损失值将不再下降或在某一个值附近振荡,此时可以停止训练。注意,这里网络的输入输出尺寸保持一致,均为(800,288,3)。
结合上面两个分支的损失值来计算整个车道线检测模型的总损失值,总损失Loss计算如下:
Loss=LossC+LossS
其中,LossC为振动信号分类分支的损失值,LossS为以RGB图像为输入的视觉图像分割分支的损失值。
步骤205:对车道线检测模型进行测试;
使用精确度(Precision)、召回率(Recall)、F1(F1score)、像素准确度(Pixel-Accuracy)和平均交并比(mIOU)来评估车道检测模型的性能。这些指标的公式为:
其中,当真实类别为True,模型预测为positive时,定义TP=1。当真实类别为False,而模型预测为positive时,定义FP=1。当真实类别为False,模型预测为negative时,定义FN=1。pij是图像坐标(i,j)上的像素值。
值得注意的是,为了更好地反映模型的改进效果,上述评价指标都是像素级的,也就是说,只有当一个像素与Ground Truth在其位置的像素数值相同时,才能判定为正确的预测,否则即为错误预测。
实施例二:
基于上述实施例,本申请实施例提供了一种基于振动信号和RGB图像融合的语义分割装置,参阅图4所示,本申请实施例提供的一种基于振动信号和RGB图像融合的语义分割装置300至少包括:
获取单元301,用于同步获取RGB图像和振动信号;
车道线检测模型参数更新单元302,用于将RGB图像和振动信号输入预先训练完成的车道线检测模型,所述车道线检测模型包括视觉图像分割分支和振动信号分类分支,所述视觉图像分割分支包括压线检测子网络和车道线识别子网络;所述振动信号分类分支对振动信号进行特征提取及分类,得到车轮是否压线的二分类标签;所述压线检测子网络对RGB图像进行处理,得到车轮是否压线的预测结果;根据车轮是否压线的预测结果与振动信号分类分支输出的二分类标签计算第一损失函数值,根据第一损失函数值更新车道线检测子网络的部分参数,
车道线检测单元303,用于利用更新参数的车道线检测子网络对RGB图像进行处理,得到车道线检测结果。
需要说明的是,本申请实施例提供的基于振动信号和RGB图像融合的车道线检测装置300解决技术问题的原理与本申请实施例提供的基于振动信号和RGB图像融合的车道线检测方法相似,因此,本申请实施例提供的基于振动信号和RGB图像融合的车道线检测装置300的实施可以参见本申请实施例提供的基于振动信号和RGB图像融合的车道线检测方法的实施,重复之处不再赘述。
实施例三:
基于上述实施例,本申请实施例还提供了一种电子设备,参阅图5所示,本申请实施例提供的电子设备400至少包括:处理器401、存储器402和存储在存储器402上并可在处理器401上运行的计算机程序,处理器401执行计算机程序时实现本申请实施例提供的基于振动信号和RGB图像融合的语义分割方法。
本申请实施例提供的电子设备400还可以包括连接不同组件(包括处理器401和存储器402)的总线403。其中,总线403表示几类总线结构中的一种或多种,包括存储器总线、外围总线、局域总线等。
存储器402可以包括易失性存储器形式的可读介质,例如随机存储器(RandomAccess Memory,RAM)4021和/或高速缓存存储器4022,还可以进一步包括只读存储器(ReadOnly Memory,ROM)4023。
存储器402还可以包括具有一组(至少一个)程序模块4025的程序工具4024,程序模块4025包括但不限于:操作子系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
电子设备400也可以与一个或多个外部设备404(例如键盘、遥控器等)通信,还可以与一个或者多个使得用户能与电子设备400交互的设备通信(例如手机、电脑等),和/或,与使得电子设备400与一个或多个其它电子设备400进行通信的任何设备(例如路由器、调制解调器等)通信。这种通信可以通过输入/输出(Input/Output,I/O)接口405进行。并且,电子设备400还可以通过网络适配器406与一个或者多个网络(例如局域网(Local AreaNetwork,LAN),广域网(Wide Area Network,WAN)和/或公共网络,例如因特网)通信。如图5所示,网络适配器406通过总线403与电子设备400的其它模块通信。应当理解,尽管图5中未示出,可以结合电子设备400使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、磁盘阵列(Redundant Arrays of IndependentDisks,RAID)子系统、磁带驱动器以及数据备份存储子系统等。
需要说明的是,图5所示的电子设备400仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
实施例四:
本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机指令,该计算机指令被处理器执行时实现本申请实施例提供的基于振动信号和RGB图像融合的语义分割方法。
应当注意,尽管在上文详细描述中提及了装置的若干单元或子单元,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本申请的实施方式,上文描述的两个或更多单元的特征和功能可以在一个单元中具体化。反之,上文描述的一个单元的特征和功能可以进一步划分为由多个单元来具体化。
此外,尽管在附图中以特定顺序描述了本申请方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
最后应说明的是:以上各实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述各实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。
Claims (10)
1.一种基于振动信号和RGB图像融合的语义分割方法,其特征在于,包括:
同步获取RGB图像和振动信号;
将RGB图像和振动信号输入预先训练完成的车道线检测模型,所述车道线检测模型包括视觉图像分割分支和振动信号分类分支,所述视觉图像分割分支包括压线检测子网络和车道线识别子网络;
所述振动信号分类分支对振动信号进行特征提取及分类,得到车轮是否压线的二分类标签;所述压线检测子网络对RGB图像进行处理,得到车轮是否压线的预测结果;根据车轮是否压线的预测结果与振动信号分类分支输出的二分类标签计算第一损失函数值,根据第一损失函数值更新车道线检测子网络的部分参数,
利用更新参数的车道线检测子网络对RGB图像进行处理,得到车道线检测结果。
2.根据权利要求1所述的基于振动信号和RGB图像融合的语义分割方法,其特征在于,所述振动信号分类分支对振动信号进行特征提取及分类,得到车轮是否压线的二分类标签;包括:
通过一个汉明窗低通滤波器滤除振动信号的高频杂波;
通过语谱图可视化表示振动信号的幅度和频率特性;
通过CNN+LSTM网络结构,从振动信号的幅度和频率特性中提取振动信号的时序特征;
通过第一全连接层对振动信号的时序特征进行处理,得到车轮是否压线的二分类标签。
3.根据权利要求2所述的基于振动信号和RGB图像融合的语义分割方法,其特征在于,所述压线检测子网络包括:卷积层、平均池化层、第二全连接层、第三全连接层、第四全连接层、第一参数生成模块、第二参数生成模块、第三参数生成模块和第四参数生成模块,所述压线检测子分支对RGB图像进行处理,得到车轮是否压线的预测结果;包括:
通过卷积层对RGB图像进行特征提取,将提取的特征F1分别输出至平均池化层;
通过平均池化层、第二全连接层和第三全连接层对提取的特征F1进行处理,得到特征F2,将特征F2分别输入第四全连接层;
通过第四全连接层对特征F2进行处理,得到车轮是否压线的预测结果。
4.根据权利要求3所述的基于振动信号和RGB图像融合的语义分割方法,其特征在于,所述车道线检测子网络包括顺序连接的卷积层、第一编码器、第一Conditioning模块、第二编码器、第二Conditioning模块、第三编码器、第三Conditioning模块、第四编码器、第四Conditioning模块、第一解码器和第二解码器;所述根据第一损失函数值更新车道线识别子分支的部分参数;包括:
根据第一损失函数值更新平均池化层、第二全连接层、第三全连接层和第四全连接层的参数;
通过更新参数的平均池化层、更新参数的第二全连接层和更新参数的第三全连接层对提取的特征F1进行处理,得到特征F2*,将特征F2*分别输入第一参数生成模块、第二参数生成模块、第三参数生成模块和第四参数生成模块;
通过第一参数生成模块对对特征F2*进行处理,得到第一Conditioning模块的两个映射参数γ1 *和β1 *;第一参数生成模块包括两个并行的全连接层;
通过第二参数生成模块对对特征F2*进行处理,得到第二Conditioning模块的两个映射参数γ2 *和β2 *;第二参数生成模块包括两个并行的全连接层;
通过第三参数生成模块对对特征F2*进行处理,得到第三Conditioning模块的两个映射参数γ3 *和β3 *;第三参数生成模块包括两个并行的全连接层;
通过第四参数生成模块对对特征F2*进行处理,得到第四Conditioning模块的两个映射参数γ4 *和β4 *;第四参数生成模块包括两个并行的全连接层。
5.根据权利要求4所述的基于振动信号和RGB图像融合的语义分割方法,其特征在于,所述利用更新后的车道线检测子网络对RGB图像进行处理,得到车道线检测结果,包括:
通过第一编码器、更新映射参数的第一Conditioning模块、第二编码器、更新映射参数的第二Conditioning模块、第三编码器、更新映射参数的第三Conditioning模块、第四编码器、更新映射参数的第四Conditioning模块、第一解码器和第二解码器对提取的特征F1进行处理,得到车道线检测预测结果。
7.根据权利要求1所述的基于振动信号和RGB图像融合的语义分割方法,其特征在于,
构建包括多个样本组的训练样本集,所述样本组包括振动信号序列和RGB图像;
通过所述振动信号分类分支对样本组的振动信号序列进行特征提取及分类,得到车轮是否压线的二分类标签;
通过视觉图像分割分支对样本组的RGB图像进行处理,得到车道线检测预测结果和车轮是否压线的预测结果;
根据车轮是否压线的预测结果与振动信号分类分支输出的二分类标签计算第二损失函数值,根据车道线检测预测结果与车道线标注结果计算第三损失函数值;
利用第二损失函数值和第三损失函数值的和更新视觉图像分割分支的参数。
8.根据权利要求7所述的基于振动信号和RGB图像融合的语义分割方法,其特征在于,所述构建包括多个样本组的训练样本集;包括:
采集同一场景下的RGB图像数据集和振动信号数据集;
对于RGB图像数据集中的一个单帧RGB图像,通过一个滑动窗口从振动信号数据集中提取围绕单帧RGB图像的短时振动信号序列,将这个单帧RGB图像和短时振动信号序列作为一个样本组;
对单帧RGB图像进行车道线标注,将属于车道区域的像素标记为1,其他标记为0。
9.一种基于振动信号和RGB图像融合的语义分割装置,其特征在于,包括:
获取单元,用于同步获取RGB图像和振动信号;
车道线检测模型参数更新单元,用于将RGB图像和振动信号输入预先训练完成的车道线检测模型,所述车道线检测模型包括视觉图像分割分支和振动信号分类分支,所述视觉图像分割分支包括压线检测子网络和车道线识别子网络;所述振动信号分类分支对振动信号进行特征提取及分类,得到车轮是否压线的二分类标签;所述压线检测子网络对RGB图像进行处理,得到车轮是否压线的预测结果;根据车轮是否压线的预测结果与振动信号分类分支输出的二分类标签计算第一损失函数值,根据第一损失函数值更新车道线检测子网络的部分参数,
车道线检测单元,用于利用更新参数的车道线检测子网络对RGB图像进行处理,得到车道线检测结果。
10.一种电子设备,其特征在于,包括:存储器、处理器和存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1-8任一项所述的基于振动信号和RGB图像融合的语义分割方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111454268.9A CN114037834B (zh) | 2021-12-01 | 2021-12-01 | 一种基于振动信号和rgb图像融合的语义分割方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111454268.9A CN114037834B (zh) | 2021-12-01 | 2021-12-01 | 一种基于振动信号和rgb图像融合的语义分割方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114037834A true CN114037834A (zh) | 2022-02-11 |
CN114037834B CN114037834B (zh) | 2022-09-13 |
Family
ID=80139568
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111454268.9A Active CN114037834B (zh) | 2021-12-01 | 2021-12-01 | 一种基于振动信号和rgb图像融合的语义分割方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114037834B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116612417A (zh) * | 2023-06-01 | 2023-08-18 | 佑驾创新(北京)技术有限公司 | 利用视频时序信息的特殊场景车道线检测方法及装置 |
CN117372983A (zh) * | 2023-10-18 | 2024-01-09 | 北京化工大学 | 一种低算力的自动驾驶实时多任务感知方法及装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111582201A (zh) * | 2020-05-12 | 2020-08-25 | 重庆理工大学 | 一种基于几何注意力感知的车道线检测系统 |
CN111860425A (zh) * | 2020-07-30 | 2020-10-30 | 清华大学 | 一种深度多模态跨层交叉融合方法、终端设备及存储介质 |
CN111950467A (zh) * | 2020-08-14 | 2020-11-17 | 清华大学 | 基于注意力机制的融合网络车道线检测方法及终端设备 |
CN112507785A (zh) * | 2020-11-02 | 2021-03-16 | 北京工商大学 | 一种基于cnn和lstm的滚动轴承故障分析 |
CN113255553A (zh) * | 2021-06-04 | 2021-08-13 | 清华大学 | 一种基于振动信息监督的可持续学习方法 |
CN113516014A (zh) * | 2020-04-10 | 2021-10-19 | 星克跃尔株式会社 | 车道线检测方法、车道线检测装置、电子设备、计算机程序以及计算机可读记录介质 |
-
2021
- 2021-12-01 CN CN202111454268.9A patent/CN114037834B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113516014A (zh) * | 2020-04-10 | 2021-10-19 | 星克跃尔株式会社 | 车道线检测方法、车道线检测装置、电子设备、计算机程序以及计算机可读记录介质 |
CN111582201A (zh) * | 2020-05-12 | 2020-08-25 | 重庆理工大学 | 一种基于几何注意力感知的车道线检测系统 |
CN111860425A (zh) * | 2020-07-30 | 2020-10-30 | 清华大学 | 一种深度多模态跨层交叉融合方法、终端设备及存储介质 |
CN111950467A (zh) * | 2020-08-14 | 2020-11-17 | 清华大学 | 基于注意力机制的融合网络车道线检测方法及终端设备 |
CN112507785A (zh) * | 2020-11-02 | 2021-03-16 | 北京工商大学 | 一种基于cnn和lstm的滚动轴承故障分析 |
CN113255553A (zh) * | 2021-06-04 | 2021-08-13 | 清华大学 | 一种基于振动信息监督的可持续学习方法 |
Non-Patent Citations (2)
Title |
---|
XINYU ZHANG ET AL.: "Multi-Modal Attention Guided Real-Time Lane Detection", 《2021 6TH IEEE INTERNATIONAL CONFERENCE ON ADVANCED ROBOTICS AND MECHATRONICS》 * |
张剑锋: "基于深度学习的车道线检测与车道偏离预警系统研究", 《中国优秀硕士学位论文全文数据库工程科技Ⅱ辑》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116612417A (zh) * | 2023-06-01 | 2023-08-18 | 佑驾创新(北京)技术有限公司 | 利用视频时序信息的特殊场景车道线检测方法及装置 |
CN117372983A (zh) * | 2023-10-18 | 2024-01-09 | 北京化工大学 | 一种低算力的自动驾驶实时多任务感知方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN114037834B (zh) | 2022-09-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110084165B (zh) | 基于边缘计算的电力领域开放场景下异常事件的智能识别与预警方法 | |
TWI425454B (zh) | 行車路徑重建方法、系統及電腦程式產品 | |
CN111461083A (zh) | 基于深度学习的快速车辆检测方法 | |
CN114898352A (zh) | 一种同时实现图像去雾与车牌检测的方法 | |
CN111295666A (zh) | 一种车道线检测方法、装置、控制设备及存储介质 | |
CN115063786A (zh) | 一种高位远景模糊车牌检测方法 | |
CN112784724A (zh) | 一种车辆变道检测方法、装置、设备及存储介质 | |
JP2021157847A (ja) | 異常なナンバープレート認識方法、装置、デバイス及び読み取り可能な記憶媒体 | |
CN114820679B (zh) | 图像标注方法、装置、电子设备和存储介质 | |
CN114037834B (zh) | 一种基于振动信号和rgb图像融合的语义分割方法及装置 | |
CN114419421A (zh) | 一种基于影像的地铁隧道裂缝识别系统及方法 | |
CN116128820A (zh) | 一种基于改进yolo模型的销钉状态的识别方法 | |
CN110837760B (zh) | 目标检测方法、用于目标检测的训练方法和装置 | |
CN111444916A (zh) | 面向无约束条件下的车牌定位及识别方法、系统 | |
CN110909656A (zh) | 一种雷达与摄像机融合的行人检测方法和系统 | |
CN112597996A (zh) | 基于任务驱动的自然场景中交通标志显著性检测方法 | |
CN117173595A (zh) | 基于改进YOLOv7的无人机航拍图像目标检测方法 | |
CN115147809A (zh) | 一种障碍物检测方法、装置、设备以及存储介质 | |
CN112633089B (zh) | 一种视频行人重识别方法、智能终端及存储介质 | |
CN115393822A (zh) | 一种雾天行车障碍物检测方法及设备 | |
CN114419018A (zh) | 图像采样方法、系统、设备及介质 | |
CN113239931A (zh) | 一种物流站车牌识别的方法 | |
CN115496977B (zh) | 一种基于多模态序列数据融合的目标检测方法及装置 | |
CN117184105B (zh) | 一种基于多模态数据融合的转向角速度预测方法及装置 | |
Vasudha et al. | Carriageway Edge Detection for Unmarked Urban Roads using Deep Learning Techniques |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |