CN115482518A - 一种面向交通场景的可扩展多任务视觉感知方法 - Google Patents

一种面向交通场景的可扩展多任务视觉感知方法 Download PDF

Info

Publication number
CN115482518A
CN115482518A CN202211177185.4A CN202211177185A CN115482518A CN 115482518 A CN115482518 A CN 115482518A CN 202211177185 A CN202211177185 A CN 202211177185A CN 115482518 A CN115482518 A CN 115482518A
Authority
CN
China
Prior art keywords
network
branch network
task
convolution
feature extraction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211177185.4A
Other languages
English (en)
Inventor
李琳辉
方敏航
王政皓
赵剑
连静
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian University of Technology
Original Assignee
Dalian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian University of Technology filed Critical Dalian University of Technology
Priority to CN202211177185.4A priority Critical patent/CN115482518A/zh
Publication of CN115482518A publication Critical patent/CN115482518A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/588Recognition of the road, e.g. of lane markings; Recognition of the vehicle driving pattern in relation to the road
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • G06V10/765Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects using rules for classification or partitioning the feature space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/58Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads

Abstract

本发明公开了一种面向交通场景的可扩展多任务视觉感知方法,包括以下步骤:设计多任务视觉感知模型整体架构;搭建主干特征提取网络搭建任务分支网络;训练网络;检测多任务网络。本发明将主干特征提取网络与分支网络分开训练并保存权重的方法,提高了整个模型在交通场景中多任务检测的实时性,同时兼顾了模型的可扩展性。本发明通过增加边路权重分支网络设计了卷积多通道注意力残差模块,既可以缓解尺度变化带来的问题,又使网络更加关注需要检测的物体,可以有效忽略背景的干扰。本发明不仅缓解了视觉多任务检测需要占用大量硬件资源的问题,提高了网络的实时性,又提高了网络的可扩性,使其可以适应新的任务需求。

Description

一种面向交通场景的可扩展多任务视觉感知方法
技术领域
本发明属于智能交通领域的智能车辆环境感知范畴,特别涉及一种面向交通场景的可扩展多任务视觉感知方法。
背景技术
多任务视觉是在复杂的交通场景下实现自动驾驶的重要基础,通过深度神经网络进行目标检测、可行驶区域分割、人体姿态估计等视觉任务,可以为本车的路径规划提供重要的依据。
目前,针对交通场景的多任务视觉检测方法主要有两种:一种是将每一种具体的视觉任务分别搭建一个深度神经网络,然后在车载终端并行所有的检测网络以实现多任务的检测;第二种方法是整个多任务检测网络共用一个主干特征提取网络,然后连接多个具体的任务分支网络。在采用第一种实现多任务检测的方法时,每个具体的任务分开单独计算,可以较好的扩展新的视觉任务,但由于所有网络并行运算,会占用较大的内存和显存,检测速度降低,实时性差。而采用第二种方法时,共用一个特征提取网络,减少了网络的参数量和计算量,但网络的损失函数是根据已有的任务提前设定好的,多个任务耦合在一起,新增视觉任务需要全部重新训练网络,无法较好的扩展新的视觉任务。因此,需要研究共用主干网络分支网络、但不需要在新增视觉任务使全程重新训练的多任务可扩展视觉感知架构。上述两种方法均能实现多任务检测,但各自存在一定的局限性。
发明内容
为解决现有技术中存在的上述问题,本发明的目的在于提供一种面向交通场景的可扩展多任务视觉感知方法,既能提高多任务检测的实时性又能提高检测过程的可扩展性。
为实现上述目的,本发明的技术方案如下:一种面向交通场景的可扩展多任务视觉感知方法,包括以下步骤:
A、设计多任务视觉感知模型整体架构
多任务视觉感知模型整体架构由主干特征提取网络与任务分支网络组成。主干特征提取网络由一系列卷积层和多通道注意力残差模块堆叠而成,搭建完主干特征提取网络后,对主干特征提取网络进行训练,调整主干特征提取网络中的参数,并将调整完的参数保存下来,然后将主干特征提取网络最后三层的输出输入到候选框生成网络后,经候选框映射模块处理后分别同时输入到任务分支网络中,所述任务分支网络包括目标检测分支网络、人体关键点检测分支网络、可行驶区域分割分支网络和车道线检测分支网络,其中车道线检测分支网络与可行驶区域分支网络合并为一个任务分支网络且由可行驶区域分割分支网络同时实现可行驶区域分割分支网络和车道线检测分支网络的功能,目标检测分支网络由卷积层、池化层和批归一化层串联而成,人体关键点检测分支网络和可行驶区域分割分支以及车道线检测分支网络由一系列反卷积层串联而成,搭建完成任务分支网络后,对任务分支网络分别进行训练,将训练完得到的任务分支网络参数保存下来,最后通过加载主干特征提取网络的参数和任务分支网络的参数对车载摄像头获取的图像进行预测,具体步骤如下:
A1、将车载摄像头获取的图像输入主干特征提取网络得到特征图。
A2、将得到的特征图送入到候选框生成网络中,得到候选框后,通过候选框映射模块将候选框映射到下采样后的特征图中。
A3、将候选框映射后的特征图并行送入到目标检测分支网络与人体关键点检测分支网络。
A4、在进行人体关键点检测分支网络的检测时,将目标检测得到的目标框与人体关键点检测的候选区域进行耦合,使得有人体区域为人体关键点检测分支网络的感兴趣区域。
A5、将主干特征提取网络得到的特征图经过特征金字塔后进入可行驶区域分割分支网络与车道线检测分支网络对特征图进行上采样,得到可行使区域的分割与车道线检测的结果,并将最终的结果在最开始车载摄像头获取的图像上标出。
B、搭建主干特征提取网络
主干特征提取网络借鉴纯卷积网络结构,设计卷积多通道注意力残差模块即Conv-MA-Next Block,将卷积多通道注意力残差模块堆叠组成主干特征提取网络,具体步骤如下:
B1、首先使用卷积对车载摄像头获取的图像进行下采样得到特征图,下采样之后使用层归一化技术对下采样特征图进行归一化处理。
B2、搭建卷积多通道注意力残差模块。卷积多通道注意力残差模块采用深度可分离卷积,然后将特征图先升维后降维,减少网络参数量。卷积多通道注意力残差模块分支网络表示为:
G(x)=Sigmoid(BN(Conv(GE(BN(Conv(GE(g(x))))))))
式中,x表示输入的特征图。
G(x)表示经过通过注意力分支网络得到的通道权重。
Sigmoid表示激活函数,其函数表达式为
Figure BDA0003865034220000031
BN表示批归一化层,将输入BN层的数据转化为均值为0,方差为1的分布。
Conv表示卷积操作,卷积是指以一个指定大小的矩阵数据与输入的数据相乘。
GE表示名为GELU激活函数,GELU激活函数的函数表达式为GELU(x)=x·Φ(x),Φ(x)表示高斯分布的积累概率分布,即在(-∞,x]区间对高斯分布的定积分。
g(x)表示全局池化。
最终将得到的通道权重G(x)与原特征图相乘使主干特征提取网络更关注有目标的区域。卷积多通道注意力残差模块的公式表示为:
C(x)=G(x)·dropout(Lscale(Conv(GE(Conv(BN(dwConv(x)))))))
式中,dropout表示随机关闭一些通道,使其失去作用。
Lscale表是通道缩放,以一定的比例减小特征图的通道数量。
dwConv表示深度可分离卷积,将输入的数据按维度进行卷积。
B3、将搭建完的卷积多通道注意力残差模块以不同的维度按比例进行堆叠。其具体公式如下:
output=a·C(b·C(c·C(d·C(x))))
式中,C表示卷积多通道注意力残差模块。
a、b、c、d均为整数,表示不同的比例。
Output表示输出。
C、搭建任务分支网络
搭建目标检测分支网络、人体关键点检测分支网络以及可行驶区域分割分支网络分别实现对交通场景中行人和车辆的识别、人体关键点的检测、可行驶区域分割以及车道线检测的功能。具体步骤如下:
C1、搭建目标检测分支网络
目标检测分支网络由两个全连接层组成,在全连接层之后分为类别预测和目标检测框回归。目标检测分支网络的损失函数为:
Figure BDA0003865034220000041
式中,pi表示第i个候选框预测为真实标签的概率。
Figure BDA0003865034220000042
表示候选框内的样本为正样本时为1,为负样本时为0。
ti表示预测第i个候选框的边界框回归参数。
Figure BDA0003865034220000043
表示第i个候选框对应的真实框参数。
Ncls表示一次训练输入的样本数量。
Nreg表示候选框位置的个数。
Lcls表示分类损失,采用如下式所示二值交叉熵损失:
Figure BDA0003865034220000051
Lreg表示回归损失,公式如下:
Figure BDA0003865034220000052
其中
Figure BDA0003865034220000053
函数,公式如下:
Figure BDA0003865034220000054
C2、搭建人体关键点检测分支网络
人体关键点检测分支网络先使用候选区映射模块进行映射,对映射得到的特征图通过多个卷积与激活函数激活提取其特征,最后将经过卷积与激活函数激活后的特征图进行转置卷积扩大特征图的高与宽,使特征图的高与宽与最开始车载摄像头获取的图像高宽相等,特征图的通道数目与关键点数目相同,每个通道预测一个关键点。
C3、搭建可行驶区域分割分支网络和车道线检测分支网络
可行驶区域分割分支网络与车道线检测分支网络结构相同,将其合并在一个可行使区域分割分支网络中进行检测,该分支网络的搭建使用候选区映射模块进行映射,转换特征图大小,并对其进行卷积,最后将卷积后的特征图进行转置卷积扩大特征图的高与宽,使特征图的高与宽与最开始车载摄像头获取的图像高宽相等,特征图通道数目与类别数相同,每个通道对应预测一个类别,其中一个通道作为车道线检测分支网络的输出用于车道线检测。
D、训练网络
D1、训练主干特征提取网络
主干特征提取网络与目标检测分支网络联合训练,输入原始数据后初始化主干特征提取网络参数,将得到的特征图输入目标检测分支网络,与样本标签进行对比计算得到损失函数,使用梯度下降法更新参数降低损失,当损失函数的输出值与上一轮的输出值的差值小于10-5时,不再进行训练,分别保存主干特征提取网络的权重与目标检测分支网络的权重。
D2、训练任务分支网络
将原始数据输入加载好权重的主干特征提取网络,作为数据的预处理。初始化任务分支网络参数,将预处理得到的特征图输入任务分支网络中,与标签对比计算得到损失,通过梯度下降法更新参数,减小损失值,当损失函数的输出值与上一轮的输出值的差值小于10-5时,不再进行训练,保存任务分支网络权重。
E、检测多任务网络
E1、加载主干特征提取网络的权重ω1,得到有具体参数的主干特征提取网络Conv-Next-Net(ω1)。
E2、加载目标检测分支网络的权重ω2,得到有具体参数的目标检测分支网络Det(ω2)。
E3、加载人体关键点检测分支网络的权重ω3,得到有具体参数的目标检测分支网络K(ω3)。
E4、加载可行驶区域分割分支网络的权重ω4,得到有具体参数的可行驶区域分割分支网络SR(ω4)。
E5、将需要检测的图像输入主干特征提取网络,得到主干提取特征如下:
f1=Conv-Next-Net(ω1)[input]
input表示输入的车载摄像头获取的图像。
f1表示获得的特征图。
E6、将得到的特征图同时输入各任务分支网络得到如下输出:
out={Det(ω2)[f1],K(ω3)[f1],SR(ω4)[f1],……,X(ωn)}
out表示最终的输出。
X(ωn)表示加载了权重的新任务分支网络。
E7、将得到的输出out对应的目标位置、可行驶区域分割区域以及人体关键点在最初得到的摄像头输入图像中标出,得到最终的检测图。
与现有技术相比,本发明具有以下有益效果:
1、本发明设计了不同于端对端训练的方式,将主干特征提取网络与分支网络分开训练并保存权重的方法,提高了整个模型在交通场景中多任务检测的实时性,同时兼顾了模型的可扩展性,将主干特征提取网络的权重和任务分支网络的权重相互分离,可以比较方便的单独训练任务分支网络,并进行扩展。
2、本发明在ConvNext主干网络的基础之上,通过增加边路权重分支网络设计了卷积多通道注意力残差模块(Conv-MA-Block Block),既可以缓解尺度变化带来的问题,又使网络更加关注需要检测的物体,可以有效忽略背景的干扰。由于不同视觉任务之间会有所关联,加入候选区域框的提取可以大大提高目标检测与人体关键点等检测精度。因此,本发明不仅缓解了视觉多任务检测需要占用大量硬件资源的问题,提高了网络的实时性,又提高了网络的可扩性,使其可以适应新的任务需求。
附图说明
图1为本发明多任务检测网络训练与检测流程示意图。
图2为本发明的整体框架结构图。
图3为多任务网络的主干特征提取网络结构图。
图4为本发明的目标检测任务分支网络结构图。
图5为本发明的人体关键点检测分支网络结构图。
图6为本发明的可行驶区域分割任务分支网络结构图。
图7为主干特征提取网络训练流程图。
图8为任务分支网络训练流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明的实施方式作进一步地详细描述。如图1所示,本发明的流程如下:
步骤一、按图2所示,设计模型的整体框架。模型的输入为车载摄像头获取的图像。先将获取的图像通过主干特征提取网络进行下采样提取特征,获得特征图,将得到的特征图送入到候选框生成网络中,得到候选框后,通过候选框映射模块将候选框映射到下采样后的特征图中。然后将带有候选框的特征图同时输入到目标检测分支网络、人体关键点分支网络、可行驶区域分割网络与车道线检测分支网络对图像中的车辆、行人、道路、车道线等进行预测。
步骤二、如图3所示,多任务网络的主干特征提取网络结构图搭建模型的主干特征提取网络。输入三通道的图像,图像的大小为224×224,首先经过一层卷积进行下采样,卷积核的大小为4×4,步距为4,下采样后的图像大小56×56,通道数升为96,经过层归一化(Layer Norm)操作后,将图像输入卷积多通道注意力残差模块(Conv-MA-Block Block)。
卷积多通道注意力残差模块的搭建具体细节如图3中虚线框所示,整体结构由两个并联分支网络组成,特征提取分支网络首先经过一个大小为7×7,步距为1,填充(padding)为3的卷积核进行特征提取,此处特征图大小不变,卷积层后接层归一化;继续进行卷积,此处卷积核大小为1,步距为1,卷积之后通过GELU激活函数激活,通道数目加深为原来的四倍,重复卷积并对通道进行放缩与随机失活,防止过拟合。对图中最右侧的并联支路先进行全局池化,然后经过GELU激活函数激活,再经过一系列的卷积和归一化处理,最后用Sigmoid函数进行归一化,得到每一个通道在特征图中的权重。
卷积多通道注意力残差模块可表示为
G(x)=Sigmoid(BN(Conv(GE(BN(Conv(GE(g(x))))))))
x表示输入的特征图。
G(x)表示经过通过注意力分支网络得到的通道权重。
Sigmoid表示激活函数,其函数表达式为
Figure BDA0003865034220000081
BN表示批归一化层。
Conv表示卷积。
GE表示名为GELU的激活函数。
g(x)表示全局池化。
最终将得到的通道权重与特征提取分支网络相乘得到最终的特征图。
将卷积多通道注意力残差模块以[3,3,9,3]的数量进行堆叠,堆叠的第一个模块的下采样维度为96,第二个模块的下采样维度为192,第三个模块的下采样维度为384,第四个模块的下采样维度为768。每个模块之间通过下采样(Downsample)使得特征图大小对齐。下采样(Downsample)由一个层归一化与卷积核大小为2,步距为2的卷积层连接组成。通过主干特征提取网络后,输入的图像大小由原来的224×224×3变为7×7×768。
步骤三、按图4所示,目标检测任务分支网络结构图搭建目标检测分支网络。
目标检测分支网络主要由两个全连接层组成,在全连接层之后分为两部分,分别为类别预测和目标检测框回归。目标检测分支网络的损失函数为
Figure BDA0003865034220000091
pi表示第i个候选框预测为真实标签的概率。
Figure BDA0003865034220000092
表示候选框内的样本为正样本时为1,为负样本时为0。
ti表示预测第i个候选框的边界框回归参数。
Figure BDA0003865034220000093
表示第i个候选框对应的真实框参数。
Ncls表示一个小批次中的所有样本数量。
Nreg表示候选框位置的个数。
分类损失采用二值交叉熵损失
Figure BDA0003865034220000094
回归损失
Figure BDA0003865034220000095
其中
Figure BDA0003865034220000096
函数为
Figure BDA0003865034220000097
步骤四、按图6所示可行驶区域分割任务分支网络结构图搭建可行驶区域分割分支网络。
可行驶区域分割分支网络使用候选区映射模块(RoIAlign)进行映射,将特征图大小转换为7×7,然后对其进行卷积,最后将特征图进行4次转置卷积进行上采样,使特征图通道数与类别数相同,每个通道预测一个类别掩码。
步骤五、按图5所示的行人关键点检测分支网络结构图搭建行人关键点检测分支网络。
人体关键点检测分支网络先使用候选区映射模块(RoIAlign)进行映射,将特征图大小转换为14×14大小,然后经过4次卷积,其中卷积核大小为3×3,最后将特征图进行转置卷积,使特征图通道数与关键点数相同,每个通道预测一个关键点。
步骤六、将主干特征提取网络和任务分支网络分别进行训练。
主干特征提取网络的训练过程如图7所示。主干特征提取网络与目标检测分支网络联合训练,使用的数据集为BDD100K,输入原始数据后初始化主干特征提取网络参数,将得到的特征图输入目标检测分支网络,与样本标签进行对比计算得到损失函数,使用梯度下降法更新参数降低损失,当损失函数的输出值与上一轮的输出值的差值小于10-5时,分别保存主干特征提取网络的权重。
任务分支网络的训练过程如图8所示。将原始数据输入加载好权重的主干特征提取网络,作为数据的预处理。初始化任务分支网络参数,将预处理得到的特征图输入分支网络中,与标签对比计算得到损失,通过梯度下降法更新参数,减小损失值,当损失函数的输出值与上一轮的输出值的差值小于10-5时,保存任务分支网络权重。
以上描述了本发明的基本原理、主要特征和优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。

Claims (1)

1.一种面向交通场景的可扩展多任务视觉感知方法,其特征在于:包括以下步骤:
A、设计多任务视觉感知模型整体架构
多任务视觉感知模型整体架构由主干特征提取网络与任务分支网络组成;主干特征提取网络由一系列卷积层和多通道注意力残差模块堆叠而成,搭建完主干特征提取网络后,对主干特征提取网络进行训练,调整主干特征提取网络中的参数,并将调整完的参数保存下来,然后将主干特征提取网络最后三层的输出输入到候选框生成网络后,经候选框映射模块处理后分别同时输入到任务分支网络中,所述任务分支网络包括目标检测分支网络、人体关键点检测分支网络、可行驶区域分割分支网络和车道线检测分支网络,其中车道线检测分支网络与可行驶区域分支网络合并为一个任务分支网络且由可行驶区域分割分支网络同时实现可行驶区域分割分支网络和车道线检测分支网络的功能,目标检测分支网络由卷积层、池化层和批归一化层串联而成,人体关键点检测分支网络和可行驶区域分割分支以及车道线检测分支网络由一系列反卷积层串联而成,搭建完成任务分支网络后,对任务分支网络分别进行训练,将训练完得到的任务分支网络参数保存下来,最后通过加载主干特征提取网络的参数和任务分支网络的参数对车载摄像头获取的图像进行预测,具体步骤如下:
A1、将车载摄像头获取的图像输入主干特征提取网络得到特征图;
A2、将得到的特征图送入到候选框生成网络中,得到候选框后,通过候选框映射模块将候选框映射到下采样后的特征图中;
A3、将候选框映射后的特征图并行送入到目标检测分支网络与人体关键点检测分支网络;
A4、在进行人体关键点检测分支网络的检测时,将目标检测得到的目标框与人体关键点检测的候选区域进行耦合,使得有人体区域为人体关键点检测分支网络的感兴趣区域;
A5、将主干特征提取网络得到的特征图经过特征金字塔后进入可行驶区域分割分支网络与车道线检测分支网络对特征图进行上采样,得到可行使区域的分割与车道线检测的结果,并将最终的结果在最开始车载摄像头获取的图像上标出;
B、搭建主干特征提取网络
主干特征提取网络借鉴纯卷积网络结构,设计卷积多通道注意力残差模块即Conv-MA-Next Block,将卷积多通道注意力残差模块堆叠组成主干特征提取网络,具体步骤如下:
B1、首先使用卷积对车载摄像头获取的图像进行下采样得到特征图,下采样之后使用层归一化技术对下采样特征图进行归一化处理;
B2、搭建卷积多通道注意力残差模块;卷积多通道注意力残差模块采用深度可分离卷积,然后将特征图先升维后降维,减少网络参数量;卷积多通道注意力残差模块分支网络表示为:
G(x)=Sigmoid(BN(Conv(GE(BN(Conv(GE(g(x))))))))
式中,x表示输入的特征图;
G(x)表示经过通过注意力分支网络得到的通道权重;
Sigmoid表示激活函数,其函数表达式为
Figure FDA0003865034210000021
BN表示批归一化层,将输入BN层的数据转化为均值为0,方差为1的分布;
Conv表示卷积操作,卷积是指以一个指定大小的矩阵数据与输入的数据相乘;
GE表示名为GELU激活函数,GELU激活函数的函数表达式为GELU(x)=x·Φ(x),Φ(x)表示高斯分布的积累概率分布,即在(-∞,x]区间对高斯分布的定积分;
g(x)表示全局池化;
最终将得到的通道权重G(x)与原特征图相乘使主干特征提取网络更关注有目标的区域;卷积多通道注意力残差模块的公式表示为:
C(x)=G(x)·dropout(Lscale(Conv(GE(Conv(BN(dwConv(x)))))))
式中,dropout表示随机关闭一些通道,使其失去作用;
Lscale表是通道缩放,以一定的比例减小特征图的通道数量;
dwConv表示深度可分离卷积,将输入的数据按维度进行卷积;
B3、将搭建完的卷积多通道注意力残差模块以不同的维度按比例进行堆叠;其具体公式如下:
output=a·C(b·C(c·C(d·C(x))))
式中,C表示卷积多通道注意力残差模块;
a、b、c、d均为整数,表示不同的比例;
Output表示输出;
C、搭建任务分支网络
搭建目标检测分支网络、人体关键点检测分支网络以及可行驶区域分割分支网络分别实现对交通场景中行人和车辆的识别、人体关键点的检测、可行驶区域分割以及车道线检测的功能;具体步骤如下:
C1、搭建目标检测分支网络
目标检测分支网络由两个全连接层组成,在全连接层之后分为类别预测和目标检测框回归;目标检测分支网络的损失函数为:
Figure FDA0003865034210000031
式中,pi表示第i个候选框预测为真实标签的概率;
Figure FDA0003865034210000032
表示候选框内的样本为正样本时为1,为负样本时为0;
ti表示预测第i个候选框的边界框回归参数;
Figure FDA0003865034210000033
表示第i个候选框对应的真实框参数;
Ncls表示一次训练输入的样本数量;
Nreg表示候选框位置的个数;
Lcls表示分类损失,采用如下式所示二值交叉熵损失:
Figure FDA0003865034210000041
Lreg表示回归损失,公式如下:
Figure FDA0003865034210000042
其中
Figure FDA0003865034210000043
函数,公式如下:
Figure FDA0003865034210000044
C2、搭建人体关键点检测分支网络
人体关键点检测分支网络先使用候选区映射模块进行映射,对映射得到的特征图通过多个卷积与激活函数激活提取其特征,最后将经过卷积与激活函数激活后的特征图进行转置卷积扩大特征图的高与宽,使特征图的高与宽与最开始车载摄像头获取的图像高宽相等,特征图的通道数目与关键点数目相同,每个通道预测一个关键点;
C3、搭建可行驶区域分割分支网络和车道线检测分支网络
可行驶区域分割分支网络与车道线检测分支网络结构相同,将其合并在一个可行使区域分割分支网络中进行检测,该分支网络的搭建使用候选区映射模块进行映射,转换特征图大小,并对其进行卷积,最后将卷积后的特征图进行转置卷积扩大特征图的高与宽,使特征图的高与宽与最开始车载摄像头获取的图像高宽相等,特征图通道数目与类别数相同,每个通道对应预测一个类别,其中一个通道作为车道线检测分支网络的输出用于车道线检测;
D、训练网络
D1、训练主干特征提取网络
主干特征提取网络与目标检测分支网络联合训练,输入原始数据后初始化主干特征提取网络参数,将得到的特征图输入目标检测分支网络,与样本标签进行对比计算得到损失函数,使用梯度下降法更新参数降低损失,当损失函数的输出值与上一轮的输出值的差值小于10-5时,不再进行训练,分别保存主干特征提取网络的权重与目标检测分支网络的权重;
D2、训练任务分支网络
将原始数据输入加载好权重的主干特征提取网络,作为数据的预处理;初始化任务分支网络参数,将预处理得到的特征图输入任务分支网络中,与标签对比计算得到损失,通过梯度下降法更新参数,减小损失值,当损失函数的输出值与上一轮的输出值的差值小于10-5时,不再进行训练,保存任务分支网络权重;
E、检测多任务网络
E1、加载主干特征提取网络的权重ω1,得到有具体参数的主干特征提取网络Conv-Next-Net(ω1);
E2、加载目标检测分支网络的权重ω2,得到有具体参数的目标检测分支网络Det(ω2);
E3、加载人体关键点检测分支网络的权重ω3,得到有具体参数的目标检测分支网络K(ω3);
E4、加载可行驶区域分割分支网络的权重ω4,得到有具体参数的可行驶区域分割分支网络SR(ω4);
E5、将需要检测的图像输入主干特征提取网络,得到主干提取特征如下:
f1=Conv-Next-Net(ω1)[input]
input表示输入的车载摄像头获取的图像;
f1表示获得的特征图;
E6、将得到的特征图同时输入各任务分支网络得到如下输出:
out={Det(ω2)[f1],K(ω3)[f1],SR(ω4)[f1],……,X(ωn)}
out表示最终的输出;
X(ωn)表示加载了权重的新任务分支网络;
E7、将得到的输出out对应的目标位置、可行驶区域分割区域以及人体关键点在最初得到的摄像头输入图像中标出,得到最终的检测图。
CN202211177185.4A 2022-09-26 2022-09-26 一种面向交通场景的可扩展多任务视觉感知方法 Pending CN115482518A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211177185.4A CN115482518A (zh) 2022-09-26 2022-09-26 一种面向交通场景的可扩展多任务视觉感知方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211177185.4A CN115482518A (zh) 2022-09-26 2022-09-26 一种面向交通场景的可扩展多任务视觉感知方法

Publications (1)

Publication Number Publication Date
CN115482518A true CN115482518A (zh) 2022-12-16

Family

ID=84394092

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211177185.4A Pending CN115482518A (zh) 2022-09-26 2022-09-26 一种面向交通场景的可扩展多任务视觉感知方法

Country Status (1)

Country Link
CN (1) CN115482518A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116012953A (zh) * 2023-03-22 2023-04-25 南京邮电大学 一种基于csi的轻量级双任务感知方法
CN116385949A (zh) * 2023-03-23 2023-07-04 广州里工实业有限公司 一种移动机器人的区域检测方法、系统、装置及介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116012953A (zh) * 2023-03-22 2023-04-25 南京邮电大学 一种基于csi的轻量级双任务感知方法
CN116385949A (zh) * 2023-03-23 2023-07-04 广州里工实业有限公司 一种移动机器人的区域检测方法、系统、装置及介质
CN116385949B (zh) * 2023-03-23 2023-09-08 广州里工实业有限公司 一种移动机器人的区域检测方法、系统、装置及介质

Similar Documents

Publication Publication Date Title
CN111563508B (zh) 一种基于空间信息融合的语义分割方法
CN109902806B (zh) 基于卷积神经网络的噪声图像目标边界框确定方法
CN108596330B (zh) 一种并行特征全卷积神经网络装置及其构建方法
CN108509978B (zh) 基于cnn的多级特征融合的多类目标检测方法及模型
CN111291809B (zh) 一种处理装置、方法及存储介质
CN113033570B (zh) 一种改进空洞卷积和多层次特征信息融合的图像语义分割方法
CN115482518A (zh) 一种面向交通场景的可扩展多任务视觉感知方法
CN112396607A (zh) 一种可变形卷积融合增强的街景图像语义分割方法
CN114565860B (zh) 一种多维度增强学习合成孔径雷达图像目标检测方法
CN113095152B (zh) 一种基于回归的车道线检测方法及系统
CN116665176B (zh) 一种面向车辆自动驾驶的多任务网络道路目标检测方法
CN111860683B (zh) 一种基于特征融合的目标检测方法
CN105528575A (zh) 基于上下文推理的天空检测算法
CN110956119B (zh) 一种图像中目标检测的方法
CN111563507A (zh) 一种基于卷积神经网络的室内场景语义分割方法
CN112489050A (zh) 一种基于特征迁移的半监督实例分割算法
CN113554032B (zh) 基于高度感知的多路并行网络的遥感图像分割方法
CN115631344B (zh) 一种基于特征自适应聚合的目标检测方法
CN114048822A (zh) 一种图像的注意力机制特征融合分割方法
CN112926548A (zh) 一种车道线检测方法、装置、电子设备及存储介质
CN112990065A (zh) 一种基于优化的YOLOv5模型的车辆分类检测方法
CN116188999A (zh) 一种基于可见光和红外图像数据融合的小目标检测方法
CN115035295A (zh) 一种基于共享卷积核和边界损失函数的遥感图像语义分割方法
CN115238758A (zh) 一种基于点云特征增强的多任务三维目标检测方法
CN112785636A (zh) 一种多尺度增强式的单目深度估计方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination