CN111898439B - 基于深度学习的交通场景联合目标检测和语义分割方法 - Google Patents

基于深度学习的交通场景联合目标检测和语义分割方法 Download PDF

Info

Publication number
CN111898439B
CN111898439B CN202010604812.2A CN202010604812A CN111898439B CN 111898439 B CN111898439 B CN 111898439B CN 202010604812 A CN202010604812 A CN 202010604812A CN 111898439 B CN111898439 B CN 111898439B
Authority
CN
China
Prior art keywords
semantic segmentation
target detection
network
decoder
loss
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010604812.2A
Other languages
English (en)
Other versions
CN111898439A (zh
Inventor
南智雄
彭极智
米唯实
徐林海
辛景民
郑南宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Jiaotong University
Original Assignee
Xian Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Jiaotong University filed Critical Xian Jiaotong University
Priority to CN202010604812.2A priority Critical patent/CN111898439B/zh
Publication of CN111898439A publication Critical patent/CN111898439A/zh
Application granted granted Critical
Publication of CN111898439B publication Critical patent/CN111898439B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明提出了一种基于深度学习的交通场景联合目标检测和语义分割方法。该方法实现目标包括:构建基于深度学习的联合目标检测和语义分割网络,其通过将SE模块纳入Skip‑Connection机制中形成语义信息丰富的编码器‑解码器特征图,并设置了一种新的候选框初始化机制生成密集且多尺度的目标候选框,采用空洞卷积扩大感受野获取了全局信息,对分割分支采用Self‑Attention模块优化了语义分割的特征分布,并在语义分割和目标检测之间采用了Cross‑Attention模块优化了二者的性能,同时,目标检测和语义分割任务之间可以互惠互利,有效提高了交通场景中联合目标检测和语义分割结果的精度。仿真结果表明,相比现有方法,本发明对交通场景中的联合目标检测和语义分割精度均有较大提高。

Description

基于深度学习的交通场景联合目标检测和语义分割方法
技术领域
本发明属于计算机视觉领域,具体设计一种基于深度学习的交通场景联合目标检测和语义分割方法。
背景技术
目标检测和语义分割是计算机视觉中的两个重要任务,为自动驾驶和高级驾驶辅助系统等应用提供基础技术支持。早期,目标检测和语义分割被当做两个独立的问题进行研究,实际上二者是高度相关的,它们的工作可以互惠互利。语义分割能够为目标检测提供局部和全局的语义信息,而目标检测则提供先验知识来完善语义分割。另外,联合目标检测和语义分割模型可以通过共享相同的特征提取网络来节省计算消耗。因此,得益于深度学习技术的日益成熟,联合目标检测和语义分割技术逐渐成为当前的研究热点。
N.Dvornik等人在ICCV2017提出的BlitzNet是一个联合目标检测和语义分割的编码器-解码器网络,该网络用每个解码器层执行多尺度目标检测,并将每个解码器层进行融合来执行语义分割,该方法将目标检测和语义分割任务进行了简单的联合,没有充分挖掘目标检测和语义分割的联系;L.Chen等人在WACV2018提出的DspNet方法是一个轻量化的联合目标检测和语义分割网络,该网络的检测分支沿用W.Liu2016提出的SSD方法,分割分支则受到H.Zhao2017提出的PSPNet影响,该方法虽然速度较快,显存消耗较少,但其结构过于简单,对交通场景中小目标的检测和分割效果均不佳;J.Cao等人在CVPR2019提出的TripleNet也采用了编码器-解码器结构,并且采取了内部连接的模块来加强两个任务的相关性,该方法在检测和分割上效果较好,但模型的推理过程较为复杂,并且由于交通场景是高度动态化、复杂的场景,交通场景中的物体通常长宽比差别比较大,因此以上方法难以胜任交通场景中的联合目标检测和语义分割任务。
发明内容
本发明的目的是为克服上述已有技术的不足之处,提供了一种基于深度学习的交通场景联合目标检测和语义分割方法,用以提高现有技术的目标检测和语义分割的精度,提高交通场景中车辆对周围环境的感知能力。
为达到上述目的,本发明采用如下技术方案来实现的:
基于深度学习的交通场景联合目标检测和语义分割方法,包括以下步骤:
步骤一,构建联合目标检测和语义分割神经网络Q;联合目标检测和语义分割神经网络Q由三部分组成,分别是编码器-解码器图像特征提取网络,语义分割网络和目标检测网络,所述编码器-解码器图像特征提取网络连接目标检测网络和语义分割网络;
步骤二,根据交通场景特点,设置用于目标检测的多尺度目标候选框A;令Sk为每一层解码器特征图所对应的基本比例,m为解码器特征图的数量,k为特征图的索引,定义Sk为:
Figure BDA0002560615420000021
其中Ssmallest,Smin,Smax是自定义参数,定义Ssmallest=0.04,Smin=0.1,Smax=0.95,m=7;
在解码器网络的前五层特征图的每一个锚点,设置了7个不同尺度的候选框,其宽高比分别为
Figure BDA0002560615420000022
在解码器网络的后两层特征图的每一个定位点,设置了5个不同尺度的候选框,其宽高比分别为
Figure BDA0002560615420000023
针对所有的解码器特征图,在宽高比为1的候选框上额外增加一个新的候选框,其基本比例为
Figure BDA0002560615420000024
每一个目标候选框的计算方式如下:
Figure BDA0002560615420000025
其中w是候选框的宽度,h是候选框的高度,则根据上述方法对不同的解码器特征图生成不同尺度的密集的目标候选框A;
步骤三,设置训练联合目标检测和语义分割网络所需的损失函数Loss;损失函数Loss设置为:
Loss=ωdLdetsLseg
其中ωd和ωs分别为目标检测和语义分割所占比参数,将其设置为ωd=1,ωs=2;Ldet目为标检测的损失,Ldet的定义如下:
Figure BDA0002560615420000031
其中N为目标候选框的正样本数量,c为分类的置信度预测值,l目标候选框所对应的边界框的预测值,g为标签的位置参数,权重系数
Figure BDA0002560615420000033
设置为1,Lcls为分类的损失,Lreg为回归的损失;
Lseg为语义分割的损失,Lseg的定义如下:
Lseg=Linfer_fm+LAux
其中Linfer_fm为推理特征图I与标签的交叉熵,LAux为特征图Aux双线性上采样到标签尺寸后与标签的交叉熵;其计算方法类似,以Linfer_fm为例,其计算公式为:
Figure BDA0002560615420000032
其中N为语义分割类别数,即Ns+1为额外的一个为背景类,p(x)和q(x)分别表示训练集中第x点的标签和预测结果;
步骤四,对联合目标检测和语义分割网络进行监督训练;
步骤五,利用步骤四训练完毕的联合目标检测和语义分割网络进行目标检测和语义分割,输出结果。
本发明进一步的改进在于,所述步骤四中,设监督训练的轮次为K,模型评估的频次为K1,模型训练的学习率为L;将训练集输入联合目标检测和语义分割网络,通过损失函数Loss进行监督训练,并每隔K1轮通过验证集对该轮模型的精度进行评估,之后将精度最高的联合目标检测和语义分割网络作为训练好的联合目标检测和语义分割网络Q*并且保存权重参数。
本发明进一步的改进在于,所述步骤五中,令t时刻采集的RGB图像为It,将图像通过图像缩放技术调成尺寸为3×H×W,并将其作为神经网络Q*的输入,则目标检测网络将得到待检测物体的包围框bt和对应类别c,若bt中待检测物体的置信度高于识别阈值ψ,则物体成功检测并被分配类别,最后将检测得到的包围框运行NMS算法,将重叠值大于阈值
Figure BDA0002560615420000041
的多余包围框过滤,得到最后的目标检测结果,语义分割网络将得到输入图片的每一个像素点的分类类别,并将其双线性上采样到It的尺寸得到最后的语义分割结果。
与现有技术相比,本发明至少具有以下的优点:
本发明构建的基于深度学习的联合目标检测和语义分割网络,其通过将SE模块纳入Skip-Connection机制中形成语义信息丰富的编码器-解码器特征图,并设置了一种新的候选框初始化机制生成密集且多尺度的目标候选框,这对提高交通场景中目标检测的精度非常重要,采用空洞卷积扩大感受野获取了全局信息,对分割分支采用Self-Attention模块优化了语义分割的特征分布,并在语义分割和目标检测之间采用了Cross-Attention模块使细粒度的语义分割任务能在一定程度上引导目标检测任务中特征的分布,提高了二者的性能,同时,目标检测和语义分割任务之间可以互惠互利,有效提高了交通场景中联合目标检测和语义分割结果的精度。仿真结果表明,本发明有效提高了交通场景中联合目标检测和语义分割方法的精度。
附图说明
图1为本发明方法的整体流程图;
图2为本发明实施例采用的基于深度学习的交通场景联合目标检测和语义分割神经网络的整体结构图。
具体实施方式
下面结合附图和具体实施例,对本发明作进一步详细描述。
参照图1,本发明提供的基于深度学习的交通场景联合目标检测和语义分割方法,包括以下步骤:
1.构建联合目标检测和语义分割神经网络Q;
构建联合目标检测和语义分割神经网络Q,其结构如图2所示,该联合目标检测和语义分割神经网络Q结构包括:编码器-解码器图像特征提取网络,目标检测网络和语义分割网络,所述编码器-解码器图像特征提取网络连接目标检测网络和语义分割网络,其中,图2中部结构代表编码器-解码器图像特征提取网络,下部结构代表语义分割网络,上部结构代表目标检测网络,上述各部分网络结构和功能说明如下:
所述编码器-解码器图像特征提取网络,由编码器网络与解码器网络组成。其中,编码器网络的构建方式如下:采用残差神经网络ResNet50的后四个Block生成的四个特征图,分别记为E1,E2,E3,E4;另外,在ResNet50后增加额外的三个残差层,其会生成三个特征图,分别记为E5,E6,E7,从特征图E1到特征图E7的特征图尺寸是逐层减半的。本实施例中,记t时刻采集的RGB图像为It,利用图像缩放技术,将图像尺寸调整为3×300×300,其中,3为RGB色彩通道,300为高度H,300为宽度W,输入编码器网络,编码器网络输出t时刻对应的特征图E7,大小为2048×2×2的矩阵。解码器网络的构建方式如下:通过采用Skip-Connection网络逐层映射编码器网络特征图来生成对应的解码器网络特征图,所述Skip-Connection网络,包括依次层叠的上采样层,卷积层和SE模块。J.Hu等人在CVPR2018提出的SE模块能够获取每个特征通道的重要性,并提升有用特征的权重。例如,采用E7和E6生成D6,首先将E7双线性上采样到E6的尺寸,然后将其与E6进行级联,并将级联后的特征通过包括SE模块在内的一系列层叠的卷积层得到D6。通过如上所述的方法,可以通过Skip-Connection网络逐层映射编码器网络特征图生成对应的包含丰富语义信息的解码器网络特征图,依次记为D6,D5,D4,D3,D2,Aux,对D6使用全局平均池化得到D7。为了进一步提升语义特征的丰富性,对Aux特征图通过AC模块,生成最后一层解码器特征图D1。所述AC模块由五层并行分支组成:一层1×1的卷积层,三层并行的膨胀卷积,其膨胀率分别为3、7、11,一层全局平均池化层,将五层并行分支的输出进行级联,用1×1的卷积去降低维度得到输出。从特征图D7到特征图D1的特征图尺寸是逐层增倍的。解码器网络的输入为t时刻编码器网络的输出特征图E7,输出为t时刻对应的特征图D1,大小为256×75×75的矩阵,即解码器特征图的尺寸分别为D7:256×1×1、D6:256×3×3、D5:256×5×5、D4:256×10×10、D3:256×19×19、D2:256×38×38、D1:256×75×75;
所述语义分割网络的构建方式如下:令要分割的种类数量为Ns=18,对解码器网络产生的前5的特征图D7~D2进行1×1的卷积,将其通道数降至64。将降维后的D7、D6、D5、D4、D3、D2与Aux、D1分别通过Self-Attention模块,再分别将其上采样并级联,得到推理特征图I,其大小为896×75×75。所述Self-Attention模块的构建方式如下:输入特征图P经过Softmax函数进行特征在时空上的重新分配得到注意力图P1,将注意力图P1与输入特征图P进行矩阵点乘得到注意力特征P2,将注意力特征P2与输入特征图P1进行矩阵相加得到P3,再将P3进行上采样得到输出P4。将推理特征图I经过依次层叠的第一层卷积层,dropout层和第二层卷积层,其中第二层卷积层输出特征通道数设置为Ns+1(额外的一个为背景类)。本实施例中所采用的BDD数据集中语义分割分为18类,即Ns=18,推理特征图I通过的第一层卷积层通道数设置为512,第二层卷积层输出特征通道数设置为19。
所述目标检测网络的构建方式如下:将用于语义分割的推理特征图I分别进行平均池化,得到与D1~D7相匹配的7个特征。将这7个特征与对应的解码器特征图D1~D7分别通过Cross-Attention模块,得到用于目标检测的7个特征图。所述Cross-Attention模块的构建方式如下:将输入推理特征图I进行平均池化得到I1,将I1和解码器特征图De分别通过全连接网络FC,得到I2和De1,将I2和De1进行矩阵点乘并通过Softmax进行特征在时空上的重新分配,这个特征图将与输入解码其特征图De经过一系列矩阵点乘和矩阵相加的操作,最终得到用于目标检测的特征图。令要检测的目标类别数量为Nd,则对用于目标检测的7个特征图分别用两个3×3的卷积核进行卷积,分别得到对应的分类和回归结果,其中分类结果数Nd+1(额外的一个为背景类),回归结果为{xt,yt,wt,ht},其中xt,yt,为t时刻待检测物体包围框的中心点的横、纵坐标,wt,ht为t时刻包围框的宽度,最后进行NMS算法(非极大值抑制算法)将重叠值大于阈值
Figure BDA0002560615420000071
的多余包围框过滤,得到最后的预测框,本实施例中所采用的BDD数据集中目标检测分为8类,即Nd=8,NMS(非极大值抑制算法)抑制重叠框的阈值
Figure BDA0002560615420000072
设为0.45;
2.根据交通场景特点,设置用于目标检测的多尺度目标候选框A;
其中A的设置方法如下:令Sk为每一层解码器特征图所对应的基本比例,m为解码器特征图的数量,k为特征图的索引,定义Sk为:
Figure BDA0002560615420000073
其中Ssmallest,Smin,Smax是自定义参数,定义Ssmallest=0.04,Smin=0.1,Smax=0.95,m=7。
在解码器网络的前五层特征图(即D7,D6,D5,D4,D3)的每一个定位点,设置了7个不同尺度的候选框,其宽高比分别为
Figure BDA0002560615420000074
在解码器网络的后两层特征图(即D2,D1)的每一个定位点,设置了5个不同尺度的候选框,其宽高比分别为
Figure BDA0002560615420000075
针对所有的解码器特征图,在宽高比为1的候选框上额外增加一个新的候选框,其基本比例为
Figure BDA0002560615420000076
每一个目标候选框的计算方式如下:
Figure BDA0002560615420000077
其中w是候选框的宽度,h是候选框的高度。
在本实施例中,针对3×300×300的输入图像,将产生的多尺度候选框数量为:75×75×6+38×38×6+19×19×8+19×19×8+10×10×8+5×5×8+3×3×8+1×1×8=46382,解码器网络特征图对应各基本比例依次为:S1=0.04、S2=0.1、S3=0.27、S4=0.44、S5=0.61、S6=0.78、S7=0.95。对于解码器网络各特征图的每个定位点,其目标候选框的宽高分别为:
D1:{12×12,19×19,17×8,8×17,21×7,7×21}、
D2:{30×30,49×49,42×21,21×42,52×17,17×52}、
D3:{81×81,103×103,115×57,57×115,140×47,47×140,162×41,41×162}、
D4:{132×132,155×155,187×93,93×187,229×76,76×229,264×66,66×264}、
D5:{183×183,207×207,259×129,129×259,317×106,106×317,366×92,92×366}、
D6:{234×234,258×258,331×165,165×331,405×135,135×405,468×117,117×468}、
D7:{195×195,309×309,403×202,202×403,494×165,165×494,570×143,143×570}。
则根据上述方法可以对不同的解码器特征图生成不同尺度的密集的目标候选框A,有利于检测不同尺度的物体。
3.设置训练联合目标检测和语义分割网络所需的损失函数Loss:
Loss=ωdLdetsLseg (3)
其中ωd和ωs分别为目标检测和语义分割所占比参数,将其设置为ωd=1,ωs=2。Ldet为目标检测的损失,Ldet的定义如下:
Figure BDA0002560615420000081
其中N为目标候选框的正样本数量,c为分类的置信度预测值,l目标候选框所对应的边界框的预测值,g为标签的位置参数,权重系数
Figure BDA0002560615420000082
设置为1,Lcls为分类的损失,Lreg为回归的损失。
Lseg为语义分割的损失,Lseg的定义如下:
Lseg=Linfer_fm+LAux (5)
其中Linfer_fm为推理特征图I与标签的交叉熵,LAux为特征图Aux双线性上采样到标签尺寸后与标签的交叉熵。其计算方法类似,以Linfer_fm为例,其计算公式为:
Figure BDA0002560615420000091
其中N语义分割类别数,即Ns+1(额外的一个为背景类),本实施例中为19,p(x)和q(x)分别表示训练集中第x点的标签和预测结果。
4.对联合目标检测和语义分割网络进行监督训练;
设监督训练的轮次为K,模型评估的频次为K1,模型训练的学习率为L,本实施例中参数K设置为320,K1设置为10,L设置为0.001,且在K为80/160/240时分别降低为原来的一半;
将训练集输入联合目标检测和语义分割网络,通过损失函数Loss进行监督训练,并每隔10轮通过验证集对该轮模型的精度进行评估,之后将精度最高的联合目标检测和语义分割网络作为训练好的联合目标检测和语义分割网络Q*并且保存权重参数。
5.对训练完毕的联合目标检测和语义分割网络Q*进行目标检测和语义分割,输出结果;
在本实施例中,t时刻采集的RGB图像为It,将图像通过图像缩放技术调成尺寸为3×300×300,并将其作为神经网络Q*的输入,则目标检测网络将得到待检测物体的包围框bt和对应类别c,若bt中待检测物体的置信度高于识别阈值0.5,则物体成功检测并被分配类别,最后将检测得到的包围框运行NMS(非极大值抑制)算法,将重叠值大于阈值0.45的多余包围框过滤,得到最后的目标检测结果,语义分割网络将得到输入图片的每一个像素点的分类类别,并将其双线性上采样到It的尺寸得到最后的语义分割结果。
以下结合仿真实验,对本发明的技术效果作说明:
1.仿真条件和内容:
本发明在Berkeley DeepDrive数据集上进行了仿真实验:
BDD数据集是一个从真实世界中采集的庞大的自动驾驶数据集,其包含了多种路面状况,天气情况,时间情况等等,这些特点有利于创建鲁棒的感知算法。BDD数据集对于目标检测提供了100k张图像,对于语义分割提供了10k张图像。对检测数据集和分割数据集求得交集(2964张图像),则BDD-交集数据集同时具有两个任务的注释。通过随机采样的方法将数据集分为训练集(2500张图像)和测试集(464张图像)。每个类别的实例数目如下表:
表1 数据集中每个类别的实例数
Figure BDA0002560615420000101
通过对采样出数据集实例数目的分析,类别“train”的分布过于稀疏,因此在实际实验的时候将忽略该类。对于目标检测来说,类别共有7类;对于语义分割来说,采用其中19类进行语义分割。
利用本发明和现有的BlitzNet、DspNet、PairNet、TripleNet算法在BDD-交集数据集上进行了联合目标检测和语义分割的实验仿真,所有代码均采用python3.6.9开发平台,pytorch深度学习框架。所有实验运行在单个NVIDIA Geforce RTX 2080Ti GPU上。在实验中,均采用SGD作为网络优化器,单批次图像数量为5,且所有图像均被缩放至300×300。
2.本发明提出的方法与三种现有的联合目标检测和语义分割方法进行了对比,仿真结果分析如下:
表2 联合目标检测和语义分割方法性能对比
Figure BDA0002560615420000111
表2中,mAP为通用的目标检测评价指标,mIoU为通用的语义分割评价指标。从表2中可知,本发明在BDD-交集数据集上相对于现有技术,在目标检测和语义分割上精度均有提升,达到了交通场景联合目标检测和语义分割领域的最高精度。
本发明在交通场景中联合目标检测和语义分割的精度相比现有方法均有较大精度提升,本发明提出的网络将SE模块纳入Skip-Connection机制中形成语义信息丰富的编码器-解码器特征图。交通场景是复杂且高动态的,其目标长宽比差别通常较大,例如:火车长宽比通常较大,而行人长宽比通常较小,因此设置了一种新的候选框初始化机制生成密集且多尺度的目标候选框,这对提高交通场景中目标检测的精度非常重要。采用空洞卷积扩大感受野获取了全局信息,对分割分支采用Self-Attention模块优化了语义分割的特征分布,并在语义分割和目标检测之间采用了Cross-Attention模块使细粒度的语义分割任务能在一定程度上引导目标检测任务中特征的分布,同时,将目标检测和语义分割任务之间互惠互利,有效提高了交通场景中联合目标检测和语义分割结果的精度。仿真结果表明,本发明有效提高了交通场景中联合目标检测和语义分割方法的精度。

Claims (3)

1.基于深度学习的交通场景联合目标检测和语义分割方法,其特征在于,包括以下步骤:
步骤一,构建联合目标检测和语义分割神经网络Q;联合目标检测和语义分割神经网络Q由三部分组成,分别是编码器-解码器图像特征提取网络,语义分割网络和目标检测网络,所述编码器-解码器图像特征提取网络连接目标检测网络和语义分割网络;
步骤二,根据交通场景特点,设置用于目标检测的多尺度目标候选框A;令Sk为每一层解码器特征图所对应的基本比例,m为解码器特征图的数量,k为特征图的索引,定义Sk为:
Figure FDA0003569208690000011
其中Ssmallest,Smin,Smax是自定义参数,定义Ssmallest=0.04,Smin=0.1,Smax=0.95,m=7;
在解码器网络的前五层特征图的每一个锚点,设置了7个不同尺度的候选框,其宽高比分别为
Figure FDA0003569208690000012
在解码器网络的后两层特征图的每一个定位点,设置了5个不同尺度的候选框,其宽高比分别为
Figure FDA0003569208690000013
针对所有的解码器特征图,在宽高比为1的候选框上额外增加一个新的候选框,其基本比例为
Figure FDA0003569208690000014
每一个目标候选框的计算方式如下:
Figure FDA0003569208690000015
其中w是候选框的宽度,h是候选框的高度,则根据上述方法对不同的解码器特征图生成不同尺度的密集的目标候选框A;
步骤三,设置训练联合目标检测和语义分割网络所需的损失函数Loss;损失函数Loss设置为:
Loss=ωdLdetsLseg
其中ωd和ωs分别为目标检测和语义分割所占比参数,将其设置为ωd=1,ωs=2;Ldet为目标检测的损失,Ldet的定义如下:
Figure FDA0003569208690000021
其中N为目标候选框的正样本数量,c为分类的置信度预测值,l目标候选框所对应的边界框的预测值,g为标签的位置参数,权重系数
Figure FDA0003569208690000023
设置为1,Lcls为分类的损失,Lreg为回归的损失;
Lseg为语义分割的损失,Lseg的定义如下:
Lseg=Linfer_fm+LAux
其中Linfer_fm为推理特征图I与标签的交叉熵,LAux为特征图Aux双线性上采样到标签尺寸后与标签的交叉熵;Linfer_fm的计算公式为:
Figure FDA0003569208690000022
其中N为语义分割类别数,p(x)和q(x)分别表示训练集中第x点的标签和预测结果;
步骤四,对联合目标检测和语义分割网络进行监督训练;
步骤五,利用步骤四训练完毕的联合目标检测和语义分割网络进行目标检测和语义分割,输出结果。
2.根据权利要求1所述的基于深度学习的交通场景联合目标检测和语义分割方法,其特征在于,所述步骤四中,设监督训练的轮次为K,模型评估的频次为K1,模型训练的学习率为L;将训练集输入联合目标检测和语义分割网络,通过损失函数Loss进行监督训练,并每隔K1轮通过验证集对该轮模型的精度进行评估,之后将精度最高的联合目标检测和语义分割网络作为训练好的联合目标检测和语义分割网络Q*并且保存权重参数。
3.根据权利要求1所述的基于深度学习的交通场景联合目标检测和语义分割方法,其特征在于,所述步骤五中,令t时刻采集的RGB图像为It,将图像通过图像缩放技术调成尺寸为3×H×W,并将其作为神经网络Q*的输入,则目标检测网络将得到待检测物体的包围框bt和对应类别c,若bt中待检测物体的置信度高于识别阈值ψ,则物体成功检测并被分配类别,最后将检测得到的包围框运行NMS算法,将重叠值大于阈值
Figure FDA0003569208690000031
的多余包围框过滤,得到最后的目标检测结果,语义分割网络将得到输入图片的每一个像素点的分类类别,并将其双线性上采样到It的尺寸得到最后的语义分割结果。
CN202010604812.2A 2020-06-29 2020-06-29 基于深度学习的交通场景联合目标检测和语义分割方法 Active CN111898439B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010604812.2A CN111898439B (zh) 2020-06-29 2020-06-29 基于深度学习的交通场景联合目标检测和语义分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010604812.2A CN111898439B (zh) 2020-06-29 2020-06-29 基于深度学习的交通场景联合目标检测和语义分割方法

Publications (2)

Publication Number Publication Date
CN111898439A CN111898439A (zh) 2020-11-06
CN111898439B true CN111898439B (zh) 2022-06-07

Family

ID=73207206

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010604812.2A Active CN111898439B (zh) 2020-06-29 2020-06-29 基于深度学习的交通场景联合目标检测和语义分割方法

Country Status (1)

Country Link
CN (1) CN111898439B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112541532B (zh) * 2020-12-07 2024-03-01 长沙理工大学 基于密集连接结构的目标检测方法
CN112818999B (zh) * 2021-02-10 2022-10-28 桂林电子科技大学 一种基于卷积神经网络的复杂场景3d点云语义分割方法
CN112700444B (zh) * 2021-02-19 2023-06-23 中国铁道科学研究院集团有限公司铁道建筑研究所 基于自注意力与中心点回归模型的桥梁螺栓检测方法
CN112966697B (zh) * 2021-03-17 2022-03-11 西安电子科技大学广州研究院 基于场景语义的目标检测方法、装置、设备及存储介质
CN113076938B (zh) * 2021-05-06 2023-07-25 广西师范大学 一种结合嵌入式硬件信息的深度学习目标检测方法
CN113191367B (zh) * 2021-05-25 2022-07-29 华东师范大学 基于密集尺度动态网络的语义分割方法
CN113435578B (zh) * 2021-06-25 2022-04-05 重庆邮电大学 基于互注意力的特征图编码方法、装置及电子设备
CN113569853B (zh) * 2021-06-25 2024-04-09 北京机械设备研究所 一种基于多任务学习的特征点提取与语义分割方法
CN113378787B (zh) * 2021-07-07 2022-05-24 山东建筑大学 一种基于多特征视觉的智能交通电子提示装置检测方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109145713A (zh) * 2018-07-02 2019-01-04 南京师范大学 一种结合目标检测的小目标语义分割方法
CN111275688A (zh) * 2020-01-19 2020-06-12 合肥工业大学 基于注意力机制的上下文特征融合筛选的小目标检测方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109690554B (zh) * 2016-07-21 2023-12-05 西门子保健有限责任公司 用于基于人工智能的医学图像分割的方法和系统
CN108985250A (zh) * 2018-07-27 2018-12-11 大连理工大学 一种基于多任务网络的交通场景解析方法
CN109543754B (zh) * 2018-11-23 2023-04-28 中山大学 基于端对端深度学习的目标检测与语义分割的并行方法
CN110633632A (zh) * 2019-08-06 2019-12-31 厦门大学 一种基于循环指导的弱监督联合目标检测和语义分割方法
CN110941995A (zh) * 2019-11-01 2020-03-31 中山大学 基于轻量级网络的实时目标检测与语义分割的多任务学习方法
CN111127493A (zh) * 2019-11-12 2020-05-08 中国矿业大学 基于注意力多尺度特征融合的遥感图像语义分割方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109145713A (zh) * 2018-07-02 2019-01-04 南京师范大学 一种结合目标检测的小目标语义分割方法
CN111275688A (zh) * 2020-01-19 2020-06-12 合肥工业大学 基于注意力机制的上下文特征融合筛选的小目标检测方法

Also Published As

Publication number Publication date
CN111898439A (zh) 2020-11-06

Similar Documents

Publication Publication Date Title
CN111898439B (zh) 基于深度学习的交通场景联合目标检测和语义分割方法
CN111882002B (zh) 一种基于msf-am的低照度目标检测方法
CN111126202B (zh) 基于空洞特征金字塔网络的光学遥感图像目标检测方法
CN112396607B (zh) 一种可变形卷积融合增强的街景图像语义分割方法
CN113469094A (zh) 一种基于多模态遥感数据深度融合的地表覆盖分类方法
CN111814623A (zh) 一种基于深度神经网络的车辆车道偏离视觉检测方法
CN110853057B (zh) 基于全局和多尺度全卷积网络的航拍图像分割方法
CN112381097A (zh) 一种基于深度学习的场景语义分割方法
CN109635662B (zh) 一种基于卷积神经网络的道路场景语义分割方法
CN113052210A (zh) 一种基于卷积神经网络的快速低光照目标检测方法
CN114821342B (zh) 一种遥感影像道路提取方法及系统
CN113034506B (zh) 遥感图像语义分割方法、装置、计算机设备和存储介质
CN115620010A (zh) 一种rgb-t双模态特征融合的语义分割方法
CN112966747A (zh) 一种基于无锚框检测网络改进的车辆检测方法
CN112990065A (zh) 一种基于优化的YOLOv5模型的车辆分类检测方法
CN114842216A (zh) 一种基于小波变换的室内rgb-d图像语义分割方法
CN115346071A (zh) 高置信局部特征与全局特征学习的图片分类方法及系统
CN115565043A (zh) 结合多表征特征以及目标预测法进行目标检测的方法
CN116469100A (zh) 一种基于Transformer的双波段图像语义分割方法
CN109508639B (zh) 基于多尺度带孔卷积神经网络的道路场景语义分割方法
CN115908806A (zh) 基于轻量级多尺度特征增强网络的小样本图像分割方法
CN116630932A (zh) 一种基于改进yolov5的道路遮挡目标检测方法
CN113066089B (zh) 一种基于注意力引导机制的实时图像语义分割方法
CN113963232A (zh) 一种基于注意力学习的网络图数据提取方法
CN115937693A (zh) 一种基于遥感图像的道路识别方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant