CN115457509A - 基于改进时空图卷积的交通标志图像分割算法 - Google Patents

基于改进时空图卷积的交通标志图像分割算法 Download PDF

Info

Publication number
CN115457509A
CN115457509A CN202211134621.XA CN202211134621A CN115457509A CN 115457509 A CN115457509 A CN 115457509A CN 202211134621 A CN202211134621 A CN 202211134621A CN 115457509 A CN115457509 A CN 115457509A
Authority
CN
China
Prior art keywords
convolution
image
module
feature
traffic sign
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211134621.XA
Other languages
English (en)
Inventor
邹倩颖
肖�琳
许广
王海融
韩竺君
罗长坤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Geely University
Original Assignee
Beijing Geely University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Geely University filed Critical Beijing Geely University
Priority to CN202211134621.XA priority Critical patent/CN115457509A/zh
Publication of CN115457509A publication Critical patent/CN115457509A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/58Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
    • G06V20/582Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads of traffic signs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开一种基于改进时空图卷积的交通标志图像分割算法,涉及交通标志图像分割技术领域包括如下步骤,对交通标志图像数据集进行预处理,实现图像增强;将增强后的图像进行基于八度卷积的RGB显著性检测网络,获取初步特征图;将初步特征图送入时空图卷积网络,获取输出特征,将输出特征与初始特征拼接,使用SETR算法实现特征匹配;将匹配后的特征图输入八度卷积残差模块进行细节化处理及边缘优化,输出分割后图像;本发明采用八度卷积替换RGB图像显著性检测模块和八度卷积残差模块中的普通卷积极大程度上降低复杂环境带来的运算负担,实现轻量级网络架构设计,提高预测速度,大幅提升运算效率,最后发明还提升了交通标志图片边缘优化效果。

Description

基于改进时空图卷积的交通标志图像分割算法
技术领域
本发明涉及交通标志图像分割技术领域,尤其涉及一种基于改进时空图卷积的交通标志图像分割算法。
背景技术
交通标志识别是无人驾驶系统中对道路实时导航非常重要的环节,其识别正确率、识别速度将直接影响无人驾驶系统的安全性。然而交通标志识别在复杂环境下还存在进一步提升空间,如极端恶劣天气识别正确率,车辆行驶过程识别速度等问题都亟待解决。
邓翔宇等提出一种结合BP神经网络的交通标志分类的形状识别算法,算法利用颜色信息实现交通标志区域分割,但算法对圆形和正八边形存在一定误识率,且易受恶劣天气、道路拥堵等影响导致算法识别率低。徐兢成等提出一种在Alex模型基础上改进的交通标志识别方法,引入批量归一化方法,并加入全局平均池化层以减少网络深度,但算法在现实交通环境下实现多种复杂交通标志的识别处理还需完善。针对复杂环境,何锐波等提出一种改进深度学习的道路交通标志识别算法,结合SENet模型与ResNet模型,提取各自优点,使用较小网络层数目以达到较高识别水平,但算法人工干预较多,神经网络参数调整和输入较多。Dewi等采用SPP概念改进Yolo V3、Resnet 50、Densenet和Tiny Yolo V3骨干网络,用于构建交通标志特征提取,但算法计算复杂度高,实现过程繁琐。Cao等提出一种改进LeNet-5卷积神经网络模型的智能车辆交通标志检测与识别算法用以解决传统交通标志识别易受环境因素影响等问题,但基于深度学习的交通标志识别方法计算量大、实时性差。Yazdan等提出一种基于SVM分类器的形状分类算法来提高分割准确率,通过符号几何在分类结果中过滤错误像素,但耗时较长同样无法满足车辆在行驶过程中实时性要求。狄岚等等基于可能性聚类算法与卷积神经网络,提出一种道路交通标识识别算法,主要为解决图像中噪声和复杂背景对图片识别所产生的高耗时问题,但该算法在交通标识识别存在一定误差。揭伟等提出基于多特征融合的交通标识实时分类识别方法,主要针对识别过程中因样本类别差异带来实时性较差的影响。Mannan等为解决交通标识对应像素与背景对象完全分离问题,提出一种完全数据驱动分割技术,但该方法以增加计算成本为代价。Handoko在实现交通标志颜色和形状分割基础上,虽然降低了算法运行成本,但在极端恶劣天气下存在一定误差。James等提出基于胶囊神经网络来代替常用CNN和RNN,但仅在印度交通数据集中评估准确率有一定程度提高,地域性强不具备普适性。
发明内容
针对上述问题,本发明提出一种基于改进时空图卷积的交通标志图像分割算法。
一种基于改进时空图卷积的交通标志图像分割算法,包括如下步骤:
对交通标志图像数据集进行预处理,实现图像增强;
将增强后的图像进行基于八度卷积的RGB显著性检测网络,获取初步特征图;
将所述初步特征图送入时空部件图卷积网络,对所述初步特征图进行时空部件图构建后通过时空图卷积网络得到特征一,对所述初步特征图进行空间部件图构建后通过空间图卷积网络得到特征二,使用SETR算法实现特征一和特征二的特征匹配;将匹配后的特征图输入八度卷积残差模块进行细节化处理及边缘优化,输出分割后图像。
具体地,所述基于八度卷积的RGB显著性检测网络包括八度卷积模块,特征增强模块,金字塔池化模块,通道注意力模块,经八度卷积所提取特征图被送入金字塔池化模块中,在金字塔池化模块化中将特征图经过不同尺度平均池化操作得到多语义模块,最后通过3×3卷积层进一步提取特征,输出特征记为
Figure BDA0003851345940000021
Figure BDA0003851345940000022
经过通道注意力模块的输出记为
Figure BDA0003851345940000023
具体地,所述时空部件图构建具体过程包括:
模型根据输入的初步特征图构建时空部件图GST=(V,E),其次,基于图GST关系确定邻近矩阵A的权重,
Figure BDA0003851345940000024
Figure BDA0003851345940000025
其中,I为单位矩阵,Dü是邻近矩阵的权重总和,将邻近矩阵和特征矩阵H(0)表示为图卷积网络输入,则图卷积网络输出更新为H(l+1)
Figure BDA0003851345940000026
其中,l=0,1,...,l-1;Θ是需要训练特定层的权重矩阵,δ为非线性激活函数ReLU;
然后,使用两层图卷积网络输出矩阵
Figure BDA0003851345940000027
其中
Figure BDA0003851345940000028
利用最大池化聚合时空部件特征,
Figure BDA0003851345940000029
所述空间部件特征图构建包括:
重新构建一个无向空间部件图GS,GS与图GST相似,不同之处体现为图像数量,GS图像数量为1,GST图像数量为K;采用两层图卷积网络获得空间部件特征
Figure BDA00038513459400000210
具体地,所述SETR模块中的SETR算法包括:
将二维特征图像H×W转换为一维序列,Transformer接受嵌入Z∈RL×C的一维序列作为输入,其中,L为序列长度,C为隐藏通道大小;用以实现输入图像x∈RH×W×3转换为Z进行图像序列化;
利用线性映射f将每个序列化的图像块patch进一步映射到一个潜在的c维嵌入空间:p→e∈Rc,其中,p为图像块,e为图像块组成序列,e有C个序列,e是一维块嵌入的序列图像;
对图像块patch空间信息进行编码,每个位置i学习一个特定的嵌入p并将其添加到ei中,形成最终的序列输入E=e1+p1,e2+p2,…,eL+pL,其中,L为输入序列;使用该方式,空间信息得以保留,对输入序列进获取(query,key,value),
query=Zl-1WQ
key=Zl-1WK
value=Zl-1WV
其中,WQ,WK,WV∈RC×d为三个线性投影层可学习参数,d为(query,key,value)的维数;
Transformer编码器由多层自注意力机制和多层感知器块组成,
自注意力机制表述为,
Figure BDA0003851345940000031
其中,d通常设置为C/m,Zl-1∈Rc×L
MSA是一个具有m个独立SA操作的扩展,将其串联输出投影,
MSA(Zl-1)=[SA1(Zl-1);SA2(Zl-1);...;SAm(Zl-1)]WO
其中,WO∈Rmd×C;MSA输出通过一个剩余跳跃MLP块进行转换,输出
Zl=MSA(Zl-1)+MLP(MSA(Zl-1))∈RL×C
最后,SETR算法中设计三个解码器用以执行像素级图像分割。
具体地,所述三个解码器为朴素上采样Naive、渐进式上采样PUP、特征多层次聚合这三解码器。
具体地,所述对交通标志图像数据集进行预处理采用IPT预处理模块,IPT预处理模块是由多个处理不同任务头尾结构及单一共享体组成的一个用于端到端图像处理预训练模型,框架为多头结构、编码器、解码器和多尾结构,包括如下步骤:
多头结构将图片处理为特征图,
fH=Hi(x)
fH∈RC×H×W
其中,Hi(i={1,...,Nt})表示第i个任务头部,Nt表示任务数量,即输入数据集的大小;
多头结构生成具有C个通道以及相同宽高的特征图fH∈RC×H×W,通过特征图进行切割和拉伸操作,按照P×P大小将特征图切割成N块,将每一块特征展平为维度为P2×C向量,得到切割后特征,
Figure BDA0003851345940000041
其中,
Figure BDA0003851345940000042
为经过切割拉平的特征向量;
将拉平的特征向量送入Transformer进行处理得到,
Figure BDA0003851345940000043
其中,
Figure BDA0003851345940000044
为经过Transformer处理后得到的相同维度输出特征;
将特征
Figure BDA0003851345940000045
送入多尾结构进行维度变换,解码为增强后的图像。
具体地,所述八度卷积模块中,包括如下步骤:
将特征图分类并进行卷积操作,
YH→H=f1(Xh)
YL→L=f2(Xl)
其中,Xh表示高频分量,Xl表示低频分量,f(·)表示卷积操作;低频分量到高频输出过程为先对低频分量Xl进行卷积和上采样操作,将其分辨率恢复到与高频分量一致,
YL→H=upsample(f3(Xl))
高频分量到低频输出过程则是对Xh进行降采样操作和卷积,
YH→L=f4(pool(Xh))
其中,pool(·)表示降采样操作,upsample(·)表示上采样操作;
将卷积层f3的输入通道数等于低频分量的通道数,输出通道数等于高频分量的通道数,卷积层f4的输入输出通道数量与f3的相反,以保持通道数的统一和高低频之间的特征叠加,
Yl=YL→L+YH→L
Yh=YH→H+YL→H
其中,m代表H→H、L→H、H→L、L→L)。
具体地,所述八度卷积残差模块,将时空部件图卷积网络输出特征,记为Mi,c(x)送入3×3卷积层,分别进入主干分支和注意力机制分支;
进入注意力机制分支的特征经过通道注意力机制模块,构建特征通道的重要程度,增强或抑制不同通道生成权重,识别通道特征之间的相互依赖性并找到有用特征,
Mc(F)=σ(MLP(AvgPool(F))+MLP(MaxPool(F))
其中,σ表示sigmoid激活函数,MLP表示多层感知机,Mc代表进入通道注意力机制模块的特征;
将通道注意力机制模块处理的特征F与经过八度卷积特征相乘,得到输出特征,记为F';
F'进入空间注意力机制模块,将对感兴趣区域进行精细化处理,
Figure BDA0003851345940000051
其中,σ表示Sigmoid函数,f7×7表示滤波器大小为7×7的卷积运算;
与F'相应元素进行相乘,获取CBAM分支最终输出特征Ci,c(x);
主干分支保留原始特征Mi,c(x),与CBAM分支所得到的输出Ci,c(x)相加得到残差注意力模块的最终输出Hi,c(x),
Hi+c(x)=Ci+c(x)+Mi+c(x)
其中,i代表空间位置,c代表特征通道的索引。
本发明提出基于改进时空图卷积网络的交通标志图像分割算法,用以提升多场景极端恶劣天气环境下交通标识图像分割运算速度与分割准确率。在具体实施方式中三个公开交通数据集上进行实验验证,显示本发明的有益效果如下:
1)在提高查准率和运算效率方面,八度卷积替换普通卷积的RGB图像显著性检测模块和八度卷积残差模块极大程度上降低复杂环境带来的运算负担,实现轻量级网络架构设计,提高预测速度。
2)在时空部件图卷积网络特征提取方面,时空部件图卷积在交通中的应用最初提出于交通流预测,研究跨域运用在交通标识识别方面,并将原算法中普通的全卷积模块替换为SETR算法,大幅提升运算效率。
3)在改进残差模块中将传统的普通卷积替换为八度卷积以提升交通标志图片边缘优化效果。
附图说明
图1为本发明的算法框架图;
图2为本发明的八度卷积模块图;
图3为本发明的SETR算法步骤图;
图4为本发明具体实施方式中相关算法在图像处理效果的比较图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面将在已知的本领域技术人员公知的基础上对本发明的各个步骤进行详尽的说明。
交通标志图像分割常因恶劣天气、光照等方面因素导致分割困难。环境因素为交通标志采集工作带来较大负面影响,但交通标志为结构颜色特征较显著图像,故可直接将RGB图像作为研究对象。在极端情况下,准确检测出显著目标会增加运算负担,降低运算效率。本发明使用八度卷积代替原算法中普通卷积模块,极大程度上降低复杂环境带来的运算负担,实现轻量级网络架构设计。
本发明的具体实施方式具体提供一种基于改进时空图卷积的交通标志图像分割算法,如图1所示,包括如下步骤:
S1.对交通标志图像数据集进行预处理,实现图像增强;预处理方式采用IPT预处理模块,IPT预处理模块是由多个处理不同任务头尾结构及单一共享体组成的一个用于端到端图像处理预训练模型,框架为多头结构、编码器、解码器和多尾结构,包括如下步骤:
S101.多头结构将图片处理为特征图,
fH=Hi(x)
fH∈RC×H×W
其中,Hi(i={1,...,Nt})表示第i个任务头部,Nt表示任务数量,即输入数据集的大小;
S102.多头结构生成具有C个通道以及相同宽高的特征图fH∈RC×H×W,通过特征图进行切割和拉伸操作,按照P×P大小将特征图切割成N块,将每一块特征展平为维度为P2×C向量,得到切割后特征,
Figure BDA0003851345940000061
其中,
Figure BDA0003851345940000062
为经过切割拉平的特征向量;
S103.将拉平的特征向量送入Transformer进行处理得到,
Figure BDA0003851345940000071
其中,
Figure BDA0003851345940000072
为经过Transformer处理后得到的相同维度输出特征;
S104.将特征
Figure BDA0003851345940000073
送入多尾结构进行维度变换,解码为增强后的图像。
S2.将增强后的图像进行基于八度卷积的RGB显著性检测网络,获取初步特征图;如图2所示,所述基于八度卷积的RGB显著性检测网络包括八度卷积模块,FEM,金字塔池化模块,通道注意力模块,经八度卷积所提取特征图被送入金字塔池化模块中,在金字塔池化模块化中将特征图经过不同尺度平均池化(分别为1×1、2×2、4×4、8×8卷积层)操作得到多语义模块,最后通过3×3卷积层进一步提取特征,输出特征记为
Figure BDA0003851345940000074
Figure BDA0003851345940000075
经过通道注意力模块的输出记为
Figure BDA0003851345940000076
Figure BDA0003851345940000077
将作为CAM(channel attention module,通道注意力模块)模块输入,经过自适应层,由两个3×3卷积操作组成,以扩大特征的感受野。接着,与解码器Dn的输出特征进行拼接得到初步融合特征
Figure BDA0003851345940000078
利用全局平均池化操作生成一个通道特征向量。经过全连接层处理,得到各通道之间的相互依赖特性。利用sigmoid函数权衡每个通道的重要程度W,使其与
Figure BDA0003851345940000079
相乘,得到权重后特征
Figure BDA00038513459400000710
最后通过w1×1卷积层将
Figure BDA00038513459400000711
特征通道数还原为输入特征大小,作为CAM模块的输出,记为
Figure BDA00038513459400000712
所述八度卷积模块中,包括如下步骤:
将特征图分类并进行卷积操作,
YH→H=f1(Xh)
YL→L=f2(Xl)
其中,Xh表示高频分量,Xl表示低频分量,f(·)表示卷积操作;低频分量到高频输出过程为先对低频分量Xl进行卷积和上采样操作,将其分辨率恢复到与高频分量一致,
YL→H=upsample(f3(Xl))
高频分量到低频输出过程则是对Xh进行降采样操作(以2×2为卷积步长进行卷积操作或者平均池化)和卷积,
YH→L=f4(pool(Xh))
其中,pool(·)表示降采样操作,upsample(·)表示上采样操作;
将卷积层f3的输入通道数等于低频分量的通道数,输出通道数等于高频分量的通道数,卷积层f4的输入输出通道数量与f3的相反,以保持通道数的统一和高低频之间的特征叠加,
Yl=YL→L+YH→L
Yh=YH→H+YL→H
其中,m代表H→H、L→H、H→L、L→L)。
S3.将所述初步特征图送入时空部件图卷积网络,对所述初步特征图进行时空部件图构建后通过时空图卷积网络得到特征一,对所述初步特征图进行空间部件图构建后通过空间图卷积网络得到特征二,使用SETR算法实现特征一和特征二的特征匹配;时空部件图卷积在交通中的应用最初提出于交通流预测,是基于部件或节点的结构化图表示模型,该卷积将每个1×1×C密集网格视为图像特征以用于简化和提高运算效率。
具体地,所述时空部件图构建具体过程包括:
特征图
Figure BDA0003851345940000081
中每个1×1×C1密集网格被视为图像特征部件,其中t代表输入图像的序号,K代表正数。为表示时空目标模型,在具有N=h×w个部件节点以及K(即t-K,...,t-1)时序上构建一个无向时空部件图,模型根据输入的特征1构建时空部件图GST=(V,E),
其中,V和E是无向图中节点集和边集,节点集V={vkn|k=t-1,…,t–K;n=1,…,N}包含所有K中节点,F(vkn)为特征向量。边集E包含两类边:第一类为空间边Es={vkivkj|1≤i,j≤N,i≠j},表示每一幅图像特征内节点间的关系,由于图像中的特征会随着时间出现各种变化,因此研究采用完全连接图来描述空间关系;第二类为时序边ET={vkiv(k+1)j},表示相似特征图像节点间的关系,将相似图像特征中具有相同位置的部件或节点连接,可视为一个特定部件随时间而变换的跟踪轨迹。
基于图GST关系确定邻近矩阵A的权重,
Figure BDA0003851345940000082
Figure BDA0003851345940000083
其中,I为单位矩阵,Dü是邻近矩阵的权重总和,将邻近矩阵和特征矩阵H(0)表示为图卷积网络输入,则图卷积网络输出更新为H(l+1)
Figure BDA0003851345940000084
其中,l=0,1,...,l-1;Θ是需要训练特定层的权重矩阵,δ为非线性激活函数ReLU;
然后,使用两层图卷积网络输出矩阵
Figure BDA0003851345940000085
其中
Figure BDA0003851345940000086
利用最大池化聚合时空部件特征,
Figure BDA0003851345940000087
所述空间部件特征图构建包括:
重新构建一个无向空间部件图GS,GS与图GST相似,不同之处体现为图像数量,GS图像数量为1,GST图像数量为K。采用两层图卷积网络获得空间部件特征
Figure BDA0003851345940000091
具体地,如图3所示,所述SETR模块中的SETR算法包括:
将二维图像H×W转换为一维序列,Transformer接受嵌入Z∈RL×C的一维序列作为输入,其中,L为序列长度,C为隐藏通道大小;用以实现输入图像x∈RH×W×3转换为Z进行图像序列化,
利用线性映射f将每个序列化的图像块patch进一步映射到一个潜在的c维嵌入空间:p→e∈Rc,其中,p为图像块,e为图像块组成序列,e有C个序列,e是一维块嵌入的序列图像,
对图像块patch空间信息进行编码,每个位置i学习一个特定的嵌入p并将其添加到ei中,形成最终的序列输入E=e1+p1,e2+p2,…,eL+pL,其中,L为输入序列;使用该方式,空间信息得以保留,对输入序列进获取(query,key,value),
query=Zl-1WQ
key=Zl-1WK
value=Zl-1WV
其中,WQ,WK,WV∈RC×d为三个线性投影层可学习参数,d为(query,key,value)的维数;
Transformer编码器由多层自注意力机制和多层感知器块组成,
自注意力机制表述为,
Figure BDA0003851345940000092
其中,d通常设置为C/m,Zl-1∈Rc×L
MSA是一个具有m个独立SA操作的扩展,将其串联输出投影,
MSA(Zl-1)=[SA1(Zl-1);SA2(Zl-1);...;SAm(Zl-1)]WO
其中,WO∈Rmd×C;MSA输出通过一个剩余跳跃MLP块进行转换,输出
Zl=MSA(Zl-1)+MLP(MSA(Zl-1))∈RL×C
最后,SETR算法中设计三个解码器用以执行像素级图像分割,所述三个解码器为朴素上采样Naive、渐进式上采样PUP、特征多层次聚合这三解码器。
复杂场景下交通标志图像通常可分解为低频信号及高频信号。高频信号表示图像中剧烈变化的丰富细节,相邻区间灰度相差较大。低频信号表示变化平缓的边缘结构,灰度缓慢变化。
在交通标志分割过程中,为提高分割精度及减少计算量,研究采用八度卷积代替时空部件图卷积算法中全卷积模块及残差模块中普通卷积模块。八度卷积可有效提升图像分割准确率,解决卷积计算过程中关于空间冗余问题,实现轻量级网络架构设计。
S4.将匹配后的特征图输入八度卷积残差模块进行细节化处理及边缘优化,输出分割后图像。八度卷积残差模块包括通道注意力机制模块、第一八度卷积模块、空间注意力机制模块、第二八度卷积模块,残差结构是将输入通道注意力机制模块的特征与第二八度卷积模块得到的特征进行相加操作。利用八度卷积替换原有残差模块中的全卷积对其进行优化,在通道注意力机制对特征进行合并,以降低计算量,提升交通标志识别速度。具体包括如下步骤:
S401.所述八度卷积残差模块,将时空部件图卷积网络输出特征,记为Mi,c(x)送入3×3卷积层,分别进入主干分支和注意力机制分支;
S402.进入注意力机制分支的特征经过通道注意力机制模块,构建特征通道的重要程度,增强或抑制不同通道生成权重,识别通道特征之间的相互依赖性并找到有用特征,
Mc(F)=σ(MLP(AvgPool(F))+MLP(MaxPool(F))
其中,σ表示sigmoid激活函数,MLP表示多层感知机,Mc代表进入通道注意力机制模块的特征;
S403.将通道注意力机制模块处理的特征F与经过八度卷积特征相乘,得到输出特征,记为F';
F'进入空间注意力机制模块,将对感兴趣区域进行精细化处理,
Figure BDA0003851345940000101
其中,σ表示Sigmoid函数,f7×7表示滤波器大小为7×7的卷积运算;
S404.与F'相应元素进行相乘,获取CBAM分支最终输出特征Ci,c(x);
S405.主干分支保留原始特征Mi,c(x),与CBAM分支所得到的输出Ci,c(x)相加得到残差注意力模块的最终输出Hi,c(x),
Hi+c(x)=Ci+c(x)+Mi+c(x)
其中,i代表空间位置,c代表特征通道的索引。
本具体实施中中采用的数据集分别来自中国交通标志检测数据集、ChineseTraffic Sign Database及交通标志数据集,如表1所示。
表1交通标志数据集
Figure BDA0003851345940000111
实验使用主频为2.5GHz,NVIDIARTX 3090 12GBGPU,32GB内存服务器,软件开发环境为pycahrm。
本具体实施中采用了定量和定性对比,其中定量实验评估指标研究选用平均绝对误差(MAE),其值越小模型越好,
Figure BDA0003851345940000112
均方根误差(RMSE),表示误差平方期望值,其值越小误差越小,
Figure BDA0003851345940000113
平均绝对百分比误差(MAPE),其值越小预测模型精确度越好,
Figure BDA0003851345940000114
其中,m,n分别代表图片的长和宽,
Figure BDA0003851345940000115
表示算法分割图像,y表示手工分割图像。
最大F值度量(F-measure)是综合评价指标,其值越大实验方法越有效,
Figure BDA0003851345940000116
其中,y2定义为0.3,查全率(recall)为算法检测相关图像数量及所有相关图像数量的百分比;查全率越高,分割相关图像越多,
Figure BDA0003851345940000117
查准率(Precision)[20]是分割相关图像数量和所有图像数量的百分比;查准率越高,分割相关图像越准确,
Figure BDA0003851345940000118
其中,sum(S),sum(A)分别为显著图像和人工分割图像,sum(S,A)是两者对应像素点的值相乘之和。
本具体实施的方法与其他算法在评估指标上对比
表2相关算法在评估指标上比较
Figure BDA0003851345940000121
由表2可知,实验结果基于CCTSDB·400(在“中国交通标志检测数据集”中随机选取400张图像,下同)张图像进行。实验结果表明,本具体实施方式算法的MAE,RMSE,MAPE值均小于其他算法;F-measure指标值与其他算法相比分别提升6.9%,13.8%,9.8%,7.7%;Precision指标值与其他算法相比分别提升16.5%,10.1%,6.1%,5.1%。由于MAE、RMSE、MAPE指标值越小误差越少正确率越高,F-measure指标值越大实验方法越有效、实验结果越清晰,Precision指标值越大对标志图像目标识别越准确,因此实验结果显示本文算法明显优于其他算法。本具体实施方式的算法与其他算法在图像处理效果上对比如图4所示。由如4图可知,与其他算法进行定性比较,研究选择数据集中复杂环境下典型案例进行测试。实验结果表明,选取在强光、大雾、大雨、夜晚、雪景条件下交通标志图像,本发明算法从图像处理效果上明显优于其他算法,尤其是大雨和强光等低对比度条件下,本具体实施方式算法处理的交通标志图片更加清晰。
表3不同大小、不同类型数据集单张图片处理时间上比较
Figure BDA0003851345940000122
由表3可知,实验选取CCTSDB·400、CCTSDB·600、DFG·700及CTSD·800四种不同数据集来测试单张图片在不同算法交通标志识别的处理时间。实验结果表明,本具体实施方式算法与改进LeNet-5模型的检测识别算法相比在四种不同数据集上单张交通标志图像识别时间分别缩短40.6%,38.5%,36.5%,33.2%;与标志分类算法相比分别缩短23.1%,18.8%,24.5%,21.0%;与AlexNet算法相比分别缩短40.3%,39.2%,36.6%,32.7%;与改进深度学习算法相比分别缩短43.9%,39.9%,35.4%,32.8%。由此可见,本具体实施方式算法在不同数据集上单张交通标志图像识别处理时间明显优于其他算法。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种基于改进时空图卷积的交通标志图像分割算法,其特征在于,包括如下步骤:
对交通标志图像数据集进行预处理,实现图像增强;
将增强后的图像进行基于八度卷积的RGB显著性检测网络,获取初步特征图;
将所述初步特征图送入时空部件图卷积网络,对所述初步特征图进行时空部件图构建后通过时空图卷积网络得到特征一,对所述初步特征图进行空间部件图构建后通过空间图卷积网络得到特征二,使用SETR算法实现特征一和特征二的特征匹配;
将匹配后的特征图输入八度卷积残差模块进行细节化处理及边缘优化,输出分割后图像。
2.根据权利要求1所述的一种基于改进时空图卷积的交通标志图像分割算法,其特征在于,所述基于八度卷积的RGB显著性检测网络包括八度卷积模块,特征增强模块,金字塔池化模块,通道注意力模块,经八度卷积所提取特征图被送入金字塔池化模块中,在金字塔池化模块化中将特征图经过不同尺度平均池化操作得到多语义模块,最后通过3×3卷积层进一步提取特征,输出特征记为
Figure FDA0003851345930000011
Figure FDA0003851345930000012
经过通道注意力模块的输出记为
Figure FDA0003851345930000013
3.根据权利要求1所述的一种基于改进时空图卷积的交通标志图像分割算法,其特征在于,所述时空部件图构建具体过程包括:
模型根据输入的初步特征图构建时空部件图GST=(V,E),其次,基于图GST关系确定邻近矩阵A的权重,
Figure FDA0003851345930000014
Figure FDA0003851345930000015
其中,I为单位矩阵,Dü是邻近矩阵的权重总和,将邻近矩阵和特征矩阵H(0)表示为图卷积网络输入,则图卷积网络输出更新为H(l+1)
Figure FDA0003851345930000016
其中,l=0,1,...,l-1;Θ是需要训练特定层的权重矩阵,δ为非线性激活函数ReLU;
然后,使用两层图卷积网络输出矩阵
Figure FDA0003851345930000017
其中
Figure FDA0003851345930000018
利用最大池化聚合时空部件特征,
Figure FDA0003851345930000019
所述空间部件特征图构建包括:
重新构建一个无向空间部件图GS,GS与图GST相似,不同之处体现为图像数量,GS图像数量为1,GST图像数量为K;采用两层图卷积网络获得空间部件特征
Figure FDA00038513459300000110
4.根据权利要求2所述的一种基于改进时空图卷积的交通标志图像分割算法,其特征在于,所述SETR模块中的SETR算法包括:
将二维特征图像H×W转换为一维序列,Transformer接受嵌入Z∈RL×c的一维序列作为输入,其中,L为序列长度,C为隐藏通道大小;用以实现输入图像x∈RH×W×3转换为Z进行图像序列化;
利用线性映射f将每个序列化的图像块patch进一步映射到一个潜在的c维嵌入空间:p→e∈Rc,其中,p为图像块,e为图像块组成序列,e有C个序列,e是一维块嵌入的序列图像;
对图像块patch空间信息进行编码,每个位置i学习一个特定的嵌入p并将其添加到ei中,形成最终的序列输入E=e1+p1,e2+p2,…,eL+pL,其中,L为输入序列;使用该方式,空间信息得以保留,对输入序列进获取(query,key,value),
query=Zl-1WQ
key=Zl-1WK
value=Zl-1WV
其中,WQ,WK,WV∈RC×d为三个线性投影层可学习参数,d为(query,key,value)的维数;
Transformer编码器由多层自注意力机制和多层感知器块组成,
自注意力机制表述为,
Figure FDA0003851345930000021
其中,d通常设置为C/m,Zl-1∈Rc×L
MSA是一个具有m个独立SA操作的扩展,将其串联输出投影,
MSA(Zl-1)=[SA1(Zl-1);SA2(Zl-1);...;SAm(Zl-1)]WO
其中,WO∈Rmd×C;MSA输出通过一个剩余跳跃MLP块进行转换,输出
Zl=MSA(Zl-1)+MLP(MSA(Zl-1))∈RL×C
最后,SETR算法中通过解码器用执行像素级图像分割。
5.根据权利要求4所述的一种基于改进时空图卷积的交通标志图像分割算法,其特征在于,所述解码器采用朴素上采样Naive、渐进式上采样PUP、特征多层次聚合这三种解码器中的一种。
6.根据权利要求1所述的一种基于改进时空图卷积的交通标志图像分割算法,其特征在于,所述对交通标志图像数据集进行预处理采用IPT预处理模块,IPT预处理模块是由多个处理不同任务头尾结构及单一共享体组成的一个用于端到端图像处理预训练模型,框架为多头结构、编码器、解码器和多尾结构,包括如下步骤:
多头结构将图片处理为特征图,
fH=Hi(x)
fH∈RC×H×W
其中,Hi(i={1,...,Nt})表示第i个任务头部,Nt表示任务数量,即输入数据集的大小;
多头结构生成具有C个通道以及相同宽高的特征图fH∈RC×H×W,通过特征图进行切割和拉伸操作,按照P×P大小将特征图切割成N块,将每一块特征展平为维度为P2×C向量,得到切割后特征,
Figure FDA0003851345930000031
其中,
Figure FDA0003851345930000032
为经过切割拉平的特征向量;
将拉平的特征向量送入Transformer进行处理得到,
Figure FDA0003851345930000033
其中,
Figure FDA0003851345930000034
为经过Transformer处理后得到的相同维度输出特征;
将特征
Figure FDA0003851345930000035
送入多尾结构进行维度变换,解码为增强后的图像。
7.根据权利要求1所述的一种基于改进时空图卷积的交通标志图像分割算法,其特征在于,所述八度卷积模块中,包括如下步骤:
将特征图分类并进行卷积操作,
YH→H=f1(Xh)
YL→L=f2(Xl)
其中,Xh表示高频分量,Xl表示低频分量,f(·)表示卷积操作;低频分量到高频输出过程为先对低频分量Xl进行卷积和上采样操作,将其分辨率恢复到与高频分量一致,
YL→H=upsample(f3(Xl))
高频分量到低频输出过程则是对Xh进行降采样操作和卷积,
YH→L=f4(pool(Xh))
其中,pool(·)表示降采样操作,upsample(·)表示上采样操作;
将卷积层f3的输入通道数等于低频分量的通道数,输出通道数等于高频分量的通道数,卷积层f4的输入输出通道数量与f3的相反,以保持通道数的统一和高低频之间的特征叠加,
Yl=YL→L+YH→L
Yh=YH→H+YL→H
其中,m代表H→H、L→H、H→L、L→L)。
8.根据权利要求根据权利要求1所述的一种基于改进时空图卷积的交通标志图像分割算法,其特征在于,所述八度卷积残差模块,将时空部件图卷积网络输出特征,记为Mi,c(x)送入3×3卷积层,分别进入主干分支和注意力机制分支;
进入注意力机制分支的特征经过通道注意力机制模块,构建特征通道的重要程度,增强或抑制不同通道生成权重,识别通道特征之间的相互依赖性并找到有用特征,
Mc(F)=σ(MLP(AvgPool(F))+MLP(MaxPool(F))
其中,σ表示sigmoid激活函数,MLP表示多层感知机,Mc代表进入通道注意力机制模块的特征;
将通道注意力机制模块处理的特征F与经过八度卷积特征相乘,得到输出特征,记为F';
F'进入空间注意力机制模块,将对感兴趣区域进行精细化处理,
Figure FDA0003851345930000041
其中,σ表示Sigmoid函数,f7×7表示滤波器大小为7×7的卷积运算;
与F'相应元素进行相乘,获取CBAM分支最终输出特征Ci,c(x);
主干分支保留原始特征Mi,c(x),与CBAM分支所得到的输出Ci,c(x)相加得到残差注意力模块的最终输出Hi,c(x),
Hi+c(x)=Ci+c(x)+Mi+c(x)
其中,i代表空间位置,c代表特征通道的索引。
CN202211134621.XA 2022-09-19 2022-09-19 基于改进时空图卷积的交通标志图像分割算法 Pending CN115457509A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211134621.XA CN115457509A (zh) 2022-09-19 2022-09-19 基于改进时空图卷积的交通标志图像分割算法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211134621.XA CN115457509A (zh) 2022-09-19 2022-09-19 基于改进时空图卷积的交通标志图像分割算法

Publications (1)

Publication Number Publication Date
CN115457509A true CN115457509A (zh) 2022-12-09

Family

ID=84304196

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211134621.XA Pending CN115457509A (zh) 2022-09-19 2022-09-19 基于改进时空图卷积的交通标志图像分割算法

Country Status (1)

Country Link
CN (1) CN115457509A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116342894A (zh) * 2023-05-29 2023-06-27 南昌工程学院 基于改进YOLOv5的GIS红外特征识别系统及方法
CN117710969A (zh) * 2024-02-05 2024-03-15 安徽大学 一种基于深度神经网络的细胞核分割和分类方法
CN117710969B (zh) * 2024-02-05 2024-06-04 安徽大学 一种基于深度神经网络的细胞核分割和分类方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116342894A (zh) * 2023-05-29 2023-06-27 南昌工程学院 基于改进YOLOv5的GIS红外特征识别系统及方法
CN116342894B (zh) * 2023-05-29 2023-08-08 南昌工程学院 基于改进YOLOv5的GIS红外特征识别系统及方法
CN117710969A (zh) * 2024-02-05 2024-03-15 安徽大学 一种基于深度神经网络的细胞核分割和分类方法
CN117710969B (zh) * 2024-02-05 2024-06-04 安徽大学 一种基于深度神经网络的细胞核分割和分类方法

Similar Documents

Publication Publication Date Title
CN111259905B (zh) 一种基于下采样的特征融合遥感图像语义分割方法
Othman et al. Domain adaptation network for cross-scene classification
CN111882002B (zh) 一种基于msf-am的低照度目标检测方法
CN111612807B (zh) 一种基于尺度和边缘信息的小目标图像分割方法
CN112396607B (zh) 一种可变形卷积融合增强的街景图像语义分割方法
CN111950649B (zh) 基于注意力机制与胶囊网络的低照度图像分类方法
CN108197326B (zh) 一种车辆检索方法及装置、电子设备、存储介质
CN112419155B (zh) 一种全极化合成孔径雷达影像超分辨率重建方法
CN109635744A (zh) 一种基于深度分割网络的车道线检测方法
CN112990065B (zh) 一种基于优化的YOLOv5模型的车辆分类检测方法
CN112560865B (zh) 一种室外大场景下点云的语义分割方法
CN115082293A (zh) 一种基于Swin Transformer和CNN双分支耦合的图像配准方法
CN113095277B (zh) 一种基于目标空间分布特征的无人机航拍车辆检测方法
CN113610144A (zh) 一种基于多分支局部注意力网络的车辆分类方法
CN116311254B (zh) 一种恶劣天气情况下的图像目标检测方法、系统及设备
CN115601723A (zh) 基于改进ResNet的夜间热红外图像语义分割增强方法
CN115393289A (zh) 基于集成交叉伪标签的肿瘤图像半监督分割方法
CN115457509A (zh) 基于改进时空图卷积的交通标志图像分割算法
CN112149526A (zh) 一种基于长距离信息融合的车道线检测方法及系统
CN115393690A (zh) 一种轻量化神经网络的空对地观测多目标识别方法
Pham Semantic road segmentation using deep learning
CN114494786A (zh) 一种基于多层协调卷积神经网络的细粒度图像分类方法
Mukhopadhyay et al. A hybrid lane detection model for wild road conditions
CN115861647A (zh) 一种基于多尺度全局交叉匹配的光流估计方法
CN115410047A (zh) 基于改进YOLO v5s的红外图像电动自行车目标检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination