CN113065578A - 一种基于双路区域注意力编解码的图像视觉语义分割方法 - Google Patents

一种基于双路区域注意力编解码的图像视觉语义分割方法 Download PDF

Info

Publication number
CN113065578A
CN113065578A CN202110261367.9A CN202110261367A CN113065578A CN 113065578 A CN113065578 A CN 113065578A CN 202110261367 A CN202110261367 A CN 202110261367A CN 113065578 A CN113065578 A CN 113065578A
Authority
CN
China
Prior art keywords
image
feature map
representing
decoding
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110261367.9A
Other languages
English (en)
Other versions
CN113065578B (zh
Inventor
陈思宝
吕建春
纪宇昕
张克林
王文中
吕强
汤进
王雪雁
郑刚
胡昌隆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zenmorn Hefei Technology Co ltd
Original Assignee
Zenmorn Hefei Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zenmorn Hefei Technology Co ltd filed Critical Zenmorn Hefei Technology Co ltd
Priority to CN202110261367.9A priority Critical patent/CN113065578B/zh
Publication of CN113065578A publication Critical patent/CN113065578A/zh
Application granted granted Critical
Publication of CN113065578B publication Critical patent/CN113065578B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种基于双路区域注意力编解码的图像视觉语义分割方法,具体步骤包括提前获取特定场景的图像样本;对样本图像的RBG通道进行归一化,准备训练深度模型;通过双路编码器对图像进行编码,获取多尺度的、精细化的图像深度特征;使用基于区域注意力的解码器,通过区域信息对不同分布的目标进行自适应通道特征增强;通过skip‑connection融合不同提取阶段中的编码器浅层特征以及解码器深层特征,最大限度的复用深度特征;最后进行深度神经网络最终卷积层到原图像的映射,对每一个像素点进行分类,得到最终图像视觉分割图。本发明能够嵌入监控探头等设备中并通过区域信息对分布复杂的图像进行指导,从而实现图像的精确视觉语义分割。

Description

一种基于双路区域注意力编解码的图像视觉语义分割方法
技术领域
本发明涉及图像处理技术领域,特别涉及一种基于双路区域注意力编解码的图像视觉语义分割方法。
背景技术
随着社会的发展,语义分割作为一种基于双路区域注意力编解码的图像视觉语义分割方法重要的技术越来越受到人们的重视,应用范围也逐渐扩大,从常规的日常图像语义分割渐渐扩展到特定应用场景的语义分割。在深度学习应用到语义分割之后,常规图像的语义分割得到了极大改善,但是针对特定的工作场景的语义分割效果不是很明显,这是因为常规图像在拍摄的时候是以地面为参照的,照片中的目标横平竖直,并且占据一张图像中的大部分面积,容易被识别,而某些特定场景中图像中的目标通常具有任意的方向,并且占据一张图像的极少部分,比如多车道的场景下,获取的图像是车来向的侧上方视角图像。在双路区域注意力编解码网络构建之后,使用者可以通过双路编码器提取更精确的特征,通过注意力解码器更精确的识别区域内的目标,并且本发明可以嵌入监控系统摄像头当中,进行实时的图像语义分割,通过监控摄像头的配置,从而实现灵活地调整图像语义分割推断算法,达到更高的语义分割精度。
一般的语义分割系统主要通过以下方式实现:一、查询阶段:监控人员提取出监控画面中的图像,手动送至语义分割系统中进行分析;二、批量测试:将每个摄像头采集的图像自动输送至语义分割系统中进行分析。方式一和方式二受限于人力以及摄像头的角度,缺乏针对性,不能很好地过滤掉大部分非必要的图像以及应对突发事件。
为了增强语义分割系统的灵活性,研究人员将语义分割系统嵌入至监控探头等含有摄像头的设备之中,进而通过摄像头的运动来实现对图像的语义分割,然而,这种方法通常是将计算机视觉语义分割任务更换了搭载平台,忽视了图像自带的特性。在实际应用场景中,这类方法往往会因为镜头中的目标占比过小,方向变幻莫测,同时由于摄像头视野角度问题,目标容易被其他物体遮挡,造成不同目标边界轮廓的不确定性,无法实现对目标的精确分割。
发明内容
本发明的目的克服现有技术存在的不足,为实现以上目的,采用一种基于双路区域注意力编解码的图像视觉语义分割方法,以解决上述背景技术中提出的问题。
一种基于双路区域注意力编解码的图像视觉语义分割方法,包括:
获取场景图像样本;
对场景图像样本进行预处理,且导入构建的深度模型训练;
搭建网络编解码器,对图像样本进行特征融合并获得解码特征图;
利用已训练的深度模型嵌入设备判断场景图像样本,进行像素点分类,得到最终图像视觉分隔图。
作为本发明的进一步的方案:所述图像视觉语义分割方法的具体步骤为:
获取特定场景的图像样本数据,所述图像样本数据包括m张图像的训练数据、n张图像的验证数据,以及若干张图像的测试数据,所述训练数据与验证数据包括与原图像对应的标签图像;
对输入的图像样本的RBG通道归一化处理,限定于-1至1之间,再进行损失函数和优化器的配置,并训练深度模型;
利用搭建的网络编码器进行特征提取,获得融合特征;
利用搭建的网络解码器和编码器进行特征结合,获得更精确的解码特征图;
通过已训练的深度模型判断输入的图像中的像素点是否属于待提取目标,将模型嵌入设备,配合进行实时的语义分隔,同时对交叠区域进行测试增强操作,获得更精确地分割结果。
作为本发明的进一步的方案:所述对场景图像样本进行处理,损失函数和优化器的配置,并训练深度模型的具体步骤包括:
设置场景图像样本的训练集为m张图像T={T1,T2,…,Ti,…,Tm},设置m张对应的标签图像为TL={TL1,TL2,…,TLi,…,TLm},其中Ti表示训练集中第i张图像,TLi表示训练集中第i张图像的标签图像,i<m;
设置场景图像样本的验证集为m张图像V={V1,V2,…,Vi,…,Vn},设置n张对应的标签图像为VL={VL1,VL2,…,VLi,…,VLn},其中Vi表示验证集中第i张图像,VLi表示验证集中第i张图像的标签图像,i<n;
制定深度模型训练策略,设定训练集与测试集的比例为m:n=4:1;
再对输入的图像样本进行归一化处理:(image/255)×2-1,其中image为输入的样本图像;
将优化器设定为Adam,再根据二值交叉熵损失函数和交并比损失函数,获得最终的损失函数。
作为本发明的进一步的方案:所述根据二值交叉熵损失函数和交并比损失函数,获得最终的损失函数的具体步骤包括:
根据二值交叉熵损失函数LossBCE和交并比损失函数LossIoU,获得损失函数Lossfinal
Figure BDA0002970166110000031
Figure BDA0002970166110000032
Figure BDA0002970166110000033
其中,LossBCE表示二值交叉熵损失函数,其中yi表示图像中第i个像素点的真值,
Figure BDA0002970166110000034
表示图像中第i个像素点的预测值;LossIoU表示交并比损失函数,A∩B表示一张图像中真值区域A与预测区域B的交集,A∪B表示一张图像中真值区域A与预测区域B的并集;Lossfinal表示最终构成的损失函数,其中α和β分别代表二值交叉熵损失和交并比损失的权重且有α+β=1,N输入的图像中所有像素点的个数,N=W×H,W和H分别表示输入图像的宽和高。
作为本发明的进一步的方案:所述利用搭建的网络编码器进行特征提取,获得融合特征的具体步骤包括:
搭建编码器的第一路,采用残差网络提取特征,共计进行5次下采样,得到特征图P={P0,P1,P2,P3,P4},其中Pi的尺寸是Pi+1的2倍;
搭建编码器的第二路,采用堆积的空洞卷积提取特征,共计进行5次下采样,得到特征图Q={Q0,Q1,Q2,Q3,Q4},其中Qi的尺寸是Qi+1的2倍;
对不同尺寸的特征图进行融合,得到融合特征图S={S0,S1,S2,S3,S4},融合特征图Si的计算公式为:
Figure BDA0002970166110000041
其中,Si为编码阶段第i层融合特征图,Pi表示编码阶段第i层残差特征图,Qi表示编码阶段第i层空洞卷积特征图,
Figure BDA0002970166110000042
为element-wise addition,即对应元素的相加,0≤i≤4,Smn为在宽度为m、高度为n的特征图中坐标为(m,n)的像素点所对应的通道特征,其维度为
Figure BDA0002970166110000043
Ci为第i层融合特征图的通道数量。
作为本发明的进一步的方案:所述利用搭建的网络解码器和编码器进行特征结合,获得更精确的解码特征图的具体步骤包括:
利用编码器与解码器中对应尺度的特征图,采用skip-connection的方式将编码阶段的low-level特征与解码阶段的high-level特征结合,再采用element-wise addition操作以获得融合特征F={F0,F1,F2,F3}:
Figure BDA0002970166110000044
其中,Up(·)为表示特征图上采样操作,Fi表示解码阶段第i层融合特征图,Si表示编码阶段第i层融合特征图,Si+1表示编码阶段第i+1层融合特征图;
Figure BDA0002970166110000045
为element-wiseaddition,即对应元素的相加,通过skip-connection的操作将编码器与解码器中不同尺寸的特征进行融合,0≤i≤3,在前4个不同尺寸的特征图上进行skip-connection操作;Fmn表示在宽度为m、高度为n的融合特征图中坐标为(m,n)的像素点所对应的通道特征,其维度是:
Figure BDA0002970166110000046
Ci为第i层融合特征图的通道数量;
对所述融合特征进行上采样,在上采样的过程中,特征图的尺寸扩大为原特征图尺寸的2倍,特征通道数缩减为原通道数的一半,Up(·)表示表示特征图上采样操作:
Xout=Up(Xin);
其中,Xin表示上采样之前的特征图,其维度表示为:Xin∈RC×H×W;Xout表示上采样之后的特征图,其维度表示为:
Figure BDA0002970166110000051
C表示特征图通道数,H表示特征图的高,W表示特征图的宽,经过上采样Up(·)操作之后,特征图的通道数由C变化为
Figure BDA0002970166110000052
特征图的宽和高分别由W、H变化为2W、2H;
根据所得的解码阶段融合特征图之后接上改进的区域注意力机制模块,通过区域信息对特征图通道进行重新加权:
Figure BDA0002970166110000053
Figure BDA0002970166110000054
其中,SEblock表示压缩完的注意力权重模块,其维度是:SEblock∈RC×i×j,i、j分别表示注意力权重的高和宽,i={2,3,4}、j={2,3,4},代表将一张特征图按照(i,j)块划分区域,每一区域压缩成SEkl∈RC维度的特征;C表示特征图通道数;
Figure BDA0002970166110000055
表示在宽度为m、高度为n的重新加权特征图中坐标为(m,n)的像素点所对应的通道特征,其维度是:
Figure BDA0002970166110000056
其中Ci表示第i层重新加权特征图的通道数量;
Freweight表示重新加权之后的特征图;Xin表示解码阶段融合特征图,其维度表示为:Xin∈RC×H×W
Figure BDA0002970166110000057
表示rescale操作,操作如下:
Figure BDA0002970166110000061
其中,k1,k2,k3,k4表示权重通道,其维度是:ki∈RC,C表示特征图通道数;通过rescale操作后,原先i行j列的注意力权重模块被重新扩展成m行n列的权重图Freweight
最后利用权重注意力模块
Figure BDA0002970166110000062
与解码阶段融合特征图Xin进行element-wisemultiplication操作,获得最终精细化的重新加权特征图。
作为本发明的进一步的方案:所述通过已训练的深度模型判断输入的图像中的像素点是否属于待提取目标,将模型嵌入设备,配合进行实时的语义分隔,同时对交叠区域进行测试增强操作,获得更精确地分割结果的具体步骤包括:
利用在解码器的最后一层之后设置sigmoid函数,计算像素点的置信度,并限定在0至1之间:
Figure BDA0002970166110000063
其中,h(pi)表示对特征图中第i个像素点pi进行计算得到所述目标置信度是正样本的概率值,设定阈值界定目标与非目标;
将模型嵌入摄像设备之中,进行实时语义分割;
通过摄像头位置以及图像实际承载面积的关系,进行不同的实时语义分割推断,若产生重叠区域Ω,同时进行测试时增强操作:
Figure BDA0002970166110000064
其中,对所述特征图中重叠区域Ω中一一对应的像素点i,j进行计算得到所述目标置信度是正样本的概率值;
通过重叠区域Ω的像素点多次计算求取平均置信度,提高最终检测精度,获得更精确地分割结果。
与现有技术相比,本发明存在以下技术效果:
通过采用上述的技术方案,利用语义分割、特征融合、注意力机制和测试时增强等技术手段,实现了图像实时语义分割,提高了针对图像的语义分割精度,解决了常规图像语义分割算法应用于特定场景图像中分割效果差的问题。以基于深度学习的编码器解码器模型为基础,根据摄像设备捕捉的图像,自动获取每个像素点的类别。通过双路编码器实现不同深度特征的融合,获取更加具有代表性的图像特征。通过在二值交叉熵损失函数和交并比损失函数上,设定不同权重得到设定损失函数,使得模型的训练效果更加稳定,效果更好。同时,利用多摄像设备的位置关系实现测试时增强操作,进行更精确的预测,达到更高的分割精度。
附图说明
下面结合附图,对本发明的具体实施方式进行详细描述:
图1为本申请公开的一些实施例的图像视觉语义分割方法的步骤示意图;
图2为本申请公开的一些实施例的算法流程示意图;
图3为本申请公开的一些实施例的双路编码器结构示意图;
图4为本申请公开的一些实施例的区域解码器结构示意图;
图5为本申请公开的一些实施例的测试时增强语义分割计算示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参考图1和图2,本发明实施例中,一种基于双路区域注意力编解码的图像视觉语义分割方法,具体步骤包括:
S1、获取场景图像样本;
S2、对场景图像样本进行预处理,且导入构建的深度模型训练;
S3、搭建网络编解码器,对图像样本进行特征融合并获得解码特征图;
S4、利用已训练的深度模型嵌入设备判断场景图像样本,进行像素点分类,得到最终图像视觉分隔图。
在一些具体的实施例中,所述图像视觉语义分割方法的具体步骤为:
获取特定场景的图像样本数据,划分训练数据、验证数据和测试数据。所述图像样本数据包括m张图像的训练数据、n张图像的验证数据,以及若干张图像的测试数据,所述训练数据与验证数据包括与原图像对应的标签图像;具体实施方式,采用多台摄像设备,如摄像头等进行样本采集,同时可利用labelme进行图像的标注,得到标签图像。
对输入的图像样本的BGR通道归一化处理,将其数值最终限定于-1至1之间,使其有利于模型的收敛,然后再进行损失函数和优化器的配置,并训练深度模型,具体步骤如下:
设置场景图像样本的训练集为m张图像T={T1,T2,…,Ti,…,Tm},设置m张对应的标签图像为TL={TL1,TL2,…,TLi,…,TLm},其中Ti表示训练集中第i张图像,TLi表示训练集中第i张图像的标签图像,i<m;具体实施方式中,图像选择可覆盖大部分场景。
设置场景图像样本的验证集为m张图像V={V1,V2,…,Vi,…,Vn},设置n张对应的标签图像为VL={VL1,VL2,…,VLi,…,VLn},其中Vi表示验证集中第i张图像,VLi表示验证集中第i张图像的标签图像,i<n;具体实施方式中,图像样本从大部分场景中平均随机抽样。
制定深度模型训练策略,设定训练集与测试集的比例为m:n=4:1;具体的,从第10个epoch开始,每次epoch结束后在验证集上计算精度并保留该模型。之后每一轮epoch后都计算精度并且与之前模型的精度进行比较,若后一个模型精度超过之前的模型,则替换之前的模型。
精度以IoU交并比作为评估标准,即用待测区域真值与模型所预测出的区域的重叠部分的比例作为衡量模型有效性的评估标准。具体实施方式中,设定100个epoch,在其中70,90的时刻设定学习率衰减,衰减因子为5.0。
再对输入的图像样本进行归一化处理:(image/255)×2-1,其中image为输入的样本图像;具体实施方式中,因输入图像的RGB通道数值范围是0到255,需要将其转换为0到1之间的32位的浮点数形式,最后进行将其数值限定于-1到1之间,可使用opencv完成图片读取与归一化操作。该输入图片的尺寸为1024×1024,其图片通道数位3。
将优化器设定为Adam,再根据二值交叉熵损失函数和交并比损失函数,获得最终的损失函数。具体实施方式中,Adam的时间更短,更有助于快速收敛。其中,初始学习率设定为4×10-4,其他参数不变。
在一些具体的实施例中,所述根据二值交叉熵损失函数和交并比损失函数,获得最终的损失函数的具体步骤包括:
首先设定损失函数,根据二值交叉熵损失函数LossBCE和交并比损失函数LossIoU,以比例进行叠加,获得最终得损失函数Lossfinal,具体公式如下:
Figure BDA0002970166110000091
Figure BDA0002970166110000092
Figure BDA0002970166110000093
其中,LossBCE表示二值交叉熵损失函数,其中yi表示图像中第i个像素点的真值,
Figure BDA0002970166110000094
表示图像中第i个像素点的预测值;LossIoU表示交并比损失函数,A∩B表示一张图像中真值区域A与预测区域B的交集,A∪B表示一张图像中真值区域A与预测区域B的并集,使用交并比损失函数的目的是为了使预测出的图像轮廓更加贴近真实情况;Lossfinal表示最终构成的损失函数,其中α和β分别代表二值交叉熵损失和交并比损失的权重且有α+β=1,,这两个参数控制在0.6和0.4或者0.7和0.3比较合适;N输入的图像中所有像素点的个数,N=W×H,W和H分别表示输入图像的宽和高。具体实施方式中,N取值为1024×1024,即W=H=1024。
如图3所示,再利用搭建的网络编码器进行特征提取,获得融合特征,具体步骤包括:
搭建编码器的第一路,采用残差网络提取特征,共计进行5次下采样,得到特征图P={P0,P1,P2,P3,P4},其中Pi的尺寸是Pi+1的2倍;
具体实施方式中,输入图像尺寸为1024×1024,得到特征图尺寸为:P={P0,P1,P2,P3,P4}={512,256,128,64,32}。
搭建编码器的第二路,采用堆积的空洞卷积提取特征,共计进行5次下采样,得到特征图Q={Q0,Q1,Q2,Q3,Q4},其中Qi的尺寸是Qi+1的2倍;
具体实施方式中,,输入图像尺寸为1024×1024,得到特征图尺寸为:Q={Q0,Q1,Q2,Q3,Q4}={512,256,128,64,32},不同于第一个分支,本分支采取的空洞卷积会使得特征图的感受野变得更大,如此,同一个尺度下的特征图拥有不同的感受野。
对不同尺寸的特征图进行融合,得到融合特征图S={S0,S1,S2,S3,S4},融合特征图Si的计算公式为:
Figure BDA0002970166110000101
其中,Si为编码阶段第i层融合特征图,特征图尺寸为:S={S0,S1,S2,S3,S4}={512,256,128,64,32},Pi表示编码阶段第i层残差特征图,Qi表示编码阶段第i层空洞卷积特征图,
Figure BDA0002970166110000102
为element-wise addition,即对应元素的相加,0≤i≤4,Smn为在宽度为m、高度为n的特征图中坐标为(m,n)的像素点所对应的通道特征,其维度为
Figure BDA0002970166110000103
Ci为第i层融合特征图的通道数量。具体在同一个尺度下的特征图拥有不同的感受野,叠加之后的融合特征图具有多感受野的特征,更具代表性。
如图4所示,利用搭建的网络解码器和编码器进行特征结合,获得更精确的解码特征图,具体步骤如下:
充分利用编码器与解码器中对应尺度的特征图,采用skip-connection的方式将编码阶段的low-level特征与解码阶段的high-level特征结合,再采用element-wiseaddition操作以获得融合特征F={F0,F1,F2,F3},之后进行上采样;在每个上采样模块之后接上区域注意力模块对通道特征进行自适应调节,从而获得更加精确的解码特征图。具体实施方式中,得到融合特征图尺寸为F={F0,F1,F2,F3}={512,256,128,64}。
第i层融合特征图Fi为:
Figure BDA0002970166110000111
其中,Up(·)为表示特征图上采样操作,Fi表示解码阶段第i层融合特征图,Si表示编码阶段第i层融合特征图,Si+1表示编码阶段第i+1层融合特征图;
Figure BDA0002970166110000112
为element-wiseaddition,即对应元素的相加,通过skip-connection的操作将编码器与解码器中不同尺寸的特征进行融合,0≤i≤3,在前4个不同尺寸的特征图上进行skip-connection操作;Fmn表示在宽度为m、高度为n的融合特征图中坐标为(m,n)的像素点所对应的通道特征,其维度是:
Figure BDA0002970166110000113
Ci为第i层融合特征图的通道数量,得到融合特征图的通道数量为C={C0,C1,C2,C3}={64,128,256,512}
对所述融合特征进行上采样,在上采样的过程中,特征图的尺寸扩大为原特征图尺寸的2倍,特征通道数缩减为原通道数的一半,Up(·)表示表示特征图上采样操作:
Xout=Up(Xin);
其中,Xin表示上采样之前的特征图,其维度表示为:Xin∈RC×H×W;Xout表示上采样之后的特征图,其维度表示为:
Figure BDA0002970166110000114
C表示特征图通道数,H表示特征图的高,W表示特征图的宽,经过上采样Up(·)操作之后,特征图的通道数由C变化为
Figure BDA0002970166110000115
特征图的宽和高分别由W、H变化为2W、2H;
根据所得的解码阶段融合特征图之后接上改进的区域注意力机制模块,通过区域信息对特征图通道进行重新加权:
Figure BDA0002970166110000116
Figure BDA0002970166110000117
其中,SEblock表示压缩完的注意力权重模块,其维度是:SEblock∈RC×i×j,i、j分别表示注意力权重的高和宽,i={2,3,4}、j={2,3,4},代表将一张特征图按照(i,j)块划分区域,每一区域压缩成SEkl∈RC维度的特征;C表示特征图通道数;
Figure BDA0002970166110000121
表示在宽度为m、高度为n的重新加权特征图中坐标为(m,n)的像素点所对应的通道特征,其维度是:
Figure BDA0002970166110000122
其中Ci表示第i层重新加权特征图的通道数量;
Freweight表示重新加权之后的特征图;Xin表示解码阶段融合特征图,其维度表示为:Xin∈RC×H×W
Figure BDA0002970166110000123
表示rescale操作,操作如下:
Figure BDA0002970166110000124
其中,k1,k2,k3,k4表示权重通道,其维度是:ki∈RC,C表示特征图通道数;通过rescale操作后,原先i行j列的注意力权重模块被重新扩展成m行n列的权重图Freweight
最后利用权重注意力模块
Figure BDA0002970166110000125
与解码阶段融合特征图Xin进行element-wisemultiplication操作,获得最终精细化的重新加权特征图。
通过已训练的深度模型判断输入的图像中的像素点是否属于待提取目标,将模型嵌入设备,配合进行实时的语义分隔,同时对交叠区域进行测试增强操作,获得更精确地分割结果。具体步骤如下:
利用在解码器的最后一层之后设置sigmoid函数,计算最终所得特征图中的每一像素点的置信度,并限定在0至1之间:
Figure BDA0002970166110000126
其中,h(pi)表示对特征图中第i个像素点pi进行计算得到所述目标置信度是正样本的概率值,设定阈值界定目标与非目标;具体的,阈值设定为θ=0.5。
将模型嵌入摄像设备之中,进行实时语义分割;
通过摄像头位置以及图像实际承载面积的关系,进行不同的实时语义分割推断,若产生重叠区域Ω,如图5所示,同时进行测试时增强操作:
Figure BDA0002970166110000131
其中,对所述特征图中重叠区域Ω中一一对应的像素点i,j进行计算得到所述目标置信度是正样本的概率值;
通过重叠区域Ω的像素点多次计算求取平均置信度,提高最终检测精度,获得更精确地分割结果。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定,均应包含在本发明的保护范围之内。

Claims (7)

1.一种基于双路区域注意力编解码的图像视觉语义分割方法,其特征在于,包括以下步骤:
获取场景图像样本;
对场景图像样本进行预处理,且导入构建的深度模型训练;
搭建网络编解码器,对图像样本进行特征融合并获得解码特征图;
利用已训练的深度模型嵌入设备判断场景图像样本,进行像素点分类,得到最终图像视觉分隔图。
2.根据权利要求1所述一种基于双路区域注意力编解码的图像视觉语义分割方法,其特征在于,所述图像视觉语义分割方法的具体步骤为:
获取特定场景的图像样本数据,所述图像样本数据包括m张图像的训练数据、n张图像的验证数据,以及若干张图像的测试数据,所述训练数据与验证数据包括与原图像对应的标签图像;
对输入的图像样本的RBG通道归一化处理,限定于-1至1之间,再进行损失函数和优化器的配置,并训练深度模型;
利用搭建的网络编码器进行特征提取,获得融合特征;
利用搭建的网络解码器和编码器进行特征结合,获得更精确的解码特征图;
通过已训练的深度模型判断输入的图像中的像素点是否属于待提取目标,将模型嵌入设备,配合进行实时的语义分隔,同时对交叠区域进行测试增强操作,获得更精确地分割结果。
3.根据权利要求2所述一种基于双路区域注意力编解码的图像视觉语义分割方法,其特征在于,所述对场景图像样本进行处理,损失函数和优化器的配置,并训练深度模型的具体步骤包括:
设置场景图像样本的训练集为m张图像T={T1,T2,…,Ti,…,Tm},设置m张对应的标签图像为TL={TL1,TL2,…,TLi,…,TLm},其中Ti表示训练集中第i张图像,TLi表示训练集中第i张图像的标签图像,i<m;
设置场景图像样本的验证集为m张图像V={V1,V2,…,Vi,…,Vn},设置n张对应的标签图像为VL={VL1,VL2,…,VLi,…,VLn},其中Vi表示验证集中第i张图像,VLi表示验证集中第i张图像的标签图像,i<n;
制定深度模型训练策略,设定训练集与测试集的比例为m:n=4:1;
再对输入的图像样本进行归一化处理:(image/255)×2-1,其中image为输入的样本图像;
将优化器设定为Adam,再根据二值交叉熵损失函数和交并比损失函数,获得最终的损失函数。
4.根据权利要求3所述一种基于双路区域注意力编解码的图像视觉语义分割方法,其特征在于,所述根据二值交叉熵损失函数和交并比损失函数,获得最终的损失函数的具体步骤包括:
根据二值交叉熵损失函数LossBCE和交并比损失函数LossIoU,获得损失函数Lossfinal
Figure FDA0002970166100000021
Figure FDA0002970166100000022
Figure FDA0002970166100000023
其中,LossBCE表示二值交叉熵损失函数,其中yi表示图像中第i个像素点的真值,
Figure FDA0002970166100000024
表示图像中第i个像素点的预测值;LossIoU表示交并比损失函数,A∩B表示一张图像中真值区域A与预测区域B的交集,A∪B表示一张图像中真值区域A与预测区域B的并集;Lossfinal表示最终构成的损失函数,其中α和β分别代表二值交叉熵损失和交并比损失的权重且有α+β=1,N输入的图像中所有像素点的个数,N=W×H,W和H分别表示输入图像的宽和高。
5.根据权利要求2所述一种基于双路区域注意力编解码的图像视觉语义分割方法,其特征在于,所述利用搭建的网络编码器进行特征提取,获得融合特征的具体步骤包括:
搭建编码器的第一路,采用残差网络提取特征,共计进行5次下采样,得到特征图P={P0,P1,P2,P3,P4},其中Pi的尺寸是Pi+1的2倍;
搭建编码器的第二路,采用堆积的空洞卷积提取特征,共计进行5次下采样,得到特征图Q={Q0,Q1,Q2,Q3,Q4},其中Qi的尺寸是Qi+1的2倍;
对不同尺寸的特征图进行融合,得到融合特征图S={S0,S1,S2,S3,S4},融合特征图Si的计算公式为:
Figure FDA0002970166100000031
其中,Si为编码阶段第i层融合特征图,Pi表示编码阶段第i层残差特征图,Qi表示编码阶段第i层空洞卷积特征图,
Figure FDA0002970166100000032
为element-wise addition,即对应元素的相加,0≤i≤4,Smn为在宽度为m、高度为n的特征图中坐标为(m,n)的像素点所对应的通道特征,其维度为
Figure FDA0002970166100000033
Ci为第i层融合特征图的通道数量。
6.根据权利要求5所述一种基于双路区域注意力编解码的图像视觉语义分割方法,其特征在于,所述利用搭建的网络解码器和编码器进行特征结合,获得更精确的解码特征图的具体步骤包括:
利用编码器与解码器中对应尺度的特征图,采用skip-connection的方式将编码阶段的low-level特征与解码阶段的high-level特征结合,再采用element-wise addition操作以获得融合特征F={F0,F1,F2,F3}:
Figure FDA0002970166100000034
其中,Up(·)为表示特征图上采样操作,Fi表示解码阶段第i层融合特征图,Si表示编码阶段第i层融合特征图,Si+1表示编码阶段第i+1层融合特征图;
Figure FDA0002970166100000035
为element-wiseaddition,即对应元素的相加,通过skip-connection的操作将编码器与解码器中不同尺寸的特征进行融合,0≤i≤3,在前4个不同尺寸的特征图上进行skip-connection操作;Fmn表示在宽度为m、高度为n的融合特征图中坐标为(m,n)的像素点所对应的通道特征,其维度是:
Figure FDA0002970166100000041
Ci为第i层融合特征图的通道数量;
对所述融合特征进行上采样,在上采样的过程中,特征图的尺寸扩大为原特征图尺寸的2倍,特征通道数缩减为原通道数的一半,Up(·)表示表示特征图上采样操作:
Xout=Up(Xin);
其中,Xin表示上采样之前的特征图,其维度表示为:Xin∈RC×H×W;Xout表示上采样之后的特征图,其维度表示为:
Figure FDA0002970166100000042
C表示特征图通道数,H表示特征图的高,W表示特征图的宽,经过上采样Up(·)操作之后,特征图的通道数由C变化为
Figure FDA0002970166100000043
特征图的宽和高分别由W、H变化为2W、2H;
根据所得的解码阶段融合特征图之后接上改进的区域注意力机制模块,通过区域信息对特征图通道进行重新加权:
Figure FDA0002970166100000044
Figure FDA0002970166100000045
其中,SEblock表示压缩完的注意力权重模块,其维度是:SEblock∈RC×i×j,i、j分别表示注意力权重的高和宽,i={2,3,4}、j={2,3,4},代表将一张特征图按照(i,j)块划分区域,每一区域压缩成SEkl∈RC维度的特征;C表示特征图通道数;
Figure FDA0002970166100000046
表示在宽度为m、高度为n的重新加权特征图中坐标为(m,n)的像素点所对应的通道特征,其维度是:
Figure FDA0002970166100000047
其中Ci表示第i层重新加权特征图的通道数量;
Freweight表示重新加权之后的特征图;Xin表示解码阶段融合特征图,其维度表示为:Xin∈RC×H×W
Figure FDA0002970166100000048
表示rescale操作,操作如下:
Figure FDA0002970166100000051
其中,k1,k2,k3,k4表示权重通道,其维度是:ki∈RC,C表示特征图通道数;通过rescale操作后,原先i行j列的注意力权重模块被重新扩展成m行n列的权重图Freweight
最后利用权重注意力模块
Figure FDA0002970166100000052
与解码阶段融合特征图Xin进行element-wisemultiplication操作,获得最终精细化的重新加权特征图。
7.根据权利要求2所述一种基于双路区域注意力编解码的图像视觉语义分割方法,其特征在于,所述通过已训练的深度模型判断输入的图像中的像素点是否属于待提取目标,将模型嵌入设备,配合进行实时的语义分隔,同时对交叠区域进行测试增强操作,获得更精确地分割结果的具体步骤包括:
利用在解码器的最后一层之后设置sigmoid函数,计算像素点的置信度,并限定在0至1之间:
Figure FDA0002970166100000053
其中,h(pi)表示对特征图中第i个像素点pi进行计算得到所述目标置信度是正样本的概率值,设定阈值界定目标与非目标;
将模型嵌入摄像设备之中,进行实时语义分割;
通过摄像头位置以及图像实际承载面积的关系,进行不同的实时语义分割推断,若产生重叠区域Ω,同时进行测试时增强操作:
Figure FDA0002970166100000054
其中,对所述特征图中重叠区域Ω中一一对应的像素点i,j进行计算得到所述目标置信度是正样本的概率值;
通过重叠区域Ω的像素点多次计算求取平均置信度,提高最终检测精度,获得更精确地分割结果。
CN202110261367.9A 2021-03-10 2021-03-10 一种基于双路区域注意力编解码的图像视觉语义分割方法 Active CN113065578B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110261367.9A CN113065578B (zh) 2021-03-10 2021-03-10 一种基于双路区域注意力编解码的图像视觉语义分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110261367.9A CN113065578B (zh) 2021-03-10 2021-03-10 一种基于双路区域注意力编解码的图像视觉语义分割方法

Publications (2)

Publication Number Publication Date
CN113065578A true CN113065578A (zh) 2021-07-02
CN113065578B CN113065578B (zh) 2022-09-23

Family

ID=76560394

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110261367.9A Active CN113065578B (zh) 2021-03-10 2021-03-10 一种基于双路区域注意力编解码的图像视觉语义分割方法

Country Status (1)

Country Link
CN (1) CN113065578B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113343943A (zh) * 2021-07-21 2021-09-03 西安电子科技大学 基于巩膜区域监督的眼部图像分割方法
CN113888744A (zh) * 2021-10-14 2022-01-04 浙江大学 一种基于Transformer视觉上采样模块的图像语义分割方法
CN113947680A (zh) * 2021-10-12 2022-01-18 哈尔滨理工大学 一种基于级联多尺度视觉Transformer的图像语义分割方法
CN114782911A (zh) * 2022-06-20 2022-07-22 小米汽车科技有限公司 图像处理的方法、装置、设备、介质、芯片及车辆
CN115358954A (zh) * 2022-10-21 2022-11-18 电子科技大学 一种注意力引导的特征压缩方法
CN116503606A (zh) * 2023-06-27 2023-07-28 清华大学 基于子图特征融合的路面湿滑区域分割方法及装置
CN116681892A (zh) * 2023-06-02 2023-09-01 山东省人工智能研究院 基于多中心PolarMask模型改进的图像精准分割方法
CN117557795A (zh) * 2024-01-10 2024-02-13 吉林大学 基于多源数据融合的水下目标语义分割方法及系统

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111127493A (zh) * 2019-11-12 2020-05-08 中国矿业大学 基于注意力多尺度特征融合的遥感图像语义分割方法
CN111612807A (zh) * 2020-05-15 2020-09-01 北京工业大学 一种基于尺度和边缘信息的小目标图像分割方法
CN111627012A (zh) * 2020-05-28 2020-09-04 华北电力大学(保定) 一种基于特征融合的深度神经网络表面缺陷检测方法
CN111666842A (zh) * 2020-05-25 2020-09-15 东华大学 一种基于双流空洞卷积神经元网络的阴影检测方法
CN111681252A (zh) * 2020-05-30 2020-09-18 重庆邮电大学 一种基于多路径注意力融合的医学图像自动分割方法
CN111915619A (zh) * 2020-06-05 2020-11-10 华南理工大学 一种双特征提取与融合的全卷积网络语义分割方法
CN112016590A (zh) * 2020-07-24 2020-12-01 浙大城市学院 结合序列局部特征提取及深度卷积预测模型的预测方法
CN112183360A (zh) * 2020-09-29 2021-01-05 上海交通大学 高分辨率遥感影像的轻量化语义分割方法
CN112330681A (zh) * 2020-11-06 2021-02-05 北京工业大学 一种基于注意力机制的轻量级网络实时语义分割方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111127493A (zh) * 2019-11-12 2020-05-08 中国矿业大学 基于注意力多尺度特征融合的遥感图像语义分割方法
CN111612807A (zh) * 2020-05-15 2020-09-01 北京工业大学 一种基于尺度和边缘信息的小目标图像分割方法
CN111666842A (zh) * 2020-05-25 2020-09-15 东华大学 一种基于双流空洞卷积神经元网络的阴影检测方法
CN111627012A (zh) * 2020-05-28 2020-09-04 华北电力大学(保定) 一种基于特征融合的深度神经网络表面缺陷检测方法
CN111681252A (zh) * 2020-05-30 2020-09-18 重庆邮电大学 一种基于多路径注意力融合的医学图像自动分割方法
CN111915619A (zh) * 2020-06-05 2020-11-10 华南理工大学 一种双特征提取与融合的全卷积网络语义分割方法
CN112016590A (zh) * 2020-07-24 2020-12-01 浙大城市学院 结合序列局部特征提取及深度卷积预测模型的预测方法
CN112183360A (zh) * 2020-09-29 2021-01-05 上海交通大学 高分辨率遥感影像的轻量化语义分割方法
CN112330681A (zh) * 2020-11-06 2021-02-05 北京工业大学 一种基于注意力机制的轻量级网络实时语义分割方法

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113343943A (zh) * 2021-07-21 2021-09-03 西安电子科技大学 基于巩膜区域监督的眼部图像分割方法
CN113343943B (zh) * 2021-07-21 2023-04-28 西安电子科技大学 基于巩膜区域监督的眼部图像分割方法
CN113947680A (zh) * 2021-10-12 2022-01-18 哈尔滨理工大学 一种基于级联多尺度视觉Transformer的图像语义分割方法
CN113888744A (zh) * 2021-10-14 2022-01-04 浙江大学 一种基于Transformer视觉上采样模块的图像语义分割方法
CN114782911A (zh) * 2022-06-20 2022-07-22 小米汽车科技有限公司 图像处理的方法、装置、设备、介质、芯片及车辆
CN114782911B (zh) * 2022-06-20 2022-09-16 小米汽车科技有限公司 图像处理的方法、装置、设备、介质、芯片及车辆
CN115358954B (zh) * 2022-10-21 2022-12-23 电子科技大学 一种注意力引导的特征压缩方法
CN115358954A (zh) * 2022-10-21 2022-11-18 电子科技大学 一种注意力引导的特征压缩方法
CN116681892A (zh) * 2023-06-02 2023-09-01 山东省人工智能研究院 基于多中心PolarMask模型改进的图像精准分割方法
CN116681892B (zh) * 2023-06-02 2024-01-26 山东省人工智能研究院 基于多中心PolarMask模型改进的图像精准分割方法
CN116503606A (zh) * 2023-06-27 2023-07-28 清华大学 基于子图特征融合的路面湿滑区域分割方法及装置
CN116503606B (zh) * 2023-06-27 2023-08-29 清华大学 基于子图特征融合的路面湿滑区域分割方法及装置
CN117557795A (zh) * 2024-01-10 2024-02-13 吉林大学 基于多源数据融合的水下目标语义分割方法及系统
CN117557795B (zh) * 2024-01-10 2024-03-29 吉林大学 基于多源数据融合的水下目标语义分割方法及系统

Also Published As

Publication number Publication date
CN113065578B (zh) 2022-09-23

Similar Documents

Publication Publication Date Title
CN113065578B (zh) 一种基于双路区域注意力编解码的图像视觉语义分割方法
CN108492319B (zh) 基于深度全卷积神经网络的运动目标检测方法
CN113705478B (zh) 一种基于改进YOLOv5的红树林单木目标检测方法
CN111611874B (zh) 基于ResNet和Canny的人脸口罩佩戴检测方法
CN111079640B (zh) 一种基于自动扩增样本的车型识别方法及系统
CN112464911A (zh) 基于改进YOLOv3-tiny的交通标志检测与识别方法
CN112950780B (zh) 一种基于遥感影像的网络地图智能生成方法及系统
CN112149512A (zh) 一种基于两阶段深度学习的安全帽佩戴识别方法
CN109635726B (zh) 一种基于对称式深度网络结合多尺度池化的滑坡识别方法
CN108256462A (zh) 一种商场监控视频中的人数统计方法
CN112329533A (zh) 一种基于图像分割的局部路面附着系数估计方法
CN110852358A (zh) 一种基于深度学习的车辆类型判别方法
CN114913498A (zh) 一种基于关键点估计的并行多尺度特征聚合车道线检测方法
CN110991374B (zh) 一种基于rcnn的指纹奇异点检测方法
CN112949510A (zh) 基于Faster R-CNN热红外影像人物探测方法
CN115880571A (zh) 一种基于语义分割的水位尺读数识别方法
CN114639064A (zh) 一种水位识别方法及装置
CN113378905B (zh) 一种基于分布距离的小目标检测方法
CN108154199B (zh) 一种基于深度学习的高精度快速单类目标检测方法
CN117333948A (zh) 一种融合时空注意力机制的端到端多目标肉鸡行为识别方法
CN115830514B (zh) 一种适用于带弯曲河道的全河段表面流速计算方法及系统
CN115830302A (zh) 一种多尺度特征提取融合配电网设备定位识别方法
CN114419443A (zh) 一种遥感影像耕地地块自动提取方法及系统
CN115100577A (zh) 基于神经网络的能见度识别方法及系统、电子设备、存储介质
CN114927236A (zh) 一种面向多重目标图像的检测方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant