CN113065578A

CN113065578A - 一种基于双路区域注意力编解码的图像视觉语义分割方法

Info

Publication number: CN113065578A
Application number: CN202110261367.9A
Authority: CN
Inventors: 陈思宝; 吕建春; 纪宇昕; 张克林; 王文中; 吕强; 汤进; 王雪雁; 郑刚; 胡昌隆
Original assignee: Zenmorn Hefei Technology Co ltd
Current assignee: Zenmorn Hefei Technology Co ltd
Priority date: 2021-03-10
Filing date: 2021-03-10
Publication date: 2021-07-02
Anticipated expiration: 2041-03-10
Also published as: CN113065578B

Abstract

本发明公开了一种基于双路区域注意力编解码的图像视觉语义分割方法，具体步骤包括提前获取特定场景的图像样本；对样本图像的RBG通道进行归一化，准备训练深度模型；通过双路编码器对图像进行编码，获取多尺度的、精细化的图像深度特征；使用基于区域注意力的解码器，通过区域信息对不同分布的目标进行自适应通道特征增强；通过skip‑connection融合不同提取阶段中的编码器浅层特征以及解码器深层特征，最大限度的复用深度特征；最后进行深度神经网络最终卷积层到原图像的映射，对每一个像素点进行分类，得到最终图像视觉分割图。本发明能够嵌入监控探头等设备中并通过区域信息对分布复杂的图像进行指导，从而实现图像的精确视觉语义分割。

Description

一种基于双路区域注意力编解码的图像视觉语义分割方法

技术领域

本发明涉及图像处理技术领域，特别涉及一种基于双路区域注意力编解码的图像视觉语义分割方法。

背景技术

随着社会的发展，语义分割作为一种基于双路区域注意力编解码的图像视觉语义分割方法重要的技术越来越受到人们的重视，应用范围也逐渐扩大，从常规的日常图像语义分割渐渐扩展到特定应用场景的语义分割。在深度学习应用到语义分割之后，常规图像的语义分割得到了极大改善，但是针对特定的工作场景的语义分割效果不是很明显，这是因为常规图像在拍摄的时候是以地面为参照的，照片中的目标横平竖直，并且占据一张图像中的大部分面积，容易被识别，而某些特定场景中图像中的目标通常具有任意的方向，并且占据一张图像的极少部分，比如多车道的场景下，获取的图像是车来向的侧上方视角图像。在双路区域注意力编解码网络构建之后，使用者可以通过双路编码器提取更精确的特征，通过注意力解码器更精确的识别区域内的目标，并且本发明可以嵌入监控系统摄像头当中，进行实时的图像语义分割，通过监控摄像头的配置，从而实现灵活地调整图像语义分割推断算法，达到更高的语义分割精度。

一般的语义分割系统主要通过以下方式实现：一、查询阶段：监控人员提取出监控画面中的图像，手动送至语义分割系统中进行分析；二、批量测试：将每个摄像头采集的图像自动输送至语义分割系统中进行分析。方式一和方式二受限于人力以及摄像头的角度，缺乏针对性，不能很好地过滤掉大部分非必要的图像以及应对突发事件。

为了增强语义分割系统的灵活性，研究人员将语义分割系统嵌入至监控探头等含有摄像头的设备之中，进而通过摄像头的运动来实现对图像的语义分割，然而，这种方法通常是将计算机视觉语义分割任务更换了搭载平台，忽视了图像自带的特性。在实际应用场景中，这类方法往往会因为镜头中的目标占比过小，方向变幻莫测，同时由于摄像头视野角度问题，目标容易被其他物体遮挡，造成不同目标边界轮廓的不确定性，无法实现对目标的精确分割。

发明内容

本发明的目的克服现有技术存在的不足，为实现以上目的，采用一种基于双路区域注意力编解码的图像视觉语义分割方法，以解决上述背景技术中提出的问题。

一种基于双路区域注意力编解码的图像视觉语义分割方法，包括：

获取场景图像样本；

对场景图像样本进行预处理，且导入构建的深度模型训练；

搭建网络编解码器，对图像样本进行特征融合并获得解码特征图；

利用已训练的深度模型嵌入设备判断场景图像样本，进行像素点分类，得到最终图像视觉分隔图。

作为本发明的进一步的方案：所述图像视觉语义分割方法的具体步骤为：

获取特定场景的图像样本数据，所述图像样本数据包括m张图像的训练数据、n张图像的验证数据，以及若干张图像的测试数据，所述训练数据与验证数据包括与原图像对应的标签图像；

对输入的图像样本的RBG通道归一化处理，限定于-1至1之间，再进行损失函数和优化器的配置，并训练深度模型；

利用搭建的网络编码器进行特征提取，获得融合特征；

利用搭建的网络解码器和编码器进行特征结合，获得更精确的解码特征图；

通过已训练的深度模型判断输入的图像中的像素点是否属于待提取目标，将模型嵌入设备，配合进行实时的语义分隔，同时对交叠区域进行测试增强操作，获得更精确地分割结果。

作为本发明的进一步的方案：所述对场景图像样本进行处理，损失函数和优化器的配置，并训练深度模型的具体步骤包括：

设置场景图像样本的训练集为m张图像T＝{T₁,T₂,…,T_i,…,T_m}，设置m张对应的标签图像为TL＝{TL₁,TL₂,…,TL_i,…,TL_m}，其中T_i表示训练集中第i张图像，TL_i表示训练集中第i张图像的标签图像，i<m；

设置场景图像样本的验证集为m张图像V＝{V₁,V₂,…,V_i,…,V_n}，设置n张对应的标签图像为VL＝{VL₁,VL₂,…,VL_i,…,VL_n}，其中V_i表示验证集中第i张图像，VL_i表示验证集中第i张图像的标签图像，i<n；

制定深度模型训练策略，设定训练集与测试集的比例为m:n＝4:1；

再对输入的图像样本进行归一化处理：(image/255)×2-1，其中image为输入的样本图像；

将优化器设定为Adam，再根据二值交叉熵损失函数和交并比损失函数，获得最终的损失函数。

作为本发明的进一步的方案：所述根据二值交叉熵损失函数和交并比损失函数，获得最终的损失函数的具体步骤包括：

根据二值交叉熵损失函数Loss_BCE和交并比损失函数Loss_IoU，获得损失函数Loss_final；

其中，Loss_BCE表示二值交叉熵损失函数，其中y_i表示图像中第i个像素点的真值，

表示图像中第i个像素点的预测值；Loss_IoU表示交并比损失函数，A∩B表示一张图像中真值区域A与预测区域B的交集，A∪B表示一张图像中真值区域A与预测区域B的并集；Loss_final表示最终构成的损失函数，其中α和β分别代表二值交叉熵损失和交并比损失的权重且有α+β＝1，N输入的图像中所有像素点的个数，N＝W×H，W和H分别表示输入图像的宽和高。

作为本发明的进一步的方案：所述利用搭建的网络编码器进行特征提取，获得融合特征的具体步骤包括：

搭建编码器的第一路，采用残差网络提取特征，共计进行5次下采样，得到特征图P＝{P₀,P₁,P₂,P₃,P₄},其中P_i的尺寸是P_i+1的2倍；

搭建编码器的第二路，采用堆积的空洞卷积提取特征，共计进行5次下采样，得到特征图Q＝{Q₀,Q₁,Q₂,Q₃,Q₄},其中Q_i的尺寸是Q_i+1的2倍；

对不同尺寸的特征图进行融合，得到融合特征图S＝{S₀,S₁,S₂,S₃,S₄}，融合特征图S_i的计算公式为：

其中，S_i为编码阶段第i层融合特征图，P_i表示编码阶段第i层残差特征图，Q_i表示编码阶段第i层空洞卷积特征图，

为element-wise addition，即对应元素的相加，0≤i≤4，S_mn为在宽度为m、高度为n的特征图中坐标为(m,n)的像素点所对应的通道特征，其维度为

C_i为第i层融合特征图的通道数量。

作为本发明的进一步的方案：所述利用搭建的网络解码器和编码器进行特征结合，获得更精确的解码特征图的具体步骤包括：

利用编码器与解码器中对应尺度的特征图，采用skip-connection的方式将编码阶段的low-level特征与解码阶段的high-level特征结合，再采用element-wise addition操作以获得融合特征F＝{F₀,F₁,F₂,F₃}：

其中，Up(·)为表示特征图上采样操作，F_i表示解码阶段第i层融合特征图，S_i表示编码阶段第i层融合特征图，S_i+1表示编码阶段第i+1层融合特征图；

为element-wiseaddition，即对应元素的相加，通过skip-connection的操作将编码器与解码器中不同尺寸的特征进行融合，0≤i≤3，在前4个不同尺寸的特征图上进行skip-connection操作；F_mn表示在宽度为m、高度为n的融合特征图中坐标为(m,n)的像素点所对应的通道特征，其维度是：

C_i为第i层融合特征图的通道数量；

对所述融合特征进行上采样，在上采样的过程中，特征图的尺寸扩大为原特征图尺寸的2倍，特征通道数缩减为原通道数的一半，Up(·)表示表示特征图上采样操作：

X_out＝Up(X_in)；

其中，X_in表示上采样之前的特征图，其维度表示为：X_in∈R^C×H×W；X_out表示上采样之后的特征图，其维度表示为：

C表示特征图通道数，H表示特征图的高，W表示特征图的宽，经过上采样Up(·)操作之后，特征图的通道数由C变化为

特征图的宽和高分别由W、H变化为2W、2H；

根据所得的解码阶段融合特征图之后接上改进的区域注意力机制模块，通过区域信息对特征图通道进行重新加权：

其中，SE_block表示压缩完的注意力权重模块，其维度是：SE_block∈R^C×i×j，i、j分别表示注意力权重的高和宽，i＝{2,3,4}、j＝{2,3,4}，代表将一张特征图按照(i,j)块划分区域，每一区域压缩成SE_kl∈R^C维度的特征；C表示特征图通道数；

表示在宽度为m、高度为n的重新加权特征图中坐标为(m,n)的像素点所对应的通道特征，其维度是：

其中C_i表示第i层重新加权特征图的通道数量；

F_reweight表示重新加权之后的特征图；X_in表示解码阶段融合特征图，其维度表示为：X_in∈R^C×H×W；

表示rescale操作，操作如下：

其中，k₁,k₂,k₃,k₄表示权重通道，其维度是：k_i∈R^C，C表示特征图通道数；通过rescale操作后，原先i行j列的注意力权重模块被重新扩展成m行n列的权重图F_reweight；

最后利用权重注意力模块

与解码阶段融合特征图X_in进行element-wisemultiplication操作，获得最终精细化的重新加权特征图。

作为本发明的进一步的方案：所述通过已训练的深度模型判断输入的图像中的像素点是否属于待提取目标，将模型嵌入设备，配合进行实时的语义分隔，同时对交叠区域进行测试增强操作，获得更精确地分割结果的具体步骤包括：

利用在解码器的最后一层之后设置sigmoid函数，计算像素点的置信度，并限定在0至1之间：

其中，h(p_i)表示对特征图中第i个像素点p_i进行计算得到所述目标置信度是正样本的概率值，设定阈值界定目标与非目标；

将模型嵌入摄像设备之中，进行实时语义分割；

通过摄像头位置以及图像实际承载面积的关系，进行不同的实时语义分割推断，若产生重叠区域Ω，同时进行测试时增强操作：

其中，对所述特征图中重叠区域Ω中一一对应的像素点i,j进行计算得到所述目标置信度是正样本的概率值；

通过重叠区域Ω的像素点多次计算求取平均置信度，提高最终检测精度，获得更精确地分割结果。

与现有技术相比，本发明存在以下技术效果：

通过采用上述的技术方案，利用语义分割、特征融合、注意力机制和测试时增强等技术手段，实现了图像实时语义分割，提高了针对图像的语义分割精度，解决了常规图像语义分割算法应用于特定场景图像中分割效果差的问题。以基于深度学习的编码器解码器模型为基础，根据摄像设备捕捉的图像，自动获取每个像素点的类别。通过双路编码器实现不同深度特征的融合，获取更加具有代表性的图像特征。通过在二值交叉熵损失函数和交并比损失函数上，设定不同权重得到设定损失函数，使得模型的训练效果更加稳定，效果更好。同时，利用多摄像设备的位置关系实现测试时增强操作，进行更精确的预测，达到更高的分割精度。

附图说明

下面结合附图，对本发明的具体实施方式进行详细描述：

图1为本申请公开的一些实施例的图像视觉语义分割方法的步骤示意图；

图2为本申请公开的一些实施例的算法流程示意图；

图3为本申请公开的一些实施例的双路编码器结构示意图；

图4为本申请公开的一些实施例的区域解码器结构示意图；

图5为本申请公开的一些实施例的测试时增强语义分割计算示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参考图1和图2，本发明实施例中，一种基于双路区域注意力编解码的图像视觉语义分割方法，具体步骤包括：

S1、获取场景图像样本；

S2、对场景图像样本进行预处理，且导入构建的深度模型训练；

S3、搭建网络编解码器，对图像样本进行特征融合并获得解码特征图；

S4、利用已训练的深度模型嵌入设备判断场景图像样本，进行像素点分类，得到最终图像视觉分隔图。

在一些具体的实施例中，所述图像视觉语义分割方法的具体步骤为：

获取特定场景的图像样本数据，划分训练数据、验证数据和测试数据。所述图像样本数据包括m张图像的训练数据、n张图像的验证数据，以及若干张图像的测试数据，所述训练数据与验证数据包括与原图像对应的标签图像；具体实施方式，采用多台摄像设备，如摄像头等进行样本采集，同时可利用labelme进行图像的标注，得到标签图像。

对输入的图像样本的BGR通道归一化处理，将其数值最终限定于-1至1之间，使其有利于模型的收敛，然后再进行损失函数和优化器的配置，并训练深度模型，具体步骤如下：

设置场景图像样本的训练集为m张图像T＝{T₁,T₂,…,T_i,…,T_m}，设置m张对应的标签图像为TL＝{TL₁,TL₂,…,TL_i,…,TL_m}，其中T_i表示训练集中第i张图像，TL_i表示训练集中第i张图像的标签图像，i<m；具体实施方式中，图像选择可覆盖大部分场景。

设置场景图像样本的验证集为m张图像V＝{V₁,V₂,…,V_i,…,V_n}，设置n张对应的标签图像为VL＝{VL₁,VL₂,…,VL_i,…,VL_n}，其中V_i表示验证集中第i张图像，VL_i表示验证集中第i张图像的标签图像，i<n；具体实施方式中，图像样本从大部分场景中平均随机抽样。

制定深度模型训练策略，设定训练集与测试集的比例为m:n＝4:1；具体的，从第10个epoch开始，每次epoch结束后在验证集上计算精度并保留该模型。之后每一轮epoch后都计算精度并且与之前模型的精度进行比较，若后一个模型精度超过之前的模型，则替换之前的模型。

精度以IoU交并比作为评估标准，即用待测区域真值与模型所预测出的区域的重叠部分的比例作为衡量模型有效性的评估标准。具体实施方式中，设定100个epoch，在其中70，90的时刻设定学习率衰减，衰减因子为5.0。

再对输入的图像样本进行归一化处理：(image/255)×2-1，其中image为输入的样本图像；具体实施方式中，因输入图像的RGB通道数值范围是0到255，需要将其转换为0到1之间的32位的浮点数形式，最后进行将其数值限定于-1到1之间，可使用opencv完成图片读取与归一化操作。该输入图片的尺寸为1024×1024，其图片通道数位3。

将优化器设定为Adam，再根据二值交叉熵损失函数和交并比损失函数，获得最终的损失函数。具体实施方式中，Adam的时间更短，更有助于快速收敛。其中，初始学习率设定为4×10^-4，其他参数不变。

在一些具体的实施例中，所述根据二值交叉熵损失函数和交并比损失函数，获得最终的损失函数的具体步骤包括：

首先设定损失函数，根据二值交叉熵损失函数Loss_BCE和交并比损失函数Loss_IoU，以比例进行叠加，获得最终得损失函数Loss_final，具体公式如下：

表示图像中第i个像素点的预测值；Loss_IoU表示交并比损失函数，A∩B表示一张图像中真值区域A与预测区域B的交集，A∪B表示一张图像中真值区域A与预测区域B的并集，使用交并比损失函数的目的是为了使预测出的图像轮廓更加贴近真实情况；Loss_final表示最终构成的损失函数，其中α和β分别代表二值交叉熵损失和交并比损失的权重且有α+β＝1，，这两个参数控制在0.6和0.4或者0.7和0.3比较合适；N输入的图像中所有像素点的个数，N＝W×H，W和H分别表示输入图像的宽和高。具体实施方式中，N取值为1024×1024，即W＝H＝1024。

如图3所示，再利用搭建的网络编码器进行特征提取，获得融合特征，具体步骤包括：

具体实施方式中，输入图像尺寸为1024×1024，得到特征图尺寸为：P＝{P₀,P₁,P₂,P₃,P₄}＝{512,256,128,64,32}。

具体实施方式中，，输入图像尺寸为1024×1024，得到特征图尺寸为：Q＝{Q₀,Q₁,Q₂,Q₃,Q₄}＝{512,256,128,64,32}，不同于第一个分支，本分支采取的空洞卷积会使得特征图的感受野变得更大，如此，同一个尺度下的特征图拥有不同的感受野。

其中，S_i为编码阶段第i层融合特征图，特征图尺寸为：S＝{S₀,S₁,S₂,S₃,S₄}＝{512,256,128,64,32}，P_i表示编码阶段第i层残差特征图，Q_i表示编码阶段第i层空洞卷积特征图，

C_i为第i层融合特征图的通道数量。具体在同一个尺度下的特征图拥有不同的感受野，叠加之后的融合特征图具有多感受野的特征，更具代表性。

如图4所示，利用搭建的网络解码器和编码器进行特征结合，获得更精确的解码特征图，具体步骤如下：

充分利用编码器与解码器中对应尺度的特征图，采用skip-connection的方式将编码阶段的low-level特征与解码阶段的high-level特征结合，再采用element-wiseaddition操作以获得融合特征F＝{F₀,F₁,F₂,F₃}，之后进行上采样；在每个上采样模块之后接上区域注意力模块对通道特征进行自适应调节，从而获得更加精确的解码特征图。具体实施方式中，得到融合特征图尺寸为F＝{F₀,F₁,F₂,F₃}＝{512,256,128,64}。

第i层融合特征图F_i为：

C_i为第i层融合特征图的通道数量，得到融合特征图的通道数量为C＝{C₀,C₁,C₂,C₃}＝{64,128,256,512}

X_out＝Up(X_in)；

特征图的宽和高分别由W、H变化为2W、2H；

其中C_i表示第i层重新加权特征图的通道数量；

表示rescale操作，操作如下：

最后利用权重注意力模块

通过已训练的深度模型判断输入的图像中的像素点是否属于待提取目标，将模型嵌入设备，配合进行实时的语义分隔，同时对交叠区域进行测试增强操作，获得更精确地分割结果。具体步骤如下：

利用在解码器的最后一层之后设置sigmoid函数，计算最终所得特征图中的每一像素点的置信度，并限定在0至1之间：

其中，h(p_i)表示对特征图中第i个像素点p_i进行计算得到所述目标置信度是正样本的概率值，设定阈值界定目标与非目标；具体的，阈值设定为θ＝0.5。

将模型嵌入摄像设备之中，进行实时语义分割；

通过摄像头位置以及图像实际承载面积的关系，进行不同的实时语义分割推断，若产生重叠区域Ω，如图5所示，同时进行测试时增强操作：

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定，均应包含在本发明的保护范围之内。