CN111353505B

CN111353505B - 基于可联合实现语义分割和景深估计的网络模型的装置

Info

Publication number: CN111353505B
Application number: CN202010445676.7A
Authority: CN
Inventors: 邵文泽; 张寒波; 李海波
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2020-05-25
Filing date: 2020-05-25
Publication date: 2020-10-16
Anticipated expiration: 2040-05-25
Also published as: CN111353505A

Abstract

本发明公开了一种可联合实现语义分割和景深估计的网络模型，包括：特征共享模块、多任务子网络，多任务子网络包括多个结构相同的任务子网络以供处理不同任务目标，包括：特征筛选模块、注意力集中模块和预测模块；特征筛选模块从共享特征筛选出与任务相关的特征；注意力集中模块提升筛选特征与任务目标的相关性；预测模块被配置为对集中注意力特征卷积后输出各任务目标的处理结果。本申请还公开了上述模型的训练方法，分别针对语义分割和景深估计进行反向传播迭代训练。本申请的模型精确性高、鲁棒性强，且模型轻量化。

Description

基于可联合实现语义分割和景深估计的网络模型的装置

技术领域

本发明涉及计算机视觉图像处理，具体涉及一种基于可联合实现语义分割和景深估计的网络模型的装置。

背景技术

语义分割是一种典型的计算机视觉问题，属于高层视觉任务，是理解场景的一种有效方法，从微观意义上了说，语义分割对图像中所有像素点进行预测，对每个像素点打上所属类别标签。同时也是实现细粒度推理中重要的一步。对于细粒度推理来说，进行物体的定位与检测，这将不止需要物体类别信息，也需要关于各类别空间位置的额外信息，比如中心点或者边框，因此语义分割是实现细粒度推理的重要一步。

在现有的计算机视觉图像处理的应用场景中，例如在自动驾驶、机器人系统、场景理解等，除了需要感知语义信息以外，还需要去推理出当前车辆与周围车辆、行人和障碍物的距离，通过景深估计来提升自动驾驶的安全性。

目前，深度学习（Deep Learning，简称DL）中的卷积神经网络（ConvolutionalNeural Networks, 简称CNN）已经在计算机视觉领域中表现出色。包括：图像分类、语义分割、物体检测、目标跟踪、景深估计。将一个端到端的CNN集成到视觉图像处理的感知模块中，对周围环境中的物体进行语义分割和景深估计，对于安全性来说是一个可行方案。但现有模型单一化，无法解决多个任务，在实际的应用场景中，特别是在自动驾驶领域中，由于自动驾驶的汽车要考虑内存和实时性，这一缺点被放大化；另外，现有的单任务模型特征提取噪音较大，对注意力的提升效果不理想，且计算量大。

发明内容

发明目的：本申请的目的在于提供一种基于可联合实现语义分割和景深估计的网络模型的装置，用于解决现有技术中单任务模型无法同时语义分割及景深估计，且单任务模型中注意力集中效果不理想、计算量大的缺陷。

技术方案：本申请一方面提供了一种基于可联合实现语义分割和景深估计的网络模型的装置，该装置包括可联合实现语义分割和景深估计的网络模型，模型包括：

特征共享模块，其被配置为将输入图像通过卷积神经网络进行特征提取，得到共享特征；

多任务子网络，其被配置为分别根据各任务目标，基于共享特征进行图像处理；任务目标包括图像语义分割、图像景深估计；

多任务子网络包括多个结构相同的任务子网络以供处理不同任务目标，包括：特征筛选模块、注意力集中模块和预测模块；

特征筛选模块被配置为根据各任务目标，从共享特征筛选出与任务相关的特征，得到对应的筛选特征；

注意力集中模块被配置为提升筛选特征与任务目标的相关性，得到集中注意力特征；

预测模块被配置为对集中注意力特征卷积后输出各任务目标的处理结果。

进一步地，特征共享模块采用编码-解码结构，包括编码单元和解码单元，编码单元的输出作为解码单元的输入；

编码单元包括多个编码块以及与编码块间隔串接的下采样块；

解码单元包括与编码块对应的多个解码块以及与下采样块对应的多个上采样块，解码块与上采样块间隔串接，每个编码块与其对应的解码块形成编解码对。

进一步地，特征筛选模块包括与编解码对相对应的多个特征筛选单元，以及与特征筛选单元间隔串接的上采样块；

每个特征筛选单元的输入来源于与其对应的编码块和解码块的输出特征以及前一特征筛选单元输出上采样后的结果。

进一步地，特征筛选单元通过筛选块学习筛选掩码进行特征筛选，其输出表示为：

其中，k为特征筛选单元的编号，N为特征筛选单元的数量，t为任务编号，

为任务t在第k特征筛选单元中学习到筛选掩码，

为任务t在第k特征筛选单元的筛选块，

为任务t在第k特征筛选单元的输出；

为第i编码块的输出，

为第j解码块的输出，第i编码块与第N+1-i解码块构成编解码对；

表示像素级相乘，©表示连接。

进一步地，筛选块包括卷积块以及与卷积块串接的第一激活函数，卷积块包括多个拼接的卷积单元，卷积单元包括依次连接的标准卷积、批标准化和第二激活函数。

进一步地，注意力集中模块提升筛选特征与任务目标的相关性，包括：

将筛选特征分别进行两个分支的标准卷积，得到第一提升特征和第二提升特征；

将第一提升特征与可学习的向量进行矩阵相乘并经softmax进行逻辑回归，得到归一化因子；

将第二提升特征与归一化因子矩阵相乘后进行标准卷积，得到第三提升特征；

将第三提升特征与筛选特征进行加性融合得到所述集中注意力特征。

本申请另一方面提供了一种用于上述网络模型的训练方法，包括：

根据图像识别需求，获取数据集，数据集中包括多张含有识别对象的图像，每个图像携带标签；

对数据集按照预设比例划分为第一数据集和第二数据集；

对第一数据集中的图像按照预先设定的规则进行预处理，得到训练集；

将训练集输入模型中，对模型进行训练，固定模型参数；

将第二数据集作为验证集，得到各个任务目标对应的评价指标；

利用各任务的损失函数针对评价指标计算误差，进行反向传播修正模型参数，直至模型收敛。

进一步地，

对于语义分割任务，采用基于像素的交叉熵损失函数来计算预测的类别标签与真实的类别标签之间的差距，其损失函数为：

其中，a,b分别为索引图像的高和宽，

为真实的类别标签，

为预测的类别概率，

为图像的高和宽；

对于景深估计任务，采用L1正则化来比较预测与真实的深度，其损失函数为：

其中，a,b分别为索引图像的高和宽,

为真实的深度值，

为预测的深度值，

为图像的高和宽。

进一步地，

对于语义分割任务，采取的评价指标为像素精度PA和均交并比mIoU：

其中，

表示

个目标类和一个背景类，

表示本属于

类且预测为

类的像素点总数，

表示本属于

类且预测为

类的像素点总数，

表示本属于

类且预测为

类的像素点总数；

对于景深估计任务，采取的评价指标为绝对误差Abs Err和相对误差Rel Err：

表示真实的深度值，

表示预测的深度值。

本申请还提供了一种计算机可读存储介质，计算机可读存储介质内存储有计算机指令，计算机指令被执行时实现上述训练方法。

有益效果：与现有技术相比，本申请提供的的基于注意力机制的多任务模型架构，深层次的挖掘任务间共享特征，引入注意力集中模块聚焦两分支特别关注的特征，不仅提升了多任务模型的精确性和鲁棒性，而且模型也更加轻量化。

附图说明

图1为本申请实施例中的网络模型的结构示意图；

图2为第一特征筛选单元的结构示意图；

图3为除第一特征筛选单元外的其他特征筛选单元的结构示意图；

图4为注意力集中模型机构示意图；

图5为本申请的模型训练方法流程图。

具体实施方式

下面结合附图和实施例对本发明做进一步描述：

本申请一方面提供了一种基于可联合实现语义分割和景深估计的网络模型的装置，该装置包括可联合实现语义分割和景深估计的网络模型，如图1所示，在图像输入模型前，首先通过3*3的标准卷积，对图像进行初步提取，得到输入图像，本实施例中的网络模型包括：

特征共享模块，其被配置为将输入图像通过卷积神经网络进行特征提取，得到共享特征。具体地，特征共享模块采用编码-解码（（encoder-decoder））结构，包括编码单元和解码单元，编码单元的输出作为解码单元的输入，编码单元对输入图像进行特征编码及下采样处理，解码单元对编码信息进行上采样解码；

编码单元包括5个编码块（分别为第一编码块、第二编码块、第三编码块、第四编码块、第五编码块）以及与编码块间隔串接的下采样块，上采样块拼接在每个编码块后。解码单元包括与编码块对应的5个解码块（分别为第五解码块、第四解码块、第三解码块、第二解码块、第一解码块）以及与上采样块对应的5个下采样块，上采样块拼接在解码块前，每个编码块与其对应的解码块形成编解码对，即第i编码块与第6-i解码块构成编解码对。

本实施例中，编码块和解码块的基本结构均可采用mobilenetv3基本单元，考虑到参量问题，第一编码块和第二编码块采用2个基本单元，第三~第五编码块采用三个基本单元；对应的，第五解码块和第四解码块采用2个基本单元，第一~第三解码块采用3个基本单元。以下对编解码过程举例说明：

假设输入图像为高为256像素，宽为512像素，3个通道（记为（256，512，3））的数据集送入到编码单元中，分别得到5个编码特征图：这五个特征图是下采样前的特征图，第一编码块的输出为（256，512，16）、第二编码块的输出为（128，256，32）、第三编码块的输出为（64，128，64）、第四个编码块的输出为（32，64，128）、第五编码块的输出为（16，32，128）。然后，将编码单元的输出送入解码单元中，得到5个解码特征图，这5个特征图是上采样后的特征图：第一解码块的输出为（16，32，128）、第二解码块的输出为（32，64，128）、第三解码块的输出为（64，128，64）、第四解码块的输出为（128，256，32）、第五解码块的输出为（256，512，16）。

多任务子网络，其被配置为分别根据各任务目标，基于共享特征进行图像处理；本实施例中将任务目标限定为包括图像语义分割、图像景深估计。用于进行图像语义分割和景深估计的子网络结构相同，如图1所示，均包括：特征筛选模块、注意力集中模块和预测模块。

特征筛选模块被配置为根据各任务目标，从共享特征筛选出与任务相关的特征，得到对应的筛选特征。具体地，如图2所示，特征筛选模块包括与编解码对相对应的5个特征筛选单元（分别为第一特征筛选单元、第二特征筛选单元、第三特征筛选单元、第四特征筛选单元、第五特征筛选单元），第二~第五特征筛选单元筛选前须通过上采样块进行采样。

如图2所示，用

表示第i编码块的输出，

表示第j解码块的输出，对于第一特征筛选单元而言，其输入来源于与其对应的编码块和解码块的输出特征，即第五编码块和第一解码块的输出作为第一特征筛选单元的输入。

如图3所示，对于第二~第五特征筛选单元而言，其输入来源于上衣特征筛选模块上采样后的输出及其对应的编码块和解码块的输出，且在通道维度上直接拼接。

上述特征筛选单元通过筛选块学习筛选掩码进行特征筛选，其输出具体表示为：

其中，k为特征筛选单元的编号，特征筛选单元的数量N取5，t为任务编号，

为任务t在第k特征筛选单元中学习到筛选掩码，

为任务t在第k特征筛选单元的筛选块，每个

结构相同，

为任务t在第k特征筛选单元中的输出；

表示像素级相乘，©表示连接。

为第i编码块的输出，i索引编码块；

为第j解码块的输出，j索引解码块；第i编码块与第6-i解码块构成编解码对。

每一个特征筛选掩码对应于每一个共享模块中的解码特征，特定于任务的精细特征主要通过特征筛选掩码和解码特征进行像素级的相乘，从而筛选出精细化的特征。

其中，筛选块采用包括卷积块以及与卷积块串接的第一激活函数，卷积块包括多个拼接的卷积单元，卷积单元包括依次连接的标准卷积、批标准化和第二激活函数。如图2和图3所示，在本实施例中，每个筛选块均采用3个1x1标准卷积，每个卷积均紧跟批标准化(Batch Normalization,简称BN)以及第一激活函数Relu(.)，第二激活函数是Sigmoid函数，输出得到激活图，其值在[0,1]。

注意力集中模块被配置为提升筛选特征与任务目标的相关性，得到集中注意力特征。注意力机制最初来自于自然语言处理（natural language process，简称NLP），并将注意力机制应用到机器翻译上。在计算给定查询(Query)元素的输出时，根据查询对某些关键(Key)元素进行优先级排序，输出优先级高的关键元素所对应的值(Value)。在自注意力模型中，查询元素、关键元素和值元素（分别记作Q、K、V）来自同一输入，首先计算Q与K之间的点乘，得到权重因子，之后对权重因子来进行softmax归一化处理，使所有权重因子和为1，最后根据归一化后的权重因子对V进行加权求和。对于视觉任务，查询元素和关键元素是来自视觉元素，可以是图像中某个像素或者某个感兴趣的区域，注意力机制的重点是根据注意因素来确定权重因子。本申请仅仅只是考虑关键内容（key content）来确定注意力权重因子ℇ，表示为：

其中，

是可学习的向量；

是关键内容的编码矩阵，是可学习的；

是关键内容，指图像像素，即本申请中的筛选特征。

具体地，注意力集中模块结构如图4所示，通过以下步骤提升筛选特征与任务目标的相关性：

① 将筛选特征分别进行两个分支的标准卷积，得到第一提升特征和第二提升特征；在实施例中，两个分支的标准卷积均采用1x1标准卷积。

② 将第一提升特征与可学习的向量进行矩阵相乘得到注意力权重因子ℇ，后经softmax进行逻辑回归，得到归一化因子；

③ 将第二提升特征与归一化因子矩阵相乘后进行1x1标准卷积，得到第三提升特征；

④ 将第三提升特征与筛选特征进行加性融合得到所述集中注意力特征。

预测模块被配置为对集中注意力特征采用两个3x3卷积后输出各任务目标的预测结果。对于语义分割来说，其最后的输出通道为标签分类数量，每一个通道表示对每一个类别的预测。对于景深估计来说，其最后的输出通道为1，表示预测的景深图。

本申请另一方面提供了一种用于上述网络模型的训练方法，如图5所示，包括：

（1）根据图像识别需求，获取数据集，数据集中包括多张含有识别对象的图像，每个图像携带标签；

（2）对数据集按照预设比例划分为第一数据集和第二数据集；

（3）对第一数据集中的图像按照预先设定的规则进行预处理，得到训练集；

（4）将训练集输入模型中，对模型进行训练，固定模型参数；

（5）将第二数据集作为验证集，得到各个任务目标对应的评价指标；

（6）利用各任务的损失函数针对评价指标计算误差，进行反向传播修正模型参数，直至模型收敛。

其中，a,b分别为索引图像的高和宽，

为真实的类别标签，

为预测的类别概率，

为图像的高和宽。

语义分割采取的评价指标为像素精度PA和均交并比mIoU：

其中，

表示

个目标类和一个背景类，

表示本属于

类且预测为

类的像素点总数，

表示本属于

类且预测为

类的像素点总数，

表示本属于

类且预测为

类的像素点总数；

其中，a,b分别为索引图像的高和宽,

为真实的深度值，

为预测的深度值，

为图像的高和宽。

景深估计采取的评价指标为绝对误差Abs Err和相对误差Rel Err：

表示真实的深度值，

表示预测的深度值。

仿真实验：

为验证本申请网络模型的性能，利用Cityscape进行仿真验证：

（1）准备训练集以及验证集：

采用Cityscape数据集，该且该数据集具有真实的语义图和景深图。将精细注释的Cityscape数据集通过随机旋转和水平翻转进行数据增强后，保存为npy数据格式作为该多任务模型的训练集，将精细注释的原始Cityscape数据集作为验证集，训练图像总共包括2975张、验证集总共有500张。

（2）训练模型

利用pytorch深度学习框架搭建上述的多任务模型，通过配置文件进行模型训练的相关参数，优化函数设为Adam算法，基础学习率设为5e-3，总的迭代次数设置为200。将训练集送入到搭建的多任务网络模型中，通过特征共享模块提取共享特征，之后通过特征筛选模块深层次的筛选出特定任务的特征，以及从空间角度看，通过特征注意模块进一步聚焦任务本身重点关注的内容。最后送入预测模块进行预测。通过误差反向传播来修正模型参数，直至模型收敛。保存模型收敛后的参数。

（3）验证模型

利用验证集以及模型参数来对该模型验证，保存语义分割评价指标像素精度和均交并比，以及景深估计的评价指标绝对误差和相对误差。

（4）实验结果

为了验证该多任务模型的性能，本发明与Shikun Liu, Edward Jons等人发表的文章“End-to-End Multi-Task Learning with Attention”进行了对比，该文章中的模型简称为MTAN。具体实验结果如表1所示。

表1

model	#P	mIOU	PA	Abs_Err	Rel_Err
						MTAN	1.65	53.86	91.10	0.0144	35.72
本发明（Ours）	0.7564	65.13	95.76	0.0104	21.83
						语义分割（semantic）	0.6614	66.99	95.62	-	-
景深估计（depth）	0.6614	-	-	0.0115	21.75

CityScapes验证集7类语义分割和景深估计结果。#P代表模型参数量。

由表1可知，本发明相比于多任务模型MTAN，各项性能指标均有明显提示，参数量也由1.65下降至0.7564。说明本发明不仅提升多任务模型的准确性，还降低模型的参数量，提高模型推理速度。但是相比于单任务，没有明显提升，说明本发明在挖掘任务共享特征这方面仍有提升空间。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

Claims

1.一种基于可联合实现语义分割和景深估计的网络模型的装置，其特征在于，所述装置包括可联合实现语义分割和景深估计的网络模型，所述模型包括：

特征共享模块，其被配置为将输入图像通过卷积神经网络进行特征提取，得到共享特征；所述特征共享模块采用编码-解码结构，包括编码单元和解码单元，所述编码单元的输出作为所述解码单元的输入；所述编码单元包括多个编码块以及与编码块间隔串接的下采样块；所述解码单元包括与编码块对应的多个解码块以及与下采样块对应的多个上采样块，所述解码块与所述上采样块间隔串接，每个所述编码块与其对应的解码块形成编解码对；

多任务子网络，其被配置为分别根据各任务目标，基于所述共享特征进行图像处理；所述任务目标包括图像语义分割、图像景深估计；

所述多任务子网络包括多个结构相同的任务子网络以供处理不同任务目标，每个所述任务子网络结构相同，包括：特征筛选模块、注意力集中模块和预测模块；

所述特征筛选模块被配置为根据各任务目标，从共享特征筛选出与任务相关的特征，得到对应的筛选特征；

所述注意力集中模块被配置为提升所述筛选特征与任务目标的相关性，得到集中注意力特征；

所述预测模块被配置为对所述集中注意力特征进行两个3x3卷积后输出各任务目标的处理结果；

其中，

所述特征筛选模块包括与所述编解码对相对应的多个特征筛选单元，以及与所述特征筛选单元间隔串接的上采样块；每个所述特征筛选单元的输入来源于与其对应的编码块和解码块的输出特征以及前一特征筛选单元输出上采样后的结果；

所述特征筛选单元通过筛选块学习筛选掩码进行特征筛选，其输出表示为：