CN111353505A - 可联合实现语义分割和景深估计的网络模型及训练方法 - Google Patents

可联合实现语义分割和景深估计的网络模型及训练方法 Download PDF

Info

Publication number
CN111353505A
CN111353505A CN202010445676.7A CN202010445676A CN111353505A CN 111353505 A CN111353505 A CN 111353505A CN 202010445676 A CN202010445676 A CN 202010445676A CN 111353505 A CN111353505 A CN 111353505A
Authority
CN
China
Prior art keywords
feature
task
screening
block
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010445676.7A
Other languages
English (en)
Other versions
CN111353505B (zh
Inventor
邵文泽
张寒波
李海波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN202010445676.7A priority Critical patent/CN111353505B/zh
Publication of CN111353505A publication Critical patent/CN111353505A/zh
Application granted granted Critical
Publication of CN111353505B publication Critical patent/CN111353505B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种可联合实现语义分割和景深估计的网络模型,包括:特征共享模块、多任务子网络,多任务子网络包括多个结构相同的任务子网络以供处理不同任务目标,包括:特征筛选模块、注意力集中模块和预测模块;特征筛选模块从共享特征筛选出与任务相关的特征;注意力集中模块提升筛选特征与任务目标的相关性;预测模块被配置为对集中注意力特征卷积后输出各任务目标的处理结果。本申请还公开了上述模型的训练方法,分别针对语义分割和景深估计进行反向传播迭代训练。本申请的模型精确性高、鲁棒性强,且模型轻量化。

Description

可联合实现语义分割和景深估计的网络模型及训练方法
技术领域
本发明涉及计算机视觉图像处理,具体涉及一种可联合实现语义分割和景深估计的网络模型及训练方法。
背景技术
语义分割是一种典型的计算机视觉问题,属于高层视觉任务,是理解场景的一种有效方法,从微观意义上了说,语义分割对图像中所有像素点进行预测,对每个像素点打上所属类别标签。同时也是实现细粒度推理中重要的一步。对于细粒度推理来说,进行物体的定位与检测,这将不止需要物体类别信息,也需要关于各类别空间位置的额外信息,比如中心点或者边框,因此语义分割是实现细粒度推理的重要一步。
在现有的计算机视觉图像处理的应用场景中,例如在自动驾驶、机器人系统、场景理解等,除了需要感知语义信息以外,还需要去推理出当前车辆与周围车辆、行人和障碍物的距离,通过景深估计来提升自动驾驶的安全性。
目前,深度学习(Deep Learning,简称DL)中的卷积神经网络(ConvolutionalNeural Networks, 简称CNN)已经在计算机视觉领域中表现出色。包括:图像分类、语义分割、物体检测、目标跟踪、景深估计。将一个端到端的CNN集成到视觉图像处理的感知模块中,对周围环境中的物体进行语义分割和景深估计,对于安全性来说是一个可行方案。但现有模型单一化,无法解决多个任务,在实际的应用场景中,特别是在自动驾驶领域中,由于自动驾驶的汽车要考虑内存和实时性,这一缺点被放大化;另外,现有的单任务模型特征提取噪音较大,对注意力的提升效果不理想,且计算量大。
发明内容
发明目的:本申请的目的在于提供一种可联合实现语义分割和景深估计的网络模型及训练方法,用于解决现有技术中单任务模型无法同时语义分割及景深估计,且单任务模型中注意力集中效果不理想、计算量大的缺陷。
技术方案:本申请一方面提供了一种可联合实现语义分割和景深估计的网络模型,包括:
特征共享模块,其被配置为将输入图像通过卷积神经网络进行特征提取,得到共享特征;
多任务子网络,其被配置为分别根据各任务目标,基于共享特征进行图像处理;任务目标包括图像语义分割、图像景深估计;
多任务子网络包括多个结构相同的任务子网络以供处理不同任务目标,包括:特征筛选模块、注意力集中模块和预测模块;
特征筛选模块被配置为根据各任务目标,从共享特征筛选出与任务相关的特征,得到对应的筛选特征;
注意力集中模块被配置为提升筛选特征与任务目标的相关性,得到集中注意力特征;
预测模块被配置为对集中注意力特征卷积后输出各任务目标的处理结果。
进一步地,特征共享模块采用编码-解码结构,包括编码单元和解码单元,编码单元的输出作为解码单元的输入;
编码单元包括多个编码块以及与编码块间隔串接的下采样块;
解码单元包括与编码块对应的多个解码块以及与下采样块对应的多个上采样块,解码块与上采样块间隔串接,每个编码块与其对应的解码块形成编解码对。
进一步地,特征筛选模块包括与编解码对相对应的多个特征筛选单元,以及与特征筛选单元间隔串接的上采样块;
每个特征筛选单元的输入来源于与其对应的编码块和解码块的输出特征以及前一特征筛选单元输出上采样后的结果。
进一步地,特征筛选单元通过筛选块学习筛选掩码进行特征筛选,其输出表示为:
Figure DEST_PATH_IMAGE001
Figure DEST_PATH_IMAGE003
Figure DEST_PATH_IMAGE005
其中,k为特征筛选单元的编号,N为特征筛选单元的数量,t为任务编号,
Figure 71986DEST_PATH_IMAGE006
为任务t在第k特征筛选单元中学习到筛选掩码,
Figure DEST_PATH_IMAGE007
为任务t在第k特征筛选单元的筛选块,
Figure 17071DEST_PATH_IMAGE008
为任务t在第k特征筛选单元的输出;
Figure DEST_PATH_IMAGE009
为第i编码块的输出,
Figure 388009DEST_PATH_IMAGE010
为第j解码块的输出,第i编码块与第N+1-i解码块构成编解码对;
Figure DEST_PATH_IMAGE011
表示像素级相乘,©表示连接。
进一步地,筛选块包括卷积块以及与卷积块串接的第一激活函数,卷积块包括多个拼接的卷积单元,卷积单元包括依次连接的标准卷积、批标准化和第二激活函数。
进一步地,注意力集中模块提升筛选特征与任务目标的相关性,包括:
将筛选特征分别进行两个分支的标准卷积,得到第一提升特征和第二提升特征;
将第一提升特征与可学习的向量进行矩阵相乘并经softmax进行逻辑回归,得到归一化因子;
将第二提升特征与归一化因子矩阵相乘后进行标准卷积,得到第三提升特征;
将第三提升特征与筛选特征进行加性融合得到所述集中注意力特征。
本申请另一方面提供了一种用于上述网络模型的训练方法,包括:
根据图像识别需求,获取数据集,数据集中包括多张含有识别对象的图像,每个图像携带标签;
对数据集按照预设比例划分为第一数据集和第二数据集;
对第一数据集中的图像按照预先设定的规则进行预处理,得到训练集;
将训练集输入模型中,对模型进行训练,固定模型参数;
将第二数据集作为验证集,得到各个任务目标对应的评价指标;
利用各任务的损失函数针对评价指标计算误差,进行反向传播修正模型参数,直至模型收敛。
进一步地,
对于语义分割任务,采用基于像素的交叉熵损失函数来计算预测的类别标签与真实的类别标签之间的差距,其损失函数为:
Figure DEST_PATH_IMAGE013
其中,a,b分别为索引图像的高和宽,
Figure 91173DEST_PATH_IMAGE014
为真实的类别标签,
Figure DEST_PATH_IMAGE015
为预测的类别概率,
Figure 773827DEST_PATH_IMAGE016
为图像的高和宽;
对于景深估计任务,采用L1正则化来比较预测与真实的深度,其损失函数为:
Figure 834187DEST_PATH_IMAGE018
其中,a,b分别为索引图像的高和宽,
Figure DEST_PATH_IMAGE019
为真实的深度值,
Figure 748047DEST_PATH_IMAGE020
为预测的深度值,
Figure 196346DEST_PATH_IMAGE016
为图像的高和宽。
进一步地,
对于语义分割任务,采取的评价指标为像素精度PA和均交并比mIoU
Figure 802514DEST_PATH_IMAGE022
Figure 260041DEST_PATH_IMAGE024
其中,
Figure DEST_PATH_IMAGE025
表示
Figure 199047DEST_PATH_IMAGE026
个目标类和一个背景类,
Figure DEST_PATH_IMAGE027
表示本属于
Figure 178766DEST_PATH_IMAGE028
类且预测为
Figure 508116DEST_PATH_IMAGE028
类的像素点总数,
Figure DEST_PATH_IMAGE029
表示本属于
Figure 238175DEST_PATH_IMAGE028
类且预测为
Figure 462046DEST_PATH_IMAGE030
类的像素点总数,
Figure DEST_PATH_IMAGE031
表示本属于
Figure 111202DEST_PATH_IMAGE030
类且预测为
Figure 662269DEST_PATH_IMAGE028
类的像素点总数;
对于景深估计任务,采取的评价指标为绝对误差Abs Err和相对误差Rel Err
Figure DEST_PATH_IMAGE033
Figure DEST_PATH_IMAGE035
Figure 822118DEST_PATH_IMAGE036
表示真实的深度值,
Figure DEST_PATH_IMAGE037
表示预测的深度值。
本申请还提供了一种计算机可读存储介质,计算机可读存储介质内存储有计算机指令,计算机指令被执行时实现上述训练方法。
有益效果:与现有技术相比,本申请提供的的基于注意力机制的多任务模型架构,深层次的挖掘任务间共享特征,引入注意力集中模块聚焦两分支特别关注的特征,不仅提升了多任务模型的精确性和鲁棒性,而且模型也更加轻量化。
附图说明
图1为本申请实施例中的网络模型的结构示意图;
图2为第一特征筛选单元的结构示意图;
图3为除第一特征筛选单元外的其他特征筛选单元的结构示意图;
图4为注意力集中模型机构示意图;
图5为本申请的模型训练方法流程图。
具体实施方式
下面结合附图和实施例对本发明做进一步描述:
本申请一方面提供了一种可联合实现语义分割和景深估计的网络模型,如图1所示,在图像输入模型前,首先通过3*3的标准卷积,对图像进行初步提取,得到输入图像,本实施例中的网络模型包括:
特征共享模块,其被配置为将输入图像通过卷积神经网络进行特征提取,得到共享特征。具体地,特征共享模块采用编码-解码((encoder-decoder))结构,包括编码单元和解码单元,编码单元的输出作为解码单元的输入,编码单元对输入图像进行特征编码及下采样处理,解码单元对编码信息进行上采样解码;
编码单元包括5个编码块(分别为第一编码块、第二编码块、第三编码块、第四编码块、第五编码块)以及与编码块间隔串接的下采样块,上采样块拼接在每个编码块后。解码单元包括与编码块对应的5个解码块(分别为第五解码块、第四解码块、第三解码块、第二解码块、第一解码块)以及与上采样块对应的5个下采样块,上采样块拼接在解码块前,每个编码块与其对应的解码块形成编解码对,即第i编码块与第6-i解码块构成编解码对。
本实施例中,编码块和解码块的基本结构均可采用mobilenetv3基本单元,考虑到参量问题,第一编码块和第二编码块采用2个基本单元,第三~第五编码块采用三个基本单元;对应的,第五解码块和第四解码块采用2个基本单元,第一~第三解码块采用3个基本单元。以下对编解码过程举例说明:
假设输入图像为高为256像素,宽为512像素,3个通道(记为(256,512,3))的数据集送入到编码单元中,分别得到5个编码特征图:这五个特征图是下采样前的特征图,第一编码块的输出为(256,512,16)、第二编码块的输出为(128,256,32)、第三编码块的输出为(64,128,64)、第四个编码块的输出为(32,64,128)、第五编码块的输出为(16,32,128)。然后,将编码单元的输出送入解码单元中,得到5个解码特征图,这5个特征图是上采样后的特征图:第一解码块的输出为(16,32,128)、第二解码块的输出为(32,64,128)、第三解码块的输出为(64,128,64)、第四解码块的输出为(128,256,32)、第五解码块的输出为(256,512,16)。
多任务子网络,其被配置为分别根据各任务目标,基于共享特征进行图像处理;本实施例中将任务目标限定为包括图像语义分割、图像景深估计。用于进行图像语义分割和景深估计的子网络结构相同,如图1所示,均包括:特征筛选模块、注意力集中模块和预测模块。
特征筛选模块被配置为根据各任务目标,从共享特征筛选出与任务相关的特征,得到对应的筛选特征。具体地,如图2所示,特征筛选模块包括与编解码对相对应的5个特征筛选单元(分别为第一特征筛选单元、第二特征筛选单元、第三特征筛选单元、第四特征筛选单元、第五特征筛选单元),第二~第五特征筛选单元筛选前须通过上采样块进行采样。
如图2所示,用
Figure 234251DEST_PATH_IMAGE009
表示第i编码块的输出,
Figure 991991DEST_PATH_IMAGE010
表示第j解码块的输出,对于第一特征筛选单元而言,其输入来源于与其对应的编码块和解码块的输出特征,即第五编码块和第一解码块的输出作为第一特征筛选单元的输入。
如图3所示,对于第二~第五特征筛选单元而言,其输入来源于上衣特征筛选模块上采样后的输出及其对应的编码块和解码块的输出,且在通道维度上直接拼接。
上述特征筛选单元通过筛选块学习筛选掩码进行特征筛选,其输出具体表示为:
Figure 436879DEST_PATH_IMAGE038
Figure DEST_PATH_IMAGE039
Figure DEST_PATH_IMAGE041
其中,k为特征筛选单元的编号,特征筛选单元的数量N取5,t为任务编号,
Figure 665998DEST_PATH_IMAGE006
为任务t在第k特征筛选单元中学习到筛选掩码,
Figure 371785DEST_PATH_IMAGE007
为任务t在第k特征筛选单元的筛选块,每个
Figure 300427DEST_PATH_IMAGE007
结构相同,
Figure 91666DEST_PATH_IMAGE008
为任务t在第k特征筛选单元中的输出;
Figure 737191DEST_PATH_IMAGE011
表示像素级相乘,©表示连接。
Figure 297486DEST_PATH_IMAGE009
为第i编码块的输出,i索引编码块;
Figure 600291DEST_PATH_IMAGE010
为第j解码块的输出,j索引解码块;第i编码块与第6-i解码块构成编解码对。
每一个特征筛选掩码对应于每一个共享模块中的解码特征,特定于任务的精细特征主要通过特征筛选掩码和解码特征进行像素级的相乘,从而筛选出精细化的特征。
其中,筛选块采用包括卷积块以及与卷积块串接的第一激活函数,卷积块包括多个拼接的卷积单元,卷积单元包括依次连接的标准卷积、批标准化和第二激活函数。如图2和图3所示,在本实施例中,每个筛选块均采用3个1x1标准卷积,每个卷积均紧跟批标准化(Batch Normalization,简称BN)以及第一激活函数Relu(.),第二激活函数是Sigmoid函数,输出得到激活图,其值在[0,1]。
注意力集中模块被配置为提升筛选特征与任务目标的相关性,得到集中注意力特征。注意力机制最初来自于自然语言处理(natural language process,简称NLP),并将注意力机制应用到机器翻译上。在计算给定查询(Query)元素的输出时,根据查询对某些关键(Key)元素进行优先级排序,输出优先级高的关键元素所对应的值(Value)。在自注意力模型中,查询元素、关键元素和值元素(分别记作Q、K、V)来自同一输入,首先计算Q与K之间的点乘,得到权重因子,之后对权重因子来进行softmax归一化处理,使所有权重因子和为1,最后根据归一化后的权重因子对V进行加权求和。对于视觉任务,查询元素和关键元素是来自视觉元素,可以是图像中某个像素或者某个感兴趣的区域,注意力机制的重点是根据注意因素来确定权重因子。本申请仅仅只是考虑关键内容(key content)来确定注意力权重因子ℇ,表示为:
其中,
Figure DEST_PATH_IMAGE043
是可学习的向量;
Figure 653009DEST_PATH_IMAGE044
是关键内容的编码矩阵,是可学习的;
Figure DEST_PATH_IMAGE045
是关键内容,指图像像素,即本申请中的筛选特征。
具体地,注意力集中模块结构如图4所示,通过以下步骤提升筛选特征与任务目标的相关性:
① 将筛选特征分别进行两个分支的标准卷积,得到第一提升特征和第二提升特征;在实施例中,两个分支的标准卷积均采用1x1标准卷积。
② 将第一提升特征与可学习的向量进行矩阵相乘得到注意力权重因子ℇ,后经softmax进行逻辑回归,得到归一化因子;
③ 将第二提升特征与归一化因子矩阵相乘后进行1x1标准卷积,得到第三提升特征;
④ 将第三提升特征与筛选特征进行加性融合得到所述集中注意力特征。
预测模块被配置为对集中注意力特征采用两个3x3卷积后输出各任务目标的预测结果。对于语义分割来说,其最后的输出通道为标签分类数量,每一个通道表示对每一个类别的预测。对于景深估计来说,其最后的输出通道为1,表示预测的景深图。
本申请另一方面提供了一种用于上述网络模型的训练方法,如图5所示,包括:
(1)根据图像识别需求,获取数据集,数据集中包括多张含有识别对象的图像,每个图像携带标签;
(2)对数据集按照预设比例划分为第一数据集和第二数据集;
(3)对第一数据集中的图像按照预先设定的规则进行预处理,得到训练集;
(4)将训练集输入模型中,对模型进行训练,固定模型参数;
(5)将第二数据集作为验证集,得到各个任务目标对应的评价指标;
(6)利用各任务的损失函数针对评价指标计算误差,进行反向传播修正模型参数,直至模型收敛。
对于语义分割任务,采用基于像素的交叉熵损失函数来计算预测的类别标签与真实的类别标签之间的差距,其损失函数为:
Figure DEST_PATH_IMAGE047
其中,a,b分别为索引图像的高和宽,
Figure 690979DEST_PATH_IMAGE014
为真实的类别标签,
Figure 836789DEST_PATH_IMAGE015
为预测的类别概率,
Figure 602620DEST_PATH_IMAGE016
为图像的高和宽。
语义分割采取的评价指标为像素精度PA和均交并比mIoU
Figure 351133DEST_PATH_IMAGE048
Figure DEST_PATH_IMAGE049
其中,
Figure 918643DEST_PATH_IMAGE025
表示
Figure 94409DEST_PATH_IMAGE026
个目标类和一个背景类,
Figure 81957DEST_PATH_IMAGE027
表示本属于
Figure 103003DEST_PATH_IMAGE028
类且预测为
Figure 8509DEST_PATH_IMAGE028
类的像素点总数,
Figure 355177DEST_PATH_IMAGE029
表示本属于
Figure 830020DEST_PATH_IMAGE028
类且预测为
Figure 920336DEST_PATH_IMAGE030
类的像素点总数,
Figure 931280DEST_PATH_IMAGE031
表示本属于
Figure 714428DEST_PATH_IMAGE030
类且预测为
Figure 676568DEST_PATH_IMAGE028
类的像素点总数;
对于景深估计任务,采用L1正则化来比较预测与真实的深度,其损失函数为:
Figure 445940DEST_PATH_IMAGE050
其中,a,b分别为索引图像的高和宽,
Figure 901936DEST_PATH_IMAGE019
为真实的深度值,
Figure 731352DEST_PATH_IMAGE020
为预测的深度值,
Figure 446367DEST_PATH_IMAGE016
为图像的高和宽。
景深估计采取的评价指标为绝对误差Abs Err和相对误差Rel Err
Figure DEST_PATH_IMAGE051
Figure 675223DEST_PATH_IMAGE052
Figure 129600DEST_PATH_IMAGE036
表示真实的深度值,
Figure 582447DEST_PATH_IMAGE037
表示预测的深度值。
本申请还提供了一种计算机可读存储介质,计算机可读存储介质内存储有计算机指令,计算机指令被执行时实现上述训练方法。
仿真实验:
为验证本申请网络模型的性能,利用Cityscape进行仿真验证:
(1)准备训练集以及验证集:
采用Cityscape数据集,该且该数据集具有真实的语义图和景深图。将精细注释的Cityscape数据集通过随机旋转和水平翻转进行数据增强后,保存为npy数据格式作为该多任务模型的训练集,将精细注释的原始Cityscape数据集作为验证集,训练图像总共包括2975张、验证集总共有500张。
(2)训练模型
利用pytorch深度学习框架搭建上述的多任务模型,通过配置文件进行模型训练的相关参数,优化函数设为Adam算法,基础学习率设为5e-3,总的迭代次数设置为200。将训练集送入到搭建的多任务网络模型中,通过特征共享模块提取共享特征,之后通过特征筛选模块深层次的筛选出特定任务的特征,以及从空间角度看,通过特征注意模块进一步聚焦任务本身重点关注的内容。最后送入预测模块进行预测。通过误差反向传播来修正模型参数,直至模型收敛。保存模型收敛后的参数。
(3)验证模型
利用验证集以及模型参数来对该模型验证,保存语义分割评价指标像素精度和均交并比,以及景深估计的评价指标绝对误差和相对误差。
(4)实验结果
为了验证该多任务模型的性能,本发明与Shikun Liu, Edward Jons等人发表的文章“End-to-End Multi-Task Learning with Attention”进行了对比,该文章中的模型简称为MTAN。具体实验结果如表1所示。
表1
model #P mIOU PA Abs_Err Rel_Err
MTAN 1.65 53.86 91.10 0.0144 35.72
本发明(Ours) 0.7564 65.13 95.76 0.0104 21.83
语义分割(semantic) 0.6614 66.99 95.62 - -
景深估计(depth) 0.6614 - - 0.0115 21.75
CityScapes验证集7类语义分割和景深估计结果。#P代表模型参数量。
由表1可知,本发明相比于多任务模型MTAN,各项性能指标均有明显提示,参数量也由1.65下降至0.7564。说明本发明不仅提升多任务模型的准确性,还降低模型的参数量,提高模型推理速度。但是相比于单任务,没有明显提升,说明本发明在挖掘任务共享特征这方面仍有提升空间。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

Claims (10)

1.一种可联合实现语义分割和景深估计的网络模型,其特征在于,包括:
特征共享模块,其被配置为将输入图像通过卷积神经网络进行特征提取,得到共享特征;
多任务子网络,其被配置为分别根据各任务目标,基于所述共享特征进行图像处理;所述任务目标包括图像语义分割、图像景深估计;
所述多任务子网络包括多个结构相同的任务子网络以供处理不同任务目标,每个所述任务子网络结构相同,包括:特征筛选模块、注意力集中模块和预测模块;
所述特征筛选模块被配置为根据各任务目标,从共享特征筛选出与任务相关的特征,得到对应的筛选特征;
所述注意力集中模块被配置为提升所述筛选特征与任务目标的相关性,得到集中注意力特征;
所述预测模块被配置为对所述集中注意力特征卷积后输出各任务目标的处理结果。
2.根据权利要求1所述的模型,其特征在于,所述特征共享模块采用编码-解码结构,包括编码单元和解码单元,所述编码单元的输出作为所述解码单元的输入;
所述编码单元包括多个编码块以及与编码块间隔串接的下采样块;
所述解码单元包括与编码块对应的多个解码块以及与下采样块对应的多个上采样块,所述解码块与所述上采样块间隔串接,每个所述编码块与其对应的解码块形成编解码对。
3.根据权利要求2所述的模型,其特征在于,所述特征筛选模块包括与所述编解码对相对应的多个特征筛选单元,以及与所述特征筛选单元间隔串接的上采样块;
每个所述特征筛选单元的输入来源于与其对应的编码块和解码块的输出特征以及前一特征筛选单元输出上采样后的结果。
4.根据权利要求3所述的模型,其特征在于,所述特征筛选单元通过筛选块学习筛选掩码进行特征筛选,其输出表示为:
Figure 513610DEST_PATH_IMAGE002
Figure 578780DEST_PATH_IMAGE004
Figure 448516DEST_PATH_IMAGE006
其中,k为特征筛选单元的编号,N为特征筛选单元的数量,t为任务编号,
Figure 299361DEST_PATH_IMAGE008
为任务t在第k特征筛选单元中学习到筛选掩码,
Figure 520127DEST_PATH_IMAGE010
为任务t在第k特征筛选单元的筛选块,
Figure 388988DEST_PATH_IMAGE012
为任务t在第k特征筛选单元中的输出;
Figure 316492DEST_PATH_IMAGE014
为第i编码块的输出,
Figure 344098DEST_PATH_IMAGE016
为第j解码块的输出,第i编码块与第N+1-i解码块构成编解码对;
Figure 458685DEST_PATH_IMAGE018
表示像素级相乘,©表示连接。
5.根据权利要求4所述的模型,其特征在于,所述筛选块包括卷积块以及与卷积块串接的第一激活函数,所述卷积块包括多个拼接的卷积单元,所述卷积单元包括依次连接的标准卷积、批标准化和第二激活函数。
6.根据权利要求1所述的模型,其特征在于,所述注意力集中模块提升所述筛选特征与任务目标的相关性,包括:
将所述筛选特征分别进行两个分支的标准卷积,得到第一提升特征和第二提升特征;
将所述第一提升特征与可学习的向量进行矩阵相乘并经softmax进行逻辑回归,得到归一化因子;
将所述第二提升特征与所述归一化因子矩阵相乘后进行标准卷积,得到第三提升特征;
将所述第三提升特征与所述筛选特征进行加性融合得到所述集中注意力特征。
7.一种用于权利要求1~6中任一项所述的模型的训练方法,其特征在于,包括:
根据图像识别需求,获取数据集,所述数据集中包括多张含有识别对象的图像,每个图像携带标签;
对数据集按照预设比例划分为第一数据集和第二数据集;
对所述第一数据集中的图像按照预先设定的规则进行预处理,得到训练集;
将所述训练集输入权利要求1~6中任一模型中,对模型进行训练,固定模型参数;
将第二数据集作为验证集,得到各个任务目标对应的评价指标;
利用各任务的损失函数针对评价指标计算误差,进行反向传播修正模型参数,直至模型收敛。
8.根据权利要求7所述的训练方法,其特征在于,
对于语义分割任务,采用基于像素的交叉熵损失函数来计算预测的类别标签与真实的类别标签之间的差距,其损失函数为:
Figure 865657DEST_PATH_IMAGE020
其中,a,b分别为索引图像的高和宽,
Figure 382089DEST_PATH_IMAGE022
为真实的类别标签,
Figure 347640DEST_PATH_IMAGE024
为预测的类别概率,
Figure 719497DEST_PATH_IMAGE026
为图像的高和宽;
对于景深估计任务,采用L1正则化来比较预测与真实的深度,其损失函数为:
Figure 54794DEST_PATH_IMAGE028
其中,a,b分别为索引图像的高和宽,
Figure 956891DEST_PATH_IMAGE030
为真实的深度值,
Figure 234289DEST_PATH_IMAGE032
为预测的深度值,
Figure 323467DEST_PATH_IMAGE026
为图像的高和宽。
9.根据权利要求7所述的训练方法,其特征在于,
对于语义分割任务,采取的评价指标为像素精度PA和均交并比mIoU
Figure 6996DEST_PATH_IMAGE034
Figure 498020DEST_PATH_IMAGE036
其中,
Figure 211898DEST_PATH_IMAGE038
表示
Figure 53953DEST_PATH_IMAGE040
个目标类和一个背景类,
Figure 871998DEST_PATH_IMAGE042
表示本属于
Figure 217529DEST_PATH_IMAGE044
类且预测为
Figure 102308DEST_PATH_IMAGE044
类的像素点总数,表示本属于
Figure 760272DEST_PATH_IMAGE044
类且预测为
Figure 21489DEST_PATH_IMAGE046
类的像素点总数,
Figure 752684DEST_PATH_IMAGE048
表示本属于
Figure 808365DEST_PATH_IMAGE046
类且预测为
Figure 860897DEST_PATH_IMAGE044
类的像素点总数;
对于景深估计任务,采取的评价指标为绝对误差Abs Err和相对误差Rel Err
Figure 191384DEST_PATH_IMAGE050
Figure 511507DEST_PATH_IMAGE052
Figure 738089DEST_PATH_IMAGE054
表示真实的深度值,
Figure 540567DEST_PATH_IMAGE056
表示预测的深度值。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机指令,所述计算机指令被执行时实现权利要求7~9中任一项所述的训练方法。
CN202010445676.7A 2020-05-25 2020-05-25 基于可联合实现语义分割和景深估计的网络模型的装置 Active CN111353505B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010445676.7A CN111353505B (zh) 2020-05-25 2020-05-25 基于可联合实现语义分割和景深估计的网络模型的装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010445676.7A CN111353505B (zh) 2020-05-25 2020-05-25 基于可联合实现语义分割和景深估计的网络模型的装置

Publications (2)

Publication Number Publication Date
CN111353505A true CN111353505A (zh) 2020-06-30
CN111353505B CN111353505B (zh) 2020-10-16

Family

ID=71195199

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010445676.7A Active CN111353505B (zh) 2020-05-25 2020-05-25 基于可联合实现语义分割和景深估计的网络模型的装置

Country Status (1)

Country Link
CN (1) CN111353505B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111950586A (zh) * 2020-07-01 2020-11-17 银江股份有限公司 一种引入双向注意力的目标检测方法
CN112801029A (zh) * 2021-02-09 2021-05-14 北京工业大学 基于注意力机制的多任务学习方法
CN113079391A (zh) * 2020-12-31 2021-07-06 无锡乐骐科技有限公司 一种人像图像混合处理方法、设备及计算机可读存储介质
CN114494818A (zh) * 2022-01-26 2022-05-13 北京百度网讯科技有限公司 图像处理方法、模型训练方法、相关装置及电子设备
CN114581706A (zh) * 2022-03-02 2022-06-03 平安科技(深圳)有限公司 证件识别模型的配置方法、装置、电子设备、存储介质
CN114925660A (zh) * 2022-05-23 2022-08-19 马上消费金融股份有限公司 文本处理模型训练方法及装置、文本处理方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107451620A (zh) * 2017-08-11 2017-12-08 深圳市唯特视科技有限公司 一种基于多任务学习的场景理解方法
CN107480707A (zh) * 2017-07-26 2017-12-15 天津大学 一种基于信息无损池化的深度神经网络方法
CN109522970A (zh) * 2018-11-28 2019-03-26 南京旷云科技有限公司 图像分类方法、装置及系统
CN110120049A (zh) * 2019-04-15 2019-08-13 天津大学 由单张图像联合估计场景深度与语义的方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107480707A (zh) * 2017-07-26 2017-12-15 天津大学 一种基于信息无损池化的深度神经网络方法
CN107451620A (zh) * 2017-08-11 2017-12-08 深圳市唯特视科技有限公司 一种基于多任务学习的场景理解方法
CN109522970A (zh) * 2018-11-28 2019-03-26 南京旷云科技有限公司 图像分类方法、装置及系统
CN110120049A (zh) * 2019-04-15 2019-08-13 天津大学 由单张图像联合估计场景深度与语义的方法

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111950586A (zh) * 2020-07-01 2020-11-17 银江股份有限公司 一种引入双向注意力的目标检测方法
CN111950586B (zh) * 2020-07-01 2024-01-19 银江技术股份有限公司 一种引入双向注意力的目标检测方法
CN113079391A (zh) * 2020-12-31 2021-07-06 无锡乐骐科技有限公司 一种人像图像混合处理方法、设备及计算机可读存储介质
CN112801029A (zh) * 2021-02-09 2021-05-14 北京工业大学 基于注意力机制的多任务学习方法
CN112801029B (zh) * 2021-02-09 2024-05-28 北京工业大学 基于注意力机制的多任务学习方法
CN114494818A (zh) * 2022-01-26 2022-05-13 北京百度网讯科技有限公司 图像处理方法、模型训练方法、相关装置及电子设备
CN114494818B (zh) * 2022-01-26 2023-07-25 北京百度网讯科技有限公司 图像处理方法、模型训练方法、相关装置及电子设备
CN114581706A (zh) * 2022-03-02 2022-06-03 平安科技(深圳)有限公司 证件识别模型的配置方法、装置、电子设备、存储介质
CN114581706B (zh) * 2022-03-02 2024-03-08 平安科技(深圳)有限公司 证件识别模型的配置方法、装置、电子设备、存储介质
CN114925660A (zh) * 2022-05-23 2022-08-19 马上消费金融股份有限公司 文本处理模型训练方法及装置、文本处理方法及装置
CN114925660B (zh) * 2022-05-23 2023-07-28 马上消费金融股份有限公司 文本处理模型训练方法及装置、文本处理方法及装置

Also Published As

Publication number Publication date
CN111353505B (zh) 2020-10-16

Similar Documents

Publication Publication Date Title
CN111353505B (zh) 基于可联合实现语义分割和景深估计的网络模型的装置
CN107038478B (zh) 路况预测方法及装置、计算机设备与可读介质
CN109753913B (zh) 计算高效的多模式视频语义分割方法
CN111275711A (zh) 基于轻量级卷积神经网络模型的实时图像语义分割方法
CN113486726A (zh) 一种基于改进卷积神经网络的轨道交通障碍物检测方法
CN111598182A (zh) 训练神经网络及图像识别的方法、装置、设备及介质
CN111696110B (zh) 场景分割方法及系统
CN114565770B (zh) 基于边缘辅助计算和掩模注意力的图像分割方法及系统
CN112990065A (zh) 一种基于优化的YOLOv5模型的车辆分类检测方法
CN112200193B (zh) 基于多属性融合的分布式车牌识别方法、系统、装置
CN114913493A (zh) 一种基于深度学习的车道线检测方法
CN115147598A (zh) 目标检测分割方法、装置、智能终端及存储介质
CN114155372A (zh) 一种基于深度学习的结构光焊缝曲线识别与拟合方法
CN115240259A (zh) 一种基于yolo深度网络的课堂环境下人脸检测方法及其检测系统
CN111401143A (zh) 一种行人跟踪系统及方法
CN111104941A (zh) 图像方向纠正方法、装置及电子设备
CN117765480A (zh) 一种道路沿线野生动物迁徙预警方法及系统
CN113392702A (zh) 一种基于自适应图像增强的弱光照环境下目标识别方法
CN111899283B (zh) 一种视频目标跟踪方法
CN115995002B (zh) 一种网络构建方法及城市场景实时语义分割方法
CN115393822A (zh) 一种雾天行车障碍物检测方法及设备
CN114399901A (zh) 一种控制交通系统的方法和设备
CN113343817A (zh) 一种面向目标区域的无人车路径检测方法、装置及介质
CN113160219A (zh) 用于无人机遥感图像的实时铁路场景解析方法
Lazcano et al. Anisotropic Operator Based on Adaptable Metric-Convolution Stage-Depth Filtering Applied to Depth Completion

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 210003 Gulou District, Jiangsu, Nanjing new model road, No. 66

Applicant after: NANJING University OF POSTS AND TELECOMMUNICATIONS

Address before: Yuen Road Qixia District of Nanjing City, Jiangsu Province, No. 9 210046

Applicant before: NANJING University OF POSTS AND TELECOMMUNICATIONS

GR01 Patent grant
GR01 Patent grant