CN111353505B - 基于可联合实现语义分割和景深估计的网络模型的装置 - Google Patents
基于可联合实现语义分割和景深估计的网络模型的装置 Download PDFInfo
- Publication number
- CN111353505B CN111353505B CN202010445676.7A CN202010445676A CN111353505B CN 111353505 B CN111353505 B CN 111353505B CN 202010445676 A CN202010445676 A CN 202010445676A CN 111353505 B CN111353505 B CN 111353505B
- Authority
- CN
- China
- Prior art keywords
- screening
- feature
- task
- decoding
- block
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 31
- 238000012216 screening Methods 0.000 claims abstract description 83
- 238000012549 training Methods 0.000 claims abstract description 26
- 238000000034 method Methods 0.000 claims abstract description 23
- 238000012545 processing Methods 0.000 claims abstract description 18
- 230000006870 function Effects 0.000 claims description 32
- 238000005070 sampling Methods 0.000 claims description 19
- 238000011156 evaluation Methods 0.000 claims description 14
- 238000010606 normalization Methods 0.000 claims description 10
- 238000012795 verification Methods 0.000 claims description 10
- 230000004913 activation Effects 0.000 claims description 9
- 239000011159 matrix material Substances 0.000 claims description 7
- 238000013527 convolutional neural network Methods 0.000 claims description 6
- 238000003860 storage Methods 0.000 claims description 6
- 238000007477 logistic regression Methods 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 238000001914 filtration Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 10
- 238000004590 computer program Methods 0.000 description 7
- 230000007246 mechanism Effects 0.000 description 4
- 101710185027 5'-methylthioadenosine/S-adenosylhomocysteine nucleosidase Proteins 0.000 description 3
- 101710081557 Aminodeoxyfutalosine nucleosidase Proteins 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 239000002994 raw material Substances 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种可联合实现语义分割和景深估计的网络模型,包括:特征共享模块、多任务子网络,多任务子网络包括多个结构相同的任务子网络以供处理不同任务目标,包括:特征筛选模块、注意力集中模块和预测模块;特征筛选模块从共享特征筛选出与任务相关的特征;注意力集中模块提升筛选特征与任务目标的相关性;预测模块被配置为对集中注意力特征卷积后输出各任务目标的处理结果。本申请还公开了上述模型的训练方法,分别针对语义分割和景深估计进行反向传播迭代训练。本申请的模型精确性高、鲁棒性强,且模型轻量化。
Description
技术领域
本发明涉及计算机视觉图像处理,具体涉及一种基于可联合实现语义分割和景深估计的网络模型的装置。
背景技术
语义分割是一种典型的计算机视觉问题,属于高层视觉任务,是理解场景的一种有效方法,从微观意义上了说,语义分割对图像中所有像素点进行预测,对每个像素点打上所属类别标签。同时也是实现细粒度推理中重要的一步。对于细粒度推理来说,进行物体的定位与检测,这将不止需要物体类别信息,也需要关于各类别空间位置的额外信息,比如中心点或者边框,因此语义分割是实现细粒度推理的重要一步。
在现有的计算机视觉图像处理的应用场景中,例如在自动驾驶、机器人系统、场景理解等,除了需要感知语义信息以外,还需要去推理出当前车辆与周围车辆、行人和障碍物的距离,通过景深估计来提升自动驾驶的安全性。
目前,深度学习(Deep Learning,简称DL)中的卷积神经网络(ConvolutionalNeural Networks, 简称CNN)已经在计算机视觉领域中表现出色。包括:图像分类、语义分割、物体检测、目标跟踪、景深估计。将一个端到端的CNN集成到视觉图像处理的感知模块中,对周围环境中的物体进行语义分割和景深估计,对于安全性来说是一个可行方案。但现有模型单一化,无法解决多个任务,在实际的应用场景中,特别是在自动驾驶领域中,由于自动驾驶的汽车要考虑内存和实时性,这一缺点被放大化;另外,现有的单任务模型特征提取噪音较大,对注意力的提升效果不理想,且计算量大。
发明内容
发明目的:本申请的目的在于提供一种基于可联合实现语义分割和景深估计的网络模型的装置,用于解决现有技术中单任务模型无法同时语义分割及景深估计,且单任务模型中注意力集中效果不理想、计算量大的缺陷。
技术方案:本申请一方面提供了一种基于可联合实现语义分割和景深估计的网络模型的装置,该装置包括可联合实现语义分割和景深估计的网络模型,模型包括:
特征共享模块,其被配置为将输入图像通过卷积神经网络进行特征提取,得到共享特征;
多任务子网络,其被配置为分别根据各任务目标,基于共享特征进行图像处理;任务目标包括图像语义分割、图像景深估计;
多任务子网络包括多个结构相同的任务子网络以供处理不同任务目标,包括:特征筛选模块、注意力集中模块和预测模块;
特征筛选模块被配置为根据各任务目标,从共享特征筛选出与任务相关的特征,得到对应的筛选特征;
注意力集中模块被配置为提升筛选特征与任务目标的相关性,得到集中注意力特征;
预测模块被配置为对集中注意力特征卷积后输出各任务目标的处理结果。
进一步地,特征共享模块采用编码-解码结构,包括编码单元和解码单元,编码单元的输出作为解码单元的输入;
编码单元包括多个编码块以及与编码块间隔串接的下采样块;
解码单元包括与编码块对应的多个解码块以及与下采样块对应的多个上采样块,解码块与上采样块间隔串接,每个编码块与其对应的解码块形成编解码对。
进一步地,特征筛选模块包括与编解码对相对应的多个特征筛选单元,以及与特征筛选单元间隔串接的上采样块;
每个特征筛选单元的输入来源于与其对应的编码块和解码块的输出特征以及前一特征筛选单元输出上采样后的结果。
进一步地,特征筛选单元通过筛选块学习筛选掩码进行特征筛选,其输出表示为:
进一步地,筛选块包括卷积块以及与卷积块串接的第一激活函数,卷积块包括多个拼接的卷积单元,卷积单元包括依次连接的标准卷积、批标准化和第二激活函数。
进一步地,注意力集中模块提升筛选特征与任务目标的相关性,包括:
将筛选特征分别进行两个分支的标准卷积,得到第一提升特征和第二提升特征;
将第一提升特征与可学习的向量进行矩阵相乘并经softmax进行逻辑回归,得到归一化因子;
将第二提升特征与归一化因子矩阵相乘后进行标准卷积,得到第三提升特征;
将第三提升特征与筛选特征进行加性融合得到所述集中注意力特征。
本申请另一方面提供了一种用于上述网络模型的训练方法,包括:
根据图像识别需求,获取数据集,数据集中包括多张含有识别对象的图像,每个图像携带标签;
对数据集按照预设比例划分为第一数据集和第二数据集;
对第一数据集中的图像按照预先设定的规则进行预处理,得到训练集;
将训练集输入模型中,对模型进行训练,固定模型参数;
将第二数据集作为验证集,得到各个任务目标对应的评价指标;
利用各任务的损失函数针对评价指标计算误差,进行反向传播修正模型参数,直至模型收敛。
进一步地,
对于语义分割任务,采用基于像素的交叉熵损失函数来计算预测的类别标签与真实的类别标签之间的差距,其损失函数为:
对于景深估计任务,采用L1正则化来比较预测与真实的深度,其损失函数为:
进一步地,
对于语义分割任务,采取的评价指标为像素精度PA和均交并比mIoU:
对于景深估计任务,采取的评价指标为绝对误差Abs Err和相对误差Rel Err:
本申请还提供了一种计算机可读存储介质,计算机可读存储介质内存储有计算机指令,计算机指令被执行时实现上述训练方法。
有益效果:与现有技术相比,本申请提供的的基于注意力机制的多任务模型架构,深层次的挖掘任务间共享特征,引入注意力集中模块聚焦两分支特别关注的特征,不仅提升了多任务模型的精确性和鲁棒性,而且模型也更加轻量化。
附图说明
图1为本申请实施例中的网络模型的结构示意图;
图2为第一特征筛选单元的结构示意图;
图3为除第一特征筛选单元外的其他特征筛选单元的结构示意图;
图4为注意力集中模型机构示意图;
图5为本申请的模型训练方法流程图。
具体实施方式
下面结合附图和实施例对本发明做进一步描述:
本申请一方面提供了一种基于可联合实现语义分割和景深估计的网络模型的装置,该装置包括可联合实现语义分割和景深估计的网络模型,如图1所示,在图像输入模型前,首先通过3*3的标准卷积,对图像进行初步提取,得到输入图像,本实施例中的网络模型包括:
特征共享模块,其被配置为将输入图像通过卷积神经网络进行特征提取,得到共享特征。具体地,特征共享模块采用编码-解码((encoder-decoder))结构,包括编码单元和解码单元,编码单元的输出作为解码单元的输入,编码单元对输入图像进行特征编码及下采样处理,解码单元对编码信息进行上采样解码;
编码单元包括5个编码块(分别为第一编码块、第二编码块、第三编码块、第四编码块、第五编码块)以及与编码块间隔串接的下采样块,上采样块拼接在每个编码块后。解码单元包括与编码块对应的5个解码块(分别为第五解码块、第四解码块、第三解码块、第二解码块、第一解码块)以及与上采样块对应的5个下采样块,上采样块拼接在解码块前,每个编码块与其对应的解码块形成编解码对,即第i编码块与第6-i解码块构成编解码对。
本实施例中,编码块和解码块的基本结构均可采用mobilenetv3基本单元,考虑到参量问题,第一编码块和第二编码块采用2个基本单元,第三~第五编码块采用三个基本单元;对应的,第五解码块和第四解码块采用2个基本单元,第一~第三解码块采用3个基本单元。以下对编解码过程举例说明:
假设输入图像为高为256像素,宽为512像素,3个通道(记为(256,512,3))的数据集送入到编码单元中,分别得到5个编码特征图:这五个特征图是下采样前的特征图,第一编码块的输出为(256,512,16)、第二编码块的输出为(128,256,32)、第三编码块的输出为(64,128,64)、第四个编码块的输出为(32,64,128)、第五编码块的输出为(16,32,128)。然后,将编码单元的输出送入解码单元中,得到5个解码特征图,这5个特征图是上采样后的特征图:第一解码块的输出为(16,32,128)、第二解码块的输出为(32,64,128)、第三解码块的输出为(64,128,64)、第四解码块的输出为(128,256,32)、第五解码块的输出为(256,512,16)。
多任务子网络,其被配置为分别根据各任务目标,基于共享特征进行图像处理;本实施例中将任务目标限定为包括图像语义分割、图像景深估计。用于进行图像语义分割和景深估计的子网络结构相同,如图1所示,均包括:特征筛选模块、注意力集中模块和预测模块。
特征筛选模块被配置为根据各任务目标,从共享特征筛选出与任务相关的特征,得到对应的筛选特征。具体地,如图2所示,特征筛选模块包括与编解码对相对应的5个特征筛选单元(分别为第一特征筛选单元、第二特征筛选单元、第三特征筛选单元、第四特征筛选单元、第五特征筛选单元),第二~第五特征筛选单元筛选前须通过上采样块进行采样。
如图3所示,对于第二~第五特征筛选单元而言,其输入来源于上衣特征筛选模块上采样后的输出及其对应的编码块和解码块的输出,且在通道维度上直接拼接。
上述特征筛选单元通过筛选块学习筛选掩码进行特征筛选,其输出具体表示为:
其中,k为特征筛选单元的编号,特征筛选单元的数量N取5,t为任务编号,为任务t在第k特征筛选单元中学习到筛选掩码, 为任务t在第k特征筛选单元的筛选块,每个结构相同,为任务t在第k特征筛选单元中的输出;表示像素级相乘,©表示连接。
每一个特征筛选掩码对应于每一个共享模块中的解码特征,特定于任务的精细特征主要通过特征筛选掩码和解码特征进行像素级的相乘,从而筛选出精细化的特征。
其中,筛选块采用包括卷积块以及与卷积块串接的第一激活函数,卷积块包括多个拼接的卷积单元,卷积单元包括依次连接的标准卷积、批标准化和第二激活函数。如图2和图3所示,在本实施例中,每个筛选块均采用3个1x1标准卷积,每个卷积均紧跟批标准化(Batch Normalization,简称BN)以及第一激活函数Relu(.),第二激活函数是Sigmoid函数,输出得到激活图,其值在[0,1]。
注意力集中模块被配置为提升筛选特征与任务目标的相关性,得到集中注意力特征。注意力机制最初来自于自然语言处理(natural language process,简称NLP),并将注意力机制应用到机器翻译上。在计算给定查询(Query)元素的输出时,根据查询对某些关键(Key)元素进行优先级排序,输出优先级高的关键元素所对应的值(Value)。在自注意力模型中,查询元素、关键元素和值元素(分别记作Q、K、V)来自同一输入,首先计算Q与K之间的点乘,得到权重因子,之后对权重因子来进行softmax归一化处理,使所有权重因子和为1,最后根据归一化后的权重因子对V进行加权求和。对于视觉任务,查询元素和关键元素是来自视觉元素,可以是图像中某个像素或者某个感兴趣的区域,注意力机制的重点是根据注意因素来确定权重因子。本申请仅仅只是考虑关键内容(key content)来确定注意力权重因子ℇ,表示为:
具体地,注意力集中模块结构如图4所示,通过以下步骤提升筛选特征与任务目标的相关性:
① 将筛选特征分别进行两个分支的标准卷积,得到第一提升特征和第二提升特征;在实施例中,两个分支的标准卷积均采用1x1标准卷积。
② 将第一提升特征与可学习的向量进行矩阵相乘得到注意力权重因子ℇ,后经softmax进行逻辑回归,得到归一化因子;
③ 将第二提升特征与归一化因子矩阵相乘后进行1x1标准卷积,得到第三提升特征;
④ 将第三提升特征与筛选特征进行加性融合得到所述集中注意力特征。
预测模块被配置为对集中注意力特征采用两个3x3卷积后输出各任务目标的预测结果。对于语义分割来说,其最后的输出通道为标签分类数量,每一个通道表示对每一个类别的预测。对于景深估计来说,其最后的输出通道为1,表示预测的景深图。
本申请另一方面提供了一种用于上述网络模型的训练方法,如图5所示,包括:
(1)根据图像识别需求,获取数据集,数据集中包括多张含有识别对象的图像,每个图像携带标签;
(2)对数据集按照预设比例划分为第一数据集和第二数据集;
(3)对第一数据集中的图像按照预先设定的规则进行预处理,得到训练集;
(4)将训练集输入模型中,对模型进行训练,固定模型参数;
(5)将第二数据集作为验证集,得到各个任务目标对应的评价指标;
(6)利用各任务的损失函数针对评价指标计算误差,进行反向传播修正模型参数,直至模型收敛。
对于语义分割任务,采用基于像素的交叉熵损失函数来计算预测的类别标签与真实的类别标签之间的差距,其损失函数为:
语义分割采取的评价指标为像素精度PA和均交并比mIoU:
对于景深估计任务,采用L1正则化来比较预测与真实的深度,其损失函数为:
景深估计采取的评价指标为绝对误差Abs Err和相对误差Rel Err:
本申请还提供了一种计算机可读存储介质,计算机可读存储介质内存储有计算机指令,计算机指令被执行时实现上述训练方法。
仿真实验:
为验证本申请网络模型的性能,利用Cityscape进行仿真验证:
(1)准备训练集以及验证集:
采用Cityscape数据集,该且该数据集具有真实的语义图和景深图。将精细注释的Cityscape数据集通过随机旋转和水平翻转进行数据增强后,保存为npy数据格式作为该多任务模型的训练集,将精细注释的原始Cityscape数据集作为验证集,训练图像总共包括2975张、验证集总共有500张。
(2)训练模型
利用pytorch深度学习框架搭建上述的多任务模型,通过配置文件进行模型训练的相关参数,优化函数设为Adam算法,基础学习率设为5e-3,总的迭代次数设置为200。将训练集送入到搭建的多任务网络模型中,通过特征共享模块提取共享特征,之后通过特征筛选模块深层次的筛选出特定任务的特征,以及从空间角度看,通过特征注意模块进一步聚焦任务本身重点关注的内容。最后送入预测模块进行预测。通过误差反向传播来修正模型参数,直至模型收敛。保存模型收敛后的参数。
(3)验证模型
利用验证集以及模型参数来对该模型验证,保存语义分割评价指标像素精度和均交并比,以及景深估计的评价指标绝对误差和相对误差。
(4)实验结果
为了验证该多任务模型的性能,本发明与Shikun Liu, Edward Jons等人发表的文章“End-to-End Multi-Task Learning with Attention”进行了对比,该文章中的模型简称为MTAN。具体实验结果如表1所示。
表1
model | #P | mIOU | PA | Abs_Err | Rel_Err |
MTAN | 1.65 | 53.86 | 91.10 | 0.0144 | 35.72 |
本发明(Ours) | 0.7564 | 65.13 | 95.76 | 0.0104 | 21.83 |
语义分割(semantic) | 0.6614 | 66.99 | 95.62 | - | - |
景深估计(depth) | 0.6614 | - | - | 0.0115 | 21.75 |
CityScapes验证集7类语义分割和景深估计结果。#P代表模型参数量。
由表1可知,本发明相比于多任务模型MTAN,各项性能指标均有明显提示,参数量也由1.65下降至0.7564。说明本发明不仅提升多任务模型的准确性,还降低模型的参数量,提高模型推理速度。但是相比于单任务,没有明显提升,说明本发明在挖掘任务共享特征这方面仍有提升空间。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
Claims (5)
1.一种基于可联合实现语义分割和景深估计的网络模型的装置,其特征在于,所述装置包括可联合实现语义分割和景深估计的网络模型,所述模型包括:
特征共享模块,其被配置为将输入图像通过卷积神经网络进行特征提取,得到共享特征;所述特征共享模块采用编码-解码结构,包括编码单元和解码单元,所述编码单元的输出作为所述解码单元的输入;所述编码单元包括多个编码块以及与编码块间隔串接的下采样块;所述解码单元包括与编码块对应的多个解码块以及与下采样块对应的多个上采样块,所述解码块与所述上采样块间隔串接,每个所述编码块与其对应的解码块形成编解码对;
多任务子网络,其被配置为分别根据各任务目标,基于所述共享特征进行图像处理;所述任务目标包括图像语义分割、图像景深估计;
所述多任务子网络包括多个结构相同的任务子网络以供处理不同任务目标,每个所述任务子网络结构相同,包括:特征筛选模块、注意力集中模块和预测模块;
所述特征筛选模块被配置为根据各任务目标,从共享特征筛选出与任务相关的特征,得到对应的筛选特征;
所述注意力集中模块被配置为提升所述筛选特征与任务目标的相关性,得到集中注意力特征;
所述预测模块被配置为对所述集中注意力特征进行两个3x3卷积后输出各任务目标的处理结果;
其中,
所述特征筛选模块包括与所述编解码对相对应的多个特征筛选单元,以及与所述特征筛选单元间隔串接的上采样块;每个所述特征筛选单元的输入来源于与其对应的编码块和解码块的输出特征以及前一特征筛选单元输出上采样后的结果;
所述特征筛选单元通过筛选块学习筛选掩码进行特征筛选,其输出表示为:
所述筛选块包括卷积块以及与卷积块串接的第一激活函数,所述卷积块包括多个拼接的卷积单元,所述卷积单元包括依次连接的标准卷积、批标准化和第二激活函数;
所述注意力集中模块提升所述筛选特征与任务目标的相关性,包括:
将所述筛选特征分别进行两个分支的标准卷积,得到第一提升特征和第二提升特征;
将所述第一提升特征与可学习的向量进行矩阵相乘并经softmax进行逻辑回归,得到归一化因子;
将所述第二提升特征与所述归一化因子矩阵相乘后进行标准卷积,得到第三提升特征;
将所述第三提升特征与所述筛选特征进行加性融合得到所述集中注意力特征。
2.一种用于权利要求1所述的装置中的模型的训练方法,其特征在于,包括:
根据图像识别需求,获取数据集,所述数据集中包括多张含有识别对象的图像,每个图像携带标签;
对数据集按照预设比例划分为第一数据集和第二数据集;
对所述第一数据集中的图像按照预先设定的规则进行预处理,得到训练集;
将所述训练集输入待训练模型中,对模型进行训练,固定模型参数;
将第二数据集作为验证集,得到各个任务目标对应的评价指标;
利用各任务的损失函数针对评价指标计算误差,进行反向传播修正模型参数,直至模型收敛。
5.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机指令,所述计算机指令被执行时实现权利要求2~4中任一项所述的训练方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010445676.7A CN111353505B (zh) | 2020-05-25 | 2020-05-25 | 基于可联合实现语义分割和景深估计的网络模型的装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010445676.7A CN111353505B (zh) | 2020-05-25 | 2020-05-25 | 基于可联合实现语义分割和景深估计的网络模型的装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111353505A CN111353505A (zh) | 2020-06-30 |
CN111353505B true CN111353505B (zh) | 2020-10-16 |
Family
ID=71195199
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010445676.7A Active CN111353505B (zh) | 2020-05-25 | 2020-05-25 | 基于可联合实现语义分割和景深估计的网络模型的装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111353505B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111950586B (zh) * | 2020-07-01 | 2024-01-19 | 银江技术股份有限公司 | 一种引入双向注意力的目标检测方法 |
CN113079391A (zh) * | 2020-12-31 | 2021-07-06 | 无锡乐骐科技有限公司 | 一种人像图像混合处理方法、设备及计算机可读存储介质 |
CN112801029B (zh) * | 2021-02-09 | 2024-05-28 | 北京工业大学 | 基于注意力机制的多任务学习方法 |
CN114494818B (zh) * | 2022-01-26 | 2023-07-25 | 北京百度网讯科技有限公司 | 图像处理方法、模型训练方法、相关装置及电子设备 |
CN114581706B (zh) * | 2022-03-02 | 2024-03-08 | 平安科技(深圳)有限公司 | 证件识别模型的配置方法、装置、电子设备、存储介质 |
CN114925660B (zh) * | 2022-05-23 | 2023-07-28 | 马上消费金融股份有限公司 | 文本处理模型训练方法及装置、文本处理方法及装置 |
CN118658018A (zh) * | 2024-08-21 | 2024-09-17 | 南京未来物联科技有限公司 | 一种基于视觉的可通行区域检测及分类方法及系统 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107480707B (zh) * | 2017-07-26 | 2020-08-07 | 天津大学 | 一种基于信息无损池化的深度神经网络方法 |
CN107451620A (zh) * | 2017-08-11 | 2017-12-08 | 深圳市唯特视科技有限公司 | 一种基于多任务学习的场景理解方法 |
CN109522970B (zh) * | 2018-11-28 | 2021-05-04 | 南京旷云科技有限公司 | 图像分类方法、装置及系统 |
CN110120049B (zh) * | 2019-04-15 | 2023-06-30 | 天津大学 | 由单张图像联合估计场景深度与语义的方法 |
-
2020
- 2020-05-25 CN CN202010445676.7A patent/CN111353505B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN111353505A (zh) | 2020-06-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111353505B (zh) | 基于可联合实现语义分割和景深估计的网络模型的装置 | |
CN110188765B (zh) | 图像语义分割模型生成方法、装置、设备及存储介质 | |
CN107038478B (zh) | 路况预测方法及装置、计算机设备与可读介质 | |
CN109753913B (zh) | 计算高效的多模式视频语义分割方法 | |
CN113486726A (zh) | 一种基于改进卷积神经网络的轨道交通障碍物检测方法 | |
CN111275711A (zh) | 基于轻量级卷积神经网络模型的实时图像语义分割方法 | |
CN111598182A (zh) | 训练神经网络及图像识别的方法、装置、设备及介质 | |
CN115147598A (zh) | 目标检测分割方法、装置、智能终端及存储介质 | |
CN111104941B (zh) | 图像方向纠正方法、装置及电子设备 | |
CN112990065A (zh) | 一种基于优化的YOLOv5模型的车辆分类检测方法 | |
CN112966754B (zh) | 样本筛选方法、样本筛选装置及终端设备 | |
CN114565770A (zh) | 基于边缘辅助计算和掩模注意力的图像分割方法及系统 | |
CN106372597A (zh) | 基于自适应上下文信息的cnn交通检测方法 | |
CN114913493A (zh) | 一种基于深度学习的车道线检测方法 | |
CN110281949A (zh) | 一种自动驾驶统一分层决策方法 | |
CN111401143A (zh) | 一种行人跟踪系统及方法 | |
CN114529890A (zh) | 状态检测方法、装置、电子设备及存储介质 | |
CN116977712B (zh) | 基于知识蒸馏的道路场景分割方法、系统、设备及介质 | |
CN111899283B (zh) | 一种视频目标跟踪方法 | |
CN115995002B (zh) | 一种网络构建方法及城市场景实时语义分割方法 | |
CN117011819A (zh) | 基于特征引导注意力的车道线检测方法、装置及设备 | |
CN116152263A (zh) | 一种基于cm-mlp网络的医学图像分割方法 | |
CN112052626B (zh) | 一种神经网络自动设计系统和方法 | |
CN114399901A (zh) | 一种控制交通系统的方法和设备 | |
CN111179284B (zh) | 交互式图像分割方法、系统及终端 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: 210003 Gulou District, Jiangsu, Nanjing new model road, No. 66 Applicant after: NANJING University OF POSTS AND TELECOMMUNICATIONS Address before: Yuen Road Qixia District of Nanjing City, Jiangsu Province, No. 9 210046 Applicant before: NANJING University OF POSTS AND TELECOMMUNICATIONS |
|
CB02 | Change of applicant information | ||
GR01 | Patent grant | ||
GR01 | Patent grant |