CN112101366A - 基于混合扩张网络的实时分割系统与方法 - Google Patents

基于混合扩张网络的实时分割系统与方法 Download PDF

Info

Publication number
CN112101366A
CN112101366A CN202010951015.1A CN202010951015A CN112101366A CN 112101366 A CN112101366 A CN 112101366A CN 202010951015 A CN202010951015 A CN 202010951015A CN 112101366 A CN112101366 A CN 112101366A
Authority
CN
China
Prior art keywords
module
information
mixed
convolution
scale
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010951015.1A
Other languages
English (en)
Inventor
蒋斌
何建凯
杨超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan University
Original Assignee
Hunan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan University filed Critical Hunan University
Priority to CN202010951015.1A priority Critical patent/CN112101366A/zh
Publication of CN112101366A publication Critical patent/CN112101366A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Image Processing (AREA)

Abstract

本发明涉及一种基于混合扩张网络的实时分割系统与方法,属于计算机视觉领域;包括主干网MobileNet v2和轻量级的混合空洞卷积模块;轻量级的混合空洞卷积模块通过多尺度信息和有效的注意机制,在准确性和高效率方面实现全面的权衡;轻量级的混合空洞卷积模块主要包括深度可分离注意力模块和混合多尺度模块;深度可分离注意模块为单层混合卷积设计。一方面,它可以通过增加网络的深度来增强信息的表达。另一方面,深度可分离卷积对每个信道分别执行卷积分离,从而减少了参数大小和计算成本。

Description

基于混合扩张网络的实时分割系统与方法
技术领域
本发明涉及计算机视觉领域,具体的说,涉及一种基于混合扩张网络的实时分割系统与方法。
背景技术
目前,各类传感器应用图像分割技术,具备了对环境感知的能力,能够分割识别图片中的各项信息,传感器通过对周围的场景感知决定后续工作,其应用的图像分割模型通常分为两种,一种是端到端的语义分割模型,另一种是实时分割模型。
为了提高分割图片的准确性,以往的端到端的方法往往设计出更为复杂的语义分割结构,如多尺度、密集连接策略等。Chen等人提出了DeepLab系列,主要提出利用不同采样率的扩展卷积来捕获多尺度信息的金字塔池化模块(ASPP)。ASPP在分割精度方面取得了显著的提高,但通常模型繁琐,计算代价较为高昂。由于硬件设备存储的局限性,这些方法不适用于小型和实时设备。
为了解决上述问题,目前的工作主要集中在设计有效的特征重用和卷积分解等策略上。Andrew Howard等人,提出了MobileNet系列模型,利用了深度可分离卷积,它将一个传统卷积分解一个深度卷积和一个1×1的逐点卷积,对每个单个输入通道应用单个滤波器进行滤波,然后逐点卷积应用1×1的卷积操作来结合所有深度卷积得到的输出,此操作可以减少参数和模型大小。然而这些实时模型存在信息提取能力不足、丢失详细信息等问题,导致精度性能下降,难以满足实际应用中对于复杂路况的分割需求。
发明内容
本发明针对上述现有技术的缺失,利用语义分割技术实现对图片进行实时分割识别的系统与方法,提出一种既能较为精准又能做到实时的分割的模型;具体涉及一种基于混合扩张网络的实时分割系统与方法。
本发明通过以下技术方案实现,包括轻量化主干网络MobileNet v2、混合空洞卷积模块;
混合空洞卷积模块由轻量级的空间金字塔注意模块、全局信息增强模块组成;
所述的轻量级的空间金字塔注意模块通过多尺度信息和有效的注意机制,在准确性和高效率方面实现全面的权衡;轻量级的空间金字塔注意模块主要包括深度可分离注意力模块和混合多尺度模块;深度可分离注意力模块为单层混合卷积设计;
还包括与空间金字塔注意模块连接的全局信息增强模块,通过增加全局信息增强模块的两个有效的远程快捷连接,补充关键信息和扩展空间金字塔注意模块输出特征映射的维数;最后,形成采样输出特征图。
所述的空间金字塔注意模块主要包括深度可分离注意力模块和混合多尺度模块;深度可分离注意力模块为单层混合卷积设计,采用多层混合深度卷积连接方法,能增强关键信息表示、降低参数量,大卷积核能提升卷积对信息的捕捉能力,利用小核捕捉细节信息,利用大核捕捉更为全局的信息,然后再把这些已增强的信息输入到混合多尺度模块。
混合多尺度模块,使用混合卷积核,利用小核捕捉细节信息,利用大核捕捉更为全局的信息,增强信息;使用混合空洞率,分别在每个卷积的核的可承受范围内,增大每个卷积的感受野,使信息更全;使用深度可分离卷积,能降低模型的参数,提升模型的精度和效率。
本发明包括以下步骤:
步骤1,执行轻量级的混合空洞卷积模块,将主干网络MobileNet v2的尾部输出的语义特征,输入到深度可分离注意力模块中,以增加信息表示;
步骤2,将基于步骤1得到的多尺度特征图输入到混合多尺度模块中;
步骤3,执行全局信息增强模块,通过增加全局信息增强模块的两个有效的远程快捷连接,补充关键信息和扩展空间金字塔注意模块输出特征映射的维数;
步骤4,形成采样输出特征图,主干网络MobileNet v2输出的特征图经过深度可分离注意力模块轻量化的增强信息,并形成了四个不同尺寸的信息,多尺度信息再经由混合多尺度模块轻量化的增强信息的精细度和全局性,最后结合输出特征图。
本发明的有益效果在于,1、提出了一种用于计算机视觉语义分割任务的轻量级网络混可扩张网络。与其他方法相比,本方法在速度、精度和内存方面拥有更平衡的性能;
2、提出了一种有效的混合多尺度模块,该模块在深度扩张可分离卷积中混合多个核大小,并探索出了核大小与扩张规模的最佳匹配方案。提高了卷积核对信息的捕捉能力,扩展了感受野,提高了模型的精度;
3、设计了一种高效的深度可分离注意力模块,该模块采用多层混合深度卷积连接方式来增强信息的表征能力。该注意力机制在略微增加计算量的情况下,有效地提高了模型的精度。
附图说明
图1为本发明结构流程图。
图2为空间金字塔注意模块结构图。
具体实施方式
下面结合附图1对本发明的优选实施例作进一步说明,本发明包括包括轻量化主干网络MobileNet v2、混合空洞卷积模块;
混合空洞卷积模块由轻量级的空间金字塔注意模块、全局信息增强模块组成;
所述的轻量级的混合空洞模块通过多尺度信息和有效的注意机制,在准确性和高效率(例如,执行速度、内存占用或计算复杂性)方面实现全面的权衡;
如图1所示,给定一个输入,首先将其输入我们的骨干网络以获得语义特征。对于高分辨率数据集,编码器的输出步长(OS)合理地设置为8,是本领域人员常用的缩小图片尺寸的技术,这样使得特征图能够下采样到原图的1/8大小,以节省内存资源,并在训练过程中保留更多的空间细节。此外通过膨胀卷积替换最后四个亚采样操作,并交替应用一组混合膨胀率{2、3、5、7}来保持视野。
所述的空间金字塔注意模块主要包括深度可分离注意力模块和混合多尺度模块;深度可分离注意力模块为单层混合卷积设计,采用多层混合深度卷积连接方法,能增强关键信息表示、降低参数量,大卷积核能提升卷积对信息的捕捉能力,利用小核捕捉细节信息,利用大核捕捉更为全局的信息,然后再把这些已增强的信息输入到混合多尺度模块。具体地,使用卷积核为{3,5,7,9}深度空洞可分离卷积。此种设计有两个优点,一方面,它可以通过增加网络的深度来增强信息的表达。另一方面,深度可分离卷积对每个信道分别执行卷积分离,从而减少了参数大小和计算成本。
混合多尺度模块,使用混合卷积核,利用小核捕捉细节信息,利用大核捕捉更为全局的信息,增强信息;使用混合空洞率,分别在每个卷积的核的可承受范围内,增大每个卷积的感受野,使信息更全;使用深度可分离卷积,能降低模型的参数,提升模型的精度和效率。具体的地,采用卷积核为{3,5,7,9},空洞率为{1,2,4,8}的深度可分离卷积。
还包括与空间金字塔注意模块连接的全局信息增强模块,通过增加全局信息增强模块的两个有效的远程快捷连接,补充关键信息和扩展空间金字塔注意模块输出特征映射的维数;最后,形成采样输出特征图。
本发明包括以下步骤:
步骤1,执行轻量级的混合空洞卷积模块,将从主干网MB的尾部输出的语义特征,输入到深度可分离注意力模块中,以增加信息表示;
步骤2,将基于步骤1得到的多尺度特征图输入到混合多尺度模块中;混合多尺度模块结合了多个内核大小的优点,以不同的分辨率捕获不同的模式,并使用多个空洞卷积来增加有效的感受野。这些方法大大提高了模型的效率和准确性。
步骤3,执行全局信息增强模块,通过增加全局信息增强模块的两个有效的远程快捷连接,补充关键信息和扩展混合空洞卷积模块输出特征映射的维数;
步骤4,形成采样输出特征图,主干网络MobileNet v2输出的特征图经过深度可分离注意力模块轻量化的增强信息,并形成了四个不同尺寸的信息,多尺度信息再经由混合多尺度模块轻量化的增强信息的精细度和全局性,最后结合输出特征图。

Claims (3)

1.基于混合扩张网络的实时分割系统,其特征在于:包括轻量化的主干网络MobileNetv2和混合空洞卷积模块;
混合空洞卷积模块由轻量级的空间金字塔注意模块、全局信息增强模块组成;
轻量级的空间金字塔注意模块通过多尺度信息和有效的注意机制,在准确性和高效率方面实现全面的权衡;轻量级的空间金字塔注意模块主要包括深度可分离注意力模块和混合多尺度模块;深度可分离注意力模块为单层混合卷积设计;
还包括与空间金字塔注意模块连接的全局信息增强模块,通过增加与全局信息增强模块的两个有效的远程快捷连接,补充关键信息和扩展空间金字塔模块输出特征映射的维数;最后,形成采样输出特征图。
2.根据权利要求1所述的基于混合扩张网络的实时分割系统,其特征在于:
所述的空间金字塔注意模块主要包括深度可分离注意力模块和混合多尺度模块;
深度可分离注意力模块为单层混合卷积设计,利用小核捕捉细节信息,利用大核捕捉更为全局的信息,然后再把这些已增强的信息输入到混合多尺度模块;
混合多尺度模块,使用混合卷积核,利用小核捕捉细节信息,利用大核捕捉更为全局的信息,增强信息;使用混合空洞率,分别在每个卷积的核的可承受范围内,增大每个卷积的感受野,使信息更具全局性。
3.基于混合扩张网络的实时分割方法,其特征在于包括以下步骤:
步骤1,执行混合空洞卷积模块,将主干网络MobileNet v2的尾部输出的语义特征,输入到深度可分离注意力模块中,以增加信息表示;
步骤2,将基于步骤1得到的多尺度特征图输入到混合多尺度模块中;
步骤3,执行全局信息增强模块,通过增加全局信息增强模块的两个有效的远程快捷连接,补充关键信息和扩展混合空洞模块输出特征映射的维数;
步骤4,形成采样输出特征图,主干网络MobileNet v2输出的特征图经过深度可分离注意力模块轻量化的增强信息,并形成了四个不同尺寸的信息,多尺度信息再经由混合多尺度模块轻量化的增强信息的精细度和全局性,最后结合输出特征图。
CN202010951015.1A 2020-09-11 2020-09-11 基于混合扩张网络的实时分割系统与方法 Pending CN112101366A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010951015.1A CN112101366A (zh) 2020-09-11 2020-09-11 基于混合扩张网络的实时分割系统与方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010951015.1A CN112101366A (zh) 2020-09-11 2020-09-11 基于混合扩张网络的实时分割系统与方法

Publications (1)

Publication Number Publication Date
CN112101366A true CN112101366A (zh) 2020-12-18

Family

ID=73750817

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010951015.1A Pending CN112101366A (zh) 2020-09-11 2020-09-11 基于混合扩张网络的实时分割系统与方法

Country Status (1)

Country Link
CN (1) CN112101366A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113971660A (zh) * 2021-09-30 2022-01-25 哈尔滨工业大学 桥梁健康诊断的计算机视觉方法和智能摄像系统
CN114820329A (zh) * 2022-07-01 2022-07-29 之江实验室 基于高斯过程大核注意力装置引导的曲面测量方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110110578A (zh) * 2019-02-21 2019-08-09 北京工业大学 一种室内场景语义标注方法
WO2020056791A1 (zh) * 2018-09-21 2020-03-26 五邑大学 一种多尺度空洞卷积神经网络超分辨率重构方法及装置
CN111339985A (zh) * 2020-03-06 2020-06-26 南京理工大学 基于混合卷积的手势检测方法
CN111401201A (zh) * 2020-03-10 2020-07-10 南京信息工程大学 一种基于空间金字塔注意力驱动的航拍图像多尺度目标检测方法
CN111401361A (zh) * 2020-03-06 2020-07-10 南京理工大学 一种端到端的轻量级深度车牌识别方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020056791A1 (zh) * 2018-09-21 2020-03-26 五邑大学 一种多尺度空洞卷积神经网络超分辨率重构方法及装置
CN110110578A (zh) * 2019-02-21 2019-08-09 北京工业大学 一种室内场景语义标注方法
CN111339985A (zh) * 2020-03-06 2020-06-26 南京理工大学 基于混合卷积的手势检测方法
CN111401361A (zh) * 2020-03-06 2020-07-10 南京理工大学 一种端到端的轻量级深度车牌识别方法
CN111401201A (zh) * 2020-03-10 2020-07-10 南京信息工程大学 一种基于空间金字塔注意力驱动的航拍图像多尺度目标检测方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113971660A (zh) * 2021-09-30 2022-01-25 哈尔滨工业大学 桥梁健康诊断的计算机视觉方法和智能摄像系统
CN114820329A (zh) * 2022-07-01 2022-07-29 之江实验室 基于高斯过程大核注意力装置引导的曲面测量方法及装置

Similar Documents

Publication Publication Date Title
CN110287849B (zh) 一种适用于树莓派的轻量化深度网络图像目标检测方法
CN109241982B (zh) 基于深浅层卷积神经网络的目标检测方法
US11410035B2 (en) Real-time target detection method deployed on platform with limited computing resources
CN113052210B (zh) 一种基于卷积神经网络的快速低光照目标检测方法
CN111461083A (zh) 基于深度学习的快速车辆检测方法
CN113345082B (zh) 一种特征金字塔多视图三维重建方法和系统
CN112101366A (zh) 基于混合扩张网络的实时分割系统与方法
CN110348531B (zh) 具有分辨率适应性的深度卷积神经网络构建方法及应用
CN113554032B (zh) 基于高度感知的多路并行网络的遥感图像分割方法
CN116630704A (zh) 一种基于注意力增强和密集多尺度的地物分类网络模型
CN113538474A (zh) 基于边缘特征融合的3d点云分割目标检测系统
CN116977631A (zh) 一种基于DeepLabV3+的街景语义分割方法
Farhat et al. Real-time hardware/software co-design of a traffic sign recognition system using Zynq FPGA
CN113112531B (zh) 一种图像匹配方法及装置
CN113192204B (zh) 单幅倾斜遥感图像中建筑物的三维重建方法
Cao et al. Semantic-aware context modeling for road extraction in remote sensing images
CN111435448B (zh) 图像显著性物体检测方法、装置、设备及介质
CN113240589A (zh) 一种多尺度特征融合的图像去雾方法及系统
CN112053311A (zh) 一种基于膨胀卷积的图像分割方法
CN114037646A (zh) 基于物联网的智能图像检测方法、系统、可读介质、设备
CN112836710B (zh) 一种基于特征金字塔网络的房间布局估计获取方法与系统
CN113192009B (zh) 一种基于全局上下文卷积网络的人群计数方法及系统
WO2023056833A1 (zh) 背景图生成、图像融合方法、装置、电子设备及可读介质
CN111507984B (zh) 一种基于多接受野的交替更新网络的场景分割方法
CN113297959B (zh) 一种基于角点注意力孪生网络的目标跟踪方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination