CN112989867A - 目标检测与场景分割一体化网络设计方法 - Google Patents

目标检测与场景分割一体化网络设计方法 Download PDF

Info

Publication number
CN112989867A
CN112989867A CN201911212008.3A CN201911212008A CN112989867A CN 112989867 A CN112989867 A CN 112989867A CN 201911212008 A CN201911212008 A CN 201911212008A CN 112989867 A CN112989867 A CN 112989867A
Authority
CN
China
Prior art keywords
network
scene segmentation
target detection
sub
resolution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911212008.3A
Other languages
English (en)
Inventor
刘振
邰春琪
许静
何良
乐国庆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Huahang Radio Measurement Research Institute
Original Assignee
Beijing Huahang Radio Measurement Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Huahang Radio Measurement Research Institute filed Critical Beijing Huahang Radio Measurement Research Institute
Priority to CN201911212008.3A priority Critical patent/CN112989867A/zh
Publication of CN112989867A publication Critical patent/CN112989867A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/29Graphical models, e.g. Bayesian networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/194Segmentation; Edge detection involving foreground-background segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence

Abstract

本发明公开了一种目标检测与场景分割一体化网络设计方法,包括特征提取主体网络、目标检测子网络以及场景分割子网络,所述目标检测子网络与场景分割子网络共享特征提取主体网络。本发明将传统的多任务多网络串行改进为多任务单网络并行,从而大幅度降低模型大小,降低多任务执行时间。

Description

目标检测与场景分割一体化网络设计方法
技术领域
本发明属于计算机视觉技术领域,具体涉及目标检测与场景分割网络设计方法。
背景技术
随着深度学习技术的快速发展,目标检测识别以及场景分割成为其在计算机视觉方向的主要研究热点,两者分属两大范畴,而深度学习也在此两个方向做出重大突破,如目标检测方向的Faster-Rcnn,SSD以及YOLO系列,场景分割方向的FCN、UNet等一系列业内顶尖算法。但是,截至目前极少研究两者的并行处理问题。基于深度学习的检测分割算法往往需要大量计算资源,而在大多数的工业化应用中,要求在极其有限的计算资源与存储资源下实现任务的实时执行,这就对算法的计算复杂度以及模型精简化提出了较高要求。
在实际工程应用中,对于上述两大任务(目标检测与场景分割)分别设计不同的卷积神经网络很难满足工程对于实时性以及存储资源的要求。
发明内容
本发明需解决的技术问题是提供一种目标检测与场景分割一体化网络设计方法,实现模型精简化,降低多任务执行时间。
为解决上述技术问题,本发明提供了目标检测与场景分割一体化网络设计方法,采取技术方案如下:
所述一体化网络包括特征提取主体网络、目标检测子网络以及场景分割子网络,所述目标检测子网络与场景分割子网络共享特征提取主体网络。
进一步地,通过特征提取主体网络的卷积及降采样,于1/8分辨率、1/16分辨率上进行特征融合,引出场景分割子网络,于1/8/、1/16以及1/32分辨率上进行特征融合,引出目标检测子网络。
进一步地,所述场景分割子网络搭建方法为:
在1/16分辨率的特征图上,采用多路并行卷积网络,卷积核大小分别选用3*3、5*5以及1*1,同时利用特征金字塔模式,将1/16分辨率的特征与1/8分辨率的特征进行有效融合,并利用该融合特征执行分割任务,建立场景分割子网络。
进一步地,还包括:一体化网络训练,训练方法如下:
步骤1、保持目标检测子网络参数不变的情况下,优先训练场景分割子网络、特征提取主体网络,使场景分割子网络收敛;
步骤2、保持特征提取主体网络及场景分割子网络参数不变的情况下,训练目标检测子网络,使目标检测子网络收敛;
步骤3、在上述两步的前提下,目标检测子网络损失及场景分割子网络损失,数值保持在较小比例范围内且下降趋于平稳,而后进行一体化网络联合训练,使一体化网络收敛。
本发明通过一个深度卷积神经网络实现检测与分割任务的同步执行,从而将传统的多任务多网络串行改进为多任务单网络并行,从而大幅度降低模型大小,降低多任务执行时间。本发明可用于车辆自动驾驶(涉及行人、车辆检测与车道线场景分割)、目标探测(涉及目标检测与场景分割)等领域。
附图说明
图1为本发明实施例的一体化网络设计模式示意图;
图2为本发明实施例的主体特征提取网络示意图;
图3为本发明实施例的场景分割网络子网络示意图。
具体实施方式
下面结合附图和实施例对本发明的具体实施方式进一步说明。
基于深度学习的单任务网络设计包含两大模块:特征提取主体网络以及任务相关子网络。目标检测网络包含特征提取主体网络以及目标检测子网络,场景分割网络包含特征提取主体网络以及目标分割子网络。
本发明实施例搭建的目标检测与场景分割并行的统一化网络,如图1所示,具体如下:
所述统一化网络包含特征提取主体网络、目标检测子网络以及场景分割子网络。目标检测子网络与场景分割子网络在特征提取主体网络存在参数共享空间。为了提升目标检测与场景分割性能,通过特征提取主体网络的卷积及降采样,于1/8分辨率、1/16分辨率上进行特征融合,引出场景分割子网络,于1/8/、1/16以及1/32分辨率上进行特征融合,引出目标检测子网络。图2以车辆自动驾驶为例的主体特征提取网络示意图,其中,目标检测子网络为车辆检测子网络,场景分割子网络为车道线检测子网络。
进一步地,所述分割子网络具体设计方法如下:
基于1/8分辨率以及1/16分辨率的主体网络上的特征利用卷积层提取特征,进行场景分割子网络设计。为了保证低参数高性能运算,在1/16分辨率的特征图上,采用多路并行卷积网络,卷积核大小分别选用3*3、5*5以及1*1以有效扩增决策层(图中的SegPred1)的接受域,同时利用特征金字塔模式,将1/16分辨率的特征与1/8分辨率的特征进行有效融合,并利用该融合特征执行分割任务(图中的SegPred2),建立场景分割子网络,具体的网络设计如图3所示(未特殊标注的卷积核大小均为3*3)。
所述目标检测子网络的搭建可采取YOLO算法的检测框架。
在此需说明的是,目标检测子网络的搭建为本领域技术人员公知技术,在此不再赘述。
进一步地,对一体化网络进行训练。
上述一体化网络在训练过程中存在下述问题:1)检测模块损失与分割模块损失失衡(两者不在一个量级)2)训练过程中两者的下降速率相差较大,具体表现为,检测模块损失迅速下降,而分割损失下降较为缓慢。因此训练过程很难收敛,基于上述问题,本发明实施例提出下述训练方法:
步骤1、保持目标检测子网络参数不变的情况下,优先训练场景分割子网络、特征提取主体网络,使场景分割子网络收敛;
步骤2、保持特征提取主体网络及场景分割子网络参数不变的情况下,训练目标检测子网络,使目标检测子网络收敛;
步骤3、在上述两步的前提下,检测目标检测子网络损失及场景分割子网络损失,数值保持在较小比例范围内且下降趋于平稳,而后进行一体化网络联合训练(包含主干特征提取主体网络、目标检测子网络以及场景分割子网络),使一体化网络(双任务)收敛。

Claims (4)

1.一种目标检测与场景分割一体化网络设计方法,其特征在于:包括特征提取主体网络、目标检测子网络以及场景分割子网络,所述目标检测子网络与场景分割子网络共享特征提取主体网络。
2.如权利要求1所述的一种目标检测与场景分割一体化网络设计方法,其特征在于:通过特征提取主体网络的卷积及降采样,于1/8分辨率、1/16分辨率上进行特征融合,引出场景分割子网络,于1/8/、1/16以及1/32分辨率上进行特征融合,引出目标检测子网络。
3.如权利要求2所述的一种目标检测与场景分割一体化网络设计方法,其特征在于:所述场景分割子网络搭建方法为:在1/16分辨率的特征图上,采用多路并行卷积网络,卷积核大小分别选用3*3、5*5以及1*1,同时利用特征金字塔模式,将1/16分辨率的特征与1/8分辨率的特征进行有效融合,并利用该融合特征执行分割任务,建立场景分割子网络。
4.如权利要求1、2或3所述的一种目标检测与场景分割一体化网络设计方法,其特征在于:还包括:一体化网络训练,训练方法如下:
步骤1、保持目标检测子网络参数不变的情况下,优先训练场景分割子网络、特征提取主体网络,使场景分割子网络收敛;
步骤2、保持特征提取主体网络及场景分割子网络参数不变的情况下,训练目标检测子网络,使目标检测子网络收敛;
步骤3、在上述两步的前提下,检测目标检测子网络损失及场景分割子网络损失,数值保持在较小比例范围内且下降趋于平稳,而后进行一体化网络联合训练,使一体化网络收敛。
CN201911212008.3A 2019-12-02 2019-12-02 目标检测与场景分割一体化网络设计方法 Pending CN112989867A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911212008.3A CN112989867A (zh) 2019-12-02 2019-12-02 目标检测与场景分割一体化网络设计方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911212008.3A CN112989867A (zh) 2019-12-02 2019-12-02 目标检测与场景分割一体化网络设计方法

Publications (1)

Publication Number Publication Date
CN112989867A true CN112989867A (zh) 2021-06-18

Family

ID=76331009

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911212008.3A Pending CN112989867A (zh) 2019-12-02 2019-12-02 目标检测与场景分割一体化网络设计方法

Country Status (1)

Country Link
CN (1) CN112989867A (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107886117A (zh) * 2017-10-30 2018-04-06 国家新闻出版广电总局广播科学研究院 基于多特征提取和多任务融合的目标检测算法
CN108985250A (zh) * 2018-07-27 2018-12-11 大连理工大学 一种基于多任务网络的交通场景解析方法
CN110414387A (zh) * 2019-07-12 2019-11-05 武汉理工大学 一种基于道路分割的车道线多任务学习检测方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107886117A (zh) * 2017-10-30 2018-04-06 国家新闻出版广电总局广播科学研究院 基于多特征提取和多任务融合的目标检测算法
CN108985250A (zh) * 2018-07-27 2018-12-11 大连理工大学 一种基于多任务网络的交通场景解析方法
CN110414387A (zh) * 2019-07-12 2019-11-05 武汉理工大学 一种基于道路分割的车道线多任务学习检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ROBERTO ARROYO等: "Expert Video-Surveillance System for Real-Time Detection of Suspicious Be- haviors in Shopping Malls" *
郭爱心等: "基于深度卷积神经网络的小尺度行人检测" *

Similar Documents

Publication Publication Date Title
CN108288088B (zh) 一种基于端到端全卷积神经网络的场景文本检测方法
CN109977773B (zh) 基于多目标检测3d cnn的人体行为识别方法及系统
CN112733919B (zh) 基于空洞卷积和多尺度多分支的图像语义分割方法及系统
Gao et al. IELAS: An ELAS-based energy-efficient accelerator for real-time stereo matching on FPGA platform
CN109242880A (zh) 一种基于图像处理的电力线提取方法
CN111915558B (zh) 一种高压输电线销钉状态检测方法
CN110889323A (zh) 通用车牌的识别方法、装置、计算机设备及存储介质
CN205622767U (zh) 一种基于arm的智能车无线视频监控系统
CN112989867A (zh) 目标检测与场景分割一体化网络设计方法
Zhu et al. Fast vehicle detection based on evolving convolutional neural network
CN110046626B (zh) 基于pico算法的图像智能学习动态跟踪系统及方法
CN109120731B (zh) 一种通用型通讯方法、系统及装置
CN116205927A (zh) 一种基于边界增强的图像分割方法
Miao et al. UAV visual navigation system based on digital twin
CN113449656B (zh) 一种基于改进的卷积神经网络的驾驶员状态识别方法
Shan et al. A deep learning-based visual perception approach for mobile robots
Wang et al. Detection of transmission towers and insulators in remote sensing images with deep learning
CN107843254B (zh) 一种空间星敏感器的数据处理单元
CN112598699A (zh) 一种针对机器人工作场景中提取障碍物运动信息的方法
CN105787116A (zh) 基于上下文感知数据流的认知计算架构
Sheng et al. A YOLOX-Based Detection Method of Triple-Cascade Feature Level Fusion for Power System External Defects
CN115205632B (zh) 黎曼空间下的半监督多视图度量学习方法
CN110018916B (zh) 一种通信任务可组态功能的实现方法
CN104424297A (zh) 信息处理的方法及智能设备
CN103020972A (zh) 一种基于嵌入式处理器的二值图像连通域检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination