CN113033638A - 一种基于感受野感知的无锚点框目标检测方法 - Google Patents

一种基于感受野感知的无锚点框目标检测方法 Download PDF

Info

Publication number
CN113033638A
CN113033638A CN202110280998.5A CN202110280998A CN113033638A CN 113033638 A CN113033638 A CN 113033638A CN 202110280998 A CN202110280998 A CN 202110280998A CN 113033638 A CN113033638 A CN 113033638A
Authority
CN
China
Prior art keywords
target
receptive field
detection
loss
anchor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110280998.5A
Other languages
English (en)
Inventor
张弘
李旭亮
李亚伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BEIJING HANGKE WEISHI PHOTOELECTRIC INFORMATION TECHNOLOGY Co.,Ltd.
Original Assignee
Suzhou Haichen Weishi Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Haichen Weishi Intelligent Technology Co ltd filed Critical Suzhou Haichen Weishi Intelligent Technology Co ltd
Priority to CN202110280998.5A priority Critical patent/CN113033638A/zh
Publication of CN113033638A publication Critical patent/CN113033638A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于感受野感知的无锚点框目标检测方法,将感受野作为锚点框,具有由23个卷积层构成并且分为三大检测单元的网络;所述三大检测单元分别为小尺度目标检测单元、中等尺度目标检测单元和大尺寸目标检测单元;每一个单元根据感受野大小选择两个分支进行分类与回归操作,共可以获得6个检测分支,每两个分支负责对不同尺度的各自单元目标进行检测;其中,分类分支用于确定所检测的目标是否为所需要的目标,回归分支用于获取目标框的位坐标信息。这种基于感受野感知的无锚点框目标检测方法舍弃了传统的锚点框引入,整体结构简单,无多余分支,相比较传统的SSD以及FasterRCNN方法,在检测进度和检测速度上都有明显的优势。

Description

一种基于感受野感知的无锚点框目标检测方法
技术领域
本发明涉及视频图像处理领域,尤其涉及一种基于感受野感知的无锚点框目标检测方法。
背景技术
目标检测技术在计算机视觉领域中是一项非常具有研究意义的课题,其主要任务是预测物体的位置以及种类。
目前,主流的经典检测模型无论是单阶段的检测模型,如SSD,YOLO目标检测算法,还是两阶段的检测模型,如Faster R-CNN等,都是基于一系列预先设置好超参数的锚点框,通过在不同特征层上设置不同的尺度的锚点框,实现更高的概率出现对于目标物体有良好匹配度的目标框。
但是,基于锚点框设置的目标检测方法却有面临着以下挑战:1.锚点框的尺度设计无法完全覆盖所有的目标检测物体,每遇到一个全新的数据集都需要根据数据集的特点重新设置锚点框的数量和纵横比,限制了检测模型的通用性和鲁棒性;2.将锚点框与真实框进行匹配是依赖于IoU参数的设置决定的,其阈值往往是依据经验设定;3.根据针对不同尺寸的目标检测物体设置的锚点框的数量,往往会增加冗余计算,计算耗时等等;4.过多设置的锚点框在实际处理中会被标注为负样本,增加了正负样本数量上的不均衡,影响分类器的训练。
发明内容
本发明所要解决的技术问题是,提供一种基于感受野感知的无锚点框目标检测方法,其舍弃了传统的锚点框引入,整体结构更简单,无多余分支,检测进度和检测速度更为明显。
为了解决上述技术问题,本发明是通过以下技术方案实现的:一种基于感受野感知的无锚点框目标检测方法,将感受野作为锚点框,具有由23个卷积层构成并且分为三大检测单元的网络;所述三大检测单元分别为小尺度目标检测单元、中等尺度目标检测单元和大尺寸目标检测单元;每一个单元根据感受野大小选择两个分支进行分类与回归操作,共可以获得6个检测分支,每两个分支负责对不同尺度的各自单元目标进行检测;其中,分类分支用于确定所检测的目标是否为所需要的目标,回归分支用于获取目标框的位坐标信息。
进一步地,所述网络总体由3×3卷积核、1×1卷积核、ReLu激活函数以及残差边连接构成。
进一步地,所述感受野的计算公式如下:
Figure BDA0002978384680000021
其中,lk-1为第k-1层对应的感受野大小,fk为第k层的卷积核大小;根据上述公式可以得到所提出的检测框架各个卷积层对应的感受野大小,通过数据增广方法增加光噪声、更改亮度对比度,随机水平翻转,其中以0.5的概率对子图进行随机翻转,通过损失函数根据损失值对负样本排序,以正负样本1:10的比例选取排名靠前的负样本。
进一步地,所述损失函数是分类损失和回归损失的加权和。
进一步地,所述分类损失采用交叉熵损失,所述交叉熵损失函数公式如下:
Figure BDA0002978384680000022
其中,H为交叉熵的计算值,即损失的计算值;p为真实概率分布,即分类函数的预测概率值;q为非真实概率分布,即分类函数的预测概率值的补集;i为每一个类别的下标。
进一步地,所述回归损失采用Smooth L1损失函数,其公式如下:
Figure BDA0002978384680000031
回归真实值设定为:
Figure BDA0002978384680000032
其中,RFx,RFy为感受野的中心坐标,RFs为感受野的边长,
Figure BDA0002978384680000033
Figure BDA0002978384680000034
为目标框的左上角的坐标,
Figure BDA0002978384680000035
Figure BDA0002978384680000036
为目标框的右上角的坐标。
与现有技术相比,本发明的有益之处在于:这种基于感受野感知的无锚点框目标检测方法具有以下优势:
1.该目标检测模型取消了锚点框设置,避免了以往对锚点框数量、大小、比例的参数设定,减少了模型的计算复杂度,提高了目标检测模型的通用性和鲁棒性;
2.该目标检测模型利用不同大小的感受野回归预测目标的位置和种类,感受野小的特征图,像素点映射回输入图像包含的区域小,负责预测小尺寸的目标物体。感受野大的特征图,像素点映射回输入图像包含的区域大,负责预测大尺寸的目标物体,这样,该方法可以很好地预测连续多尺度目标物体;
3.该网络模型仅仅由3×3,1×1卷积核构成,模型是非简单并且模型参数非常小,可以很方便地在嵌入式设备上进行移植应用,适合边缘设备等。
附图说明
图1是本发明基于感受野感知的无锚点框目标检测总体框架;
图2是检测框架中各个卷积层对应的感受野大小;
图3至图5是本发明与其他行人检测方法在Caltech数据集评估检测结果对比图。
具体实施方式
下面结合附图和具体实施方式对本发明进行详细描述。
一种基于感受野感知的无锚点框目标检测方法,如图1所示,将感受野作为锚点框,具有由23个卷积层构成并且分为三大检测单元的网络;所述三大检测单元分别为小尺度目标检测单元、中等尺度目标检测单元和大尺寸目标检测单元;每一个单元根据感受野大小选择两个分支进行分类与回归操作,共可以获得6个检测分支,每两个分支负责对不同尺度的各自单元目标进行检测;其中,分类分支用于确定所检测的目标是否为所需要的目标,回归分支用于获取目标框的位坐标信息;所述网络总体由3×3卷积核、1×1卷积核、ReLu激活函数以及残差边连接构成。
所述感受野的计算公式如下:
Figure BDA0002978384680000041
其中,lk-1为第k-1层对应的感受野大小,fk为第k层的卷积核大小;根据上述公式可以得到所提出的检测框架各个卷积层对应的感受野大小(参见说明书附图2所示),通过数据增广方法增加光噪声、更改亮度对比度,随机水平翻转,其中以0.5的概率对子图进行随机翻转,通过损失函数根据损失值对负样本排序,以正负样本1:10的比例选取排名靠前的负样本。
所述损失函数是分类损失和回归损失的加权和。
所述分类损失采用交叉熵损失,所述交叉熵损失函数公式如下:
Figure BDA0002978384680000042
其中,H为交叉熵的计算值,即损失的计算值;p为真实概率分布,即分类函数的预测概率值;q为非真实概率分布,即分类函数的预测概率值的补集;i为每一个类别的下标。
所述回归损失采用Smooth L1损失函数,其公式如下:
Figure BDA0002978384680000051
回归真实值设定为:
Figure BDA0002978384680000052
其中,RFx,RFy为感受野的中心坐标,RFs为感受野的边长,
Figure BDA0002978384680000053
Figure BDA0002978384680000054
为目标框的左上角的坐标,
Figure BDA0002978384680000055
Figure BDA0002978384680000056
为目标框的右上角的坐标。
具体地,在训练过程中采用了难分类负样本挖掘,对负样本损失值排序后选择最高的几个,保证正负样本1:10。
以Caltech行人检测数据集为例,对比验证所提出算法的先进性;其中,实验环境配置:Ubuntu18.04,GPU型号为GTX2080Ti,cuDNN版本为8.0.5,CPU型号为Intel(R)Core(TM)i7-10850K@3.60GHz;最大迭代次数:1,800,000次;训练批次尺寸batch_size:32;学习率:初始学习率为0.001,在迭代至600,000次、1,200,000次的时候学习率衰减10倍;反向传播方法:SGD随机梯度下降算法;动量参数:0.9;分类IOU阈值参数:0.5。
如图3至5所示,为该发明方法(命名为RFA-LF)与其他行人检测方法在Caltech数据集评估检测结果图,对比结果显示该方法方法在“Near”、“Medium”、“Far”即“近”、“中”、“远”三种不同尺度的行人目标评估准则下均表现优异。
这种基于感受野感知的无锚点框目标检测方法将感受野充分当做“天然的”锚点框,舍弃了传统的锚点框引入,通过对每个特征层上感受野进行利用,将不同特征层上不同尺度的感受野当做不同尺度的锚点框用以检测不同的物体;浅层的特征层感受野比较小,负责检测小尺寸物体,深层的特征层感受野比较大,负责检测大尺寸物体,这样具有不同大小感受野的特征层可以很好地覆盖连续的不同尺寸的目标,该方法仅仅利用1×1以及3×3卷积核构成,整体结构简单,无多余分支,相比较传统的SSD以及FasterRCNN方法,在检测进度和检测速度上都有明显的优势;其具体优点如下:
1.该目标检测模型取消了锚点框设置,避免了以往对锚点框数量、大小、比例的参数设定,减少了模型的计算复杂度,提高了目标检测模型的通用性和鲁棒性;
2.该目标检测模型利用不同大小的感受野回归预测目标的位置和种类,感受野小的特征图,像素点映射回输入图像包含的区域小,负责预测小尺寸的目标物体。感受野大的特征图,像素点映射回输入图像包含的区域大,负责预测大尺寸的目标物体,这样,该方法可以很好地预测连续多尺度目标物体;
3.该网络模型仅仅由3×3,1×1卷积核构成,模型是非简单并且模型参数非常小,可以很方便地在嵌入式设备上进行移植应用,适合边缘设备等。
需要强调的是:以上仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属于本发明技术方案的范围内。

Claims (6)

1.一种基于感受野感知的无锚点框目标检测方法,其特征是,将感受野作为锚点框,具有由23个卷积层构成并且分为三大检测单元的网络;所述三大检测单元分别为小尺度目标检测单元、中等尺度目标检测单元和大尺寸目标检测单元;每一个单元根据感受野大小选择两个分支进行分类与回归操作,共可以获得6个检测分支,每两个分支负责对不同尺度的各自单元目标进行检测;其中,分类分支用于确定所检测的目标是否为所需要的目标,回归分支用于获取目标框的位坐标信息。
2.根据权利要求1所述的一种基于感受野感知的无锚点框目标检测方法,其特征是,所述网络总体由3×3卷积核、1×1卷积核、ReLu激活函数以及残差边连接构成。
3.根据权利要求1所述的一种基于感受野感知的无锚点框目标检测方法,其特征是,所述感受野的计算公式如下:
Figure FDA0002978384670000011
其中,lk-1为第k-1层对应的感受野大小,fk为第k层的卷积核大小;根据上述公式可以得到所提出的检测框架各个卷积层对应的感受野大小,通过数据增广方法增加光噪声、更改亮度对比度,随机水平翻转,其中以0.5的概率对子图进行随机翻转,通过损失函数根据损失值对负样本排序,以正负样本1:10的比例选取排名靠前的负样本。
4.根据权利要求3所述的一种基于感受野感知的无锚点框目标检测方法,其特征是,所述损失函数是分类损失和回归损失的加权和。
5.根据权利要求4所述的一种基于感受野感知的无锚点框目标检测方法,其特征是,所述分类损失采用交叉熵损失,所述交叉熵损失函数公式如下:
Figure FDA0002978384670000012
其中,H为交叉熵的计算值,即损失的计算值;p为真实概率分布,即分类函数的预测概率值;q为非真实概率分布,即分类函数的预测概率值的补集;i为每一个类别的下标。
6.根据权利要求4所述的一种基于感受野感知的无锚点框目标检测方法,其特征是,所述回归损失采用Smooth L1损失函数,其公式如下:
Figure FDA0002978384670000021
回归真实值设定为:
Figure FDA0002978384670000022
其中,RFx,RFy为感受野的中心坐标,RFs为感受野的边长,
Figure FDA0002978384670000023
Figure FDA0002978384670000024
为目标框的左上角的坐标,
Figure FDA0002978384670000025
Figure FDA0002978384670000026
为目标框的右上角的坐标。
CN202110280998.5A 2021-03-16 2021-03-16 一种基于感受野感知的无锚点框目标检测方法 Pending CN113033638A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110280998.5A CN113033638A (zh) 2021-03-16 2021-03-16 一种基于感受野感知的无锚点框目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110280998.5A CN113033638A (zh) 2021-03-16 2021-03-16 一种基于感受野感知的无锚点框目标检测方法

Publications (1)

Publication Number Publication Date
CN113033638A true CN113033638A (zh) 2021-06-25

Family

ID=76470884

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110280998.5A Pending CN113033638A (zh) 2021-03-16 2021-03-16 一种基于感受野感知的无锚点框目标检测方法

Country Status (1)

Country Link
CN (1) CN113033638A (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109741318A (zh) * 2018-12-30 2019-05-10 北京工业大学 基于有效感受野的单阶段多尺度特定目标的实时检测方法
CN110298266A (zh) * 2019-06-10 2019-10-01 天津大学 基于多尺度感受野特征融合的深度神经网络目标检测方法
CN110321923A (zh) * 2019-05-10 2019-10-11 上海大学 不同尺度感受野特征层融合的目标检测方法、系统及介质
CN111144329A (zh) * 2019-12-29 2020-05-12 北京工业大学 一种基于多标签的轻量快速人群计数方法
CN111476252A (zh) * 2020-04-03 2020-07-31 南京邮电大学 一种面向计算机视觉应用的轻量化无锚框目标检测方法
CN111695430A (zh) * 2020-05-18 2020-09-22 电子科技大学 一种基于特征融合和视觉感受野网络的多尺度人脸检测方法
CN112347962A (zh) * 2020-11-16 2021-02-09 东北大学 一种基于感受野的卷积神经网络目标检测系统与方法
US20210056351A1 (en) * 2018-06-04 2021-02-25 Jiangnan University Multi-scale aware pedestrian detection method based on improved full convolutional network

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210056351A1 (en) * 2018-06-04 2021-02-25 Jiangnan University Multi-scale aware pedestrian detection method based on improved full convolutional network
CN109741318A (zh) * 2018-12-30 2019-05-10 北京工业大学 基于有效感受野的单阶段多尺度特定目标的实时检测方法
CN110321923A (zh) * 2019-05-10 2019-10-11 上海大学 不同尺度感受野特征层融合的目标检测方法、系统及介质
CN110298266A (zh) * 2019-06-10 2019-10-01 天津大学 基于多尺度感受野特征融合的深度神经网络目标检测方法
CN111144329A (zh) * 2019-12-29 2020-05-12 北京工业大学 一种基于多标签的轻量快速人群计数方法
CN111476252A (zh) * 2020-04-03 2020-07-31 南京邮电大学 一种面向计算机视觉应用的轻量化无锚框目标检测方法
CN111695430A (zh) * 2020-05-18 2020-09-22 电子科技大学 一种基于特征融合和视觉感受野网络的多尺度人脸检测方法
CN112347962A (zh) * 2020-11-16 2021-02-09 东北大学 一种基于感受野的卷积神经网络目标检测系统与方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
XIANZHI DU ET AL.: "Fused DNN: A deep neural network fusion approach to fast and robust pedestrian detection", 《ARXIV》, 28 May 2017 (2017-05-28), pages 1 - 11 *
王若霄: "基于深度学习的目标检测方法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》, no. 08, 15 August 2020 (2020-08-15), pages 1 - 90 *

Similar Documents

Publication Publication Date Title
CN109919108B (zh) 基于深度哈希辅助网络的遥感图像快速目标检测方法
CN112784881B (zh) 网络异常流量检测方法、模型及系统
WO2019179403A1 (zh) 基于序列宽深学习的欺诈交易检测方法
CN111709311B (zh) 一种基于多尺度卷积特征融合的行人重识别方法
CN109190442B (zh) 一种基于深度级联卷积神经网络的快速人脸检测方法
US20190228268A1 (en) Method and system for cell image segmentation using multi-stage convolutional neural networks
CN109509187B (zh) 一种针对大分辨率布匹图像中的小瑕疵的高效检验算法
CN107392919B (zh) 基于自适应遗传算法的灰度阈值获取方法、图像分割方法
CN108038846A (zh) 基于多层卷积神经网络的输电线路设备图像缺陷检测方法及系统
CN110321873A (zh) 基于深度学习卷积神经网络的敏感图片识别方法及系统
CN107092661A (zh) 一种基于深度卷积神经网络的图像检索方法
CN105354595A (zh) 一种鲁棒视觉图像分类方法及系统
CN107240087B (zh) 目标检测系统和方法
CN109559297A (zh) 一种基于三维区域生成网络的肺结节检测的方法
CN109871749B (zh) 一种基于深度哈希的行人重识别方法和装置、计算机系统
CN115619743A (zh) Oled新型显示器件表面缺陷检测模型的构建方法及其应用
CN113343901A (zh) 基于多尺度注意力图卷积网络的人体行为识别方法
CN112364747B (zh) 一种有限样本下的目标检测方法
Zhao et al. A new hand segmentation method based on fully convolutional network
O’Keeffe et al. A benchmark data set and evaluation of deep learning architectures for ball detection in the RoboCup SPL
CN113487600A (zh) 一种特征增强尺度自适应感知船舶检测方法
CN111400713B (zh) 基于操作码邻接图特征的恶意软件族群分类方法
Hu et al. RGB-D image multi-target detection method based on 3D DSF R-CNN
CN117011274A (zh) 自动化玻璃瓶检测系统及其方法
CN111444802A (zh) 一种人脸识别方法、装置及智能终端

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20210907

Address after: Room 32032, floor 2, No. 3, Shuangqing Road, Haidian District, Beijing 100083

Applicant after: BEIJING HANGKE WEISHI PHOTOELECTRIC INFORMATION TECHNOLOGY Co.,Ltd.

Address before: 215316 3rd floor, R & D building, No. 1699, Zuchongzhi South Road, Yushan Town, Kunshan City, Suzhou City, Jiangsu Province

Applicant before: Suzhou Haichen Weishi Intelligent Technology Co.,Ltd.