CN113033638A - 一种基于感受野感知的无锚点框目标检测方法 - Google Patents
一种基于感受野感知的无锚点框目标检测方法 Download PDFInfo
- Publication number
- CN113033638A CN113033638A CN202110280998.5A CN202110280998A CN113033638A CN 113033638 A CN113033638 A CN 113033638A CN 202110280998 A CN202110280998 A CN 202110280998A CN 113033638 A CN113033638 A CN 113033638A
- Authority
- CN
- China
- Prior art keywords
- target
- receptive field
- detection
- loss
- anchor
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 62
- 230000008447 perception Effects 0.000 title claims abstract description 14
- 238000000034 method Methods 0.000 claims abstract description 21
- 230000006870 function Effects 0.000 claims description 21
- 230000004913 activation Effects 0.000 claims description 3
- 230000000295 complement effect Effects 0.000 claims description 3
- 230000003287 optical effect Effects 0.000 claims description 3
- 238000013434 data augmentation Methods 0.000 claims description 2
- 238000004364 calculation method Methods 0.000 description 6
- 238000012549 training Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000003321 amplification Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000010998 test method Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于感受野感知的无锚点框目标检测方法,将感受野作为锚点框,具有由23个卷积层构成并且分为三大检测单元的网络;所述三大检测单元分别为小尺度目标检测单元、中等尺度目标检测单元和大尺寸目标检测单元;每一个单元根据感受野大小选择两个分支进行分类与回归操作,共可以获得6个检测分支,每两个分支负责对不同尺度的各自单元目标进行检测;其中,分类分支用于确定所检测的目标是否为所需要的目标,回归分支用于获取目标框的位坐标信息。这种基于感受野感知的无锚点框目标检测方法舍弃了传统的锚点框引入,整体结构简单,无多余分支,相比较传统的SSD以及FasterRCNN方法,在检测进度和检测速度上都有明显的优势。
Description
技术领域
本发明涉及视频图像处理领域,尤其涉及一种基于感受野感知的无锚点框目标检测方法。
背景技术
目标检测技术在计算机视觉领域中是一项非常具有研究意义的课题,其主要任务是预测物体的位置以及种类。
目前,主流的经典检测模型无论是单阶段的检测模型,如SSD,YOLO目标检测算法,还是两阶段的检测模型,如Faster R-CNN等,都是基于一系列预先设置好超参数的锚点框,通过在不同特征层上设置不同的尺度的锚点框,实现更高的概率出现对于目标物体有良好匹配度的目标框。
但是,基于锚点框设置的目标检测方法却有面临着以下挑战:1.锚点框的尺度设计无法完全覆盖所有的目标检测物体,每遇到一个全新的数据集都需要根据数据集的特点重新设置锚点框的数量和纵横比,限制了检测模型的通用性和鲁棒性;2.将锚点框与真实框进行匹配是依赖于IoU参数的设置决定的,其阈值往往是依据经验设定;3.根据针对不同尺寸的目标检测物体设置的锚点框的数量,往往会增加冗余计算,计算耗时等等;4.过多设置的锚点框在实际处理中会被标注为负样本,增加了正负样本数量上的不均衡,影响分类器的训练。
发明内容
本发明所要解决的技术问题是,提供一种基于感受野感知的无锚点框目标检测方法,其舍弃了传统的锚点框引入,整体结构更简单,无多余分支,检测进度和检测速度更为明显。
为了解决上述技术问题,本发明是通过以下技术方案实现的:一种基于感受野感知的无锚点框目标检测方法,将感受野作为锚点框,具有由23个卷积层构成并且分为三大检测单元的网络;所述三大检测单元分别为小尺度目标检测单元、中等尺度目标检测单元和大尺寸目标检测单元;每一个单元根据感受野大小选择两个分支进行分类与回归操作,共可以获得6个检测分支,每两个分支负责对不同尺度的各自单元目标进行检测;其中,分类分支用于确定所检测的目标是否为所需要的目标,回归分支用于获取目标框的位坐标信息。
进一步地,所述网络总体由3×3卷积核、1×1卷积核、ReLu激活函数以及残差边连接构成。
进一步地,所述感受野的计算公式如下:
其中,lk-1为第k-1层对应的感受野大小,fk为第k层的卷积核大小;根据上述公式可以得到所提出的检测框架各个卷积层对应的感受野大小,通过数据增广方法增加光噪声、更改亮度对比度,随机水平翻转,其中以0.5的概率对子图进行随机翻转,通过损失函数根据损失值对负样本排序,以正负样本1:10的比例选取排名靠前的负样本。
进一步地,所述损失函数是分类损失和回归损失的加权和。
进一步地,所述分类损失采用交叉熵损失,所述交叉熵损失函数公式如下:
其中,H为交叉熵的计算值,即损失的计算值;p为真实概率分布,即分类函数的预测概率值;q为非真实概率分布,即分类函数的预测概率值的补集;i为每一个类别的下标。
进一步地,所述回归损失采用Smooth L1损失函数,其公式如下:
回归真实值设定为:
与现有技术相比,本发明的有益之处在于:这种基于感受野感知的无锚点框目标检测方法具有以下优势:
1.该目标检测模型取消了锚点框设置,避免了以往对锚点框数量、大小、比例的参数设定,减少了模型的计算复杂度,提高了目标检测模型的通用性和鲁棒性;
2.该目标检测模型利用不同大小的感受野回归预测目标的位置和种类,感受野小的特征图,像素点映射回输入图像包含的区域小,负责预测小尺寸的目标物体。感受野大的特征图,像素点映射回输入图像包含的区域大,负责预测大尺寸的目标物体,这样,该方法可以很好地预测连续多尺度目标物体;
3.该网络模型仅仅由3×3,1×1卷积核构成,模型是非简单并且模型参数非常小,可以很方便地在嵌入式设备上进行移植应用,适合边缘设备等。
附图说明
图1是本发明基于感受野感知的无锚点框目标检测总体框架;
图2是检测框架中各个卷积层对应的感受野大小;
图3至图5是本发明与其他行人检测方法在Caltech数据集评估检测结果对比图。
具体实施方式
下面结合附图和具体实施方式对本发明进行详细描述。
一种基于感受野感知的无锚点框目标检测方法,如图1所示,将感受野作为锚点框,具有由23个卷积层构成并且分为三大检测单元的网络;所述三大检测单元分别为小尺度目标检测单元、中等尺度目标检测单元和大尺寸目标检测单元;每一个单元根据感受野大小选择两个分支进行分类与回归操作,共可以获得6个检测分支,每两个分支负责对不同尺度的各自单元目标进行检测;其中,分类分支用于确定所检测的目标是否为所需要的目标,回归分支用于获取目标框的位坐标信息;所述网络总体由3×3卷积核、1×1卷积核、ReLu激活函数以及残差边连接构成。
所述感受野的计算公式如下:
其中,lk-1为第k-1层对应的感受野大小,fk为第k层的卷积核大小;根据上述公式可以得到所提出的检测框架各个卷积层对应的感受野大小(参见说明书附图2所示),通过数据增广方法增加光噪声、更改亮度对比度,随机水平翻转,其中以0.5的概率对子图进行随机翻转,通过损失函数根据损失值对负样本排序,以正负样本1:10的比例选取排名靠前的负样本。
所述损失函数是分类损失和回归损失的加权和。
所述分类损失采用交叉熵损失,所述交叉熵损失函数公式如下:
其中,H为交叉熵的计算值,即损失的计算值;p为真实概率分布,即分类函数的预测概率值;q为非真实概率分布,即分类函数的预测概率值的补集;i为每一个类别的下标。
所述回归损失采用Smooth L1损失函数,其公式如下:
回归真实值设定为:
具体地,在训练过程中采用了难分类负样本挖掘,对负样本损失值排序后选择最高的几个,保证正负样本1:10。
以Caltech行人检测数据集为例,对比验证所提出算法的先进性;其中,实验环境配置:Ubuntu18.04,GPU型号为GTX2080Ti,cuDNN版本为8.0.5,CPU型号为Intel(R)Core(TM)i7-10850K@3.60GHz;最大迭代次数:1,800,000次;训练批次尺寸batch_size:32;学习率:初始学习率为0.001,在迭代至600,000次、1,200,000次的时候学习率衰减10倍;反向传播方法:SGD随机梯度下降算法;动量参数:0.9;分类IOU阈值参数:0.5。
如图3至5所示,为该发明方法(命名为RFA-LF)与其他行人检测方法在Caltech数据集评估检测结果图,对比结果显示该方法方法在“Near”、“Medium”、“Far”即“近”、“中”、“远”三种不同尺度的行人目标评估准则下均表现优异。
这种基于感受野感知的无锚点框目标检测方法将感受野充分当做“天然的”锚点框,舍弃了传统的锚点框引入,通过对每个特征层上感受野进行利用,将不同特征层上不同尺度的感受野当做不同尺度的锚点框用以检测不同的物体;浅层的特征层感受野比较小,负责检测小尺寸物体,深层的特征层感受野比较大,负责检测大尺寸物体,这样具有不同大小感受野的特征层可以很好地覆盖连续的不同尺寸的目标,该方法仅仅利用1×1以及3×3卷积核构成,整体结构简单,无多余分支,相比较传统的SSD以及FasterRCNN方法,在检测进度和检测速度上都有明显的优势;其具体优点如下:
1.该目标检测模型取消了锚点框设置,避免了以往对锚点框数量、大小、比例的参数设定,减少了模型的计算复杂度,提高了目标检测模型的通用性和鲁棒性;
2.该目标检测模型利用不同大小的感受野回归预测目标的位置和种类,感受野小的特征图,像素点映射回输入图像包含的区域小,负责预测小尺寸的目标物体。感受野大的特征图,像素点映射回输入图像包含的区域大,负责预测大尺寸的目标物体,这样,该方法可以很好地预测连续多尺度目标物体;
3.该网络模型仅仅由3×3,1×1卷积核构成,模型是非简单并且模型参数非常小,可以很方便地在嵌入式设备上进行移植应用,适合边缘设备等。
需要强调的是:以上仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属于本发明技术方案的范围内。
Claims (6)
1.一种基于感受野感知的无锚点框目标检测方法,其特征是,将感受野作为锚点框,具有由23个卷积层构成并且分为三大检测单元的网络;所述三大检测单元分别为小尺度目标检测单元、中等尺度目标检测单元和大尺寸目标检测单元;每一个单元根据感受野大小选择两个分支进行分类与回归操作,共可以获得6个检测分支,每两个分支负责对不同尺度的各自单元目标进行检测;其中,分类分支用于确定所检测的目标是否为所需要的目标,回归分支用于获取目标框的位坐标信息。
2.根据权利要求1所述的一种基于感受野感知的无锚点框目标检测方法,其特征是,所述网络总体由3×3卷积核、1×1卷积核、ReLu激活函数以及残差边连接构成。
4.根据权利要求3所述的一种基于感受野感知的无锚点框目标检测方法,其特征是,所述损失函数是分类损失和回归损失的加权和。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110280998.5A CN113033638A (zh) | 2021-03-16 | 2021-03-16 | 一种基于感受野感知的无锚点框目标检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110280998.5A CN113033638A (zh) | 2021-03-16 | 2021-03-16 | 一种基于感受野感知的无锚点框目标检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113033638A true CN113033638A (zh) | 2021-06-25 |
Family
ID=76470884
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110280998.5A Pending CN113033638A (zh) | 2021-03-16 | 2021-03-16 | 一种基于感受野感知的无锚点框目标检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113033638A (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109741318A (zh) * | 2018-12-30 | 2019-05-10 | 北京工业大学 | 基于有效感受野的单阶段多尺度特定目标的实时检测方法 |
CN110298266A (zh) * | 2019-06-10 | 2019-10-01 | 天津大学 | 基于多尺度感受野特征融合的深度神经网络目标检测方法 |
CN110321923A (zh) * | 2019-05-10 | 2019-10-11 | 上海大学 | 不同尺度感受野特征层融合的目标检测方法、系统及介质 |
CN111144329A (zh) * | 2019-12-29 | 2020-05-12 | 北京工业大学 | 一种基于多标签的轻量快速人群计数方法 |
CN111476252A (zh) * | 2020-04-03 | 2020-07-31 | 南京邮电大学 | 一种面向计算机视觉应用的轻量化无锚框目标检测方法 |
CN111695430A (zh) * | 2020-05-18 | 2020-09-22 | 电子科技大学 | 一种基于特征融合和视觉感受野网络的多尺度人脸检测方法 |
CN112347962A (zh) * | 2020-11-16 | 2021-02-09 | 东北大学 | 一种基于感受野的卷积神经网络目标检测系统与方法 |
US20210056351A1 (en) * | 2018-06-04 | 2021-02-25 | Jiangnan University | Multi-scale aware pedestrian detection method based on improved full convolutional network |
-
2021
- 2021-03-16 CN CN202110280998.5A patent/CN113033638A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210056351A1 (en) * | 2018-06-04 | 2021-02-25 | Jiangnan University | Multi-scale aware pedestrian detection method based on improved full convolutional network |
CN109741318A (zh) * | 2018-12-30 | 2019-05-10 | 北京工业大学 | 基于有效感受野的单阶段多尺度特定目标的实时检测方法 |
CN110321923A (zh) * | 2019-05-10 | 2019-10-11 | 上海大学 | 不同尺度感受野特征层融合的目标检测方法、系统及介质 |
CN110298266A (zh) * | 2019-06-10 | 2019-10-01 | 天津大学 | 基于多尺度感受野特征融合的深度神经网络目标检测方法 |
CN111144329A (zh) * | 2019-12-29 | 2020-05-12 | 北京工业大学 | 一种基于多标签的轻量快速人群计数方法 |
CN111476252A (zh) * | 2020-04-03 | 2020-07-31 | 南京邮电大学 | 一种面向计算机视觉应用的轻量化无锚框目标检测方法 |
CN111695430A (zh) * | 2020-05-18 | 2020-09-22 | 电子科技大学 | 一种基于特征融合和视觉感受野网络的多尺度人脸检测方法 |
CN112347962A (zh) * | 2020-11-16 | 2021-02-09 | 东北大学 | 一种基于感受野的卷积神经网络目标检测系统与方法 |
Non-Patent Citations (2)
Title |
---|
XIANZHI DU ET AL.: "Fused DNN: A deep neural network fusion approach to fast and robust pedestrian detection", 《ARXIV》, 28 May 2017 (2017-05-28), pages 1 - 11 * |
王若霄: "基于深度学习的目标检测方法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》, no. 08, 15 August 2020 (2020-08-15), pages 1 - 90 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109919108B (zh) | 基于深度哈希辅助网络的遥感图像快速目标检测方法 | |
CN112784881B (zh) | 网络异常流量检测方法、模型及系统 | |
WO2019179403A1 (zh) | 基于序列宽深学习的欺诈交易检测方法 | |
CN111709311B (zh) | 一种基于多尺度卷积特征融合的行人重识别方法 | |
CN109190442B (zh) | 一种基于深度级联卷积神经网络的快速人脸检测方法 | |
US20190228268A1 (en) | Method and system for cell image segmentation using multi-stage convolutional neural networks | |
CN109509187B (zh) | 一种针对大分辨率布匹图像中的小瑕疵的高效检验算法 | |
CN107392919B (zh) | 基于自适应遗传算法的灰度阈值获取方法、图像分割方法 | |
CN108038846A (zh) | 基于多层卷积神经网络的输电线路设备图像缺陷检测方法及系统 | |
CN110321873A (zh) | 基于深度学习卷积神经网络的敏感图片识别方法及系统 | |
CN107092661A (zh) | 一种基于深度卷积神经网络的图像检索方法 | |
CN105354595A (zh) | 一种鲁棒视觉图像分类方法及系统 | |
CN107240087B (zh) | 目标检测系统和方法 | |
CN109559297A (zh) | 一种基于三维区域生成网络的肺结节检测的方法 | |
CN109871749B (zh) | 一种基于深度哈希的行人重识别方法和装置、计算机系统 | |
CN115619743A (zh) | Oled新型显示器件表面缺陷检测模型的构建方法及其应用 | |
CN113343901A (zh) | 基于多尺度注意力图卷积网络的人体行为识别方法 | |
CN112364747B (zh) | 一种有限样本下的目标检测方法 | |
Zhao et al. | A new hand segmentation method based on fully convolutional network | |
O’Keeffe et al. | A benchmark data set and evaluation of deep learning architectures for ball detection in the RoboCup SPL | |
CN113487600A (zh) | 一种特征增强尺度自适应感知船舶检测方法 | |
CN111400713B (zh) | 基于操作码邻接图特征的恶意软件族群分类方法 | |
Hu et al. | RGB-D image multi-target detection method based on 3D DSF R-CNN | |
CN117011274A (zh) | 自动化玻璃瓶检测系统及其方法 | |
CN111444802A (zh) | 一种人脸识别方法、装置及智能终端 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20210907 Address after: Room 32032, floor 2, No. 3, Shuangqing Road, Haidian District, Beijing 100083 Applicant after: BEIJING HANGKE WEISHI PHOTOELECTRIC INFORMATION TECHNOLOGY Co.,Ltd. Address before: 215316 3rd floor, R & D building, No. 1699, Zuchongzhi South Road, Yushan Town, Kunshan City, Suzhou City, Jiangsu Province Applicant before: Suzhou Haichen Weishi Intelligent Technology Co.,Ltd. |