CN110852330A - 一种基于单阶段的行为识别方法 - Google Patents

一种基于单阶段的行为识别方法 Download PDF

Info

Publication number
CN110852330A
CN110852330A CN201911014322.0A CN201911014322A CN110852330A CN 110852330 A CN110852330 A CN 110852330A CN 201911014322 A CN201911014322 A CN 201911014322A CN 110852330 A CN110852330 A CN 110852330A
Authority
CN
China
Prior art keywords
layer
convolution layer
convolution
rfb
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911014322.0A
Other languages
English (en)
Inventor
陈景明
金杰
李燊
郭如意
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN201911014322.0A priority Critical patent/CN110852330A/zh
Publication of CN110852330A publication Critical patent/CN110852330A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Abstract

本发明公开一种基于单阶段的行为识别方法,基于特征金字塔网络结构,包括左侧自底向上结构、右侧的自顶向下结构、位于中间的横向连接层及后端的预测网络,左侧自底向上结构包括卷积层一、卷积层二、卷积层三、RFB模块和RFB‑s模块,右侧的自顶向下结构包括卷积层四、卷积层五和卷积层六;其中自底向上结构用以不断提取特征信息,而右侧的自顶向下结构则通过下采样即反卷积不断的将顶层的特征图放大,横向连接层则是将右侧的顶层特征与左侧的底层特征进行结合,使得特征更具有表达能力,预测网络是用于实现对分类和边界框的预测。

Description

一种基于单阶段的行为识别方法
技术领域
本发明涉及计算机视觉,目标检测,图像处理领域,特别是涉及一种基于单阶段的行为识别方法。
背景技术
随着深度学习的不断发展,在自然语言处理以及目标检测和分类方面也取得了不错的进步。其中目标检测主要分为两分支:一分支是基于区域提议的目标检测,如:RCNN系列(RCNN、Fast RCNN以及RFCN等),这些目标检测方法主要分为两个阶段。在第一阶段,通过算法或区域提议网络生成高质量的候选框,然后在第二阶段则通过子网络对这些候选框进行分类和边框回归,因此由于这类检测方法分两阶段进行所以在检测速度方面存在缺陷,达不到实时的效果;另一分支则是单阶段的目标检测方法(如YOLO、SSD以及DSOD等),因为没有单独产生候选框的阶段所以相对于前一种方法来说准确率相对较差,但其检测速度十分优秀可以达到实时的检测。本方法就是对基于单阶段的目标检测方法SSD的改进。
目前基于单阶段的目标检测方法的改进主要是通过结合不同特征图的信息或者采用更复杂的网络结构来获得具有高语义的特征信息,例如:在最初的单阶段算法YOLO中直接在最后的卷积层上进行边界框回归的目标检测,SSD方法则是在YOLO方法的基础上提出来的,该方法是结合最后几个卷积层进行预测,因而有更高的准确率。DSSD方法则是在SSD的改进,通过采用更复杂的网络结构ResNet进行特征提取,并结合反卷积层获得更多的语义信息。在Single-Shot Bidirectional Pyramid Networks的方法中则采用了双向的特征金字塔网络结构,结合了底层和高层之间的特征信息。
虽然目前有众多针对SSD方法的改进,但是大多数的方法都是在牺牲检测速度的基础上提高其检测精度,例如:1、采用更复杂的网络模型进行特征提取的方法。在DSSD方法中,因其用于特征提取的网络结构ResNet相对复杂,引入了较多的参数所以在检测帧率上会大幅度下降;2、通过引入新的模块来解决单阶段目标检测的正负样本失衡问题。在Single-Shot Bidirectional Pyramid Networks方法中便通过添加一个新的级联的锚优化模块来提高方法的定位准确率,同样在Single-shot Refinement Neural Network方法中也引入了类似的锚优化模块来去除一些负样本。相比于通过引入新的损失函数来缓解正负样本严重失衡问题,添加新模块的这种方法增加了训练参数,从而也会使检测速率下降。
本发明中涉及的相关术语解释如下:
DSOD:(Deeply Supervised Object Detectors)强监督目标检测器
DSSD(Deconvolutional Single Shot Detector)反卷积的单次多边界盒检测器
Focal Loss:聚焦损失
FPN:(Feature Pyramid Networks)特征金字塔网络
Fast RCNN:基于区域提议的快速卷积神经网络
IOU:(Intersection over Union)重叠度
RCNN:(Regions with CNN features)基于区域提议的卷积神经网络
RFCN:(Region-based Fully Convolutional Networks)基于区域提议的全卷积网络
ROI Pooling:(Region of Interest Pooling)感兴趣区域池化
ResNet:深度残差网络
RFB:(Receptive Field Block)感受野块
SSD:(Single Shot MultiBox Detector)单次多边界盒检测器
Single-Shot Bidirectional Pyramid Networks:单次双向的金字塔网络
Single-shot Refinement Neural Network:单次优化神经网络
VGG:(Visual Geometry Group)
YOLO:(You only look once)
发明内容
本发明的目的是为了克服现有技术中的不足,提供一种基于单阶段的行为识别方法,本发明通过对SSD方法的改进,进而提出了一种新的目标检测方法。该方法首先通过引入RFB模块从而充分的利用人类视觉系统的感受野机制(感受野的大小与离心率之间成正比关系,离中心越远感受野越大),通过模拟人类视觉的感受野增强了网络的特征提取能力,然后通过采用FPN方法来结合不同特征图之间的信息,使得特征图具有更强的语义信息和位置信息。最后在预测阶段引入Focal loss来解决正负样本失衡问题,通过将三种优秀方法结合最终可以在保证实时检测的基础上提高方法的检测准确率。
本发明的目的是通过以下技术方案实现的:
一种基于单阶段的行为识别方法,基于特征金字塔网络结构,包括左侧自底向上结构、右侧的自顶向下结构、位于中间的横向连接层及后端的预测网络,左侧自底向上结构包括卷积层一、卷积层二、卷积层三、RFB模块和RFB-s模块,右侧的自顶向下结构包括卷积层四、卷积层五和卷积层六;其中自底向上结构用以不断提取特征信息,而右侧的自顶向下结构则通过下采样即反卷积不断的将顶层的特征图放大,横向连接层则是将右侧的顶层特征与左侧的底层特征进行结合,使得特征更具有表达能力,预测网络是用于实现对分类和边界框的预测。
具体包括以下步骤:
首先输入待测的图片然后通过卷积层一来提取图片中的特征信息,随后特征金字塔网络结构将分为两条支路同时进行特征提取,其中一支路进行和卷积层一相同的卷积操作产生卷积层二,另一支路则通过RFB-s模块直接和顶层的卷积层三进行连接;
接着在卷积层二中也分为两支路,一支路进行和卷积层一、二相同的卷积操作产生卷积层三,另一支路则通过RFB模块直接和卷积层三相连;
然后通过对卷积层三进行下采样产生卷积层四,以此类推产生卷积层五和卷积层六,随后通过横向连接层分别将卷积层二与五、卷积层一与六进行合并以获取高语义的特征信息;
最后在卷积层四、五、六上同时通过预测网络进行对分类和边界框的预测。
与现有技术相比,本发明的技术方案所带来的有益效果是:
1、本发明相对于原始SSD算法仅增加了额外的几层网络以及两个RFB模块,参数增长较少,进而可以达到实时的检测,本方法采用较简单的网络结构所以其检测速度的损失相对较少,进而可以达到类似SSD的实时检测;
2、准确率得到进一步的提升,本方法通过引入RFB加强网络的特征提取能力,通过使用人工设计的RFB模块来模拟人类视觉系统中的感受野机制,使得感受野的大小与离心率成正比关系,离中心越远感受野越大,使得最终提取的特征具有更强的鲁棒性。同时通过采用FPN结合不同特征图的信息,并运用Focal Loss损失函数来缓解其正负样本失衡问题,所以在进行目标检测时精度更高。
3.本发明适用于当前各类目标检测的实际应用,尤其是需要实时检测的情境中,如:考试期间对考生的监测,通过对考生进行行为识别并将异常行为(如作弊等)截图展示在显示器上,进而起到了良好的监督作用;或者在病房对异常行为的监测,通过对异常行为的检测并及时通知护士从而能够很好的预防突发事件的发生。
附图说明
图1是本发明的框架结构示意图。
图2是RFB结构的基本框架结构图。
图3是RFB-s模块的基本框架图。
具体实施方式
以下结合附图和具体实施例对本发明作进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明方法的整体结构如图1所示,其与FPN(特征金字塔网络)类似,主要包括四个部分:左侧的自底向上结构、右侧的自顶向下结构、位于中间的横向连接层以及后端的预测网络。自底向上结构包括了输入图像、卷积层一、二、三以及RFB模块、RFB-s模块,右侧的自顶向下结构由卷积层四、五、六组成;
其中自底向上结构与一般方法的结构相同用来不断提取特征信息,而右侧的自顶向下结构则通过下采样(即反卷积)来不断的将顶层的特征图放大,横向连接层则是将右侧的顶层特征与左侧的底层特征进行结合,使得特征更具有表达能力,预测网络则是用于实现对分类和边界框的预测。本方法的基本结构主要由卷积层、预测网络以及RFB模块构成,其中各个模块的功能如下:
卷积层,该模块是通过一系列的卷积操作来提取图像中的特征信息,这些信息包括了位置信息和语义信息,通常卷积层包括5*5、3*3、1*1或7*7的卷积核,针对不同的网络结构采用的卷积核的大小和数目也不相同,在本实施例中采用VGG-16网络模型进行特征提取。
预测网络,该网络是通过在一定的IOU阈值的基础上计算每个候选框的损失函数,通常损失函数包括分类损失和边界框回归损失两部分,但在本方法中额外增加了Focalloss损失函数用于缓解正负样本失衡问题,然后通过不断优化损失来产生更准确的候选边界框以及分类得分(其中IOU阈值是用来将候选框分为正负样本)。
RFB模块,该模块是在模拟人类视觉感受野的基础上进行设计的,结构主要有两个特点:1、拥有不同尺寸卷积核的卷积层构成的多分支结构。2、引入了扩张卷积层,主要作用也是增加感受野,在RFB结构中最后会将不同尺寸和比率的卷积层输出进行连接,达到融合不同特征的目的,进而重建人类视觉系统中感受野大小与离心率的关系。图2是RFB模块,整体结构上借鉴了Inception网络模型的思想,其中1x1的conv主要用于减少计算量和进行跨通道的信息融合。图3中RFB-s则是RFB进一步优化的结果,其中3x3的conv代表两个连续的3x3卷积,用于替代5x5卷积,而1x3和3x1的conv代替3*3卷积也是出于同样的减少参数量的目的。另外RFB-s使用了较多的小卷积核,除了运算量方面的考虑,也更适合关注比较局部的信息。
本方法的检测流程如图1所示:首先输入待测的图片然后通过卷积层一来提取图片中的特征信息,随后特征金字塔网络结构将分为两条支路同时进行特征提取,其中一支路进行和卷积层一相同的卷积操作产生卷积层二,另一支路则通过RFB-s模块直接和顶层的卷积层三进行了连接。接着在卷积层二中也分为两支路,一支路进行和卷积层一、二相同的卷积操作产生卷积层三,另一支路则通过RFB模块直接和卷积层三相连。然后通过对卷积层三进行下采样产生卷积层四,以此类推产生卷积层五和卷积层六,随后通过横向连接层分别将卷积层二与五、卷积层一与六进行合并来获取高语义的特征信息。最后在卷积层四、五、六上同时通过预测网络进行对分类和边界框的预测。
本发明并不限于上文描述的实施方式。以上对具体实施方式的描述旨在描述和说明本发明的技术方案,上述的具体实施方式仅仅是示意性的,并不是限制性的。在不脱离本发明宗旨和权利要求所保护的范围情况下,本领域的普通技术人员在本发明的启示下还可做出很多形式的具体变换,这些均属于本发明的保护范围之内。

Claims (2)

1.一种基于单阶段的行为识别方法,其特征在于,基于特征金字塔网络结构,包括左侧自底向上结构、右侧的自顶向下结构、位于中间的横向连接层及后端的预测网络,左侧自底向上结构包括卷积层一、卷积层二、卷积层三、RFB模块和RFB-s模块,右侧的自顶向下结构包括卷积层四、卷积层五和卷积层六;其中自底向上结构用以不断提取特征信息,而右侧的自顶向下结构则通过下采样即反卷积不断的将顶层的特征图放大,横向连接层则是将右侧的顶层特征与左侧的底层特征进行结合,使得特征更具有表达能力,预测网络是用于实现对分类和边界框的预测。
2.根据权利要求1所述一种基于单阶段的行为识别方法,其特征在于,具体包括以下步骤:
首先输入待测的图片然后通过卷积层一来提取图片中的特征信息,随后特征金字塔网络结构将分为两条支路同时进行特征提取,其中一支路进行和卷积层一相同的卷积操作产生卷积层二,另一支路则通过RFB-s模块直接和顶层的卷积层三进行连接;
接着在卷积层二中也分为两支路,一支路进行和卷积层一、二相同的卷积操作产生卷积层三,另一支路则通过RFB模块直接和卷积层三相连;
然后通过对卷积层三进行下采样产生卷积层四,以此类推产生卷积层五和卷积层六,随后通过横向连接层分别将卷积层二与五、卷积层一与六进行合并以获取高语义的特征信息;
最后在卷积层四、五、六上同时通过预测网络进行对分类和边界框的预测。
CN201911014322.0A 2019-10-23 2019-10-23 一种基于单阶段的行为识别方法 Pending CN110852330A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911014322.0A CN110852330A (zh) 2019-10-23 2019-10-23 一种基于单阶段的行为识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911014322.0A CN110852330A (zh) 2019-10-23 2019-10-23 一种基于单阶段的行为识别方法

Publications (1)

Publication Number Publication Date
CN110852330A true CN110852330A (zh) 2020-02-28

Family

ID=69597797

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911014322.0A Pending CN110852330A (zh) 2019-10-23 2019-10-23 一种基于单阶段的行为识别方法

Country Status (1)

Country Link
CN (1) CN110852330A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111462050A (zh) * 2020-03-12 2020-07-28 上海理工大学 改进YOLOv3的极小遥感图像目标检测方法、装置及存储介质
CN112308154A (zh) * 2020-11-03 2021-02-02 湖南师范大学 一种基于yolov3-tiny的航拍车辆检测方法
CN112417990A (zh) * 2020-10-30 2021-02-26 四川天翼网络服务有限公司 一种考试学生违规行为识别方法及系统
WO2021212736A1 (zh) * 2020-04-23 2021-10-28 苏州浪潮智能科技有限公司 特征融合块、卷积神经网络、行人重识别方法及相关设备
CN117132761A (zh) * 2023-08-25 2023-11-28 京东方科技集团股份有限公司 目标检测方法及装置、存储介质及电子设备

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010185690A (ja) * 2009-02-10 2010-08-26 Mitsubishi Electric Corp 方位探知装置及び方位探知方法
CN104020439A (zh) * 2014-06-20 2014-09-03 西安电子科技大学 基于空间平滑协方差矩阵稀疏表示的波达方向角估计方法
CN108764244A (zh) * 2018-04-02 2018-11-06 华南理工大学 基于卷积神经网络和条件随机场的潜在目标区域检测方法
CN108846446A (zh) * 2018-07-04 2018-11-20 国家新闻出版广电总局广播科学研究院 基于多路径密集特征融合全卷积网络的目标检测方法
CN109410219A (zh) * 2018-10-09 2019-03-01 山东大学 一种基于金字塔融合学习的图像分割方法、装置和计算机可读存储介质
CN109447994A (zh) * 2018-11-05 2019-03-08 陕西师范大学 结合完全残差与特征融合的遥感图像分割方法
CN109741318A (zh) * 2018-12-30 2019-05-10 北京工业大学 基于有效感受野的单阶段多尺度特定目标的实时检测方法
CN109766998A (zh) * 2019-01-14 2019-05-17 温岭市非普电气有限公司 一种基于MobileNet加速的特征金字塔网络结构
CN109784476A (zh) * 2019-01-12 2019-05-21 福州大学 一种改进dsod网络的方法
CN109800770A (zh) * 2018-12-28 2019-05-24 广州海昇计算机科技有限公司 一种实时目标检测的方法、系统及装置
CN110309747A (zh) * 2019-06-21 2019-10-08 大连理工大学 一种支持多尺度快速深度行人检测模型

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010185690A (ja) * 2009-02-10 2010-08-26 Mitsubishi Electric Corp 方位探知装置及び方位探知方法
CN104020439A (zh) * 2014-06-20 2014-09-03 西安电子科技大学 基于空间平滑协方差矩阵稀疏表示的波达方向角估计方法
CN108764244A (zh) * 2018-04-02 2018-11-06 华南理工大学 基于卷积神经网络和条件随机场的潜在目标区域检测方法
CN108846446A (zh) * 2018-07-04 2018-11-20 国家新闻出版广电总局广播科学研究院 基于多路径密集特征融合全卷积网络的目标检测方法
CN109410219A (zh) * 2018-10-09 2019-03-01 山东大学 一种基于金字塔融合学习的图像分割方法、装置和计算机可读存储介质
CN109447994A (zh) * 2018-11-05 2019-03-08 陕西师范大学 结合完全残差与特征融合的遥感图像分割方法
CN109800770A (zh) * 2018-12-28 2019-05-24 广州海昇计算机科技有限公司 一种实时目标检测的方法、系统及装置
CN109741318A (zh) * 2018-12-30 2019-05-10 北京工业大学 基于有效感受野的单阶段多尺度特定目标的实时检测方法
CN109784476A (zh) * 2019-01-12 2019-05-21 福州大学 一种改进dsod网络的方法
CN109766998A (zh) * 2019-01-14 2019-05-17 温岭市非普电气有限公司 一种基于MobileNet加速的特征金字塔网络结构
CN110309747A (zh) * 2019-06-21 2019-10-08 大连理工大学 一种支持多尺度快速深度行人检测模型

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
吴建耀;程树英;郑茜颖;: "一种改进的DSOD目标检测算法", vol. 40, no. 03, pages 428 - 437 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111462050A (zh) * 2020-03-12 2020-07-28 上海理工大学 改进YOLOv3的极小遥感图像目标检测方法、装置及存储介质
CN111462050B (zh) * 2020-03-12 2022-10-11 上海理工大学 改进YOLOv3的极小遥感图像目标检测方法、装置及存储介质
WO2021212736A1 (zh) * 2020-04-23 2021-10-28 苏州浪潮智能科技有限公司 特征融合块、卷积神经网络、行人重识别方法及相关设备
CN112417990A (zh) * 2020-10-30 2021-02-26 四川天翼网络服务有限公司 一种考试学生违规行为识别方法及系统
CN112308154A (zh) * 2020-11-03 2021-02-02 湖南师范大学 一种基于yolov3-tiny的航拍车辆检测方法
CN117132761A (zh) * 2023-08-25 2023-11-28 京东方科技集团股份有限公司 目标检测方法及装置、存储介质及电子设备

Similar Documents

Publication Publication Date Title
CN110852330A (zh) 一种基于单阶段的行为识别方法
CN108876780B (zh) 一种复杂背景下桥梁裂缝图像裂缝检测方法
CN110853051B (zh) 基于多注意密集连接生成对抗网络的脑血管影像分割方法
CN110956126B (zh) 一种联合超分辨率重建的小目标检测方法
WO2022257408A1 (zh) 一种基于u型网络的医学图像分割方法
CN111723786A (zh) 一种基于单模型预测的安全帽佩戴检测方法及装置
KR20190105180A (ko) 합성곱 신경망 기반의 병변 진단 장치 및 방법
CN111612008A (zh) 基于卷积网络的图像分割方法
CN111898432B (zh) 一种基于改进YOLOv3算法的行人检测系统及方法
CN114764856A (zh) 图像语义分割方法和图像语义分割装置
CN109859222A (zh) 基于级联神经网络的边缘提取方法及系统
Wu et al. Traffic sign detection based on SSD combined with receptive field module and path aggregation network
Zhang et al. R2net: Residual refinement network for salient object detection
CN113888505B (zh) 一种基于语义分割的自然场景文本检测方法
Cui et al. Deep saliency detection via spatial-wise dilated convolutional attention
Wang et al. SLMS-SSD: Improving the balance of semantic and spatial information in object detection
Chen et al. Coupled Global–Local object detection for large VHR aerial images
Jiang et al. A two-path network for cell counting
CN113221731B (zh) 一种多尺度遥感图像目标检测方法及系统
Duan et al. A more accurate mask detection algorithm based on Nao robot platform and YOLOv7
CN112446292B (zh) 一种2d图像显著目标检测方法及系统
Kang et al. ASF-YOLO: A Novel YOLO Model with Attentional Scale Sequence Fusion for Cell Instance Segmentation
Liu et al. An improved target detection general framework based on Yolov4
Tan et al. BSIRNet: A road extraction network with bidirectional spatial information reasoning
Chen et al. FPAN: fine-grained and progressive attention localization network for data retrieval

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination