CN110852330A

CN110852330A - 一种基于单阶段的行为识别方法

Info

Publication number: CN110852330A
Application number: CN201911014322.0A
Authority: CN
Inventors: 陈景明; 金杰; 李燊; 郭如意
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2019-10-23
Filing date: 2019-10-23
Publication date: 2020-02-28

Abstract

本发明公开一种基于单阶段的行为识别方法，基于特征金字塔网络结构，包括左侧自底向上结构、右侧的自顶向下结构、位于中间的横向连接层及后端的预测网络，左侧自底向上结构包括卷积层一、卷积层二、卷积层三、RFB模块和RFB‑s模块，右侧的自顶向下结构包括卷积层四、卷积层五和卷积层六；其中自底向上结构用以不断提取特征信息，而右侧的自顶向下结构则通过下采样即反卷积不断的将顶层的特征图放大，横向连接层则是将右侧的顶层特征与左侧的底层特征进行结合，使得特征更具有表达能力，预测网络是用于实现对分类和边界框的预测。

Description

一种基于单阶段的行为识别方法

技术领域

本发明涉及计算机视觉，目标检测，图像处理领域，特别是涉及一种基于单阶段的行为识别方法。

背景技术

随着深度学习的不断发展，在自然语言处理以及目标检测和分类方面也取得了不错的进步。其中目标检测主要分为两分支：一分支是基于区域提议的目标检测，如：RCNN系列(RCNN、Fast RCNN以及RFCN等)，这些目标检测方法主要分为两个阶段。在第一阶段，通过算法或区域提议网络生成高质量的候选框，然后在第二阶段则通过子网络对这些候选框进行分类和边框回归，因此由于这类检测方法分两阶段进行所以在检测速度方面存在缺陷，达不到实时的效果；另一分支则是单阶段的目标检测方法(如YOLO、SSD以及DSOD等)，因为没有单独产生候选框的阶段所以相对于前一种方法来说准确率相对较差，但其检测速度十分优秀可以达到实时的检测。本方法就是对基于单阶段的目标检测方法SSD的改进。

目前基于单阶段的目标检测方法的改进主要是通过结合不同特征图的信息或者采用更复杂的网络结构来获得具有高语义的特征信息，例如：在最初的单阶段算法YOLO中直接在最后的卷积层上进行边界框回归的目标检测，SSD方法则是在YOLO方法的基础上提出来的，该方法是结合最后几个卷积层进行预测，因而有更高的准确率。DSSD方法则是在SSD的改进，通过采用更复杂的网络结构ResNet进行特征提取，并结合反卷积层获得更多的语义信息。在Single-Shot Bidirectional Pyramid Networks的方法中则采用了双向的特征金字塔网络结构，结合了底层和高层之间的特征信息。

虽然目前有众多针对SSD方法的改进，但是大多数的方法都是在牺牲检测速度的基础上提高其检测精度，例如：1、采用更复杂的网络模型进行特征提取的方法。在DSSD方法中，因其用于特征提取的网络结构ResNet相对复杂，引入了较多的参数所以在检测帧率上会大幅度下降；2、通过引入新的模块来解决单阶段目标检测的正负样本失衡问题。在Single-Shot Bidirectional Pyramid Networks方法中便通过添加一个新的级联的锚优化模块来提高方法的定位准确率，同样在Single-shot Refinement Neural Network方法中也引入了类似的锚优化模块来去除一些负样本。相比于通过引入新的损失函数来缓解正负样本严重失衡问题，添加新模块的这种方法增加了训练参数，从而也会使检测速率下降。

本发明中涉及的相关术语解释如下：

DSOD:(Deeply Supervised Object Detectors)强监督目标检测器

DSSD(Deconvolutional Single Shot Detector)反卷积的单次多边界盒检测器

Focal Loss：聚焦损失

FPN：(Feature Pyramid Networks)特征金字塔网络

Fast RCNN:基于区域提议的快速卷积神经网络

IOU:(Intersection over Union)重叠度

RCNN:(Regions with CNN features)基于区域提议的卷积神经网络

RFCN:(Region-based Fully Convolutional Networks)基于区域提议的全卷积网络

ROI Pooling:(Region of Interest Pooling)感兴趣区域池化

ResNet:深度残差网络

RFB：(Receptive Field Block)感受野块

SSD:(Single Shot MultiBox Detector)单次多边界盒检测器

Single-Shot Bidirectional Pyramid Networks：单次双向的金字塔网络

Single-shot Refinement Neural Network：单次优化神经网络

VGG:(Visual Geometry Group)

YOLO:(You only look once)

发明内容

本发明的目的是为了克服现有技术中的不足，提供一种基于单阶段的行为识别方法，本发明通过对SSD方法的改进，进而提出了一种新的目标检测方法。该方法首先通过引入RFB模块从而充分的利用人类视觉系统的感受野机制(感受野的大小与离心率之间成正比关系，离中心越远感受野越大)，通过模拟人类视觉的感受野增强了网络的特征提取能力，然后通过采用FPN方法来结合不同特征图之间的信息，使得特征图具有更强的语义信息和位置信息。最后在预测阶段引入Focal loss来解决正负样本失衡问题，通过将三种优秀方法结合最终可以在保证实时检测的基础上提高方法的检测准确率。

本发明的目的是通过以下技术方案实现的：

一种基于单阶段的行为识别方法，基于特征金字塔网络结构，包括左侧自底向上结构、右侧的自顶向下结构、位于中间的横向连接层及后端的预测网络，左侧自底向上结构包括卷积层一、卷积层二、卷积层三、RFB模块和RFB-s模块，右侧的自顶向下结构包括卷积层四、卷积层五和卷积层六；其中自底向上结构用以不断提取特征信息，而右侧的自顶向下结构则通过下采样即反卷积不断的将顶层的特征图放大，横向连接层则是将右侧的顶层特征与左侧的底层特征进行结合，使得特征更具有表达能力，预测网络是用于实现对分类和边界框的预测。

具体包括以下步骤：

首先输入待测的图片然后通过卷积层一来提取图片中的特征信息，随后特征金字塔网络结构将分为两条支路同时进行特征提取，其中一支路进行和卷积层一相同的卷积操作产生卷积层二，另一支路则通过RFB-s模块直接和顶层的卷积层三进行连接；

接着在卷积层二中也分为两支路，一支路进行和卷积层一、二相同的卷积操作产生卷积层三，另一支路则通过RFB模块直接和卷积层三相连；

然后通过对卷积层三进行下采样产生卷积层四，以此类推产生卷积层五和卷积层六，随后通过横向连接层分别将卷积层二与五、卷积层一与六进行合并以获取高语义的特征信息；

最后在卷积层四、五、六上同时通过预测网络进行对分类和边界框的预测。

与现有技术相比，本发明的技术方案所带来的有益效果是：

1、本发明相对于原始SSD算法仅增加了额外的几层网络以及两个RFB模块，参数增长较少，进而可以达到实时的检测，本方法采用较简单的网络结构所以其检测速度的损失相对较少，进而可以达到类似SSD的实时检测；

2、准确率得到进一步的提升，本方法通过引入RFB加强网络的特征提取能力，通过使用人工设计的RFB模块来模拟人类视觉系统中的感受野机制，使得感受野的大小与离心率成正比关系，离中心越远感受野越大，使得最终提取的特征具有更强的鲁棒性。同时通过采用FPN结合不同特征图的信息，并运用Focal Loss损失函数来缓解其正负样本失衡问题，所以在进行目标检测时精度更高。

3.本发明适用于当前各类目标检测的实际应用，尤其是需要实时检测的情境中，如：考试期间对考生的监测，通过对考生进行行为识别并将异常行为(如作弊等)截图展示在显示器上，进而起到了良好的监督作用；或者在病房对异常行为的监测，通过对异常行为的检测并及时通知护士从而能够很好的预防突发事件的发生。

附图说明

图1是本发明的框架结构示意图。

图2是RFB结构的基本框架结构图。

图3是RFB-s模块的基本框架图。

具体实施方式

以下结合附图和具体实施例对本发明作进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明方法的整体结构如图1所示，其与FPN(特征金字塔网络)类似，主要包括四个部分：左侧的自底向上结构、右侧的自顶向下结构、位于中间的横向连接层以及后端的预测网络。自底向上结构包括了输入图像、卷积层一、二、三以及RFB模块、RFB-s模块，右侧的自顶向下结构由卷积层四、五、六组成；

其中自底向上结构与一般方法的结构相同用来不断提取特征信息，而右侧的自顶向下结构则通过下采样(即反卷积)来不断的将顶层的特征图放大，横向连接层则是将右侧的顶层特征与左侧的底层特征进行结合，使得特征更具有表达能力，预测网络则是用于实现对分类和边界框的预测。本方法的基本结构主要由卷积层、预测网络以及RFB模块构成，其中各个模块的功能如下：

卷积层，该模块是通过一系列的卷积操作来提取图像中的特征信息，这些信息包括了位置信息和语义信息，通常卷积层包括5*5、3*3、1*1或7*7的卷积核，针对不同的网络结构采用的卷积核的大小和数目也不相同，在本实施例中采用VGG-16网络模型进行特征提取。

预测网络，该网络是通过在一定的IOU阈值的基础上计算每个候选框的损失函数，通常损失函数包括分类损失和边界框回归损失两部分，但在本方法中额外增加了Focalloss损失函数用于缓解正负样本失衡问题，然后通过不断优化损失来产生更准确的候选边界框以及分类得分(其中IOU阈值是用来将候选框分为正负样本)。

RFB模块，该模块是在模拟人类视觉感受野的基础上进行设计的，结构主要有两个特点：1、拥有不同尺寸卷积核的卷积层构成的多分支结构。2、引入了扩张卷积层，主要作用也是增加感受野，在RFB结构中最后会将不同尺寸和比率的卷积层输出进行连接，达到融合不同特征的目的，进而重建人类视觉系统中感受野大小与离心率的关系。图2是RFB模块，整体结构上借鉴了Inception网络模型的思想，其中1x1的conv主要用于减少计算量和进行跨通道的信息融合。图3中RFB-s则是RFB进一步优化的结果，其中3x3的conv代表两个连续的3x3卷积，用于替代5x5卷积，而1x3和3x1的conv代替3*3卷积也是出于同样的减少参数量的目的。另外RFB-s使用了较多的小卷积核，除了运算量方面的考虑，也更适合关注比较局部的信息。

本方法的检测流程如图1所示：首先输入待测的图片然后通过卷积层一来提取图片中的特征信息，随后特征金字塔网络结构将分为两条支路同时进行特征提取，其中一支路进行和卷积层一相同的卷积操作产生卷积层二，另一支路则通过RFB-s模块直接和顶层的卷积层三进行了连接。接着在卷积层二中也分为两支路，一支路进行和卷积层一、二相同的卷积操作产生卷积层三，另一支路则通过RFB模块直接和卷积层三相连。然后通过对卷积层三进行下采样产生卷积层四，以此类推产生卷积层五和卷积层六，随后通过横向连接层分别将卷积层二与五、卷积层一与六进行合并来获取高语义的特征信息。最后在卷积层四、五、六上同时通过预测网络进行对分类和边界框的预测。

本发明并不限于上文描述的实施方式。以上对具体实施方式的描述旨在描述和说明本发明的技术方案，上述的具体实施方式仅仅是示意性的，并不是限制性的。在不脱离本发明宗旨和权利要求所保护的范围情况下，本领域的普通技术人员在本发明的启示下还可做出很多形式的具体变换，这些均属于本发明的保护范围之内。

Claims

1.一种基于单阶段的行为识别方法，其特征在于，基于特征金字塔网络结构，包括左侧自底向上结构、右侧的自顶向下结构、位于中间的横向连接层及后端的预测网络，左侧自底向上结构包括卷积层一、卷积层二、卷积层三、RFB模块和RFB-s模块，右侧的自顶向下结构包括卷积层四、卷积层五和卷积层六；其中自底向上结构用以不断提取特征信息，而右侧的自顶向下结构则通过下采样即反卷积不断的将顶层的特征图放大，横向连接层则是将右侧的顶层特征与左侧的底层特征进行结合，使得特征更具有表达能力，预测网络是用于实现对分类和边界框的预测。

2.根据权利要求1所述一种基于单阶段的行为识别方法，其特征在于，具体包括以下步骤：