CN110378211A

CN110378211A - 基于教室场景下的目标检测方法、系统、装置及存储介质

Info

Publication number: CN110378211A
Application number: CN201910502104.5A
Authority: CN
Inventors: 葛海玉; 杨琳; 郝禄国; 曾文彬; 陈景明; 李燊
Original assignee: Guang Zhou Hai Noboru Computer Science And Technology Ltd
Current assignee: Guang Zhou Hai Noboru Computer Science And Technology Ltd
Priority date: 2019-06-11
Filing date: 2019-06-11
Publication date: 2019-10-25

Abstract

本发明公开了一种基于教室场景下的目标检测方法、系统、装置及存储介质，方法包括：获取待检测图像；通过卷积层对待检测图像进行特征提取，得到目标特征信息；将目标特征信息输入至预测模块进行预测，得到最终分类得分和最终边界框。本发明通过多个级联的预测网络进行预测，从而能通过多阈值的预测结构使得目标检测的准确率得到有效的提升。本发明可广泛应用于目标检测领域中。

Description

基于教室场景下的目标检测方法、系统、装置及存储介质

技术领域

本发明涉及计算机技术领域，尤其涉及一种基于教室场景下的目标检测方法、系统、装置及存储介质。

背景技术

近年来随着深度学习概念的兴起，计算机视觉领域技术蓬勃发展。虽然目前研究目标检测的算法有很多，但大致可以将之分为两个主流：一是基于区域提议的算法，如RCNN系列(RCNN，Fast RCNN以及Faster RCNN等)；二是无区域提议的算法(YOLO、SSD以及DSOD等)。无区域提议方法的主要思路是均匀地在图片的不同位置进行密集抽样，抽样时可以采用不同的尺度和长宽比，然后利用卷积网络提取特征后直接进行分类与回归，整个过程只需要一步，所以其优势是速度快，但是均匀密集采样有一个重要缺点，那就是训练比较困难，这主要是因为正样本与负样本极其不均衡，导致模型准确度稍低。而基于区域提议方法的主要原理是将目标检测任务划分为两个子问题：在第一阶段通过算法或提议网络生成高质量的候选框，然后在第二阶段设计子网络以对这些候选框进行分类和边框回归，因此获得相对更高的准确率。

目前大多数的基于区域提议的目标检测方法都是针对其中的某一方面进行了改进，没有进行有效的结合，以至于目标检测的结果仍有较大的上升空间。

发明内容

为了解决上述技术问题，本发明的目的是提供一种能提高准确率的基于教室场景下的目标检测方法、系统、装置及存储介质。

本发明所采取的技术方案是：

一种基于教室场景下的目标检测方法，包括以下步骤：

获取待检测图像；

通过卷积层对待检测图像进行特征提取，得到目标特征信息；

将目标特征信息输入至预测模块进行预测，得到最终分类得分和最终边界框；

其中，所述预测模块包括多个级联的预测网络。

作为所述的一种基于教室场景下的目标检测方法的进一步改进，所述卷积层包括底层卷积结构和顶层卷积结构，所述通过卷积层对待检测图像进行特征提取，得到目标特征信息，这一步骤具体包括：

通过底层卷积结构对待检测图像进行底层特征提取，得到底层特征信息；

通过顶层卷积结构对底层特征信息进行下采样，得到顶层特征信息；

将底层特征信息和顶层特征信息进行合并，得到目标特征信息。

作为所述的一种基于教室场景下的目标检测方法的进一步改进，所述底层卷积结构包括依次连接的第一卷积层、第二卷积层和第三卷积层，所述的通过底层卷积结构对待检测图像进行底层特征提取，得到底层特征信息，这一步骤具体包括：

通过第一卷积层对待检测图像进行底层特征提取，得到第一底层特征信息；

通过第二卷积层对第一底层特征信息进行底层特征提取，得到第二底层特征信息；

通过第三卷积层对第一底层特征信息进行底层特征提取，得到第三底层特征信息。

作为所述的一种基于教室场景下的目标检测方法的进一步改进，所述顶层卷积结构包括依次连接的第四卷积层、第五卷积层和第六卷积层；所述的通过顶层卷积结构对底层特征信息进行下采样，得到顶层特征信息，这一步骤具体包括：

通过第四卷积层对第三底层特征信息进行下采样，得到第一顶层特征信息；

通过第五卷积层对第一顶层特征信息进行下采样，得到第二顶层特征信息；

通过第六卷积层对第二顶层特征信息进行下采样，得到第三顶层特征信息。

作为所述的一种基于教室场景下的目标检测方法的进一步改进，所述的将底层特征信息和顶层特征信息进行合并，得到目标特征信息，这一步骤具体包括：

将第一顶层特征信息作为第一目标特征信息；

将第二底层特征信息与第二顶层特征信息进行合并，得到第二目标特征信息；

将第三底层特征信息与第三顶层特征信息进行合并，得到第三目标特征信息。

作为所述的一种基于教室场景下的目标检测方法的进一步改进，所述预测模块包括依次连接的第一预测网络、第二预测网络和第三预测网络，所述将目标特征信息输入至预测模块进行预测，得到最终分类得分和最终边界框，这一步骤具体包括：

将第一目标特征信息和由区域提议网络产生的边界框输入至第一预测网络进行预测，得到第一分类得分和第一边界框；

将第二目标特征信息和第一边界框输入至第二预测网络进行预测，得到第二分类得分和第二边界框；

将第三目标特征信息和第二边界框输入至第三预测网络进行预测，得到最终分类得分和最终边界框。

本发明所采用的另一个技术方案是：

一种基于教室场景下的目标检测系统，包括：

获取单元，用于获取待检测图像；

特征提取单元，用于通过卷积层对待检测图像进行特征提取，得到目标特征信息；

预测单元，用于将目标特征信息输入至预测模块进行预测，得到最终分类得分和最终边界框；

其中，所述预测模块包括多个级联的预测网络。

作为所述的一种基于教室场景下的目标检测系统的进一步改进，所述卷积层包括底层卷积结构和顶层卷积结构，所述特征提取单元具体包括：

底层特征提取单元，用于通过底层卷积结构对待检测图像进行底层特征提取，得到底层特征信息；

顶层特征提取单元，用于通过顶层卷积结构对底层特征信息进行下采样，得到顶层特征信息；

合并单元，用于将底层特征信息和顶层特征信息进行合并，得到目标特征信息。

本发明所采用的再一个技术方案是：

一种基于教室场景下的目标检测装置，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现所述一种基于教室场景下的目标检测方法。

本发明所采用的再一个技术方案是：

一种存储介质，其中存储有处理器可执行的指令，所述处理器可执行的指令在由处理器执行时用于执行所述一种基于教室场景下的目标检测方法。

本发明的有益效果是：

本发明一种基于教室场景下的目标检测方法、系统、装置及存储介质通过多个级联的预测网络进行预测，从而能通过多阈值的预测结构使得目标检测的准确率得到有效的提升。

附图说明

图1是本发明一种基于教室场景下的目标检测方法的步骤流程图；

图2是本发明一种基于教室场景下的目标检测系统的模块方框图；

图3是本发明一个实施例中卷积层的结构示意图；

图4是本发明一个实施例中预测模块的结构示意图。

具体实施方式

下面结合附图对本发明的具体实施方式作进一步说明：

参考图1，本发明实施例提供了一种基于教室场景下的目标检测方法，包括以下步骤：

S1、获取待检测图像；

S2、通过卷积层对待检测图像进行特征提取，得到目标特征信息；

本实施例中通过一系列的卷积操作来提取图像中的特征信息，通常卷积层包括3*3、1*3、1*1或7*7的卷积核，针对不同的网络结构采用的卷积核的大小和数目也不相同。在本实施例中采用ResNet-101网络进行特征提取。本实施例中的卷积层如图3所示，主要包括三个部分：左侧的自底向上的底层卷积结构(包括了第一卷积层、第二卷积层和第三卷积层)、右侧的自顶向下的顶层卷积结构(由第四卷积层、第五卷积层和第六卷积层组成)、位于中间的横向连接(实质上是一个1*1的卷积核，通过该卷积操作可以降低特征图的维度便于连接)。其中底层卷积结构与一般方法的结构相同用来不断提取特征信息，而右侧的顶层卷积结构则通过下采样(即反卷积)来不断的将顶层的特征图放大，横向连接则是将右侧的顶层特征信息与左侧的底层特征信息进行结合，使得特征更具有表达能力。

由于卷积网络前馈计算是通过101层的resnet进行特征提取的，而且每层中又有多个通道所以不可能手动计算整个过程，因此只能简单描述卷积网络前馈计算的基本原理，卷积网络一般包括卷积、池化、全连接操作，接下来具体介绍。首先进行卷积操作，以一个卷积核为例，其具体计算如下：

其中x是输入特征图的像素值，w是卷积操作的权重，y则是最终得到的特征信息，如果卷积存在偏置，则在每次计算中加入偏置项b。接着进行池化操作，一般是最大值池化，即

然后便是全连接操作，将前面经过多次卷积核、池化得到的各个通道值x＝(x1，x2，x3)，通过全连接操作，使输出的每个值与所有输入连接，其具体计算如下，其中x是全连接层的输入，w为连接的权重，a为全连接的输出。

a₁＝w₁₁*x₁+w₁₂*x₂+w₁₃*x₃

a₂＝w₂₁*x₁+w₂₂*x₂+w₂₃*x₃

a₃＝w₃₁*x₁+w₃₂*x₂+w₃₃*x₃。

S3、将目标特征信息输入至预测模块进行预测，得到最终分类得分和最终边界框；

其中，所述预测模块包括多个级联的预测网络。

本实施例通过在一定的IOU阈值的基础上计算每个候选框的损失函数，通常损失函数包括分类损失和边界框回归损失两部分，通过不断优化损失来产生更准确的候选边界框(其中IOU阈值是用来将候选框分为正负样本)。具体而言预测模块的基本结构如图4所示，该模块内部主要由三个相同的预测网络级联而成。其工作原理是：首先输入需要预测的卷积层，然后将由区域提议网络产生的边界框投影到特征图上进而产生感兴趣区域，接着便通过第一预测网络进行预测，预测第一预测网络将输出感兴趣区域的第一分类得分以及优化后的第一边界框，然后将第一边界框投影到卷积层上并通过第二预测网络进行预测，产生第二分类得分以及第二边界框，在第三阶段重复上述过程产生最终的最终分类得分和最终边界框，值得注意的是每次预测的IOU阈值都不相同，后一阶段的阈值要比前一阶段的阈值大，进而实现了对边界框的重采样。

本实施例中通过预测模块同时进行分类和边界框的预测，其基本计算过程如下：

边界框b＝(b_x，b_y，b_w，b_h)包含目标图像x的四个坐标，边界框回归的任务是通过使用回归器f(x，b)将候选边界框b回归到目标边界框t中。其中训练样本为{t_i，b_i}，网络训练的目的就是将边界框风险损失降到最低。

其中L_loc是一个L1损失函数，同时为了增加对尺寸和位置的回归不变性，L_loc对距离向量Δ＝(δ_x，δ_y，δ_w，δ_h）作出调整，其中：

δ_x＝(t_x-b_x)/b_w δ_y＝(t_y-b_y)/b_h

δ_w＝log(t_w/b_w) δ_h＝log(t_h/b_h)

预测模块采用的是级联的不同阈值的边界框回归，它是一个级联回归问题，依赖于一系列专门的回归量：

其中T是级联级数的总数。其中级联中的每个回归量f_T都是针对b_T阶段样本分布的优化，从而使得级联回归成为了重新采样的过程，最终使得每个阶段的预测得到了优化。在每一阶段T都包括一个分类h_T和一个针对IOU阈值u_T优化的回归量f_T，其中u_T＞u_T-1。这是通过公式最小化损失：

L(x^T，t)＝L_cls(h_T(x^T)，y^T)+λ[y^T≥1]L_loc(f_T(x^T，b^T)，t)

其中b^T＝f_T-1(x^T-1，b^T-1，h(x)＝p(y＝k|x)，k是IOU的阈值，t是x^T的基本真值对象，λ＝1权衡系数，[·]为指标函数，y^T是x^T的标签，L_cls则是经典的交叉熵损失。

S21、通过底层卷积结构对待检测图像进行底层特征提取，得到底层特征信息；

S22、通过顶层卷积结构对底层特征信息进行下采样，得到顶层特征信息；

S23、将底层特征信息和顶层特征信息进行合并，得到目标特征信息。

S211、通过第一卷积层对待检测图像进行底层特征提取，得到第一底层特征信息；

S212、通过第二卷积层对第一底层特征信息进行底层特征提取，得到第二底层特征信息；

S213、通过第三卷积层对第一底层特征信息进行底层特征提取，得到第三底层特征信息。

S221、通过第四卷积层对第三底层特征信息进行下采样，得到第一顶层特征信息；

S222、通过第五卷积层对第一顶层特征信息进行下采样，得到第二顶层特征信息；

S223、通过第六卷积层对第二顶层特征信息进行下采样，得到第三顶层特征信息。

本实施例中输入待检测图像然后进行基本的神经网络前馈计算，不断提取特征信息同时产生第二卷积层以及第三卷积层。然后通过对第三卷积层进行下采样进而产生第四卷积层，以此类推产生第五卷积层以及第六卷积层，接着通过横向连接分别将第二卷积层与第五卷积层、第一卷积层与第六卷积层进行合并来获取高语义的目标特征信息。然后将区域提议网络产生的候选框分别投影在第四、五、六卷积层上产生感兴趣区域，最后通过预测模块同时进行分类和边界框的预测。

S231、将第一顶层特征信息作为第一目标特征信息；

S232、将第二底层特征信息与第二顶层特征信息进行合并，得到第二目标特征信息；

S233、将第三底层特征信息与第三顶层特征信息进行合并，得到第三目标特征信息。

本实施例中通过将底层特征信息和顶层特征信息进行合并能使得目标检测的准确率升高，相对于本方法来说以前的大多数方法都只是单一的增强特征表达能力或者优化其定位能力，没有充分结合二者的优势所以它们的准确率较差。

S31、将第一目标特征信息和由区域提议网络产生的边界框输入至第一预测网络进行预测，得到第一分类得分和第一边界框；

S32、将第二目标特征信息和第一边界框输入至第二预测网络进行预测，得到第二分类得分和第二边界框；

S33、将第三目标特征信息和第二边界框输入至第三预测网络进行预测，得到最终分类得分和最终边界框。

本实施例中通过采用FPN结合多层特征信息使得用于预测的特征信息具有更强的语义信息，然后通过级联的多阈值的预测结构使得目标检测的准确率得到进一步提升，并且小目标和大目标的检测性能也进一步提高。

参考图2，本发明实施例还提供了一种基于教室场景下的目标检测系统，包括：

获取单元，用于获取待检测图像；

其中，所述预测模块包括多个级联的预测网络。

上述方法实施例中的内容均适用于本系统实施例中，本系统实施例所具体实现的功能与上述方法实施例相同，并且达到的有益效果与上述方法实施例所达到的有益效果也相同。

本发明实施例还提供了一种基于教室场景下的目标检测装置，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

上述方法实施例中的内容均适用于本装置实施例中，本装置实施例所具体实现的功能与上述方法实施例相同，并且达到的有益效果与上述方法实施例所达到的有益效果也相同。

本发明实施例还提供了一种存储介质，其中存储有处理器可执行的指令，所述处理器可执行的指令在由处理器执行时用于执行所述一种基于教室场景下的目标检测方法。

上述方法实施例中的内容均适用于本存储介质实施例中，本存储介质实施例所具体实现的功能与上述方法实施例相同，并且达到的有益效果与上述方法实施例所达到的有益效果也相同。

从上述内容可知，本发明通过多个级联的预测网络进行预测，从而能通过多阈值的预测结构使得目标检测的准确率得到有效的提升。

以上是对本发明的较佳实施进行了具体说明，但本发明创造并不限于所述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

1.一种基于教室场景下的目标检测方法，其特征在于，包括以下步骤：

获取待检测图像；

其中，所述预测模块包括多个级联的预测网络。

2.根据权利要求1所述的一种基于教室场景下的目标检测方法，其特征在于：所述卷积层包括底层卷积结构和顶层卷积结构，所述通过卷积层对待检测图像进行特征提取，得到目标特征信息，这一步骤具体包括：

3.根据权利要求2所述的一种基于教室场景下的目标检测方法，其特征在于：所述底层卷积结构包括依次连接的第一卷积层、第二卷积层和第三卷积层，所述的通过底层卷积结构对待检测图像进行底层特征提取，得到底层特征信息，这一步骤具体包括：

4.根据权利要求3所述的一种基于教室场景下的目标检测方法，其特征在于：所述顶层卷积结构包括依次连接的第四卷积层、第五卷积层和第六卷积层；所述的通过顶层卷积结构对底层特征信息进行下采样，得到顶层特征信息，这一步骤具体包括：

5.根据权利要求4所述的一种基于教室场景下的目标检测方法，其特征在于：所述的将底层特征信息和顶层特征信息进行合并，得到目标特征信息，这一步骤具体包括：

将第一顶层特征信息作为第一目标特征信息；

6.根据权利要求5所述的一种基于教室场景下的目标检测方法，其特征在于：所述预测模块包括依次连接的第一预测网络、第二预测网络和第三预测网络，所述将目标特征信息输入至预测模块进行预测，得到最终分类得分和最终边界框，这一步骤具体包括：

7.一种基于教室场景下的目标检测系统，其特征在于，包括：

获取单元，用于获取待检测图像；

其中，所述预测模块包括多个级联的预测网络。

8.根据权利要求7所述的一种基于教室场景下的目标检测系统，其特征在于：所述卷积层包括底层卷积结构和顶层卷积结构，所述特征提取单元具体包括：

9.一种基于教室场景下的目标检测装置，其特征在于，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现如权利要求1-6任一项所述一种基于教室场景下的目标检测方法。

10.一种存储介质，其中存储有处理器可执行的指令，其特征在于，所述处理器可执行的指令在由处理器执行时用于执行如权利要求1-6任一项所述一种基于教室场景下的目标检测方法。