CN109472226B

CN109472226B - 一种基于深度学习的睡觉行为检测方法

Info

Publication number: CN109472226B
Application number: CN201811268351.5A
Authority: CN
Inventors: 李文; 申瑞民; 姜飞; 米里亚姆·赖纳
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2018-10-29
Filing date: 2018-10-29
Publication date: 2021-07-09
Anticipated expiration: 2038-10-29
Also published as: CN109472226A

Abstract

本发明涉及一种基于深度学习的睡觉行为检测方法，包括以下步骤：1)获取待测视频流，经切帧处理获得离散图片；2)依次将所述离散图片输入一训练好的卷积神经网络模型，检测获得睡觉姿势初步检测结果及相应置信度；3)基于多尺度检测方法对所有睡觉姿势初步检测结果进行筛选，获得睡觉姿势最终检测结果；4)根据所述睡觉姿势最终检测结果，采用基于位置信息的目标跟踪算法判断是否存在睡觉行为。与现有技术相比，本发明在目标检测模型中采用了特征融合提升准确率，同时采用了高准确率的睡觉行为决策算法，避免睡觉行为误判。

Description

一种基于深度学习的睡觉行为检测方法

技术领域

本发明涉及深度学习技术领域，尤其是涉及一种基于深度学习的睡觉行为检测方法。

背景技术

在现代视频监控系统中，发展出了大量有用的人类行为分析技术。例如在驾驶员监控系统中，通过分析驾驶员的面部行为来判断驾驶员的疲劳程度；在十字路口监控中分析和预判行人行为来减少车祸发生的概率。在教室中基于视频流的学生行为分析对于教学工作有着很大的帮助，例如可以统计学生的打哈欠行为和睡觉行为来对教学效果进行评估，以及针对不同学生的行为分析，对学生作出有效指导。

但是对于学生的睡觉行为检测有几大难点：一、实时性，由于该技术要求基于视频流，所以对于处理速度有较高的要求；二、尺度多变性，由于透视的原因，教室后排与教室前排的目标尺寸区别明显；三、特征多变性，睡觉的姿势多种多样，不能采取固定的模板形式来进行相似度检测。四、易混淆性，有很多平常的姿势例如低头写字可能会与睡觉姿势非常相近，还有很多图像噪声可能会影响程序的判断。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于深度学习的睡觉行为检测方法。

本发明的目的之一是检测到教室环境中和睡觉相似度较高的姿势。

本发明的目的之二是提高睡觉姿势检测的准确率和检全率。

本发明的目的之三是更准确地判定是否存在睡觉行为。

本发明的目的可以通过以下技术方案来实现：

一种基于深度学习的睡觉行为检测方法，包括以下步骤：

1)获取待测视频流，经切帧处理获得离散图片；

2)依次将所述离散图片输入一训练好的卷积神经网络模型，检测获得睡觉姿势初步检测结果及相应置信度；

3)基于多尺度检测方法对所有睡觉姿势初步检测结果进行筛选，获得睡觉姿势最终检测结果；

4)根据所述睡觉姿势最终检测结果，采用基于位置信息的目标跟踪算法判断是否存在睡觉行为。

进一步地，所述卷积神经网络模型的特征提取过程中，对多个卷积层的输出特征进行融合，输入可变形位置敏感兴趣区域池化，实现补偿。

进一步地，所述卷积神经网络模型的训练过程具体为：

对样本库中的图片进行预处理，所述预处理包括像素缩放和颜色通道处理；

以预处理后的图片输入卷积神经网络模型完成训练。

进一步地，所述基于多尺度检测方法对所有睡觉姿势初步检测结果进行筛选的具体过程包括：

301)将所有的睡觉姿势初步检测结果按照置信度从高到低排列，舍弃置信度小于预选置信度conf1的检测结果；

302)判断剩余检测结果中是否存在同时满足置信度小于入选置信度conf2、长宽平均值小于小框阈值small1和长宽比在长宽比阈值ratio1和ratio2之间的检测结果，若是，则筛选出满足条件的检测结果，若否，则直接执行步骤304)；

303)分别以满足条件的检测结果为中心局部放大X倍后再输入所述卷积神经网络模型中，更新各检测结果的置信度；

304)舍弃置信度小于入选置信度conf2的检测结果。

进一步地，所述预选置信度conf1的取值范围为0～0.3，入选置信度conf2的取值范围为0.9～1。

进一步地，所述步骤303)中，X的取值范围为2～3。

进一步地，所述采用基于位置信息的目标跟踪算法判断是否存在睡觉行为具体为：

401)获取当前帧的睡觉姿势最终检测结果，判断当前帧是否为第一帧，若是，则为每个最终检测结果建立记录，并对应设置记录分为基础分N，若否，则执行步骤402)；

402)计算上一帧中所有最终检测结果到当前帧中所有最终检测结果的距离，根据距离判断上一帧的各最终检测结果是否与当前帧匹配，对上一帧中存在匹配的最终检测结果对应的记录分增加N1，对上一帧中不存在匹配的最终检测结果对应的记录分减少N2，对当前帧中不存在匹配的最终检测结果设置其记录分为基础分N；

403)判断是否有记录分大于第一设定阈值Nmax的最终检测结果，若是，则判断该最终检测结果存在睡觉行为，若否，则执行步骤404)；

404)判断是否有记录分小于第二设定阈值N3最终检测结果，则删除该记录，返回步骤401)。

进一步地，步骤402)中，所述距离的计算公式为：

dist＝|center(res₁)-center(res₂)|²

其中，dist表示结果res₁和res₂之间的距离，center表示结果中心。

步骤402)中，所述根据距离判断上一帧的各最终检测结果是否与当前帧匹配具体为：

421)对上一帧每个最终检测结果所属的距离值排序，形成链表，移除大于临近距离阈值S的节点，若剩余链表为空，则所有最终检测结果均不匹配；

422)在每个最终检测结果对应的链表中各选择一个节点形成一个组合，遍历所有组合，以距离之和最小的一组作为匹配结果输出；

423)根据所述匹配结果确定上一帧的各最终检测结果与当前帧的各最终检测结果的匹配情况。

与现有技术相比，本发明具有以如下有益效果：

1、本发明的睡觉检测是基于深度模型的，采用了大量样本进行训练，对目标有较强的识别能力和容错率。

2、本发明采取的特征融合和可变形卷积策略提高了模型对于目标的识别能力，提高了准确率。

3、本发明提出的高效率多尺度检测可以大幅减少显存和时间消耗，同时提高召回率。

4、本发明提出的track算法对于教室场景具有较高的准确率。

5、本发明提出的睡觉行为决策算法可以大幅降低由于睡觉检测的漏检和误检造成的睡觉行为的错误判断。

附图说明

图1为本发明卷积神经网络的结构示意图；

图2为本发明高效率多尺度检测流程示意图；

图3为本发明多尺度检测中放大X倍获取图块的示意图；

图4为本发明基于位置信息的目标跟踪流程示意图；

图5为本发明的睡觉行为判定流程示意图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

本发明实现一种基于深度学习的睡觉行为检测方法，将视频流进行切帧处理，输出离散的图片，然后将每一帧的图片输入到卷积神经网络中，进行特征提取，并对提取到的特征分类，检测到睡觉姿势；利用高效的多尺度检测技术对睡觉姿势的处理；最终采用跟踪算法来追踪睡觉的学生以及对是否睡觉进行判别。

本发明方法的详细技术方案如下：

第一步：收集样本

本发明应用于课堂场景，需要提取课堂中的睡觉姿势样例来进行神经网络对睡觉姿势识别的训练。训练数据集的标注标准可采取PASCAL VOC数据集的样式。在某些实施例中，训练数据集一共标注了4.8千个样本。

第二步：建立卷积神经网络模型

本发明采用的卷积神经网络模型基于ResNet-101实现。如图1所示，在ResNet-101的基础上，对输入到RPN网络中的特征作了改进，将网络中的conv2，conv3，conv4进行融合，融合方式采取加和的方式，取代原本的conv4，从而获取低层特征，判断睡觉姿势更加准确，同时对小目标也有较好的效果；同时将原本网络中的位置敏感兴趣区域池化(Positionsensitive Roi pooling)替换为可变形位置敏感兴趣区域池化(Deformable Positionsensitive Roi pooling)，该池化方式对于位置敏感区域提供了一个补偿机制，与原有池化相比，敏感区域可以移动，用来适应多变的睡觉姿势。

第三步：卷积神经网络模型的训练

训练采取MXNet作为框架。首先对样本库中的图片进行预处理，所述预处理包括像素缩放和颜色通道处理，然后以预处理后的图片输入卷积神经网络模型完成训练。

本实施例采取如下的训练策略：将图片缩放至最小边最长为600个像素，最长边最长为1000个像素；图片在输入网络前对每个颜色通道减去其均值[103.96,115.90,123.15]。生成proposal的anchor的种类为9个，分别对应3个尺寸(8，16，32)和3种形状(长宽比为0.5，1，2)，学习速率设置为0.0005，一共训练7个epoch，预训练模型采用ResNet-101在ImageNet数据集上的图片分类的训练结果。检测到的睡觉姿势被标出，同时显示出置信度。

第四步：高效率多尺度检测

对于在训练数据集中分布较少的样本，模型的检测效果往往不好。在本发明测试的模型中，对于小睡觉目标的判断相对于正常尺寸准确率较低。应对小目标的一个有效的方法是多尺度检测，即将图片放大后输入到神经网络中，放大后的图片中原来较小的目标变大，使得网络对于其识别能力增强，最后将得到的结果框缩小到原来的尺度，得到检测结果。然而多尺度检测有一个明显的问题即将图片放大后，会即大的增加检测时间以及显存消耗，增幅为O(N²)。本发明提出了一个基于置信度的高效率多尺度检测方法，将时间消耗变为O(N)，并且显存消耗不变。在原始的检测模型中，有一个置信度阈值，例如0.9，即置信度低于0.9的检测结果均被舍弃。在本发明中，存在四个阈值，一个是预选置信度conf1(通常设置在0到0.3之间)，另一个是入选置信度conf2(通常设置在0.9以上)，还有一个是小框阈值small1(长宽的平均值，通常设置在30到50像素之间)，最后一个是长宽比阈值ratio1、ratio2(ratio1是下限，通常为0.5左右；ratio2是上限，通常为2左右)。前两个阈值的具体数值可以对测试数据集的结果进行分析得出(例如高于某个置信度的检测结果基本都是正检，则设置该置信度为conf2；低于某个置信度的检测结果基本不是正检，则设置该置信度为conf1)，后两个阈值的具体数值可以通过分析数据集中的分布得出。

执行高效率的多尺度检测的流程如图2所示，包括以下步骤：

303)分别以满足条件的检测结果为中心局部放大X倍(通常取2到3之间)后再输入所述卷积神经网络模型中，如图3所示，更新各检测结果的置信度；

304)舍弃置信度小于入选置信度conf2的检测结果。

第五步：对睡觉目标进行跟踪，并进行决策

首先说明几个概念：1.帧-frame，即从视频流中截取的某一时刻的图片；2.检测结果-res，即将一个frame输入到网络中，并通过高效率多尺度检测得到的检测结果，并且用center(res_i)表示res_i的中心，mean(res_i)表示res_i的长宽平均值；3.距离-dist，即两个res之间的距离，但并不是日常生活中所用的欧式距离，在这个算法中dist定义为

dist(res₁-res₂)＝|center(res₁)-center(res₂)|²

本发明提出一个基于位置信息的课堂目标跟踪算法，如图4和图5所示，具体为：

步骤402)中，所述根据距离判断上一帧的各最终检测结果是否与当前帧匹配具体为：对上一帧每个最终检测结果所属的距离值排序，形成链表，移除大于临近距离阈值S的节点，若剩余链表为空，则所有最终检测结果均不匹配；在每个最终检测结果对应的链表中各选择一个节点形成一个组合，遍历所有组合，以距离之和最小的一组作为匹配结果输出；根据所述匹配结果确定上一帧的各最终检测结果与当前帧的各最终检测结果的匹配情况，存在于该匹配结果中的最终检测结果存在匹配。

例如，现有上一帧frame¹和其检测结果res_i ¹(i＝1,2,…)，和当前帧frame²和其检测结果res_i ²(i＝1,2,…)；计算res_i ¹中每一个结果到res_j ²中每一个结果的dist_ij，对于每一个res_i ¹，将对应的dist_ij按照降序排列，并做成链表list_i；移除每个链表中dist值大于S的节点；遍历寻找匹配，即对每个res_i ¹从其链表中挑选一个dist_ij使得frame₁中第i个结果和frame₂中第j个结果形成匹配，最终找到一个使得每个匹配的两个结果之间的dist之和最小的一种组合，并输出。

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此，凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案，皆应在由权利要求书所确定的保护范围内。

Claims

1.一种基于深度学习的睡觉行为检测方法，其特征在于，包括以下步骤：

1）获取待测视频流，经切帧处理获得离散图片；

2）依次将所述离散图片输入一训练好的卷积神经网络模型，检测获得睡觉姿势初步检测结果及相应置信度；

3）基于多尺度检测方法对所有睡觉姿势初步检测结果进行筛选，获得睡觉姿势最终检测结果；

4）根据所述睡觉姿势最终检测结果，采用基于位置信息的目标跟踪算法判断是否存在睡觉行为，具体为：

401）获取当前帧的睡觉姿势最终检测结果，判断当前帧是否为第一帧，若是，则为每个最终检测结果建立记录，并对应设置记录分为基础分N，若否，则执行步骤402）；

402）计算上一帧中所有最终检测结果到当前帧中所有最终检测结果的距离，根据距离判断上一帧的各最终检测结果是否与当前帧匹配，对上一帧中存在匹配的最终检测结果对应的记录分增加N1，对上一帧中不存在匹配的最终检测结果对应的记录分减少N2，对当前帧中不存在匹配的最终检测结果设置其记录分为基础分N；

403）判断是否有记录分大于第一设定阈值Nmax的最终检测结果，若是，则判断该最终检测结果存在睡觉行为，若否，则执行步骤404）；

404）判断是否有记录分小于第二设定阈值N3最终检测结果，则删除该记录，返回步骤401）。

2.根据权利要求1所述的基于深度学习的睡觉行为检测方法，其特征在于，所述卷积神经网络模型的特征提取过程中，对多个卷积层的输出特征进行融合，输入可变形位置敏感兴趣区域池化，实现补偿。

3.根据权利要求1所述的基于深度学习的睡觉行为检测方法，其特征在于，所述卷积神经网络模型的训练过程具体为：

以预处理后的图片输入卷积神经网络模型完成训练。

4.根据权利要求1所述的基于深度学习的睡觉行为检测方法，其特征在于，所述基于多尺度检测方法对所有睡觉姿势初步检测结果进行筛选的具体过程包括：

301）将所有的睡觉姿势初步检测结果按照置信度从高到低排列，舍弃置信度小于预选置信度conf1的检测结果；

302）判断剩余检测结果中是否存在同时满足置信度小于入选置信度conf2、长宽平均值小于小框阈值small1和长宽比在长宽比阈值ratio1和ratio2之间的检测结果，若是，则筛选出满足条件的检测结果，若否，则直接执行步骤304）；

303）分别以满足条件的检测结果为中心局部放大X倍后再输入所述卷积神经网络模型中，更新各检测结果的置信度；

304）舍弃置信度小于入选置信度conf2的检测结果。

5.根据权利要求4所述的基于深度学习的睡觉行为检测方法，其特征在于，所述预选置信度conf1的取值范围为0~0.3，入选置信度conf2的取值范围为0.9~1。

6.根据权利要求4所述的基于深度学习的睡觉行为检测方法，其特征在于，所述步骤303）中，X的取值范围为2~3。

7.根据权利要求1所述的基于深度学习的睡觉行为检测方法，其特征在于，步骤402）中，所述距离的计算公式为：

其中，

表示结果

和

之间的距离，

表示结果中心。

8.根据权利要求1所述的基于深度学习的睡觉行为检测方法，其特征在于，步骤402）中，所述根据距离判断上一帧的各最终检测结果是否与当前帧匹配具体为：

421）对上一帧每个最终检测结果所属的距离值排序，形成链表，移除大于临近距离阈值S的节点，若剩余链表为空，则所有最终检测结果均不匹配；

422）在每个最终检测结果对应的链表中各选择一个节点形成一个组合，遍历所有组合，以距离之和最小的一组作为匹配结果输出；

423）根据所述匹配结果确定上一帧的各最终检测结果与当前帧的各最终检测结果的匹配情况。