CN109508661A

CN109508661A - 一种基于物体检测和姿态估计的举手者检测方法

Info

Publication number: CN109508661A
Application number: CN201811288509.5A
Authority: CN
Inventors: 周华毅; 申瑞民; 姜飞; 米里亚姆·赖纳
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2018-10-31
Filing date: 2018-10-31
Publication date: 2019-03-22
Anticipated expiration: 2038-10-31
Also published as: CN109508661B

Abstract

本发明涉及一种基于物体检测和姿态估计的举手者检测方法，该方法包括以下步骤：1)获得待测教学视频；2)均匀提取所述待测教学视频中的图片帧，输入训练好的举手动作检测模型中，获取含有举手动作的图片帧和记录举手框位置的第一文本文件；3)对所述含有举手动作的图片帧进行姿态估计，获得每张图片帧中所有人的人体关键点，形成记录关键点位置的第二文本文件；4)根据所述第一文本文件和第二文本文件，利用启发式匹配策略，检测获得举手者。与现有技术相比，本发明通过改进姿态估计算法解决低分辨率和动作扭曲的问题，采用启发式匹配策略准确获得真实举手者，具有检测准确度和检全率高等优点。

Description

一种基于物体检测和姿态估计的举手者检测方法

技术领域

本发明涉及一种视频智能检测方法，尤其是涉及一种基于物体检测和姿态估计的举手者检测方法。

背景技术

近年来，随着人工智能和深度神经网络的快速崛起，物体检测和姿态估计也得到了繁荣发展。得益于大量的图像数据集和计算资源，很多优秀的物体识别算法涌现了出来，包括Fast R-CNN、Faster R-CNN、YOLO、SSD和R-FCN，与此同时，通过检测人体关键点的姿态估计算法也有了突破性的进展，而姿态估计算法又通常用于多人场景。

一般多人姿态估计算法主要包括两大类方法，Top-down(自顶向下)：首先检测到多个人，之后针对每个人做单人姿态估计，Bottom-up(自下而上)：先检测图片中所有的人体关键点，再将它们连接成多个完整的人体姿态。Top-down类方法在各类姿态估计公共数据集上取得了迄今最好的结果，包括MPII多人数据集和COCO关键点挑战数据集，但此类方法的效果很容易受到人体检测器的影响，一旦出现人体漏检，后续将没有补救措施。而Bottom-up类方法在公共数据集上的整体姿态估计准确率不高。

在复杂的实时场景下，计算机视觉任务会面临很多挑战，人体关键点检测也不例外，其中主要包括两类问题：低分辨率和动作扭曲。低分辨率会造成关键点检测错误和缺失的情况，进而可能带来最终动作检测的失误，如图1的(1a)所示。举手等动作可能会带来十分夸张的人体姿态，比如将手臂高高举起造成人体长度比例失调，将身体一侧的手臂举起后并偏向身体另一侧，向其他方向举起手臂而不是竖直向上举起手臂，如图(1b)所示，这些罕见的姿态不但给关键点检测带来了困难，也给后续的举手者匹配造成了新的问题。

总而言之，现有的原多人姿态估计算法面对上述两类问题，检测效果并不理想，会出现很多关于人体关键点的漏检和误检，这给后续的举手者匹配带来了极大的困难。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于物体检测和姿态估计的举手者检测方法。

本发明的目的之一是精确搜寻视频中的举手者。

本发明的发明目的之二是针对低分辨率和动作扭曲的问题，进行更精确的人体关键点检测。

本发明的目的可以通过以下技术方案来实现：

一种基于物体检测和姿态估计的举手者检测方法，该方法包括以下步骤：

1)获得待测教学视频；

2)均匀提取所述待测教学视频中的图片帧，输入训练好的举手动作检测模型中，获取含有举手动作的图片帧和记录举手框位置的第一文本文件；

3)对所述含有举手动作的图片帧进行姿态估计，获得每张图片帧中所有人的人体关键点，形成记录关键点位置的第二文本文件；

4)根据所述第一文本文件和第二文本文件，利用启发式匹配策略，检测获得举手者。

进一步地，所述举手动作检测模型基于ResNet-101实现特征提取，并在网络中间层实现特征图融合。

进一步地，所述举手动作检测模型中仅利用一层卷积层实现最终预测。

进一步地，所述第一文本文件中，每一条记录由五个字段组成，第一个字段表示举手动作的置信度，后四个字段表示举手框的坐标。

进一步地，对所述含有举手动作的图片帧进行姿态估计具体为：

对每张含有举手动作的图片帧进行放大和缩小处理，采用部分亲和域方法进行姿态估计，以估计平均值作为最终图片帧的人体关键点检测结果。

进一步地，所述采用部分亲和域方法进行姿态估计时，候选关节连接的权重通过以下公式获得：

其中，d₁、d₂分别表示人体的两个可能连接的候选关键点，||d₂-d₁||₂表示这两个关键点之间的欧式距离，N表示选择的两个候选关键点间的代表点的个数，v()表示向量生成函数。

其中，d₁、d₂分别表示人体的两个可能连接的候选关键点，||d₂-d₁||₂表示这两个关键点之间的欧式距离，N表示选择的两个候选关键点间的代表点的个数，v()表示向量生成函数，λ表示肢体长度惩罚系数。

进一步地，所述第二文本文件中，每一条记录由18个人体关键点信息组成，每个关键点由3个数字组成，第一个数字为关键点编号，后两个数字为关键点的横纵坐标。

进一步地，所述启发式匹配策略包括：

A)举手框内包含手肘或手腕关键点时，以判定手肘或手腕关键点对应的人体骨架为举手者；

B)将举手框向左下方或右下方进行扩展，以权重值最大的关键点对应的人体骨架为举手者；

C)当一个举手框匹配有多个人体骨架时，引入全局惩罚系数。

与现有技术相比，本发明具有以如下有益效果：

1)本发明利用举手框的检测结果与人体关键点进行匹配，首次提出了基于深度学习的举手者匹配问题，能够精确地检测出视频中的举手者。

2)本发明针对低分辨率和动作扭曲的问题，改进PAF方法进行姿态估计，加入尺度搜索和修改权重度量标准后，提升了PAF算法在课堂教学场景下的检测效果。

3)本发明设计了启发式匹配策略，最大化增加举手动作和学生的匹配准确率，实验表明其可取得83％的匹配准确率，具有一定的使用价值。

附图说明

图1为现有技术中关键点检测不稳定的结果示意图，其中，(1a)为低分辨率，(1b)为动作扭曲；

图2为本发明的流程示意图；

图3为COCO数据集关键点标注标准示意图；

图4为本发明举手动作检测模型的结构示意图；

图5为本发明RFCN模型网络参数设置示意图；

图6为本发明举手框检测结果示意图；

图7为本发明第一文本文件示意图；

图8为使用改进后的PAF姿态估计算法检测的结果示意图，其中，(8a)为不使用尺度搜索的结果，(8b)为添加放缩策略后的效果，(8c)为加入放大策略的效果，(8d)为同时包含缩小和放大操作后的结果，(8e)为原始算法和改进后的算法的检测结果对比示意图；

图9为原始算法与使用改进的权重度量标准后的手臂关节点检测效果对比图；

图10为原始算法与加入肢体长度反比惩罚项的检测结果示意图；

图11为本发明姿态估计效果示意图；

图12为本发明第二文本文件的示意图；

图13为使用启发式匹配策略的匹配示意图，其中，(13a)为设置不同权重值的匹配策略，(13b)为举左手匹配实例，(13c)为关键点重叠的情况下匹配实例；

图14为本发明的匹配策略逻辑流程图；

图15为本发明的一个匹配流程实例；

图16为实施例的三个匹配效果示意图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

本发明实现一种基于物体检测和姿态估计的举手者检测方法，该方法先使用了改进版本的R-FCN来检测实际教学视频中的举手，保存其中含有举手动作的图片帧以及记录举手框位置信息的文本文件之后，再用基于Pytorch的openpose(内置的关键点检测算法已经替换为改进版本的部分亲和域(PAF，part affinity fields))对所有人进行姿态估计，将关键点的位置信息保存到文本文件中，最后根据这些举手检测框和人体关键点信息，恰当的匹配策略可以完成查找举手者的目的，最终的结果可在原始图片上可视化，整体流程如图2所示。本发明通过将举手与学生匹配起来，可以了解学生对当前教师教授内容的掌握情况和他们同教师的配合度，对自动评估课堂教学气氛和提升教学质量具有重大意义。

关键点检测模型的训练数据集为COCO数据集，如图3所示。

本实施例举手者检测方法的具体流程描述如下。

步骤1：准备课堂教学场景下的训练集和测试视频。

训练集用于训练举手动作检测模型。本实施例中，训练集的制作仿照了PASCALVOC数据集的格式，总计4万个样本量，其中，JPEGImages文件夹下是含有举手动作的教学视频帧原图，像素大小为1080×1920。Annotations文件夹下是一系列和原图一一对应的xml文件，记录的内容主要为图片中所有举手检测框的位置坐标，以图片左上角为坐标原点，xmin和ymin分别代表检测框左上角的宽度坐标和高度坐标，xmax和ymax则分别表示检测框右下角的宽度坐标和高度坐标。

之后用于测试的视频同样来自课堂教学场景，需要注意的是，为了测试验证算法正确性，挑选的视频必须有足够的区分度，因此本实施例在视频数据集中挑选了6节来自不同学校不同年级的课堂教学录像，用于后续测试。

步骤2：训练举手动作检测模型，并检测举手。

该举手动作检测模型是基于原始的RFCN物体检测算法改进得到的。特征提取网络采用了ResNet-101，并在网络中间层做了特征图融合。首先，使用一组基础的conv+relu+pooling层提取输入图像的特征图谱(feature maps)，该特征图谱被共享用于后续RPN层和RoI Pooling层的输入。其中，RPN网络用于生成区域性推荐(region proposals)，该层通过softmax判断锚点(anchors)属于前景还是背景，再利用边界框回归(bounding boxregression)修正锚点，获得精确的区域性推荐。而RoI Pooling层收集输入的特征图谱和区域性推荐，综合这些信息后提取推荐特征图谱，并计算位置敏感得分图(position-sensitive score maps)，把目标的位置信息融合进ROI pooling，然后送入后续卷积层判定目标类别。最后，利用推荐特征图谱计算推荐目标的类别，并获得检测框的精确位置。

本发明把所有的101个中间层网络都放在了前面共享的子网络中，最后用来预测的只有一层卷积层，大大减少了计算量。举手动作检测模型的网络框架如图4所示。

设计完成网络框架之后，设置训练过程的网络参数，如图5所示，实际训练时，在我们制作的举手数据集上一共迭代了20000次，最终网络收敛并取得了较好的检测效果。

最后，使用所训练的RFCN模型检测举手动作的效果图如图6，保存举手框位置信息的txt文本(第一文本文件)如图7所示，一共有20个举手动作被检测到。其中，每一行记录着检测到的某个举手框的信息，信息数据由5个被空格分开的字段组成，第一个字段表示框内为举手动作的置信度，后面四个字段表示举手框的坐标，仿照Annotation坐标格式，四个字段依次为xmin、ymin、xmax、ymax。

步骤3：加入尺度搜索，融合不同比例图片的特征。

尺度搜索是为了解决关键点检测过程中遇到的低分辨率问题。具体来说，在图片的关键点检测阶段，网络框架检测后输出的结果包括置信图谱(confidence maps)和部分亲和域(PAF，part affinity fields)两部分信息，在此基础上再进行人体关键点的确定和多人肢体的合理连接。

原算法只在原始图片上进行关键点检测，这样会导致教室后排低分辨率的学生的人体关键点检测出现缺失。为此在预测置信图谱和部分亲和域阶段，采取了同时检测放大后的图片的操作，输出的结果是原尺寸和放大尺寸的图片的检测结果的平均值，这样就解决了后排关键点检测缺失的问题。此外，检测结果中还会出现明显的肢体连接错误的问题，所以在尺度搜索中加入了检测缩小后的图片的策略，这样相当于增大了卷积神经网络的感受野(receptive field)，使得图片中更大的局部特征被提取出来，避免低级的肢体连接错误。经过测试，采用(×0.5,×1,×1.5,×2.0)的尺度搜索方案较为合适。

图8中，(8a)-(8d)是使用改进后的PAF姿态估计算法检测的结果，其中，(8a)是不使用尺度搜索的结果，有明显的关键点缺失和肢体连接错误；(8b)是添加放缩策略后的效果，明显的肢体连接错误减少了；(8c)是加入放大策略的效果，发现检测到了后排关键点，但仍然有少量的肢体连接错误；(8d)是同时包含缩小和放大操作后的结果。(8e)进一步展示了原始算法和改进后的算法的检测结果对比。

步骤4：修改候选关节连接的权重度量标准。

在实时课堂教学的背景下，原始关键点检测算法除了在低分辨率的情况下检测效果不佳，遇到动作扭曲的场景，也会出现各种问题，这里修改了候选关节连接的权重度量标准，可以改善部分检测结果。

PAF姿态估计算法中，由候选人体关键点置信图谱大致确定了所有人体关键点位置之后，还需要根据部分亲和域的信息，将所有关键点连接起来形成人体肢体，多人姿态估计还要避免肢体分配错误的问题。而大致确定之后的人体关键点在数量上并不总是刚好适量的，实际上会比真实数量多出一部分，这是为了结合部分亲和域的有向向量，候选出各种可能的关节连接，每个候选项的权值则由与有向向量相关的计算值来确定，最后会选出权值最大的候选项作为最终的连接关节，人体关键点也由此唯一固定。

这里需要详细说明如何得到与部分亲和域中的有向向量相关的计算值，也就是候选关节连接的权重度量标准。原算法中，计算每个有向向量在当前候选肢体连接向量(由两个待定人体关键点确定的有向向量)上的投影，由于部分亲和域中的有向向量是像素级的，可以用离散积分的方式计算，把这些投影值累加起来后，就得到了最终的权重值。在我们的教学课堂检测举手动作应用场景下，对手臂关节点(包括手腕、手肘、肩膀)的检测和小臂上臂的肢体连接最为重要，但是COCO训练集中对应的举手动作样本并不多，进而导致这种动作的部分亲和域检测结果较差，这是指所有的有向向量中，方向与肢体连接向量基本一致的并不多，有的甚至与其垂直或相反，这就使得用离散积分计算得到的权值大幅减少，影响了举手动作的手臂关键点检测。

对于这个问题，在没有特定训练集的情况下，只能考虑改进权重度量标准，为了削弱有向向量中方向偏离较大部分的影响，可以考虑放弃离散积分的计算方式，而是在肢体连接向量的方向上均匀选择部分有向向量，再计算它们的投影值之和作为新的权重值。具体见下面的公式，其中公式(1)为原算法的权重度量标准，公式(2)为修改成均匀选择固定数量的中间点后的标准。

其中，关于公式W₁，d₁、d₂分别表示人体的两个可能连接在一起的关键点，||d₂-d₁||₂表示这两个关键点之间的欧式距离(肢体长度)，(1-u)d₁+ud₂是这两个候选关键点坐标之间的线性插值，积分的方式一般需要逐像素计算，v()表示的向量生成函数，表示始发点为d₁、终止点是自变量得到的插值点，v((1-u)d₁+ud₂)则表示插值点与向量始发点(这里是d₁)之间的向量，公式中的.表示向量点积。关于公式W₂，是函数v()的自变量，是d₁、d₂两个候选关键点之间的插值点，另一个点是固定不变的始发点d₁，后面的另一个向量是d₁、d₂之间形成的单位向量，均匀选择了两个候选关键点之间的N个代表点，本实施例中选择N＝10。

新的权重度量标准下，图9给出了检测结果对比图，左图是原算法检测结果，右图为改进权重度量标准后的检测结果，显然举手动作下的手臂关节点检测效果得到了提升。

此外，尺度搜索并不能完全消除明显错误的肢体连接，在新的权重度量标准中，可以加入与肢体连接长度成反比的惩罚值，异常连接的肢体会因为不正常的长度被排除掉，修改之后的权重度量标准见公式(3)。

其中，惩罚系数λ可以根据实际情况调整，以消除异常肢体连接为准。

图10显示了这种策略给检测带来的优势，左图是加入肢体长度反比惩罚项之前的检测结果，右图是优化之后的结果，异常连接的长肢体被消除了。

步骤5：训练使用改进版本的PAF算法的openpose姿态估计模型，检测人体关键点。

至此，改进后的姿态估计算法介绍完毕，图11是一张人体关键点检测效果展示图。同时，每一个学生的所有人体关键点位置信息会被保存在txt文本(第二文本文件)中，如图12所示，其中，每个学生的检测结果各占据一行，行中的数字用逗号隔开，每行含有18个人体关键点的位置信息，每个关键点由三个数字组成，第一个是关键点的编号，第二个和第三个分别是关键点的横纵坐标。

步骤6：应用启发式匹配策略，完成举手者匹配。

得到了举手框和人体关键点的信息后，需要将每一个举手动作与学生匹配起来，再根据该学生整体的人体骨架，就可以确定哪个学生在举手。一般来说，只需要检测举手框内是否包含手肘或手腕关键点，就可以确定举手者的人体骨架，但是姿态估计的结果中，手臂关键点检测可能出现偏差或缺失，此时举手框内没有手肘或手腕关键点，因此需要新的匹配策略。

举手者匹配阶段主要会遇到以下一些问题，针对各自的问题，可以调整匹配策略，尽量提升匹配准确率。

1.没有手肘或手腕关键点出现在举手框内，但真实举手者的其他关键点有被检测出来。此时可以将举手框向左下方或右下方扩展，并根据框到的关键点，设置不同的权重值，之后取权值最大的人体骨架作为举手者，示例见图13中的(13a)。

2.一部分学生可能会举左手，所以左右手臂的关键点都要考虑在内。由于不能确定检测到的是左手还是右手，所以按照先右后左的顺序匹配，其中右手要向右下方扩展举手框，而左手则要向左下方扩展举手框，图13中的(13b)是关于举左右匹配成功的例子。

3.由于严重的人体关键点重叠，一个举手框可能匹配到多个人体骨架。这时需要加入一些全局的惩罚措施，例如检测框内同时出现某个人体骨架的左右两侧关键点，这就表明该人体骨架不太可能是真实举手者的，当一些无关的人体关键点如膝关节等出现在举手框内，也说明这是一个错误的匹配。图13中的(13c)中展示了一些关键点重叠的情况下匹配成功的实例。

图14给出了匹配策略的逻辑流程图，通过为检测到的各举手框增加姿势得分或减少姿势得分判定最终真实举手者。其中，英文缩写中的L和R分别表示左和右，具体可参阅图3展示的COCO数据集关键点标注标准，需要说明的是arm表示三个关键点，Rarm包括右肩膀(2-Rsho)、右手肘(3-Relb)、右手腕(4-Rwri)三个点，而Larm则包括左肩膀(5-Lsho)、左手肘(6-Lelb)、左手腕(7-Lwri)三个点。

同时，为了说明完整的匹配策略，理解匹配流程，图15是一张图片的完整处理过程。图中，输入是原图以及其举手检测框和人体关键点的坐标位置信息，输出是一张画有举手框和与其匹配的真实举手者的人体骨架。

最终，本实施例在选择的6个课堂教学视频中进行测试，举手者匹配的准确率达到了83％。图16是一些图片帧的匹配效果展示，在三张图中，正确匹配的数量和真实举手个数分别是21/26、9/12、8/10。

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此，凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案，皆应在由权利要求书所确定的保护范围内。

Claims

1.一种基于物体检测和姿态估计的举手者检测方法，其特征在于，该方法包括以下步骤：

1)获得待测教学视频；

2.根据权利要求1所述的基于物体检测和姿态估计的举手者检测方法，其特征在于，所述举手动作检测模型基于ResNet-101实现特征提取，并在网络中间层实现特征图融合。

3.根据权利要求1所述的基于物体检测和姿态估计的举手者检测方法，其特征在于，所述举手动作检测模型中仅利用一层卷积层实现最终预测。

4.根据权利要求1所述的基于物体检测和姿态估计的举手者检测方法，其特征在于，所述第一文本文件中，每一条记录由五个字段组成，第一个字段表示举手动作的置信度，后四个字段表示举手框的坐标。

5.根据权利要求1所述的基于物体检测和姿态估计的举手者检测方法，其特征在于，对所述含有举手动作的图片帧进行姿态估计具体为：

6.根据权利要求5所述的基于物体检测和姿态估计的举手者检测方法，其特征在于，所述采用部分亲和域方法进行姿态估计时，候选关节连接的权重通过以下公式获得：

7.根据权利要求5所述的基于物体检测和姿态估计的举手者检测方法，其特征在于，所述采用部分亲和域方法进行姿态估计时，候选关节连接的权重通过以下公式获得：

8.根据权利要求1所述的基于物体检测和姿态估计的举手者检测方法，其特征在于，所述第二文本文件中，每一条记录由18个人体关键点信息组成，每个关键点由3个数字组成，第一个数字为关键点编号，后两个数字为关键点的横纵坐标。

9.根据权利要求1所述的基于物体检测和姿态估计的举手者检测方法，其特征在于，所述启发式匹配策略包括：