CN112966655A

CN112966655A - 一种办公区玩手机行为识别方法、装置和计算设备

Info

Publication number: CN112966655A
Application number: CN202110336542.6A
Authority: CN
Inventors: 朱勋沐; 陈利军; 林焕凯; 洪曙光; 周谦; 王祥雪; 刘双广
Original assignee: Gosuncn Technology Group Co Ltd
Current assignee: Gosuncn Technology Group Co Ltd
Priority date: 2021-03-29
Filing date: 2021-03-29
Publication date: 2021-06-15

Abstract

本发明是关于一种办公区玩手机行为识别方法、装置和计算机设备。该方法包括：输入待识别的监控视频，抽取关键帧；检测所述关键帧对应的人体子图的上半身人体的关键点；利用上半身人体关键点信息，生成玩手机行为识别候选区域；使用玩手机分类识别模型对所述玩手机行为识别候选区域进行识别，得出所述玩手机行为识别候选区域的分类置信度；根据所述分类置信度判断所述玩手机行为识别候选区域对应监控视频中是否存在玩手机的行为。本发明可以仅进行人体上半身的头部、肩部、肘部和手部关键点检测，不仅能更好的适应特定场景的玩手机识别任务需求，还能有效减少玩手机行为模型复杂度和计算代价。同时也可以避免对人体下半身关键点的依赖。

Description

一种办公区玩手机行为识别方法、装置和计算设备

技术领域

本发明涉及计算机视觉技术领域，一种办公区玩手机行为识别方法、装置和计算机设备。

背景技术

在特定场景下，办公人员需要时刻保持专注的工作状态。为了保证并提高办公效率和办公质量，则需要对办公人员进行行为监控和异常行为识别，其中,包括了办公时间玩手机的异常行为监控。对玩手机行为的异常监控往往需要遍历办公区域多个监控摄像头的长时间监控视频，使用人力观察费时费力且效率低下。

目前基于视频图像的玩手机行为识别方法主要利用深度学习方法通过人体姿态估计和手机检测实现。有些方法主要利用视频图像数据，通过基于深度学习的人体检测，手机检测和人体姿态估计技术来实现玩手机行为识别，这往往能获得高精度的识别效果。但由于不同场景有不同的拍摄视角、用户不同的性能需求、和不同的技术困难和挑战，这导致上述方法难以简单迁移使用至本场景下。

在特定场景中，拍摄视角为俯视，且大多时候办公人员为坐立姿态，这导致下半身往往受到大面积遮挡，即在办公时仅露出上半身，或是由于其他遮挡原因导致部分关键点丢失，这使得使用人体关键点进行姿态估计变得困难。导致现有玩手机公开专利的姿态估计方法难以实现较高的精度。

由于打电话行为和玩手机行为均为手机出现在手部区域附近，两者行为存在较大的相似度，而如何避免打电话行为对玩手机行为产生的误报干扰是降低玩手机识别误报率的重要条件。现有方法仅通过手机是否出现在手部附近来判断是否为玩手机行为，这导致系统难以对打电话行为和玩手机行为进行区分，从而存在较高的误报风险。

实际应用中往往需要同时监控多个房间，这使得识别效率和硬件资源的占用需要额外考虑。现有方法通常在手部附近区域使用目标检测算法进行手机检测，而检测算法本身存在较高的资源占用和较大的计算代价，这无疑使有限的计算资源承担了较大的压力。

发明内容

为克服相关技术中存在的问题，本发明提供一种办公区玩手机行为识别方法、装置和计算机设备，可以仅进行人体上半身的头部、肩部、肘部和手部关键点检测，不仅能更好的适应特定场景的玩手机识别任务需求，还能有效减少玩手机行为模型复杂度和计算代价。

根据本发明实施例的第一方面，提供一种办公区玩手机行为识别方法，包括输入待识别的监控视频，抽取关键帧；

检测所述关键帧对应的人体子图的上半身人体的关键点；

利用上半身人体关键点信息，生成玩手机行为识别候选区域；

使用玩手机分类识别模型对所述玩手机行为识别候选区域进行识别，得出所述玩手机行为识别候选区域的分类置信度；

根据所述分类置信度判断所述玩手机行为识别候选区域对应监控视频中是否存在玩手机的行为。

根据本发明实施例的第二方面，提供一种办公区玩手机行为识别装置，包括关键帧获取模块、关键点检测模块、候选区域生成模块、行为识别模块和行为确定模块；

关键帧获取模块，用于输入待识别的监控视频，抽取关键帧；

关键点检测模块，用于检测所述关键帧对应的人体子图的上半身人体的关键点；

候选区域生成模块，用于利用上半身人体关键点信息，生成玩手机行为识别候选区域；

行为识别模块，用于使用玩手机分类识别模型对所述玩手机行为识别候选区域进行识别，得出所述玩手机行为识别候选区域的分类置信度；

行为确定模块，用于根据所述分类置信度判断所述玩手机行为识别候选区域对应监控视频中是否存在玩手机的行为。

本发明的实施例提供的技术方案可以包括以下有益效果：可以仅进行人体上半身的头部、肩部、肘部和手部关键点检测，不仅能更好的适应特定场景的玩手机识别任务需求，还能有效减少玩手机行为模型复杂度和计算代价。

本发明的实施例，还可以：利用上半身人体关键点，新增打电话行为筛选，以减少打电话行为对玩手机行为的误报，有效降低系统的误报率。同时在人体部分关键点缺失的情况下依然具备较强的鲁棒性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明。

附图说明

通过结合附图对本发明示例性实施方式进行更详细的描述，本发明的上述以及其它目的、特征和优势将变得更加明显，其中，在本发明示例性实施方式中，相同的参考标号通常代表相同部件。

图1是本发明根据一示例性实施例示出的一种办公区玩手机行为识别方法的流程图；

图2是本发明根据一示例性实施例示出的一种办公区玩手机行为识别方法的另一流程图；

图3是本发明根据一示例性实施例示出的一种办公区玩手机行为识别方法中玩手机行为识别候选区域的流程图；

图4是本发明根据一示例性实施例示出的一种办公区玩手机行为识别方法的候选区域生成示例图；

图5是本发明根据一示例性实施例示出的一种办公区玩手机行为识别方法中玩手机分类识别模型生成流程图；

图6是本发明根据一示例性实施例示出的一种办公区玩手机行为识别装置的示意图框图；

图7是本发明根据一示例性实施例示出的一种办公区玩手机行为识别装置的候选区域生成模块的示意框图；

图8是本发明根据一示例性实施例示出的一种办公区玩手机行为识别装置的玩手机分类识别模型生成模块的示意框图；

图9是根据一示例性实施例示出的一种计算设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本发明的优选实施方式。虽然附图中显示了本发明的优选实施方式，然而应该理解，可以以各种形式实现本发明而不应被这里阐述的实施方式所限制。相反，提供这些实施方式是为了使本发明更加透彻和完整，并且能够将本发明的范围完整地传达给本领域的技术人员。

在本发明使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本发明可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本发明范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

本发明提供了一种办公区玩手机行为识别方法、装置和计算机设备，可以仅进行人体上半身的头部、肩部、肘部和手部关键点检测，不仅能更好的适应特定场景的玩手机识别任务需求，还能有效减少玩手机行为模型复杂度和计算代价。

图1是本发明根据一示例性实施例示出的一种办公区玩手机行为识别方法的流程图。

参照图1，包括以下步骤：

在步骤101中，输入待识别的监控视频，抽取关键帧。

完成步骤101后，在步骤102中，检测所述关键帧对应的人体子图的上半身人体的关键点。

之后，在步骤103中，利用上半身人体关键点信息，生成玩手机行为识别候选区域。

在步骤104中，使用玩手机分类识别模型对所述玩手机行为识别候选区域进行识别，得出所述玩手机行为识别候选区域的分类置信度。

在步骤105中，根据所述分类置信度判断所述玩手机行为识别候选区域对应监控视频中是否存在玩手机的行为。

由该实施例可见，本发明输入待识别的监控视频，抽取关键帧；检测所述关键帧对应的人体子图的上半身人体的关键点；利用上半身人体关键点信息，生成玩手机行为识别候选区域；使用玩手机分类识别模型对所述玩手机行为识别候选区域进行识别，得出所述玩手机行为识别候选区域的分类置信度；根据所述分类置信度判断所述玩手机行为识别候选区域对应监控视频中是否存在玩手机的行为。本实施例可以仅进行人体上半身的头部、肩部、肘部和手部关键点检测，不仅能更好的适应特定场景的玩手机识别任务需求，还能有效减少玩手机行为模型复杂度和计算代价。同时也可以避免对人体下半身关键点的依赖。

图2是本发明根据一示例性实施例示出的一种办公区玩手机行为识别方法的另一流程图。

参照图2，包括以下步骤：

在步骤201中，输入待识别的监控视频，抽取关键帧。

之后，步骤202，使用人体检测算法对所述关键帧进行人体检测；

进一步的，进入步骤203，利用所述人体检测结果，在所述关键帧中裁剪出包含人体的子图。

之后，进入步骤204，检测所述人体子图的上半身人体的关键点。

之后是步骤205根据上半身人体的关键点信息，判断是否是打电话的行为。如果是，则进入步骤211，输出当前帧为非玩手机行为帧。

在一个优选实施例中，本步骤判断是否是打电话的行为可以是如下方法实现：

首先上半身人体的关键点信息中手部和肘部关键点判断是否手部位置高于肘部，当是手部高于肘部时，然后判断手部、肘部和肩部关键点的夹角是否成一个较小的角度，在优选实施例中，通过对场景的行为统计可确定该夹角，这里的较小的角度例如可以是30°。当满足手部、肘部和肩部关键点的夹角成一个较小的角度时，判断手部与头部之间的距离是否小于头部与肘部之间的距离，当满足条件夹角较小且手部与头部之间的距离小于头部与肘部之间时，则认为该帧该人体为打电话行为。

本实施例中，利用上半身人体关键点，新增打电话行为筛选，以减少打电话行为对玩手机行为的误报，有效降低系统的误报率。

步骤205判断为否，则进入步骤206，利用上半身人体关键点信息，生成玩手机行为识别候选区域。

图3是本发明根据一示例性实施例示出的一种办公区玩手机行为识别方法中玩手机行为识别候选区域的流程图。

参照图3，包括以下步骤：

步骤301，获取所述人体检测结果和所述上半身人体关键点检测结果。

步骤302，根据所述人体检测结果和所述上半身人体关键点检测结果识别双肘和双手的关键点。

步骤303，利用上半身人体的双肘和双手的关键点信息，生成玩手机行为识别候选区域。

图4a-4c是本发明根据一示例性实施例示出的一种办公区玩手机行为识别方法的候选区域生成示例图。

在一个优选实施例中，通过如下方式生成玩手机行为识别候选区域。仅一只手和对应肘的关键点被识别到时，以第一外扩方式生成第一候选区域或第二候选区域作为该关键帧对应的玩手机行为识别候选区域。

在一个优选实施方式，所述第一外扩方式生成第一候选区域或第二候选区域作为该关键帧对应的玩手机行为识别候选区域，参照图4a，以左手为例，以左小臂，即左肘关键点5和左手关键点3的连线延左手方向延长 1/2左小臂长度处为中心，以统计获得的一定像素值为边长做矩形框，则生成了候选区域第一候选区域。这里的一定像素可以是200像素值。这里第一候选区域和第二候选区域只是为了区分左右手生成的候选区域。

仅识别到一只手部关键点，而未检测到其对应的肘部关键点时，使用第二外扩方式生成第三候选区域或第四候选区域作为该关键帧对应的玩手机行为识别候选区域。在优选实施例中，第二外扩方式实现候选区域生成方式，参照图4b，以右手手部关键点6为例，以该点为中心，以一个较大的像素值例为边长做矩形，生成第三候选区域，以此作为该关键帧对应的玩手机行为识别候选区域。这里的较大像素值可以设置为300像素值。值得说明的是，这里的第三候选区域或者第四候选区域只能是一个候选区域，不能同时生成两个候选区域，例如：如果只识别到左手的手部关键点，而未检测到左手对应的肘部关键点时，则用第二外扩方式生成第四候选区域。反之，如果只识别到右手的手部关键点，而未检测到右手对应的肘部关键点时，则用第二外扩方式生成第三候选区域。这里第三候选区域或者第四候选区域只是用来区分不同手生成的候选区域。

参考图4a，检测出双手和双手肘的关键点，则使用第一外扩方式生成第五候选区域和第六候选区域。在一个示例中，当一个人体同时检测到双肘和双手的关键点，即左手肘关键点3，右手肘关键点4，左手关键点5，右手关键点6时，先使用第一外扩方式生成第五候选区域和第六候选区域。这里使用第一外扩方式生成第五候选区域和第六候选区域的实现方式。

在优选实施例中，对第五候选区域和第六候选区域求取两个候选区域的两个框的IOU，判断这两个IOU是否大于一定阈值以判断这两个框是否相交。IOU为Intersectionover Union，交并比。这里的IOU阈值可以是 0.1。即当判断这两个IOU是大于0.1，则认为第五候选区域和第六候选区域有交集，则以第三外扩方式生成第七候选区域作为该关键帧对应的玩手机行为识别候选区域。

在一个优选实施方式中，以第三外扩方式生成第七候选区域作为该关键帧对应的玩手机行为识别候选区域，可以是参照图4c，以第五候选区域和第六候选区域相交区域的中心为中心点，以统计获得的一定的像素值为边长做矩形，则生成第七候选区域。在一个示例中，这里的一定像素值为 150像素值。

当判断第五候选区域和第六候选区域的两个IOU不大于一定阈值时，则认为第五候选区域和第六候选区域无交集，则将第五候选区域候和第六候选区域作为该关键帧对应的玩手机行为识别候选区域。

本实施例利用上半身人体关键点生成玩手机候选区域是一种快速高效的手机潜在区域搜索方法，大幅降低手机的搜索范围，使得后续识别中能有效结合玩手机分类模型实现手机的区域定位和玩手机行为的识别。以此来替代手机检测算法，不仅能保持高精度的玩手机识别性能，还大幅降低了系统的计算代价，提高了识别效率。此外本实施例的候选区域生成方法对人体部分关键点缺失的情况下依然具备较强的鲁棒性。

完成步骤206之后，在步骤207，根据玩手机行为识别候选区域，对所述候选区域玩手机行为识别候选区域对应的原图进行裁剪，得出候选区域子图。

之后，步骤208，对剪裁出的候选区域子图使用玩手机分类识别模型进行玩手机分类识别，得出所述剪裁出的候选区域子图的分类置信度。

最后，是步骤209，判断所述关键帧对应的候选子图是否有一个候选子图的玩手机分类置信度大于置信度阈值，若是则进入步骤210，输出当前帧为玩手机行为帧，否则进入步骤211，输出当前帧为非玩手机行为帧。这里置信度阈值可以是0.9。

在一个优选实施例中，图5是本发明根据一示例性实施例示出的一种办公区玩手机行为识别方法中玩手机分类识别模型生成流程图。参照图5，可以包括：

步骤501，对图像中人体手部附近区域图像进行随机裁剪。

步骤502，将图像中存在手机的剪裁后的图归类为正样本，将图像中不存在手机的剪裁后的图归类为负样本，使得正负样本的比率为预设区间范围。在一个示例中，对图像中人体手部附近区域图像进行随机裁剪后，随机遍历图像裁剪固定大小的子图。

将图像中存在手机的剪裁后的图归类为正样本，将图像中不存在手机的剪裁后的图归类为负样本，使得正负样本的比例为1：5到1：10之间。

步骤503，将所述正负样本按照预设比例划分为训练图集和测试图集。这里的预设比例可以是7：3，即训练集和测试集样本比例为7:3。

步骤504，利用训练图集训练玩手机分类模型，其中，一次训练以预设迭代间隔保存一个模型。在一个优选实施例中，使用ResNet-18训练玩手机分类模型。这里的迭代间隔是指训练周期。

步骤505，训练输出的模型在测试集上进行测试，选择精度最高的模型作为玩手机分类识别模型。

由该实施例可见，本发明输入待识别的监控视频，抽取关键帧；检测所述关键帧对应的人体子图的上半身人体的关键点；利用上半身人体关键点信息，生成玩手机行为识别候选区域；使用玩手机分类识别模型对所述玩手机行为识别候选区域进行识别，得出所述玩手机行为识别候选区域的分类置信度；根据所述分类置信度判断所述玩手机行为识别候选区域对应监控视频中是否存在玩手机的行为。本实施例可以仅进行人体上半身的头部、肩部、肘部和手部关键点检测，不仅能更好的适应特定场景的玩手机识别任务需求，还能有效减少玩手机行为模型复杂度和计算代价。

与前述应用功能实现方法实施例相对应，本发明还提供了一种办公区玩手机行为识别装置及相应的实施例。

图6是本发明根据一示例性实施例示出的一种办公区玩手机行为识别装置的示意图框图。

参照图6，在一种办公区玩手机行为识别装置中可以包括：关键帧获取模块601、关键点检测模块602、候选区域生成模块603、行为识别模块 604和行为确定模块605；

关键帧获取模块601，用于输入待识别的监控视频，抽取关键帧；

关键点检测模块602，用于检测所述关键帧对应的人体子图的上半身人体的关键点；

候选区域生成模块603，用于利用上半身人体关键点信息，生成玩手机行为识别候选区域。

行为识别模块604，用于使用玩手机分类识别模型对所述玩手机行为识别候选区域进行识别，得出所述玩手机行为识别候选区域的分类置信度；

行为确定模块605，用于根据所述分类置信度判断所述玩手机行为识别候选区域对应监控视频中是否存在玩手机的行为。

在一个优选实施方式中，所述装置还包括：人体检测模块606、剪裁模块607；

人体检测模块606，用于使用人体检测算法对所述关键帧进行人体检测；

剪裁模块607，用于利用所述人体检测结果，在所述关键帧中裁剪出包含人体的子图。

在一个优选实施方式中，所述装置还包括：玩手机分类识别模型生成模块608，用于生成玩手机分类识别模型。

在一个优选实施例中，图7是本发明根据一示例性实施例示出的一种办公区玩手机行为识别装置的候选区域生成模块的示意框图。

参照图7，候选区域生成模块包括：结果获取单元701、手肘关键点识别单元702和候选区域确定单元703。

结果获取单元701，用于获取所述人体检测结果和所述上半身人体关键点检测结果。

手肘关键点识别单元702，用于根据所述人体检测结果和所述上半身人体关键点检测结果识别双肘和双手的关键点。

候选区域确定单元703，用于利用上半身人体的双肘和双手的关键点信息，生成玩手机行为识别候选区域。

在优选实施方式中，候选区域确定单元703仅识别出一只手和对应肘的关键点被识别到时，以第一外扩方式生成第一候选区域或第二候选区域作为该关键帧对应的玩手机行为识别候选区域。

在仅识别到一只手部关键点，而未检测到其对应的肘部关键点时，使用第二外扩方式生成第三候选区域或第四候选区域作为该关键帧对应的玩手机行为识别候选区域。

在检测出双手和双手肘的关键点，则使用第一外扩方式生成第五候选区域和第六候选区域，确定第五候选区域和第六候选区域无交集则，将第五候选区域候和第六候选区域作为该关键帧对应的玩手机行为识别候选区域，确定第五候选区域和第六候选区域有交集，则以第三外扩方式生成第七候选区域作为该关键帧对应的玩手机行为识别候选区域。

在另一个优选实施方式中，图8是本发明根据一示例性实施例示出的一种办公区玩手机行为识别装置的玩手机分类识别模型生成模块的示意框图。

参照图8，所述玩手机分类识别模型生成模块包括：剪裁单元801、样本归类单元802、图集划分单元803、图集训练单元804和图集测试单元805。

剪裁单元801，用于对图像中人体手部附近区域图像进行随机裁剪。

样本归类单元802，用于将图像中存在手机的剪裁后的图归类为正样本，将图像中不存在手机的剪裁后的图归类为负样本，使得正负样本的比率为预设区间范围。

图集划分单元803，用于将所述正负样本按照预设比例划分为训练图集和测试图集。

图集训练单元804，用于利用训练图集训练玩手机分类模型；一次训练以预设迭代间隔保存一个模型。

图集测试单元805，用于训练输出的模型在测试集上进行测试，选择精度最高的模型作为玩手机分类识别模型。

由该实施例可见，本发明的装置输入待识别的监控视频，抽取关键帧；检测所述关键帧对应的人体子图的上半身人体的关键点；利用上半身人体关键点信息，生成玩手机行为识别候选区域；使用玩手机分类识别模型对所述玩手机行为识别候选区域进行识别，得出所述玩手机行为识别候选区域的分类置信度；根据所述分类置信度判断所述玩手机行为识别候选区域对应监控视频中是否存在玩手机的行为。本实施例可以仅进行人体上半身的头部、肩部、肘部和手部关键点检测，不仅能更好的适应特定场景的玩手机识别任务需求，还能有效减少玩手机行为模型复杂度和计算代价。

图9是根据一示例性实施例示出的一种计算设备的结构示意图，该计算设备可用于实现上述一种办公区玩手机行为识别方法。

参见图9，计算设备900包括存储器910和处理器920。

处理器920可以是一个多核的处理器，也可以包含多个处理器。在一些实施例中，处理器920可以包含一个通用的主处理器以及一个或多个特殊的协处理器，例如图形处理器(GPU)、数字信号处理器(DSP)等等。在一些实施例中，处理器920可以使用定制的电路实现，例如特定用途集成电路(ASIC，Application Specific Integrated Circuit)或者现场可编程逻辑门阵列(FPGA，Field Programmable Gate Arrays)。

存储器910可以包括各种类型的存储单元，例如系统内存、只读存储器(ROM)，和永久存储装置。其中，ROM可以存储处理器920或者计算机的其他模块需要的静态数据或者指令。永久存储装置可以是可读写的存储装置。永久存储装置可以是即使计算机断电后也不会失去存储的指令和数据的非易失性存储设备。在一些实施方式中，永久性存储装置采用大容量存储装置(例如磁或光盘、闪存)作为永久存储装置。另外一些实施方式中，永久性存储装置可以是可移除的存储设备(例如软盘、光驱)。系统内存可以是可读写存储设备或者易失性可读写存储设备，例如动态随机访问内存。系统内存可以存储一些或者所有处理器在运行时需要的指令和数据。此外，存储器910可以包括任意计算机可读存储媒介的组合，包括各种类型的半导体存储芯片(DRAM，SRAM，SDRAM，闪存，可编程只读存储器)，磁盘和/或光盘也可以采用。在一些实施方式中，存储器 910可以包括可读和/或写的可移除的存储设备，例如激光唱片(CD)、只读数字多功能光盘(例如DVD-ROM，双层DVD-ROM)、只读蓝光光盘、超密度光盘、闪存卡(例如SD卡、min SD卡、Micro-SD卡等等)、磁性软盘等等。计算机可读存储媒介不包含载波和通过无线或有线传输的瞬间电子信号。

存储器910上存储有可执行代码，当可执行代码被处理器920处理时，可以使处理器920执行上文述及的上述一种办公区玩手机行为识别方法。

上文中已经参考附图详细描述了根据本发明的上述方法。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

此外，根据本发明的方法还可以实现为一种计算机程序或计算机程序产品，该计算机程序或计算机程序产品包括用于执行本发明的上述方法中限定的上述各步骤的计算机程序代码指令。

或者，本发明还可以实施为一种非暂时性机器可读存储介质(或计算机可读存储介质、或机器可读存储介质)，其上存储有可执行代码(或计算机程序、或计算机指令代码)，当所述可执行代码(或计算机程序、或计算机指令代码)被电子设备(或计算设备、服务器等)的处理器执行时，使所述处理器执行根据本发明的上述方法的各个步骤。

本领域技术人员还将明白的是，结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。

附图中的流程图和框图显示了根据本发明的多个实施例的系统和方法的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标记的功能也可以以不同于附图中所标记的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种办公区玩手机行为识别方法，包括：

输入待识别的监控视频，抽取关键帧；

检测所述关键帧对应的人体子图的上半身人体的关键点；

2.根据权利要求1所述的方法，还包括：

使用人体检测算法对所述关键帧进行人体检测；

利用所述人体检测结果，在所述关键帧中裁剪出包含人体的子图。

3.根据权利要求1所述的方法，还包括：

根据上半身人体的关键点信息，判断是否是打电话行为。

4.根据权利要求2所述的方法，其中，利用上半身人体关键点信息，生成玩手机行为识别候选区域包括：

获取所述人体检测结果和所述上半身人体关键点检测结果；

根据所述人体检测结果和所述上半身人体关键点检测结果，识别双肘和双手的关键点；

利用上半身人体的双肘和双手的关键点信息，生成玩手机行为识别候选区域。

5.根据权利要求4所述的方法，其中，利用上半身人体的双肘和双手的关键点信息，生成玩手机行为识别候选区域包括：

仅一只手和对应肘的关键点被识别到时，以第一外扩方式生成第一候选区域或第二候选区域作为该关键帧对应的玩手机行为识别候选区域；

仅识别到一只手部关键点，而未检测到其对应的肘部关键点时，使用第二外扩方式生成第三候选区域或第四候选区域作为该关键帧对应的玩手机行为识别候选区域；

检测出双手和双手肘的关键点，则使用第一外扩方式生成第五候选区域和第六候选区域，确定第五候选区域和第六候选区域无交集则，将第五候选区域候和第六候选区域作为该关键帧对应的玩手机行为识别候选区域，确定第五候选区域和第六候选区域有交集，则以第三外扩方式生成第七候选区域作为该关键帧对应的玩手机行为识别候选区域。

6.根据权利要求1所述的方法，还包括，

根据玩手机行为识别候选区域，对所述候选区域玩手机行为识别候选区域对应的原图进行裁剪，得出候选区域子图；

其中，使用玩手机分类识别模型对所述玩手机行为识别候选区域进行识别，得出所述玩手机行为识别候选区域的分类置信度，包括：对剪裁出的候选区域子图使用玩手机分类识别模型进行玩手机分类识别，得出所述剪裁出的候选区域子图的分类置信度。

7.一种办公区玩手机行为识别装置，包括：关键帧获取模块、关键点检测模块、候选区域生成模块、行为识别模块和行为确定模块；

8.根据权利要求7所述的装置，还包括：人体检测模块和剪裁模块；

人体检测模块，用于使用人体检测算法对所述关键帧进行人体检测；

剪裁模块，用于利用所述人体检测结果，在所述关键帧中裁剪出包含人体的子图。

9.根据权利要求7所述的装置，其中，候选区域生成模块包括：结果获取单元、手肘关键点识别单元和候选区域确定单元；

结果获取单元，用于获取所述人体检测结果和所述上半身人体关键点检测结果；

手肘关键点识别单元，用于根据所述人体检测结果和所述上半身人体关键点检测结果，识别双肘和双手的关键点；

候选区域确定单元，用于在仅一只手和对应肘的关键点被识别到时，以第一外扩方式生成第一候选区域或第二候选区域作为该关键帧对应的玩手机行为识别候选区域；

在仅识别到一只手部关键点，而未检测到其对应的肘部关键点时，使用第二外扩方式生成第三候选区域或第四候选区域作为该关键帧对应的玩手机行为识别候选区域；

10.一种计算设备，包括：

处理器；以及

存储器，其上存储有可执行代码，当所述可执行代码被所述处理器执行时，使所述处理器执行如权利要求1至6中任何一项所述的方法。