CN115798047A

CN115798047A - 行为识别方法和装置、电子设备、计算机可读存储介质

Info

Publication number: CN115798047A
Application number: CN202211559352.1A
Authority: CN
Inventors: 闫盈盈; 周毅; 曹扬; 尹杨; 支婷; 苑建坤
Original assignee: CETC Big Data Research Institute Co Ltd
Current assignee: CETC Big Data Research Institute Co Ltd
Priority date: 2022-12-06
Filing date: 2022-12-06
Publication date: 2023-03-14

Abstract

本公开的实施例提供一种行为识别方法，具体实现方案为：基于实时采集或拍摄的待识别视频数据，得到待识别图像帧；实时检测待识别图像帧中是否具有目标对象；响应于检测到待识别图像帧中具有目标对象，对目标对象进行追踪，得到目标对象的位置信息；获取待识别图像帧中人员的目标骨骼关键点位置；基于目标骨骼关键点位置和目标对象的位置信息，确定人员对目标对象的行为。通过本实施方式，提高了人员对目标对象进行操作时行为检测的准确性。

Description

行为识别方法和装置、电子设备、计算机可读存储介质

技术领域

本公开的实施例涉及计算机技术领域，具体地，涉及一种行为识别方法及装置。

背景技术

随着移动通信技术的发展，手机已经成了现代人寸步不离的重要工具。在不同工作或作业领域(例如，营业厅、工厂)，吸烟玩手机行为是人员工作或作业过程中经常出现的行为之一，一旦发生该行为之后，人员很难确保一直处于正常的工作状态，并且由于人员的注意力转移很可能会发生无法及时处理的突发事件，影响了正常的生产、生活。

发明内容

本文中描述的实施例提供了一种行为识别方法和装置、电子设备以及存储有计算机程序的计算机可读存储介质。

根据本公开的第一方面，提供了一种行为识别方法。在该方法中，基于实时采集或拍摄的待识别视频数据，得到待识别图像帧；实时检测待识别图像帧中是否具有目标对象；响应于检测到待识别图像帧中具有目标对象，对目标对象进行追踪，得到目标对象的位置信息；获取待识别图像帧中人员的目标骨骼关键点位置；基于目标骨骼关键点位置和目标对象的位置信息，确定人员对目标对象的行为。

在本公开的一些实施例中，上述获取待识别图像帧中人员的目标骨骼关键点位置，包括：提取待识别图像帧中的人体骨骼关键点位置；识别人体骨骼关键点位置中的目标骨骼关键点位置。

在本公开的一些实施例中，上述目标骨骼关键点位置包括：手腕关键点位置和鼻关键点位置；目标对象的位置信息包括：目标对象的位置和目标对象标识，基于目标骨骼关键点位置和目标对象的位置信息，确定人员对目标对象的行为，包括：针对各个目标对象标识下的目标对象，检测手腕关键点位置至该目标对象的位置的距离是否小于第一距离阈值；响应于手腕关键点位置至该目标对象的位置的距离小于第一距离阈值，检测该目标对象的位置至鼻关键点位置的距离是否小于第二距离阈值，第一距离阈值小于第二距离阈值；响应于该目标对象的位置至鼻关键点位置的距离小于第二距离阈值，确定人员对该目标对象的异常行为。

在本公开的一些实施例中，上述目标骨骼关键点位置包括：手腕关键点位置和颈关键点位置；目标对象的位置信息包括：目标对象的位置和目标对象标识，基于目标骨骼关键点位置和目标对象的位置信息，确定人员对目标对象的行为，包括：针对各个目标对象标识下的目标对象，检测手腕关键点位置至该目标对象的位置的距离是否小于第一距离阈值；响应于手腕关键点位置至该目标对象的位置的距离小于第一距离阈值，检测该目标对象的位置至颈关键点位置的距离是否小于第三距离阈值，第一距离阈值小于第三距离阈值；响应于该目标对象的位置至颈关键点位置的距离小于第三距离阈值，确定人员对该目标对象的异常行为。

在本公开的一些实施例中，上述方法还包括：对人员进行异常行为标注，并发出人员具有异常行为的预警信息。

在本公开的一些实施例中，上述实时检测待识别图像帧中是否具有目标对象包括：采用目标对象的目标检测模型对待识别图像帧中的目标对象进行实时检测；目标检测模型为对基础模型调参之后得到的模型。

在本公开的一些实施例中，上述目标检测模型采用如下步骤训练得到：采集不同人员对目标对象进行操作的样本视频数据；按照预设帧率间隔截取样本视频数据，得到样本图像数据；采用图像标注工具对样本图像数据中的目标对象进行样本标注，得到图像样本；基于图像样本对基础模型进行训练，得到目标检测模型。

根据本公开的第二方面，提供了一种行为识别装置。该装置包括：得到单元，被配置成基于实时采集或拍摄的待识别视频数据，得到待识别图像帧；检测单元，被配置成实时检测待识别图像帧中是否具有目标对象；追踪单元，被配置成响应于检测到待识别图像帧中具有目标对象，对目标对象进行追踪，得到目标对象的位置信息；获取单元，被配置成获取待识别图像帧中人员的目标骨骼关键点位置；确定单元，被配置成基于目标骨骼关键点位置和目标对象的位置信息，确定人员对目标对象的行为。

在本公开的一些实施例中，上述获取单元进一步被配置成：提取待识别图像帧中的人体骨骼关键点位置；识别人体骨骼关键点位置中的目标骨骼关键点位置。

在本公开的一些实施例中，上述目标骨骼关键点位置包括：手腕关键点位置和鼻关键点位置；目标对象的位置信息包括：目标对象的位置和目标对象标识，上述确定单元进一步被配置成：针对各个目标对象标识下的目标对象，检测手腕关键点位置至该目标对象的位置的距离是否小于第一距离阈值；响应于手腕关键点位置至该目标对象的位置的距离小于第一距离阈值，检测该目标对象的位置至鼻关键点位置的距离是否小于第二距离阈值，第一距离阈值小于第二距离阈值；响应于该目标对象的位置至鼻关键点位置的距离小于第二距离阈值，确定人员对该目标对象的异常行为。

在本公开的一些实施例中，上述目标骨骼关键点位置包括：手腕关键点位置和颈关键点位置；目标对象的位置信息包括：目标对象的位置和目标对象标识，上述确定单元进一步被配置成：针对各个目标对象标识下的目标对象，检测手腕关键点位置至目标对象的位置的距离是否小于第一距离阈值；响应于手腕关键点位置至目标对象的位置的距离小于第一距离阈值，检测目标对象的位置至颈关键点位置的距离是否小于第三距离阈值，第一距离阈值小于第三距离阈值；响应于目标对象的位置至颈关键点位置的距离小于第三距离阈值，确定人员对目标对象的异常行为。

在本公开的一些实施例中，上述装置还包括：报警单元，被配置成对人员进行异常行为标注，并发出人员具有异常行为的预警信息。

在本公开的一些实施例中，上述检测单元进一步被配置成：采用目标对象的目标检测模型对待识别图像帧中的目标对象进行实时检测；目标检测模型为对基础模型调参之后得到的模型。

根据本公开的第三方面，提供了一种电子设备，包括：至少一个处理器；以及存储有计算机程序的至少一个存储器；其中，当计算机程序由至少一个处理器执行时，使得装置执行根据本公开的第一方面的方法的步骤。

根据本公开的第四方面，提供了一种存储有计算机程序的计算机可读存储介质，其中，计算机程序在由处理器执行时实现根据本公开的第一方面的方法的步骤。

本公开提供的行为识别方法和装置，首先，基于实时采集或拍摄的待识别视频数据，得到待识别图像帧；其次，实时检测待识别图像帧中是否具有目标对象；再次，响应于检测到待识别图像帧中具有目标对象，对目标对象进行追踪，得到目标对象的位置信息；从次，获取待识别图像帧中人员的目标骨骼关键点位置；最后，基于目标骨骼关键点位置和目标对象的位置信息，确定人员对目标对象的行为。由此，在检测到目标对象之后，追踪目标对象并且识别人员的目标骨骼关键点位置，基于目标骨骼关键点与目标对象之间的位置关系，确定人员对目标对象的行为，提高了人员对目标对象进行操作时行为检测的准确性。

附图说明

为了更清楚地说明本公开的实施例的技术方案，下面将对实施例的附图进行简要说明，应当知道，以下描述的附图仅仅涉及本公开的一些实施例，而非对本公开的限制，其中：

图1是根据本公开行为识别方法的一个实施例的流程图；

图2是本公开实施例中目标骨骼关键点的一种结构示意图；

图3是根据本公开行为识别方法的另一个实施例的流程图；

图4是根据本公开行为识别装置的一个实施例的结构示意图；以及

图5是用来实现本公开实施例的行为识别方法的电子设备的框图。

5具体实施方式

为了使本公开的实施例的目的、技术方案和优点更加清楚，下面将结合附图，对本公开的实施例的技术方案进行清楚、完整的描述。显然，所描述的实施例是本公开的一部分实施例，而不是全部的实施例。基于所描

述的本公开的实施例，本领域技术人员在无需创造性劳动的前提下所获得0的所有其它实施例，也都属于本公开保护的范围。

参见图1，示出了根据本公开行为识别方法的一个实施例的流程100，该行为识别方法包括以下步骤：

步骤101，基于实时采集或拍摄的待识别视频数据，得到待识别图像帧。

本实施例中，待识别视频数据可以是不同场景下的视频监控数据，不5同场景可以是电梯、广场、小区楼栋、养老院、医院、办公区域等公共场

景；不同场景还可以是监狱、监管所等私密场景，需要说明的是，本公开的技术方案中，所涉及的不同场景的视频监控数据的收集、存储、使用、加工、传输、提供和公开等处理，均符合相关法律法规的规定，且不违背公序良俗。

0本实施例中，可以按照视频的帧率间隔依次读取待识别视频数据，将待识别视频数据经过OpenCV(跨平台计算机视觉和机器学习软件库)处理生成待识别图像帧。可选地，还可以采用其它视频软件，将待识别视频数据转化为待识别图像帧。

步骤102，实时检测待识别图像帧中是否具有目标对象。

5本实施例中，目标对象是行为识别方法运行于其上的执行主体监测的一种对象，也是待识别图像帧中人员在当前场景或当前时间段操作的对象，

例如，办公场景下，目标对象为香烟，办公环境下不允许工作人员吸烟，当在办公环境下工作人员吸烟被检测到之后，确定人员对香烟的异常行为。再如，在检察领域，目标对象是移动终端，移动终端可以是手机，玩手机是监狱执法过程中需要禁止值班干警的操作，此时检测到干警玩手机，确定干警对手机的异常行为。

本实施例中，基于目标对象具有的独特的形状和颜色特征，可以通过图像识别技术确定待识别图像帧中是否具有目标对象，例如，移动终端是长方体形状且具有不同颜色的物体，香烟是圆柱形状且颜色是白色的物体。步骤103，响应于检测到待识别图像帧中具有目标对象，对目标对象进行追踪，得到目标对象的位置信息。

本实施例中，可以采用目标检测跟踪模型对目标对象进行追踪，对待识别图像帧中目标对象进行唯一标识标记以及位置标记，由于待识别图像帧中目标对象可以是多类目标对象，例如，在待识别图像帧中既具有香烟，又具有移动终端，通过目标跟踪模型可以得到各类目标对象的目标对象的位置信息，其中，每个位置信息包括：目标对象的位置和目标对象标识。目标对象标识为不同类型手机的编号，例如，不同待识别图像帧中手机标记编号分别为C1，C2，C3，…Cn(n为大于3的自然数)，目标跟踪模型记录每帧待识别图像帧目标对象的唯一标识和目标对象的位置(x_c，y_c)。

本实施例中，目标检测跟踪模型包括目标检测模块和目标跟踪模型，其中，目标检测模型可以采用R-CNN(区域神经网络)模型，目标跟踪模型可以采用deep_sort(深度排序)模型。

步骤104，获取待识别图像帧中人员的目标骨骼关键点位置。

本实施例中，人员是行为识别方法运行于其上的执行主体对待识别图像帧中除目标对象之外监测的另一种对象，在待识别图像帧中具有目标对象时，此时可能目标对象与人员没有关系仅仅位于图像中，还可能目标对象正被人员操作，具体地，通过获取人员的目标骨骼关键点位置可以确定目标对象与人员之间的关系。

可选地，为了更加清楚监控的人员的情况，在获取待识别图像帧中人员的目标骨骼关键点位置之前，还可以通过识别技术识别待识别图像帧中的人员，以确认该人员为行为识别方法运行于其上的执行主体监测的人员。例如，当人员为值班干警，通过图像识别技术确认待识别图像帧中穿制服的人员。

本实施例中，待识别图像帧中可以具有至少一个人员，通过对每个人员进行骨骼关键点检测，得到每个人员的人体骨骼关键点位置。具体地，可以采用成熟的骨骼关键点检测算法(如OpenPose算法)，可选地，还可以将待识别图像帧输入到SPPE(Single-PersonPose Estimator，单人姿势估计)网络中，获得人体骨骼关键点位置。

本实施例中，目标骨骼关键点位置是目标骨骼关键点对应的位置信息，目标骨骼关键点是与目标对象最相关的骨骼关键点，例如，在目标对象为手持移动终端时，目标骨骼关键点可以是左眼、右眼关键点。在目标对象为香烟时，目标骨骼关键点可以是左腕或右腕关键点。

步骤105，基于目标骨骼关键点位置和目标对象的位置信息，确定人员对目标对象的行为。

本实施例中，在得到目标骨骼关键点位置和目标对象的位置信息之后，基于目标骨骼关键点与目标对象在实际的位置关系，可以确认人员对目标对象进行操作的异常行为和正常行为。

具体地，上述基于目标骨骼关键点位置和目标对象的位置信息，确定人员对目标对象的行为，包括：针对各个目标对象标识下的目标对象，连接左眼关键点位置或右眼关键点位置至该目标对象的位置之间连线，响应于该连线的长度大于预设的可视距离(可以基于人员情况而设置，例如，预设的可视距离为300～500m)，确定人员对目标对象进行操作的正常行为。

本公开提供的行为识别方法，首先，基于实时采集或拍摄的待识别视频数据，得到待识别图像帧；其次，实时检测待识别图像帧中是否具有目标对象；再次，响应于检测到待识别图像帧中具有目标对象，对目标对象进行追踪，得到目标对象的位置信息；从次，获取待识别图像帧中人员的目标骨骼关键点位置；最后，基于目标骨骼关键点位置和目标对象的位置信息，确定人员对目标对象的行为。由此，在检测到目标对象之后，追踪目标对象并且识别人员的目标骨骼关键点位置，基于目标骨骼关键点与目标对象之间的位置关系，确定人员对目标对象的行为，提高了人员对目标对象进行操作时行为检测的准确性。

可选地，在本公开的另一个实施例中，上述行为识别方法包括：基于实时采集或拍摄的待识别视频数据，得到待识别图像帧；确定待识别图像帧所在时刻；检测所在时刻是否为人员工作时间；响应于待识别图像所在时刻为人员工作时间，实时检测待识别图像帧中是否具有目标对象；响应于检测到待识别图像帧中具有目标对象，对目标对象进行追踪，得到目标对象的位置信息；获取待识别图像帧中人员的目标骨骼关键点位置；基于目标骨骼关键点位置和目标对象的位置信息，确定人员对目标对象的行为；响应于人员对目标对象的行为为异常行为，发出人员具有异常行为的预警信息。

本实施例中，所在时刻可以通过采集当前时间得的，所在时刻也可以通过采集拍摄待识别视频数据的设备的时间得到。

为了有效地排除人员临时对目标对象的观看操作，可选地，在确定人员对目标对象的异常行为之后，上述行为识别方法还可以包括：开始进行时间阈值的计时，在计时过程中实时采集第一视频数据，基于第一视频数据中目标骨骼关键点位置和目标对象的位置信息，确定人员对目标对象的实际行为。其中，人员对目标对象的实际行为可以是：人员长时操作目标对象，或者人员短时操作目标，将长时操作目标对象的人员作为行为异常人员。

在本公开的一些可选实现方式中，上述获取待识别图像帧中人员的目标骨骼关键点位置，包括：提取待识别图像帧中的人体骨骼关键点位置；识别人体骨骼关键点位置中的目标骨骼关键点位置。

本可选实现方式中，待识别图像帧中的人体骨骼关键点是人员在待识别图像帧中呈现的所有骨骼关键点，为了对人员操作目标对象的行为进行有效识别，选取所有骨骼关键点中的目标骨骼关键点。

本可选实现方式中，采用不同的骨骼关键点检测算法得到不同的数目的人体骨骼关键点位置，例如，采用一些骨骼关键点检测算法(如OpenPose)可以得到18个人体骨骼关键点，采用另一些骨骼关键点检测算法，可以得到17个人体骨骼关键点，如图2所示，为通过PoseNet(姿态网)模型得到的人体的17个人体骨骼关键点位置，PoseNet模型是一个深度学习模型，它可以通过检测肘部、臀部、手腕、膝盖、脚踝等身体部位来估计人体姿势，并通过连接人体骨骼关键点形成姿势的骨架结构。PoseNet模型通过ImageNet(图像网络)数据集上训练，主要用于类别中的图像分类和目标估计。它是一个轻量级模型，它使用深度可分离卷积来加深网络并减少参数、计算成本并提高准确性。PoseNet模型提供了总共17个可以使用的关键点，从眼睛到耳朵，再到膝盖和脚踝。

本可选实现方式中，目标骨骼关键点是与目标对象最相关的关键点，在人员操作目标对象时，目标骨骼关键点起主要的支持作用。

本可选实现方式提供的获取人员的目标骨骼关键点位置，先提取人员的所有的人体骨骼关键点位置，再选取其中的目标骨骼关键点位置，为目标骨骼关键点选取提供了可靠的依据，提高了选取的目标关键点位置的准确性。

在本公开的一些可选实现方式中，上述目标骨骼关键点位置包括：手腕关键点位置和鼻关键点位置；目标对象的位置信息包括：目标对象的位置和目标对象标识，基于目标骨骼关键点位置和目标对象的位置信息，确定人员对目标对象的行为，包括：针对各个目标对象标识下的目标对象，检测手腕关键点位置至该目标对象的位置的距离是否小于第一距离阈值；响应于手腕关键点位置至该目标对象的位置的距离小于第一距离阈值，检测该目标对象的位置至鼻关键点位置的距离是否小于第二距离阈值，第一距离阈值小于第二距离阈值；响应于该目标对象的位置至鼻关键点位置的距离小于第二距离阈值，确定人员对该目标对象的异常行为。

本可选实现方式中，手腕关键点位置可以包括：左腕关键点位置或右腕关键点位置，如图2所示采用PoseNet模型得到左腕关键点L和右腕关键点R以及鼻关键点N。

基于目标对象的坐标(x_c，y_c)以及人体骨骼关键节点提取的左腕关键点位置L(x_l，y_l)、右腕关键点位置(x_r，y_r)以及鼻关键点位置(x_n，y_n)，使用欧式距离的计算方式计算三个值，分别为目标对象坐标至左腕关键点位置的距离d₁，目标对象坐标至右腕关键点位置的距离d₂以及目标对象坐标至鼻关键点位置的距离d₃。通过阈值设置的方式自定义人员对目标对象操作的行为规则，判断是否存在异常行为。

本可选实现方式中，第一距离阈值包括：人员操作目标对象状态下，目标对象坐标至左腕关键点位置的第一子距离阈值s₁，目标对象坐标至右腕关键点位置的第二子距离阈值s₂。目标对象坐标至鼻关键点位置的第二距离阈值s₃。当待识别视频数据中目标对象坐标至左腕关键点位置的距离d₁<第一子距离阈值s₁且目标对象坐标至鼻关键点位置的距离d₃<阈值s₃；

或者目标对象坐标至左腕关键点位置的距离d₂<第一子距离阈值s₂且目标对象坐标至鼻关键点位置的距离d₃<第二距离阈值s₃时，则判定为该值班人员为人员对目标对象的异常行为，此时说明人员正在玩手机或者正在吸烟。

本可选实现方式中，人员对目标对象的异常行为是指在当前时间段或当前场景中不允许人员对目标对象的操作状态。而人员对目标对象的正常行为是指在当前时间段或当前场景中允许人员对目标对象的操作状态。

本可选实现方式提供的确定人员对目标对象的行为的方法，通过手腕关键点位置、鼻关键点位置分别与目标对象的位置之间的距离信息，确定了人员对目标对象的异常行为，为异常行为的确定提供了一种可选方式。

在本公开的一些可选实现方式中，上述目标骨骼关键点位置包括：手腕关键点位置和颈关键点位置；目标对象的位置信息包括：目标对象的位置和目标对象标识，基于目标骨骼关键点位置和目标对象的位置信息，确定人员对目标对象的行为，包括：

针对各个目标对象标识下的目标对象，检测手腕关键点位置至该目标对象的位置的距离是否小于第一距离阈值；响应于手腕关键点位置至该目标对象的位置的距离小于第一距离阈值，检测该目标对象的位置至颈关键点位置的距离是否小于第三距离阈值，第一距离阈值小于第三距离阈值；响应于该目标对象的位置至颈关键点位置的距离小于第三距离阈值，确定人员对该目标对象的异常行为。

本可选实现方式中，可以采用成熟的骨骼关键点检测算法检测得到颈关键点位置，进一步，采用欧式距离公式计算得到目标对象的位置至颈关键点位置的距离。

本可选实现方式提供的确定人员对目标对象的行为的方法，通过手腕关键点位置、颈关键点位置分别与目标对象的位置之间的距离信息，确定了人员对目标对象的异常行为，为异常行为的确定提供了另一种可选方式。

继续参见图3，示出了根据本公开行为识别方法的另一个实施例的流程300，该行为识别方法包括以下步骤：

步骤301，基于实时采集或拍摄的待识别视频数据，得到待识别图像帧。

步骤302，实时检测待识别图像帧中是否具有目标对象；若具有目标对象，执行步骤303。

步骤303，对目标对象进行追踪，得到目标对象的位置和目标对象标识。

步骤304，获取待识别图像帧中人员的手腕关键点位置和鼻关键点位置。

步骤305，针对各个目标对象标识下的目标对象，检测该目标对象标识下手腕关键点位置至目标对象的位置的距离是否小于第一距离阈值；若小于第一距离阈值，执行步骤306；否则执行步骤309。

步骤306，检测该目标对象标识下目标对象的位置至鼻关键点位置的距离是否小于第二距离阈值；若小于第二距离阈值，执行步骤307；否则，执行步骤309。

步骤307，确定人员对目标对象的异常行为。

应当理解，上述步骤301-步骤307中的操作和特征，分别与步骤101-步骤105中的操作和特征，以及上述可选实现方式中描述的操作和特征相对应，因此，上述在步骤101-步骤105以及可选实现方式中对于操作和特征的描述，同样适应于步骤301-步骤307，在此不再赘述。

步骤308，对人员进行异常行为标注，并发出人员具有异常行为的预警信息。

本实施例中，对人员进行异常行为标注是指记录当前待识别图像帧为具有异常操作人员的图像帧，异常操作人员是正在进行异常行为操作的人员，具体可以通过人员的标识确定，例如，当确定存在人员有玩手机行为时，对玩手机具体人体进行标识。

本实施例中，预警信息的具体可以与人员相关，例如，预警信息为“xx人员正在进行异常行为操作”或者“xx位置的人员正在进行异常行为操作”。

可选地，本实施例提供的行为识别方法还可以包括：截取并保存待识别视频数据中具有人员对目标对象的异常行为的片段，以方便后期进行异常行为人工审核和督查。

步骤309，确定人员对目标对象的正常行为。

本实施例提供的行为识别方法，基于图像帧中人员的手腕关键点位置、鼻关键点位置以及目标对象的位置之间的距离关系，检测不同标识下的目标对象是否在人员手中，确定人员对目标对象的异常行为并发出人员具有异常行为的预警信息，为监测人员在工作时间玩移动终端或者吸烟等异常行为提供了可靠的监测基础。

在本公开的一些可选实现方式中，上述实时检测待识别图像帧中是否具有目标对象包括：采用目标对象的目标检测模型对待识别图像帧中的目标对象进行实时检测；目标检测模型为对基础模型调参之后得到的模型。

本实施例中，基础模型可以是基于YOLO(You Only Look Once，指只需要浏览一次就可以识别出图中的物体的类别和位置)的模型，YOLO模型可以在一张图片中找到某些特定物体，不仅可以识别到该物体的种类，还可以标出这些物体的位置。具体地，YOLO模型可以采用YOLOv5模型。

本可选实现方式提供的检测目标对象的方法，采用目标检测模型对待识别图像进行实时检测，提高了目标对象确定的可靠性；进一步，目标检测模型在基础模型的基础上调参得到，简化了目标检测模型得到步骤，节省了数据计算量。

在本公开的一些可选实现方式中，目标检测模型采用如下步骤训练得到：采集不同人员对目标对象进行操作的样本视频数据；按照预设帧率间隔截取样本视频数据，得到样本图像数据；采用图像标注工具对样本图像数据中的目标对象进行样本标注，得到图像样本；基于图像样本对基础模型进行训练，得到目标检测模型。

本可选实现方式中，由于工作区域等条件的限制，可能无法从真实环境得到样本的数据，为此，可以采用模拟视频数据作为样本视频数据，具体地：由于无法获取到真实环境的对目标对象进行操作的视频数据用于技术研究，在实地调研的基础上，根据待识别视频数据对应的区域的实时及历史视频数据，在充分分析人员对目标对象进行操作时行为的基础上，总结出了人员对目标对象进行操作的环境、姿态等情况，因此，模拟视频数据是充分模拟真实的人员对目标对象进行操作的视频数据。

可选地，还可以从开放的模型样本库中获取具有目标对象的样本视频数据，其中，基于对目标对象检测种类的需求不同，样本视频数据的内容不同，例如，当目标对象为移动终端时，样本视频数据的内容是包括多个手持移动终端的工作人员的视频；当目标对象为香烟时，样本视频数据的内容是多个手持香烟的工作人员的视频数据。

在目标对象为手机且对值班室人员进行监测时，样本视频数据得到过程如下所示：采集手机应用类似场景的样本视频数据。样本视频数据例如可以是采集了19个玩手机行为识别数据，其中值班人员的玩手机行为涵盖坐着玩、站着玩、蹲着玩以及爬着玩等类型，同时也模拟了多人玩手机的情况或者视频画面中部分人员玩手机，其余不玩手机等情况，同时为了验证模型的效果，也拍摄了与玩手机较为难以区分的打电话的视频数据。在拍摄时，考虑了不同监控角度以及不同时间段的值班情况，在这种情况下，手机的形状也会发生不同程度的展示。

在对值班人员玩手机行为的识别过程中，首先应该识别的手机这一实体。由于手机实体属于视频画面中一个相对较小的物体，同时，收到不同角度的影响，手机的形状也不断的变化，因此需要进行手机识别模型的标注与识别模型构建训练与测试。具体地，可以使用基于yolov5的目标检测模型实现目标检测模型构建。

目标检测模型的训练过程如下所示：1)将采集的样本视频数据按照帧率25fps间隔截取不同的图像数据。2)使用图像标注工具(如LabelImg工具)完成值班人员手机目标的YOLO格式标注，如标注标签为“cellphone”。将数据集按照8:2的比例划分为训练集和验证集。3)基于预训练的模型权重进行基于本数据集的手机目标检测再识别训练，基于上述标记的数据在YOLOv5目标检测预训练模型的基础上进行模型微调，获得值班手机目标检测模型。

本可选实现方式提供的目标检测模型，可以有效地监督值班干警玩手机行为，利用深度学习视频行为检测、人体关键点检测、规则判别等方法，对值班干警玩手机行为进行准确识别和预警，并实现对玩手机行为视频片段进行自动保存和记录，有助检察督查人员进行进一步审查和判断，从而降低值班人员的违规情况，提升了监狱执法安全管理效率。

本可选实现方式提供的目标检测模型训练方法，选取图像样本之后，对基础模型进行训练，简化了目标检测模型得到流程，提高了目标检测模型得到的可靠性。

进一步参考图4，作为对上述各图所示方法的实现，本公开提供了一种行为识别装置的一个实施例，该装置实施例与图1所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图4所示，本实施例的行为识别装置400可以包括：得到单元401，检测单元402，追踪单元403，获取单元404，确定单元405。其中，上述得到单元401，可以被配置成基于实时采集或拍摄的待识别视频数据，得到待识别图像帧。上述检测单元402，可以被配置成实时检测待识别图像帧中是否具有目标对象。上述追踪单元403，可以被配置成响应于检测到待识别图像帧中具有目标对象，对目标对象进行追踪，得到目标对象的位置信息。上述获取单元404，可以被配置成获取待识别图像帧中人员的目标骨骼关键点位置。上述确定单元405，可以被配置成基于目标骨骼关键点位置和目标对象的位置信息，确定人员对目标对象的行为。

在本公开的一些实施例中，上述获取单元403进一步被配置成：提取待识别图像帧中的人体骨骼关键点位置；识别人体骨骼关键点位置中的目标骨骼关键点位置。

在本公开的一些实施例中，上述目标骨骼关键点位置包括：手腕关键点位置和鼻关键点位置；目标对象的位置信息包括：目标对象的位置和目标对象标识，上述确定单元405进一步被配置成：针对各个目标对象标识下的目标对象，检测手腕关键点位置至该目标对象的位置的距离是否小于第一距离阈值；响应于手腕关键点位置至该目标对象的位置的距离小于第一距离阈值，检测该目标对象的位置至鼻关键点位置的距离是否小于第二距离阈值，第一距离阈值小于第二距离阈值；响应于该目标对象的位置至鼻关键点位置的距离小于第二距离阈值，确定人员对该目标对象的异常行为。

在本公开的一些实施例中，上述目标骨骼关键点位置包括：手腕关键点位置和颈关键点位置；目标对象的位置信息包括：目标对象的位置和目标对象标识，上述确定单元405进一步被配置成：针对各个目标对象标识下的目标对象，检测手腕关键点位置至目标对象的位置的距离是否小于第一距离阈值；响应于手腕关键点位置至目标对象的位置的距离小于第一距离阈值，检测目标对象的位置至颈关键点位置的距离是否小于第三距离阈值，第一距离阈值小于第三距离阈值；响应于目标对象的位置至颈关键点位置的距离小于第三距离阈值，确定人员对目标对象的异常行为。

在本公开的一些实施例中，上述装置400还包括：报警单元，被配置成对人员进行异常行为标注，并发出人员具有异常行为的预警信息。

在本公开的一些实施例中，上述检测单元402进一步被配置成：采用目标对象的目标检测模型对待识别图像帧中的目标对象进行实时检测；目标检测模型为对基础模型调参之后得到的模型。

本公开提供的行为识别装置，首先，得到单元401基于实时采集或拍摄的待识别视频数据，得到待识别图像帧；其次，检测单元402实时检测待识别图像帧中是否具有目标对象；再次，追踪单元403响应于检测到待识别图像帧中具有目标对象，对目标对象进行追踪，得到目标对象的位置信息；从次，获取单元404获取待识别图像帧中人员的目标骨骼关键点位置；最后，确定单元405基于目标骨骼关键点位置和目标对象的位置信息，确定人员对目标对象的行为。由此，在检测到目标对象之后，追踪目标对象并且识别人员的目标骨骼关键点位置，基于目标骨骼关键点与目标对象之间的位置关系，确定人员对目标对象的行为，提高了人员对目标对象进行操作时行为检测的准确性。

图5示出了用来实现本公开实施例的行为识别方法的电子设备500的示意性框图。如图5所示，该装置500可包括处理器501和存储有计算机程序的存储器502。当计算机程序由处理器501执行时，使得装置500可执行如图1所示的方法100的步骤。在一个示例中，装置500可以是计算机设备或云计算节点。

在本公开的实施例中，处理器501可以是例如中央处理单元(CPU)、微处理器、数字信号处理器(DSP)、基于多核的处理器架构的处理器等。存储器502可以是使用数据存储技术实现的任何类型的存储器，包括但不限于随机存取存储器、只读存储器、基于半导体的存储器、闪存、磁盘存储器等。

此外，在本公开的实施例中，装置500也可包括输入设备503，例如麦克风、键盘、鼠标等，用于输入待混合的多个多媒体文件。另外，装置500还可包括输出设备504，例如扩音器、显示器等，用于输出混合后的多媒体文件。

本公开实施例提供的行为识别装置可以应用于任何具有显示功能的产品，例如，电子纸、移动电话、平板电脑、电视机、笔记本电脑、数码相框、可穿戴设备或导航仪等。

在本公开的其它实施例中，还提供了一种存储有计算机程序的计算机可读存储介质，其中，计算机程序在由处理器执行时能够实现如图1至图3所示的方法的步骤。

附图中的流程图和框图显示了根据本公开的多个实施例的装置和方法的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

除非上下文中另外明确地指出，否则在本文和所附权利要求中所使用的词语的单数形式包括复数，反之亦然。因而，当提及单数时，通常包括相应术语的复数。相似地，措辞“包含”和“包括”将解释为包含在内而不是独占性地。同样地，术语“包括”和“或”应当解释为包括在内的，除非本文中明确禁止这样的解释。在本文中使用术语“示例”之处，特别是当其位于一组术语之后时，“示例”仅仅是示例性的和阐述性的，且不应当被认为是独占性的或广泛性的。

适应性的进一步的方面和范围从本文中提供的描述变得明显。应当理解，本申请的各个方面可以单独或者与一个或多个其它方面组合实施。还应当理解，本文中的描述和特定实施例旨在仅说明的目的并不旨在限制本申请的范围。

以上对本公开的若干实施例进行了详细描述，但显然，本领域技术人员可以在不脱离本公开的精神和范围的情况下对本公开的实施例进行各种修改和变型。本公开的保护范围由所附的权利要求限定。

Claims

1.一种行为识别方法，所述方法包括：

基于实时采集或拍摄的待识别视频数据，得到待识别图像帧；

实时检测所述待识别图像帧中是否具有目标对象；

响应于检测到所述待识别图像帧中具有所述目标对象，对所述目标对象进行追踪，得到所述目标对象的位置信息；

获取所述待识别图像帧中人员的目标骨骼关键点位置；

基于所述目标骨骼关键点位置和所述目标对象的位置信息，确定所述人员对所述目标对象的行为。

2.根据权利要求1所述的方法，其中，所述获取所述待识别图像帧中人员的目标骨骼关键点位置，包括：

提取所述待识别图像帧中的人体骨骼关键点位置；

识别所述人体骨骼关键点位置中的目标骨骼关键点位置。

3.根据权利要求1所述的方法，其中，所述目标骨骼关键点位置包括：手腕关键点位置和鼻关键点位置；所述目标对象的位置信息包括：目标对象的位置和目标对象标识，所述基于所述目标骨骼关键点位置和所述目标对象的位置信息，确定所述人员对所述目标对象的行为，包括：

针对各个目标对象标识下的目标对象，检测所述手腕关键点位置至该目标对象的位置的距离是否小于第一距离阈值；

响应于所述手腕关键点位置至该目标对象的位置的距离小于第一距离阈值，检测该目标对象的位置至所述鼻关键点位置的距离是否小于第二距离阈值，所述第一距离阈值小于所述第二距离阈值；

响应于该目标对象的位置至所述鼻关键点位置的距离小于第二距离阈值，确定所述人员对该目标对象的异常行为。

4.根据权利要求1所述的方法，其中，所述目标骨骼关键点位置包括：手腕关键点位置和颈关键点位置；所述目标对象的位置信息包括：目标对象的位置和目标对象标识，所述基于所述目标骨骼关键点位置和所述目标对象的位置信息，确定所述人员对所述目标对象的行为，包括：

响应于所述手腕关键点位置至该目标对象的位置的距离小于第一距离阈值，检测该目标对象的位置至所述颈关键点位置的距离是否小于第三距离阈值，所述第一距离阈值小于所述第三距离阈值；

响应于该目标对象的位置至所述颈关键点位置的距离小于第三距离阈值，确定所述人员对该目标对象的异常行为。

5.根据权利要求3或4所述的方法，所述方法还包括：

对所述人员进行异常行为标注，并发出所述人员具有异常行为的预警信息。

6.根据权利要求1所述的方法，其中，所述实时检测所述待识别图像帧中是否具有目标对象包括：

采用目标对象的目标检测模型对所述待识别图像帧中的目标对象进行实时检测；所述目标检测模型为对基础模型调参之后得到的模型。

7.根据权利要求6所述的方法，其中，所述目标检测模型采用如下步骤训练得到：

采集不同人员对所述目标对象进行操作的样本视频数据；

按照预设帧率间隔截取所述样本视频数据，得到样本图像数据；

采用图像标注工具对所述样本图像数据中的目标对象进行样本标注，得到图像样本；

基于所述图像样本对基础模型进行训练，得到所述目标检测模型。

8.一种行为识别装置，所述装置包括：

得到单元，被配置成基于实时采集或拍摄的待识别视频数据，得到待识别图像帧；

检测单元，被配置成实时检测所述待识别图像帧中是否具有目标对象；

追踪单元，被配置成响应于检测到所述待识别图像帧中具有所述目标对象，对所述目标对象进行追踪，得到所述目标对象的位置信息；

获取单元，被配置成获取所述待识别图像帧中人员的目标骨骼关键点位置；

确定单元，被配置成基于所述目标骨骼关键点位置和所述目标对象的位置信息，确定所述人员对所述目标对象的行为。

9.一种电子设备，包括：

至少一个处理器；以及

存储有计算机程序的至少一个存储器；

其中，当所述计算机程序由所述至少一个处理器执行时，使得所述装置执行根据权利要求1至7中任一项所述的方法的步骤。

10.一种存储有计算机程序的计算机可读存储介质，其中，所述计算机程序在由处理器执行时实现根据权利要求1至7中任一项所述的方法的步骤。