CN115861940B

CN115861940B - 基于人体跟踪及识别技术的工作场景行为评估方法及系统

Info

Publication number: CN115861940B
Application number: CN202310164238.7A
Authority: CN
Inventors: 廖万里; 金卓; 谭楷城; 肖飞; 刘金朝
Original assignee: Zhuhai Kingsware Information Technology Co Ltd
Current assignee: Zhuhai Kingsware Information Technology Co Ltd
Priority date: 2023-02-24
Filing date: 2023-02-24
Publication date: 2023-04-28
Anticipated expiration: 2043-02-24
Also published as: CN115861940A

Abstract

本发明公开了基于人体跟踪及识别技术的工作场景行为评估方法及系统，所述评估方法包括以下步骤：预处理步骤；人脸入库步骤；行为判断步骤：代客操作检测、工服工牌检测、POS机转账检测。本发明将人脸与人体跟踪绑定，并优化了基于人脸关键点的质量评估算法，构建一种工作场景下的行为评估系统与装置，能够有效的对厅堂服务管理进行检查，检测特定工作场景中的工作人员是否正确穿戴工服、工牌、是否违规使用pos机进行转账交易、是否出现代替客户操作系统的违规行为、以及按照规定执行“连续在岗”的要求，同时判断厅堂服务是否存在无人补位的情况。

Description

基于人体跟踪及识别技术的工作场景行为评估方法及系统

技术领域

本发明涉及图像处理领域，特别涉及基于人体跟踪及识别技术的工作场景行为评估方法及系统。

背景技术

为规范银行营业网点的日常运营情况，各银行的总行、省支行等会制定一系列的评价指标以评价网点是否按照规章制度正常运营。

营业网点员工是否满足评价指标，通常由监管人员回放营业网点监控视频进行人工查验，该人工查验方式耗费人力物力资源大、具备偶然性。而常规的人工智能解决方案是使用目标检测模型检出视频中的人，然后裁剪出来并使用图像分类模型判断是否有违规情况，该传统人工智能解决方案存在如下三点问题：

1、目标检测模型对视觉上的一类目的进行检测，而实际上同一类物体具备不同的属性或身份，如营业厅中的人可分为工作人员和顾客，此时目标检测模型无法进行区分，降低了模型检测的准确性。

2、监控视频中，帧与帧之间具有空间上的信息，在营业厅场景中体现为人的运动信息、固定区域的图像分布信息。只采用目标检测模型则会丢失空间信息，无法有效的对人员进行跟踪。此外，由于检测仅仅针对于当前帧，因此若存在某几帧的检测情况存在异常，则无法利用上下帧信息对异常进行平滑或修复。

3、没有建立一个统一的信息库对入场人员进行归档、统计与分析，无法精确绑定具体的人员与违规行为。

发明内容

本发明的目的在于克服现有技术的缺点与不足，提供基于人体跟踪及识别技术的工作场景行为评估方法。

本发明的另一目的在于基于人体跟踪及识别技术的工作场景行为评估系统。

本发明的目的通过以下的技术方案实现：

基于人体跟踪及识别技术的工作场景行为评估方法，包括以下步骤：

S1、预处理步骤：对输入的视频连续帧图片进行预处理；

S2、人脸检测步骤：对于待检测图片，首先获得人脸检测框坐标以及人脸关键点坐标；然后通过正脸检测算法判断传入的人脸图像是否为正脸，以及正脸质量是否能够被接受；若能够接受，则输入到人脸对齐模块经过关键点对齐后，转化为向量；最后进行比对查询，找到相似度最高的人脸向量作为结果输出；

所述正脸检测算法，利用人脸关键点判断传入的人脸图像是否能够接受，并建立几何模型描述人脸偏离程度，采用阈值模式控制可接受的偏离程度；

所述人脸对齐模块，采用仿射变换方法将人脸图像最大可能映射到标准人脸模板，由此将人脸对齐并转化为向量；

S3、人脸入库步骤：将向量化后的人脸图像录入到人脸数据库；

S4、行为判断步骤：

代客操作检测：首先对视频帧进行目标检测，将检测到的人体框输入到人体关键点识别模型中获取到每个目标框中的人物的关键点；通过人体检测框、脸框匹配算法获取该目标框中的人物身份信息，将工作人员的手部关键点提取出来；随后，以手机检测目标框的中心为圆心，以自定义告警距离r为半径绘制警戒区域，若工作人员的手部关键点在警戒圆内，则判定为代客操作进行告警；

工服检测：通过人体检测框、脸框匹配算法获取该目标框中的人物身份信息；使用目标检测模型检测当前帧图片，然后计算工服目标框与工作人员的人体目标框计算IOU（交并比），若IOU大于预设的阈值，则认为该工服与该工作人员id匹配，即穿着工服；若连续超过预设帧数（例如20帧）检测到该id穿着工服，则不再对该id进行工服检测（以节省资源），并认为该工作人员穿着工服，反之认为没有穿着工服，进行系统告警；

工牌检测：通过人体检测框、脸框匹配算法获取该目标框中的人物身份信息；使用目标检测模型检测当前帧图片，然后计算工牌目标框与工作人员的人体目标框计算IOU，若IOU大于预设的阈值，则认为该工牌与该工作人员id匹配，即佩戴工牌；若连续超过预设帧数检测到该id佩戴工牌，则不再对该id进行工牌检测，并认为该工作人员佩戴工牌，反之认为没有佩戴工牌，进行系统告警；

POS机转账检测：若连续超过预设帧数（例如20帧）检测到了POS机，则直接进行系统告警。

步骤S2中，所述正脸检测算法，具体如下：

定义右眼的中心点、左眼的中心点、嘴角的左点、嘴角的右点、鼻尖所在点为人脸关键点，分别设为P1、P2、P3、P4和P5；

设人脸关键点P1、P2、P5所形成的三角形面积设为S1；

设人脸关键点P2、P3、P5所形成的三角形面积设为S2；

设人脸关键点P3、P4、P5所形成的三角形面积设为S3；

设人脸关键点P4、P1、P5所形成的三角形面积设为S4；

设人脸关键点P1、P2、P3、P4所形成的四边形的面积为

，定义正脸判断变量

为如下关系式：

易知，当人脸关键点P5在由人脸关键点P1、P2、P3、P4所形成的四边形内，正脸判断变量

为0，则认定该人脸图像能够接受；当人脸关键点P5在由人脸关键点P1、P2、P3、P4所形成的四边形外，正脸判断变量

不为0，

的绝对值为正脸系数，根据场景设置正脸系数，用于增加参与人脸识别的人脸范围。此时将

设为分母的意义主要在于控制那些微微超出正脸范围的脸。当

不为0时，其绝对值越大也说明侧脸程度越高（90°内），因此对于一些场景下，微微超出正脸范围的脸还是能够接受的。以

作为分母就是为了归一化的去衡量超出程度，便于设置阈值。

步骤S2中，所述正脸检测算法设置侧脸侧移变量

，用于衡量侧脸偏移程度，设人脸关键点P1、P2、P3、P4分别与人脸关键点P5的连线长度依次为

、

、

、

，则侧脸侧移变量

定义如下：

由此可知，侧脸侧移变量

是一个在0到1之间的变量，通过设置阈值来筛选掉侧脸偏移过大的人脸。

步骤S2中，所述人脸对齐模块，具体工作过程为：输入一个人脸的关键点信息，与标准人脸关键点对应形成坐标对并建立带未知参数的方程组；使用最小均方估计求解方程未知参数，得到仿射变换矩阵。

步骤S1中，所述预处理包括对标注规范重新定义，若图片中目标人物出现被遮挡的情况，则需要将被遮挡部分也标注出来。

步骤S1中，所述预处理包括使用数据集标注平台CVAT，并采用矩形框对数据集进行标注，将“person”作为人的标识；对于遮挡部分，要求框选其被遮挡部分；若被遮挡部分难以推测，则给出一个大致的框即可；其他类别将通过不同场景的需求添加不同的类别加入进行训练。

步骤S1中，所述预处理包括使用Mosaic以及MixUp的数据增强方式丰富数据集，以增强训练好的目标检测模型的泛化能力。

步骤S2中，所述人脸检测框坐标以及人脸关键点坐标通过ScrFD模型推理获得。

步骤S2中，所述比对查询是在ElasticSearch向量数据库中进行。

步骤S3中，所述人脸入库步骤将小于分辨率阈值的人脸图像加入padding操作，使得该人脸图像的整体图像大小与入库大小一致，由此使得该人脸图像完成入库。

步骤S4中，所述人体检测框、脸框匹配算法仅对目标框上30%的区域进行人脸检测，而其他区域若包含了人脸框则不做匹配，实现了人物、人脸的持续跟踪绑定；同时在目标跟踪中，使用了卡尔曼滤波器进行估计目标在下一帧的位置。

步骤S4中，所述两个目标检测模型包括第一yolox-s目标检测模型、第二yolox-s目标检测模型；以mAP为参考标准，采用消融实验的方式确定第一、二yolox-s目标检测模型的检测目标：第一yolox-s目标检测模型检测人体、手机，第二yolox-s目标检测模型检测工服、工牌、POS机。

所述行为判断步骤还包括无人补位判断：通过人体检测框、脸框匹配算法中获取该目标框中的人物身份信息，首先在监控画面内标定一块区域，为警戒区域；若警戒区域内没有任何人，则不做无人补位判断；若警戒区域内有非工作人员在内，但在一定时间内没有工作人员出现在该区域，则进行系统告警。

本发明的另一目的通过以下的技术方案实现：

基于人体跟踪及识别技术的工作场景行为评估系统，包括预处理模块、人脸检测模块、人脸入库模块和行为判断模块；其中，

预处理模块，用于对输入的视频连续帧图片进行预处理；

人脸检测模块：对于待检测图片，首先获得人脸检测框坐标以及人脸关键点坐标；然后通过正脸检测算法判断传入的人脸图像是否为正脸，以及正脸质量是否能够被接受；若能够接受，则输入到人脸对齐模块经过关键点对齐后，转化为向量；最后进行比对查询，找到相似度最高的人脸向量作为结果输出；所述正脸检测算法，利用人脸关键点判断传入的人脸图像是否能够接受，并建立几何模型描述人脸偏离程度，采用阈值模式控制可接受的偏离程度；所述人脸对齐模块，采用仿射变换方法将人脸图像最大可能映射到标准人脸模板，由此将人脸对齐并转化为向量；

人脸入库模块，将向量化后的人脸图像录入到人脸数据库；

行为判断模块：包括代客操作检测模块、工服检测模块、工牌检测模块、POS机转账检测模块；其中：

代客操作检测模块首先对视频帧进行目标检测，将检测到的人体框输入到人体关键点识别模型中获取到每个目标框中的人物的关键点；通过人体检测框、脸框匹配算法获取该目标框中的人物身份信息，将工作人员的手部关键点提取出来；随后，以手机检测目标框的中心为圆心，以自定义告警距离r为半径绘制警戒区域，若工作人员的手部关键点在警戒圆内，则判定为代客操作进行告警；

工服检测模块通过人体检测框、脸框匹配算法获取该目标框中的人物身份信息；使用目标检测模型检测当前帧图片，然后计算工服目标框与工作人员的人体目标框计算IOU（交并比），若IOU大于预设的阈值，则认为该工服与该工作人员id匹配，即穿着工服；若连续超过预设帧数（例如20帧）检测到该id穿着工服，则不再对该id进行工服检测（以节省资源），并认为该工作人员穿着工服，反之认为没有穿着工服，进行系统告警；

工牌检测模块通过人体检测框、脸框匹配算法获取该目标框中的人物身份信息；使用目标检测模型检测当前帧图片，然后计算工牌目标框与工作人员的人体目标框计算IOU，若IOU大于预设的阈值，则认为该工牌与该工作人员id匹配，即佩戴工牌；若连续超过预设帧数检测到该id佩戴工牌，则不再对该id进行工牌检测，并认为该工作人员佩戴工牌，反之认为没有佩戴工牌，进行系统告警；

POS机转账检测模块：若连续超过预设帧数（例如20帧）检测到了POS机，则直接进行系统告警。

本发明与现有技术相比，具有如下优点和有益效果：

1、本发明将人脸与人体跟踪绑定，并优化了基于人脸关键点的质量评估算法，构建一种工作场景下的行为评估系统与装置，能够有效的对厅堂服务管理进行检查，检测特定工作场景中的工作人员是否正确穿戴工服、工牌、是否违规使用pos机进行转账交易、是否出现代替客户操作系统的违规行为、以及按照规定执行“连续在岗”的要求，同时判断厅堂服务是否存在无人补位的情况。

2、本发明结合目标检测、目标跟踪和人脸识别模型，实现了工作场景的行为评估，整体系统能够检测特定工作场景中的工作人员是否按照规定执行，具有较高价值。

3、本发明提出了一种工作场景下的人脸图像质量检测，主要包括正脸检测和侧脸检测，能够根据实际场景调整参数，增加输入模型的人脸图像质量，增加人脸识别准确率。

4、本发明提出了一种人脸入库优化方法，解决了低分辨率人脸框难以被人脸检测模型识别，进而无法入库的问题。

5、本发明采用的所有模型与方法都满足实时性，且在人脸服务与目标检测服务之间是异步的，有效解决了不同任务之间需要等待的问题。

6、本发明还可以通过docker镜像进行本地化部署，对环境十分友好，极大的减少部署的时间成本和人力成本。

附图说明

图1为本发明所述基于人体跟踪及识别技术的工作场景行为评估系统的架构示意图。

图2为人脸检测流程图。

图3为

等于0时人脸图像的人脸关键点示意图。

图4为

不等于0时人脸图像的人脸关键点示意图。

图5为侧脸偏移示意图。

图6为本实施例获得的分割线与旧标注方法分割线对比图。

图7为小分辨人脸图入库优化流程图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

一、基于人体跟踪及识别技术的工作场景行为评估系统

其系统逻辑架构方式分为两层，分别是服务层和基础层，如图1所示。

1、服务层

在顶层服务层，架构包括各类检测与识别模块。在不同模块中，通过管道的方式进行结果之间的通讯。在检测模块中，目标跟踪与目标检测之间采用同步执行的方式，在目标跟踪模块处返回目标检测结果以及跟踪id等信息。

为统一不同模型格式，形成统一规范，采用ONNX的推理方式来提高灵活性。

因此，在模型训练完成后将统一转换为ONNX模型。对于实时性要求较高的目标检测模型，则采用tensorRT的推理方式，可以减少推理时间。

针对人脸相关的架构，采用的方法是：对于摄像头流信息传入管道后，管道收到检测模块获取的检测信息会进行人脸检测与识别，采用“（2）人脸检测模型”所示算法进行人脸、人框匹配，并再次通过管道传入到关键点识别模块进行动作检测。人脸检测与识别采用docker部署的方式，则方便与前端进行交互，增加人脸信息使用的灵活性，且加快了人脸匹配速度。

2、基础层

在基础层，计算芯片可以选择华为昇腾和通用的英伟达，昇腾是华为公司独自开发的AI推理芯片，拥有完善的自主产权；英伟达显卡芯片目前是国际通用的推理芯片，获得市场的广泛认可。若采用昇腾的芯片可采用国际通用的ONNX推理框架，若采用英伟达显卡，可采用TensortRT推理框架，该推理框架由英伟达官方提供并进一步优化AI模型推理在其显卡上的推理效率；在部署方面，采用基于开源Docker的部署方案,同时可配置kubernetes完成对容器集群的管理。存储采用开源的ES、PostgreSQL和Redis。

3、部署方法

在营业厅部署边缘计算设备，处理本营业厅所有理财室实时音视频。处理结果产生的报警信息等上传到中心机房，形成理财室实时监控系统的日志和统计数据，并用丰富的形式展示。

二、基于人体跟踪及识别技术的工作场景行为评估方法

1、实时人脸追踪方法

实时人脸追踪方法主要包括目标检测模型、目标跟踪模型、人脸检测模型和匹配算法，其主要功能为将监控画面中检测到的人物信息进行确认，并判断是否为银行工作人员、安保人员或客户。身份绑定后，身份信息将会与该人物在画面中实时绑定。本专利在通过人脸识别确定人员身份后，对人员在视频中进行轨迹跟踪，从而不需要每帧都进行人脸检测，提高了检测的实时性。

（1）数据收集与预处理

为了使目标检测框的结果更加稳定，特别是框的长宽比的稳定性，需要对标注规范重新定义。不同于VOC、COCO的目标检测标记手法，若目标人物出现被遮挡的情况，则需要将被遮挡部分也标注出来。这种标注方法可以提高检测框的长宽比在遮挡前后的差异减少。一个稳定的目标检测器将会对后续的目标跟踪模型带来良好输入。

此方法对于人脸信息与人框进行匹配有较好作用。相对于传统目标检测方法，本标注方法可促使模型推测遮挡部分，有助于配合后续的匹配算法发挥更稳定的作用。通过一个完整的人框，则可以通过对目标框进行分割快速删去非人脸区域，详见人框匹配算法。

使用数据集标注平台CVAT，采用矩形框对数据集进行标注，将“person”作为人的标识。对于遮挡部分，要求框选其被遮挡部分。若被遮挡部分难以推测，则给出一个大致的框即可。其他类别将通过不同场景的需求添加不同的类别加入进行训练。

最后，使用Mosaic+MixUp的数据增强方式丰富数据集，以增强训练好的目标检测模型的泛化能力。

（2）人脸检测模型

A、人脸检测流程

图片首先通过ScrFD模型推理，获得人脸检测框坐标以及人脸关键点坐标。然后通过正脸检测算法判断传入的人脸是否为正脸，以及正脸质量是否能够被接受。若能够接受，则输入到人脸对齐模块经过关键点对齐后，转化为向量。在ElasticSearch向量数据库中进行比对查询，找到相似度最高的人脸向量作为结果输出。流程可由图2所示流程描述完成。

人脸对齐模块使用人脸检测阶段获取的人脸关键点。本专利采用仿射变换方法将人脸图像最大可能映射到标准人脸模板。模块具体为：输入一个人脸的关键点信息，与标准人脸关键点对应形成坐标对并建立带未知参数的方程组。使用最小均方估计求解方程未知参数，得到仿射变换矩阵。

在后续的流程中，会将人脸识别的结果与人体检测框进行匹配。

B、人脸图像质量检测

众所周知，当人脸图像的质量越差的时候，人脸识别准确率就会越低。在工作场景中，因为摄像头角度固定，因此人脸的质量主要取决于正脸的规范程度，如果只对侧脸进行匹配，则会因为装饰、头型或发型类似而匹配成功。此外，人脸检测器的训练模型正脸的数据量高于侧脸，因此训练出来的模型更擅长分辨正脸。常用的侧脸检测方法是计算五个人脸关键点的置信度，然后编写硬规则判断侧脸与否，其局限性在于置信度的输出来自于深度学习模型，其本身具有的误差加上规则的误差会使得判断失败的可能性叠加，并且不是所有的人脸关键点检测模型都会输出置信度。本专利利用人脸关键点，建立几何模型描述人脸偏离程度，并采用阈值模式控制可接受的偏离程度。该方法的算法复杂度极低，具备高实时性。

本发明设置了两种检测模式，分别是正脸检测和侧脸检测。一般来说，可以用于匹配的脸的侧向介于正脸和90°侧脸之间，因此首先要将显著的侧脸图片给过滤掉。因在人脸识别过程中，人脸图像的质量会显著影响识别、匹配，而作为实际场景中影响很大的一个特点是人脸的正、侧之分。当识别出来的人脸是正脸（正对着摄像头）时，才会去做识别、入库等操作。因此，侧脸和正脸并非是两种检测模式，而是正脸检测的两个结果。

人脸关键点由左右眼的中心点，嘴角的左右两点与鼻尖所在点5个关键点构成，属于人脸内部关键点。分别设为P1，P2，P3，P4和P5，构成了由这5个点相互连接后形成的4个三角形的面积，设为S1，S2，S3，S4。设由P1，P2，P3，P4四个点围成的四边形的面积为

，定义正脸判断变量

为如下关系式：

易知，当点P5在由P1，P2，P3，P4四个点围成四边形内，则

为0，反之不为0。图3和图4分别展示了

等于0和

不等于0的情况：

此外，为了更加有效的控制侧脸的可接受程度，尽量控制人脸质量与检出之间的平衡，在保证了正脸检测通过的情况下，本专利设计了侧脸侧移变量

，用于衡量侧脸的偏移程度。在不同场景，不同角度的摄像头捕捉到侧脸的概率是不同的，因此可以针对场景环境设置不同的侧脸侧移变量。图5展示了可接受的侧脸偏移示意图。

设P1，P2，P3，P4分别与P5的连线长度为

、

、

、

，则侧脸侧移变量

可定义为如下式子：

侧脸侧移变量

是一个在0到1之间的变量，可以通过设置阈值来筛选掉侧脸偏移过大的人脸。

综上所述，通过正脸判断变量

与侧脸侧移变量

，可以实现对输入查询人脸库的人脸图像质量进行有效把控。

需要说明的是，此处通过设置正脸、侧脸判断变量公式来进行过滤，不是常规技术手段，常见处理方式是：人脸检测器的训练模型正脸的数据量高于侧脸，因此训练出来的模型更擅长分辨正脸。常用的侧脸检测方法是计算五个人脸关键点的置信度，然后通过关键点置信度大小编写规则判断侧脸与否，其局限性在于置信度的输出来自于深度学习模型，其本身具有的误差加上规则的误差会使得判断失败的可能性叠加，并且不是所有的人脸关键点检测模型都会输出置信度（如本例使用的SCRFD人脸检测器）。而本专利通过研究发现：在实际业务场景中，由于监控摄像头拍摄角度影响，会导致不同场景的画面中的人脸图像偏向于正脸或侧脸，若能够寻找一个参数去调整正脸的接受程度，则可以根据不同场景设置接受程度，在检出率和准确率之间寻找到最佳平衡。

C、有效性说明

本专利采用统计分析法证明算法有效性。通过收集一百张不同角度的人脸图片，假设正脸与侧脸上限之间的角度范围为90°，则将角度显著大于45°的人脸图片标记为“侧脸”，反之为“正脸”。采用上述人脸质量检测算法进行实验。若推理结果与标签一致则记为正确，反之记为错误。正确率定义为正确样本数量除以总样本数量。最终，本专利使用的正脸检测算法在该数据集上的准确率为92%，故可有效进行人脸质量评估。

此外，由于人脸关键点定位错误，人脸过于模糊等原因，造成了一部分的分类错误。

D、人体检测框框、脸框匹配算法

通常情况下，为了实现人与脸部信息的绑定，通常是判断人脸检测框是否在人体检测框内作为绑定标准。若人脸在人框内部，则会被认为该人脸与该人框匹配。这样的匹配方法没有考虑到脸框对于人框的相对位置，容易造成误绑定或“抢框”。本专利采用区域识别的方式规避误检区域，即仅对目标框上30%的区域进行人脸检测，而其他区域若包含了人脸框则不做匹配。传统的标注方法无法将人体检测框按照人物全身比例进行检出，若继续采用上述所说的区域识别的方法会导致分割出来的头部区域不完全包含人脸区域。采用这种标注方法可以检出正常人体比例的目标检测框，后通过对划分区域进行人脸测，可以对目标检测框内其他的区域位置的“人脸抢框”进行规避。图6说明了本专利采用的标注方法对人脸判定的影响。

通过人框、脸框匹配算法，就实现了人物、人脸的持续跟踪绑定，为后续的工作场景中的身份判定提供了支持。在目标跟踪模块中，使用了卡尔曼滤波器用于估计目标在下一帧的位置，而卡尔曼滤波器考虑了历史状态与观测数据，对当前位置的判断起到了平滑的作用。换而言之，即便当前帧目标检测出现异常偏离，抖动等问题，也能通过该滤波器减少这种异常对定位的影响。

（3）小分辨率人脸入库查询优化

在实际监控场景中，为了拍摄到更多的画面，大部分的监控画面中人物的尺度较小，而人脸由于距离监控远近由于人脸图像需要经过人脸检测模型识别，然后调整至统一大小并对齐，再进行向量化才能录入人脸数据库。但是人脸检测模型获取到的人脸图像可能会因为远近原因造成分辨率很小，而分辨率小的图片在经过入库的放缩步骤中后会变得模糊不清，导致人脸检测模型无法识别，进而无法入库。一般会丢弃这一类人脸图像，但造成人员信息的丢失。本专利采用增加padding的方式，将小于分辨率阈值的人脸图像加入padding操作，使得整体图像大小与入库大小一致，保证了小分辨率人脸图像也能进行入库流程。流程可如图7描述所示。

2、行为判断步骤

本专利主要实现了如下几个违规行为检测：代客操作检测、POS机转账检测、工服检测、工牌检测。人体关键点模型、手机目标检测模型的训练数据来自于实际场景中大量数据。

（1）违规行为警告说明

代客操作：对理财经理代替客户操作APP的行为进行检测，如果检测到代客操作行为，系统记录为告警。

POS机转账检测：对现场POS机转账的行为进行检测，如果检测到现场出现POS机，系统记录为告警。

工服检测：检测现场的理财经理是否正确身着制服，如果检测到没有身着制服，系统记录为告警。

工牌检测：检测现场的理财经理是否正确佩戴了工牌，如果检测到没有正确佩戴工牌，系统记录为告警。

（2）检测类

因实现上述几个违规行为判定需要目标检测模型检测以下物体：人体、手机、POS机、工服与工牌，共计5类，而为了满足实时运行效率，只能满足两个目标检测模型（yolox-s）进行检测，因此需要训练两个多类别目标检测器。本专利以mAP为参考标准，采用消融实验的方式，最终确定以下组合方式效果最好：

目标检测器1：人体、手机

目标检测器2：工服、工牌、POS机。

（3）违规行为判断

A、代客操作检测

首先对视频帧进行目标检测，将检测到的人体框输入到人体关键点识别模型中获取到每个目标框中的人物的关键点。由于在人体检测框、脸框匹配算法中已可以做到获取该目标框中的人物身份信息，将工作人员的手部关键点提取出来。随后，以手机检测目标框的中心为圆心，以自定义告警距离r为半径绘制警戒区域，若工作人员的手部关键点在警戒圆内，则判定为代客操作进行告警。

B、着装检测

由于在人体检测框、脸框匹配算法中已可以做到获取该目标框中的人物身份信息。使用目标检测器2检测当前帧图片，然后计算工服目标框与工作人员的人体目标框计算IOU（交并比），若IOU大于预设的阈值，则认为该工服与该工作人员id匹配，即穿着工服。若连续20帧检测到该id穿着工服，则不再对该id进行工服检测以节省资源，并认为该工作人员穿着工服，反之认为没有穿着工服，进行系统告警。工牌检测方式类似，故不做赘述。

C、POS机检测

POS机作为违禁物品不可出现在理财室内，因此若连续20帧检测到了POS机，则直接进行系统告警。

D、无人补位判断

由于在人体检测框、脸框匹配算法中已可以做到获取该目标框中的人物身份信息。首先在监控画面内标定一块区域，为警戒区域。若警戒区域内没有任何人，则不做无人补位判断。若警戒区域内有非工作人员在内，但在一定时间内没有工作人员出现在该区域，则进行系统告警。

本实施例所采用的SCRFD 是insightface开源的一款人脸检测器，超越了retinaface，特点是数据均衡 sample 方法。

本实施例所采用的Mosaic、MixUp是两种数据增强方法。其中，Mosaic通过将四张图片进行随机裁剪，然后拼接至一张图上作为训练数据，增加了数据的多样性，丰富了图片的背景；而MixUp将随机的两张样本按比例混合，分类的结果按比例分配；他们都是YOLOX模型训练时采用的数据增强方法。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.基于人体跟踪及识别技术的工作场景行为评估方法，其特征在于，包括以下步骤：

S1、预处理步骤：对输入的视频连续帧图片进行预处理；

所述正脸检测算法，具体如下：

设人脸关键点P1、P2、P5所形成的三角形面积设为S1；

设人脸关键点P2、P3、P5所形成的三角形面积设为S2；

设人脸关键点P3、P4、P5所形成的三角形面积设为S3；

设人脸关键点P4、P1、P5所形成的三角形面积设为S4；

设人脸关键点P1、P2、P3、P4所形成的四边形的面积为

，定义正脸判断变量

为如下关系式：

；

不为0，

的绝对值为正脸系数，根据场景设置正脸系数，用于增加参与人脸识别的人脸范围；

S4、行为判断步骤：

工服检测：通过人体检测框、脸框匹配算法获取该目标框中的人物身份信息；使用目标检测模型检测当前帧图片，然后计算工服目标框与工作人员的人体目标框计算IOU，若IOU大于预设的阈值，则认为该工服与该工作人员id匹配，即穿着工服；若连续超过预设帧数检测到该id穿着工服，则不再对该id进行工服检测，并认为该工作人员穿着工服，反之认为没有穿着工服，进行系统告警；

POS机转账检测：若连续超过预设帧数检测到了POS机，则直接进行系统告警；

所述人体检测框、脸框匹配算法仅对目标框上30%的区域进行人脸检测，而其他区域若包含了人脸框则不做匹配，实现了人物、人脸的持续跟踪绑定；同时在目标跟踪中，使用了卡尔曼滤波器进行估计目标在下一帧的位置。

2.根据权利要求1所述基于人体跟踪及识别技术的工作场景行为评估方法，其特征在于，步骤S2中，所述正脸检测算法设置侧脸侧移变量

、

、

、

，则侧脸侧移变量

定义如下：

；

由此可知，侧脸侧移变量

3.根据权利要求1所述基于人体跟踪及识别技术的工作场景行为评估方法，其特征在于，步骤S2中，所述人脸对齐模块，具体工作过程为：输入一个人脸的关键点信息，与标准人脸关键点对应形成坐标对并建立带未知参数的方程组；使用最小均方估计求解方程未知参数，得到仿射变换矩阵。

4.根据权利要求1所述基于人体跟踪及识别技术的工作场景行为评估方法，其特征在于，步骤S1中，所述预处理包括对标注规范重新定义，若图片中目标人物出现被遮挡的情况，则需要将被遮挡部分也标注出来。

5.根据权利要求1所述基于人体跟踪及识别技术的工作场景行为评估方法，其特征在于，步骤S1中，所述预处理包括使用数据集标注平台CVAT，并采用矩形框对数据集进行标注，将“person”作为人的标识；对于遮挡部分，要求框选其被遮挡部分；若被遮挡部分难以推测，则给出一个大致的框即可；其他类别将通过不同场景的需求添加不同的类别加入进行训练。

6.根据权利要求1所述基于人体跟踪及识别技术的工作场景行为评估方法，其特征在于，步骤S3中，所述人脸入库步骤将小于分辨率阈值的人脸图像加入padding操作，使得该人脸图像的整体图像大小与入库大小一致，由此使得该人脸图像完成入库。

7.根据权利要求1所述基于人体跟踪及识别技术的工作场景行为评估方法，其特征在于，所述行为判断步骤还包括无人补位判断：通过人体检测框、脸框匹配算法中获取该目标框中的人物身份信息，首先在监控画面内标定一块区域，为警戒区域；若警戒区域内没有任何人，则不做无人补位判断；若警戒区域内有非工作人员在内，但在一定时间内没有工作人员出现在该区域，则进行系统告警。

8.基于人体跟踪及识别技术的工作场景行为评估系统，其特征在于：用于实现权利要求1至7任一权利要求所述评估方法，包括预处理模块、人脸检测模块、人脸入库模块和行为判断模块；其中，

预处理模块，用于对输入的视频连续帧图片进行预处理；

人脸入库模块，将向量化后的人脸图像录入到人脸数据库；

代客操作检测模块首先对视频帧进行目标检测，将检测到的人体框输入到人体关键点识别模型中获取到每个目标框中的人物的关键点；通过人体检测框、脸框匹配算法获取该目标检测框中的人物身份信息，将工作人员的手部关键点提取出来；随后，以手机检测目标框的中心为圆心，以自定义告警距离r为半径绘制警戒区域，若工作人员的手部关键点在警戒圆内，则判定为代客操作进行告警；

工服检测模块通过人体检测框、脸框匹配算法获取该目标框中的人物身份信息；使用目标检测模型检测当前帧图片，然后计算工服目标框与工作人员的人体目标框计算IOU，若IOU大于预设的阈值，则认为该工服与该工作人员id匹配，即穿着工服；若连续超过预设帧数检测到该id穿着工服，则不再对该id进行工服检测，并认为该工作人员穿着工服，反之认为没有穿着工服，进行系统告警；

POS机转账检测模块：若连续超过预设帧数检测到了POS机，则直接进行系统告警。