CN117935171A

CN117935171A - 一种基于姿态关键点的目标追踪方法及系统

Info

Publication number: CN117935171A
Application number: CN202410310122.4A
Authority: CN
Inventors: 许旭; 夏露; 冯耀; 张孜勉; 覃胤凯; 徐辉; 李艺林; 朱周
Original assignee: China United Network Communications Corp Ltd Hunan Branch
Current assignee: China United Network Communications Corp Ltd Hunan Branch
Priority date: 2024-03-19
Filing date: 2024-03-19
Publication date: 2024-04-26

Abstract

本发明公开了一种基于姿态关键点的目标追踪方法及系统，采用多路摄像头获取行人活动轨迹的视频图像；采用YoloPose模型对所述视频图像中区域内的行人及行人姿态关键点进行检测，获取行人框信息和17个关键点，若识别到某个关键点的置信度低于预设的置信度阈值时，则认为该关键点被遮挡；将行人检测框的坐标、17个关键点的坐标、以及关键点被遮挡情况储存在该轨迹的数据库中；若识别到存在其他轨迹时，则将本轨迹与其他轨迹进行匹配，若本轨迹与其他轨迹匹配成功时，则将本轨迹与其他轨迹两个轨迹合并；若轨迹与其他轨迹匹配失败时，则将本轨迹保存在历史轨迹中。本发明节省了大量的计算资源、大幅度降低了匹配时间。

Description

一种基于姿态关键点的目标追踪方法及系统

技术领域

本发明涉及监控技术领域，尤其公开了一种基于姿态关键点的目标追踪方法及系统。

背景技术

目前，实时监控技术被广泛用于工业园区、车站、学校等场所，管理者通过摄像头可以对相关区域的行人轨迹进行实时监控，极大地提升了管理性能，在教育、交通、国家安全等领域有着广泛的应用前景。监控区域通常需要部署多个的摄像头，通过拍摄的视频数据传输到视频监控中心，实现对整个区域的实时监控。通过多个摄像头拍摄的视频数据对行人的活动轨迹进行获取与分析，需要耗费大量的人力和物力成本。同时，由于监控区域行人数量过多、监控距离过远、观看监控视频的人员自身疲劳等因素，会增加对行人轨迹监控分析的难度，影响监控的效果。

跨镜头行人轨迹重识别的难点在于行人图像的重识别，即如何判断不同镜头下的两个轨迹是否为同一行人。目前的深度神经网络模型（如osnet、resnet50等）可以将行人图像编码为特征序列（也被称为行人reid特征），通过计算两张行人图片被编码后的特征序列（即行人reid特征）之间的余弦相似度来判断这两张行人图片是否属于同一人。中国发明专利申请CN202210012672.9对每条轨迹建立特征库。在特征库中储存该行人过去n帧图像所编码成的reid特征。当出现新的轨迹时，会计算新轨迹特征库中所有特征序列与旧轨迹特征库中所有的reid特征两两之间的余弦相似度，若最大值（即两个轨迹之间最相似的两张行人图像）超过阈值则判断为该两条轨迹属于同一个人，并为该条新轨迹赋予匹配上的行人ID。否则为该轨迹赋予一个新的行人ID。中国发明专利申请CN202011055504.5对获取的行人图像进行分割，通过二值化人体序列将行人图像中的背景像素与行人像素进行区分。之后使用深度神经网络模型对去除掉背景后的行人图像进行编码，从而获得效果更加稳定，不受背景变化影响的特征序列。中国发明专利申请CN202210657258.3使用了融合特征代替行人reid特征，融合特征是行人reid特征、行人人脸特征、行人位置特征三个特征乘以各自权重获得。该方法获得的融合特征具有行人外观信息，行人人脸信息以及行人位置信息，因而结果更加稳定可靠。但是，现有跨镜头行人轨迹重识别方法仍然存在以下缺陷：

1、抗遮挡性差。目前所有跨镜头多行人轨迹追踪技术都是通过计算特征序列之间的相似度来判断是否是同一个行人。当某个行人在活动过程中被遮挡时，此时提取的特征序列只包含未被遮挡部分的特征信息，当其他行人也出现类似遮挡现象时，即使这两个轨迹序列不是来自于同一个人，两个特征序列包含的特征信息也会很相似，两者之间的相似度会很高，从而产生错误的轨迹匹配。遮挡问题一直是跨镜头行人轨迹追踪过程中的一个难题，消除跨镜头行人追踪过程中遮挡现象所带来的错误轨迹很有实际意义。

2、计算效率不足。现有跨镜头行人轨迹追踪技术通过计算两个轨迹特征库中所有特征序列之间的两两相似度，来判别轨迹片段是否来自同一个行人。例如若轨迹A与轨迹B分别包含n与m个特征序列，则需要计算n乘以m次相似度。该方法计算量大，降低了监控分析的实时性。

3、可拓展性差。跨镜头行人轨迹追踪技术在使用过程中，通常需要加入人脸识别模块进行身份认定（如中国发明专利申请CN202210657258.3，中国发明专利申请CN202011055504.5）或者需要加入行人动作识别模块进行摔倒、推搡、抽烟等危险动作的检测。现有的方法是将跨镜头行人轨迹追踪过程中获取的行人检测框裁剪出来，放入人脸检测模型（如FaceNet等）与行人姿态关键点检测模型（如AlphaPose等）中重新进行检测。该方法耗费巨大的计算资源，难以拓展至不同场景。

因此，现有现有跨镜头行人轨迹重识别方法中存在的以上缺陷，是目前亟待解决的技术问题。

发明内容

本发明提供了一种基于姿态关键点的目标追踪方法及系统，旨在解决现有现有跨镜头行人轨迹重识别方法中存在的以上缺陷。

本发明的一方面涉及一种基于姿态关键点的目标追踪方法，包括以下步骤：

采用多路摄像头获取行人活动轨迹的视频图像；

采用YoloPose模型对视频图像中区域内的行人及行人姿态关键点进行检测，获取行人框信息和17个关键点，每个关键点由x、y和c三个参数组成；若识别到某个关键点的置信度低于预设的置信度阈值时，则认为该关键点被遮挡；其中，（x，y）为该关键点的像素坐标，c为该关键点的置信度，17个关键点包括鼻子、左眼、右眼、左耳、右耳、左肩、右肩、左胳膊肘、右胳膊肘、左手腕、右手腕、左臀、右臀、左膝、右膝、左脚踝和右脚踝；

将行人检测框的坐标、17个关键点的坐标、以及关键点被遮挡情况储存在该轨迹的数据库中；

若识别到存在其他轨迹时，则将本轨迹与其他轨迹进行匹配，若本轨迹与其他轨迹匹配成功时，则将本轨迹与其他轨迹两个轨迹合并；若轨迹与其他轨迹匹配失败时，则将本轨迹保存在历史轨迹中；

按实际需求，将本轨迹保存的被检测行人的17个关键点以及对应的置信度输出至动作识别模块中，实现关键动作识别。

进一步地，采用YoloPose模型对视频图像中区域内的行人及行人姿态关键点进行检测，获取行人框信息和17个关键点，每个关键点由x、y和c三个参数组成；若识别到某个关键点的置信度低于预设的置信度阈值时，则认为该关键点被遮挡的步骤之后还包括：

选取鼻子关键点、左眼关键点、右眼关键点，通过线性变换与裁剪的方式获取该行人的面部图像；

采用人脸识别对该行人进行身份认证，并将认证结果储存在该轨迹的数据库中。

选取左肩关键点、右肩关键点，判断行人画面是否属于正面类图像、背面类图像或者其他类图像图像；

使用OSNet模型将该行人转码为512维特征向量，并储存在该轨迹相应的正面图像库、背面图像库或其他图像库中。

进一步地，选取左肩关键点、右肩关键点，判断行人画面是否属于正面类图像、背面类图像或者其他类图像图像的步骤中，依据被检测行人左肩关键点与右肩关键点的相对位置，判断被检测行人图像的类别：若左肩关键点在右肩关键点的右侧，且水平距离大于行人检测框宽度的三分之一时，则判断为正面图像；若左肩关键点在右肩关键点的左侧，且水平距离大于行人检测框宽度的三分之一时，则判断为背面图像；若以上两个条件均不满足，或行人肩部关键点被遮挡时，则判断为其他类图像。

进一步地，采用YoloPose模型对视频图像中区域内的行人及行人姿态关键点进行检测，获取行人框信息和17个关键点，每个关键点由x、y和c三个参数组成；若识别到某个关键点的置信度低于预设的置信度阈值时，则认为该关键点被遮挡的步骤包括：

在17个关键点中选取第0号、第1号、第2号三个关键点，其中，第0号、第1号、第2号三个关键点分别指代鼻、左眼、右眼三个部位；

标注标准人脸照片上该三个关键点的位置，该标准人脸照片设置在画布上，若识别到被检测行人的第0号、第1号、第2号三个关键点未被遮挡，则记录其坐标（x0，y0）、（x1，y1）、（x2，y2）与画布上的鼻、左眼、右眼标准位置坐标（x’0，y’0）、（x’1，y’1）、（x’2，y’2），使用最小二乘法估算仿射变换矩阵，仿射变换的计算公式如下所示：

其中，（c，f）表示图像平移，（a，b，d，e）表示图像旋转与缩放；（x，y）为该关键点的像素坐标，（x’，y’）为画布上的标准位置坐标；

通过最小二乘法估算出最合适的参数（a，b，c，d，e，f），即可得到最优仿射变换矩阵；将被检测行人图像的像素矩阵乘以最优仿射矩阵，即可得到标准图像；对标准图像范围进行裁剪，即可得到被检测行人的标准人脸图像。

本发明的另一方面涉及一种基于姿态关键点的目标追踪系统，包括：

采集模块，用于采用多路摄像头获取行人活动轨迹的视频图像；

检测模块，用于采用YoloPose模型对视频图像中区域内的行人及行人姿态关键点进行检测，获取行人框信息和17个关键点，每个关键点由x、y和c三个参数组成；若识别到某个关键点的置信度低于预设的置信度阈值时，则认为该关键点被遮挡；其中，（x，y）为该关键点的像素坐标，c为该关键点的置信度，17个关键点包括鼻子、左眼、右眼、左耳、右耳、左肩、右肩、左胳膊肘、右胳膊肘、左手腕、右手腕、左臀、右臀、左膝、右膝、左脚踝和右脚踝；

存储模块，用于将行人检测框的坐标、17个关键点的坐标、以及关键点被遮挡情况储存在该轨迹的数据库中；

处理模块，用于若识别到存在其他轨迹时，则将本轨迹与其他轨迹进行匹配，若本轨迹与其他轨迹匹配成功时，则将本轨迹与其他轨迹两个轨迹合并；若轨迹与其他轨迹匹配失败时，则将本轨迹保存在历史轨迹中；

输出模块，用于按实际需求，将本轨迹保存的被检测行人的17个关键点以及对应的置信度输出至动作识别模块中，实现关键动作识别。

进一步地，基于姿态关键点的目标追踪系统还包括：

获取模块，用于选取鼻子关键点、左眼关键点、右眼关键点，通过线性变换与裁剪的方式获取该行人的面部图像；

认证模块，用于采用人脸识别对该行人进行身份认证，并将认证结果储存在该轨迹的数据库中。

进一步地，基于姿态关键点的目标追踪系统还包括：

判断模块，用于选取左肩关键点、右肩关键点，判断行人画面是否属于正面类图像、背面类图像或者其他类图像图像；

转码模块，用于使用OSNet模型将该行人转码为512维特征向量，并储存在该轨迹相应的正面图像库、背面图像库或其他图像库中。

进一步地，判断模块中，依据被检测行人左肩关键点与右肩关键点的相对位置，判断被检测行人图像的类别：若左肩关键点在右肩关键点的右侧，且水平距离大于行人检测框宽度的三分之一时，则判断为正面图像；若左肩关键点在右肩关键点的左侧，且水平距离大于行人检测框宽度的三分之一时，则判断为背面图像；若以上两个条件均不满足，或行人肩部关键点被遮挡时，则判断为其他类图像。

进一步地，检测模块包括：

选取单元，用于在17个关键点中选取第0号、第1号、第2号三个关键点，其中，第0号、第1号、第2号三个关键点分别指代鼻、左眼、右眼三个部位；

估算单元，用于标注标准人脸照片上该三个关键点的位置，该标准人脸照片设置在画布上，若识别到被检测行人的第0号、第1号、第2号三个关键点未被遮挡，则记录其坐标（x0，y0）、（x1，y1）、（x2，y2）与画布上的鼻、左眼、右眼标准位置坐标（x’0，y’0）、（x’1，y’1）、（x’2，y’2），使用最小二乘法估算仿射变换矩阵，仿射变换的计算公式如下所示：

获取单元，用于通过最小二乘法估算出最合适的参数（a，b，c，d，e，f），即可得到最优仿射变换矩阵；将被检测行人图像的像素矩阵乘以最优仿射矩阵，即可得到标准图像；对标准图像范围进行裁剪，即可得到被检测行人的标准人脸图像。

本发明所取得的有益效果为：

本发明提供一种基于姿态关键点的目标追踪方法及系统，采用多路摄像头获取行人活动轨迹的视频图像；采用YoloPose模型对所述视频图像中区域内的行人及行人姿态关键点进行检测，获取行人框信息和17个关键点，每个关键点由x、y和c三个参数组成；若识别到某个关键点的置信度低于预设的置信度阈值时，则认为该关键点被遮挡；将行人检测框的坐标、17个关键点的坐标、以及关键点被遮挡情况储存在该轨迹的数据库中；若识别到存在其他轨迹时，则将本轨迹与其他轨迹进行匹配，若本轨迹与其他轨迹匹配成功时，则将本轨迹与其他轨迹两个轨迹合并；若轨迹与其他轨迹匹配失败时，则将本轨迹保存在历史轨迹中；按实际需求，将本轨迹保存的被检测行人的17个关键点以及对应的置信度输出至动作识别模块中，实现关键动作识别。本发明提供的基于姿态关键点的目标追踪方法及系统，取得的有益效果如下所示：

1、现有的跨镜头行人轨迹分析相关算法分别使用行人检测组件（如Yolo等）、行人面部检测组件（如YoloFace等）、行人姿态检测组件（如AlphaPose等）分别进行行人检测、人脸检测、姿态关键点检测。本发明使用YoloPose模型以及仿射变换矩阵，替代了上述三个组件。在保持精度的同时，节省了大量的计算资源，整体耗时降低了约54.5%。

2、现有的跨镜头行人轨迹分析相关算法不具备抗遮挡能力，当行人被遮挡时，算法极容易将两个不同行人判断为同一行人。本发明通过统计成功匹配的行人图像所包含的未被遮挡的关键点，解决了由遮挡导致的误判情况，极大的提升了算法的鲁棒性。

3、现有的跨镜头行人轨迹分析相关算法在进行轨迹匹配时，需要计算两条轨迹中所有行人图像两两之间的相似度。本发明通过行人左肩关键点、右肩关键点的相对位置将轨迹中的行人图像分为正面类图像、背面类图像、其他类图像。进行轨迹匹配时仅需要对相同类别的行人图像进行匹配，大幅度降低了匹配时间，轨迹匹配耗时降低约58.2%。

附图说明

图1为本发明基于姿态关键点的目标追踪方法的流程示意图。

具体实施方式

为了更好的理解上述技术方案，下面将结合说明书附图以及具体的实施方式对上述技术方案做详细的说明。

如图1所示，本发明提出一种基于姿态关键点的目标追踪方法，包括以下步骤：

步骤S100、采用多路摄像头获取行人活动轨迹的视频图像。

部署多个摄像头，用于拍摄行人的活动轨迹，摄像头与本地服务器连接。

步骤S200、采用YoloPose模型对视频图像中区域内的行人及行人姿态关键点进行检测，获取行人框信息和17个关键点，每个关键点由x、y和c三个参数组成；若识别到某个关键点的置信度低于预设的置信度阈值时，则认为该关键点被遮挡；其中，（x，y）为该关键点的像素坐标，c为该关键点的置信度，17个关键点包括鼻子、左眼、右眼、左耳、右耳、左肩、右肩、左胳膊肘、右胳膊肘、左手腕、右手腕、左臀、右臀、左膝、右膝、左脚踝和右脚踝。

各摄像头将拍摄内容传输至服务器，使用YoloPose模型对区域内的行人及行人姿态关键点进行检测。获取行人框信息（x1，y1，x2，y2）、以及17个姿态关键点，每个关键点由（x，y），c三个参数组成。其中（x，y）为该关键点的像素坐标，c为该关键点的置信度。设定阈值，若某个关键点的置信度低于预设的置信度阈值时，则认为该关键点被遮挡。

步骤S300、将行人检测框的坐标、17个关键点的坐标、以及关键点被遮挡情况储存在该轨迹的数据库中。

将获取的行人检测框的坐标、17个关键点的坐标、以及关键点被遮挡情况都储存在该轨迹的数据库中。

步骤S400、若识别到存在其他轨迹时，则将本轨迹与其他轨迹进行匹配，若本轨迹与其他轨迹匹配成功时，则将本轨迹与其他轨迹两个轨迹合并；若轨迹与其他轨迹匹配失败时，则将本轨迹保存在历史轨迹中。

本轨迹为对所有当前有画面更新的轨迹（又称为当前轨迹）。其他轨迹为对所有当前无画面更新的轨迹（又称为历史轨迹）。若识别到存在其他轨迹时，则将本轨迹与其他轨迹进行匹配。具体地，若本轨迹与其他轨迹匹配成功时，则将本轨迹与其他轨迹两个轨迹合并；若轨迹与其他轨迹匹配失败时，则将本轨迹保存在历史轨迹中。

步骤S500、按实际需求，将本轨迹保存的被检测行人的17个关键点以及对应的置信度输出至动作识别模块中，实现关键动作识别。

将被检测行人的17个关键点以及对应的置信度输出至动作识别模块中，进行动作识别。

本实施例提供的基于姿态关键点的目标追踪方法，同现有技术相比，采用多路摄像头获取行人活动轨迹的视频图像；采用YoloPose模型对所述视频图像中区域内的行人及行人姿态关键点进行检测，获取行人框信息和17个关键点，每个关键点由x、y和c三个参数组成；若识别到某个关键点的置信度低于预设的置信度阈值时，则认为该关键点被遮挡；将行人检测框的坐标、17个关键点的坐标、以及关键点被遮挡情况储存在该轨迹的数据库中；若识别到存在其他轨迹时，则将本轨迹与其他轨迹进行匹配，若本轨迹与其他轨迹匹配成功时，则将本轨迹与其他轨迹两个轨迹合并；若轨迹与其他轨迹匹配失败时，则将本轨迹保存在历史轨迹中；按实际需求，将本轨迹保存的被检测行人的17个关键点以及对应的置信度输出至动作识别模块中，实现关键动作识别。本发明提供的基于姿态关键点的目标追踪方法，基于人体姿态（骨架关键点）信息，解决了轨迹追踪过程中由于行人遮挡现象造成的轨迹错误匹配问题，同时降低了计算量，提升了运行速度，提供了一种鲁棒性更强、实时性更好、具有更强拓展性。

进一步地，本实施例提供的基于姿态关键点的目标追踪方法，步骤S200之后还包括：

步骤S200A、选取鼻子关键点、左眼关键点、右眼关键点，通过线性变换与裁剪的方式获取该行人的面部图像。

使用ResNet50模型对被检测行人的标准人脸图像进行特征提取，获取512维特征向量。

步骤S200B、采用人脸识别对该行人进行身份认证，并将认证结果储存在该轨迹的数据库中。

将获取的512维特征向量与事先建立的人脸图像库中所有人脸的特征向量进行比对，计算余弦相似度，得到与该行人最相似的人脸，若其相似度大于预设的相似度阈值时，则认为被检测行人是人脸库中的人员，完成身份匹配，否则判定为未知人员。

步骤S200a、选取左肩关键点、右肩关键点，判断行人画面是否属于正面类图像、背面类图像或者其他类图像。

依据被检测行人左肩关键点与右肩关键点的相对位置，判断被检测行人图像的类别：若左肩关键点在右肩关键点的右侧，且水平距离大于行人检测框宽度的三分之一，则判断为正面图像；若左肩关键点在右肩关键点的左侧，且水平距离大于行人检测框宽度的三分之一，则判断为背面图像；若以上两个条件均不满足，或行人肩部关键点被遮挡，则判断为其他类图像。在判断两条轨迹是否为同一人时，不再需要对两条轨迹中储存的所有行人图像两两进行匹配，仅需要对相同类别的行人图像进行匹配，极大的节省了计算开销，增强了算法的实时性。

步骤S200b、使用OSNet模型将该行人转码为512维特征向量，并储存在该轨迹相应的正面图像库、背面图像库或其他图像库中。

使用OSNet（Omni-Scale Network,全方位网络）模型将该行人转码为512维特征向量，并将转码的512维特征向量储存在该轨迹相应的正面图像库、背面图像库或其他图像库中。

对所有当前有画面更新的轨迹（称为当前轨迹）与所有当前无画面更新的轨迹（称为历史轨迹）两两之间进行相似度匹配。每条轨迹具备“正面图像库”、“背面图像库”、“其他图像库”，每个图像库储存过去最多m张图像。对待匹配的两条轨迹（轨迹A与轨迹B）中相同类别的图像库中的所有图像进行两两匹配，即使用OSNet模型将图像编码为512维特征向量。若两张图像转码为特征向量后的余弦相似度大于预设的相似度阈值时，则称为“成功匹配的图像对”；该“图像对”共同包含的未被遮挡的关键点称为“成功匹配的关键点”。若两条轨迹“成功匹配的关键点”超过全部17个关键点的80%，则认为两条轨迹为同一条轨迹，此时将两条轨迹合并为同一条轨迹，从而实现跨镜头轨迹重识别。

举例而言，假设轨迹A的正面图像库存在图像Aa1，Aa2，Aa3共三张图像，背面图像库存在Ab1，Ab2，Ab3共三张图像，其他图像库存在Ac1，Ac2，Ac3共三张图像库。轨迹B的正面图像库存在图像Ba1，Ba2，Ba3共三张图像，背面图像库存在Bb1，Bb2，Bb3共三张图像，其他图像库存在Bc1，Bc2，Bc3共三张图像库。计算正面图像库（Aa1，Aa2，Aa3）与（Ba1，Ba2，Ba3）图像两两之间的相似度，需要进行9次匹配，背面图像库（Ab1，Ab2，Ab3）与（Bb1，Bb2，Bb3）图像两两之间的相似度，需要进行9次匹配，其他图像库（Ac1，Ac2，Ac3）与（Bc1，Bc2，Bc3）图像两两之间的相似度，需要进行9次匹配，合计需要进行27次匹配。而传统算法需要对图像库（Aa1，Aa2，Aa3，Ab1，Ab2，Ab3，Ac1，Ac2，Ac3）与图像库（Ba1，Ba2，Ba3，Bb1，Bb2，Bb3，Bc1，Bc2，Bc3）进行两两匹配，共需81次匹配。本算法计算量为传统算法的三分之一。假设两张图像相似度超过0.7即为成功匹配，假设A轨迹与B轨迹成功匹配的图像对有（Aa1，Ba3），（Aa2，Ba2），（Ac1，Bc2）三对。Aa1与Ba3均包含关键点（3，5，6，9，10，15），Aa2与Ba2均包含关键点（2，3，4，9，10，11，15），Ac1与Bc2均包含关键点（1，7，8，12，16），则A轨迹与B轨迹成功匹配的关键点为（1，2，3，4，5，6，7，8，9，10，11，12，15，16）共14个关键点，大于全部17个关键点的80%，此时认为轨迹A与轨迹B属于同一个人。

优选地，本实施例提供的基于姿态关键点的目标追踪方法，步骤S200包括：

步骤S210、在17个关键点中选取第0号、第1号、第2号三个关键点，其中，第0号、第1号、第2号三个关键点分别指代鼻、左眼、右眼三个部位。

步骤S220、标注标准人脸照片上该三个关键点的位置，该标准人脸照片设置在画布上，若识别到被检测行人的第0号、第1号、第2号三个关键点未被遮挡，则记录其坐标（x0，y0）、（x1，y1）、（x2，y2）与画布上的鼻、左眼、右眼标准位置坐标（x’0，y’0）、（x’1，y’1）、（x’2，y’2），使用最小二乘法估算仿射变换矩阵，仿射变换的计算公式如下所示：

（1）

公式（1）中，（c，f）表示图像平移，（a，b，d，e）表示图像旋转与缩放；（x，y）为该关键点的像素坐标，（x’，y’）为画布上的标准位置坐标。

步骤S230、通过最小二乘法估算出最合适的参数（a，b，c，d，e，f），即可得到最优仿射变换矩阵；将被检测行人图像的像素矩阵乘以最优仿射矩阵，即可得到标准图像；对标准图像范围进行裁剪，即可得到被检测行人的标准人脸图像。

本实施例提供的基于姿态关键点的目标追踪方法，同现有技术相比，使用YoloPose模型对监控画面中行人的检测框以及17个姿态关键点进行检测。若行人的鼻、左眼、右眼三个关键点未被遮挡，则通过旋转、缩放、平移的方法将其面部矫正至标准人脸画布（112*112大小）上。通过剪裁，获取该行人的标准面部图像。本操作替代传统的人脸检测方法，可以在保持精度的同时，极大的节省计算开销。通过左肩关键点与右肩关键点的相对位置，判断行人图像属于正面图像、背面图像或者是侧面图像。在判断两条轨迹是否为同一人时，不再需要对两条轨迹中储存的所有行人图像两两进行匹配，仅需要对相同类别的行人图像进行匹配，极大的节省了计算开销，增强了算法的实时性。对匹配上的图像对，记录其共同包含的姿态关键点（称为“成功匹配的关键点”）。当两条轨迹“成功匹配的关键点”超过全部关键点的80%时，判定两条轨迹属于同一个人。该方法有效避免了由于行人图像被遮挡，而将两个不同行人误认为同一行人的情况。将被检测行人的17个姿态关键点输出至下游的动作识别模组，按需求进行跌倒、追逐、推搡、抽烟等特定行为的动作识别，使得具备良好的可拓展性。

本发明涉及一种基于姿态关键点的目标追踪系统，包括采集模块、检测模块、存储模块、处理模块和输出模块，其中，采集模块，用于采用多路摄像头获取行人活动轨迹的视频图像；检测模块，用于采用YoloPose模型对视频图像中区域内的行人及行人姿态关键点进行检测，获取行人框信息和17个关键点，每个关键点由x、y和c三个参数组成；若识别到某个关键点的置信度低于预设的置信度阈值时，则认为该关键点被遮挡；其中，（x，y）为该关键点的像素坐标，c为该关键点的置信度，17个关键点包括鼻子、左眼、右眼、左耳、右耳、左肩、右肩、左胳膊肘、右胳膊肘、左手腕、右手腕、左臀、右臀、左膝、右膝、左脚踝和右脚踝；存储模块，用于将行人检测框的坐标、17个关键点的坐标、以及关键点被遮挡情况储存在该轨迹的数据库中；处理模块，用于若识别到存在其他轨迹时，则将本轨迹与其他轨迹进行匹配，若本轨迹与其他轨迹匹配成功时，则将本轨迹与其他轨迹两个轨迹合并；若轨迹与其他轨迹匹配失败时，则将本轨迹保存在历史轨迹中；输出模块，用于按实际需求，将本轨迹保存的被检测行人的17个关键点以及对应的置信度输出至动作识别模块中，实现关键动作识别。

采集模块部署多个摄像头，用于拍摄行人的活动轨迹，摄像头与本地服务器连接。

各摄像头将拍摄内容传输至服务器，检测模块使用YoloPose模型对区域内的行人及行人姿态关键点进行检测。获取行人框信息（x1，y1，x2，y2）、以及17个姿态关键点，每个关键点由（x，y），c三个参数组成。其中（x，y）为该关键点的像素坐标，c为该关键点的置信度。设定阈值，若某个关键点的置信度低于预设的置信度阈值时，则认为该关键点被遮挡。

存储模块将获取的行人检测框的坐标、17个关键点的坐标、以及关键点被遮挡情况都储存在该轨迹的数据库中。

处理模块若识别到存在其他轨迹时，则将本轨迹与其他轨迹进行匹配。具体地，若本轨迹与其他轨迹匹配成功时，则将本轨迹与其他轨迹两个轨迹合并；若轨迹与其他轨迹匹配失败时，则将本轨迹保存在历史轨迹中。

输出模块将被检测行人的17个关键点以及对应的置信度输出至动作识别模块中，进行动作识别。

本实施例提供的基于姿态关键点的目标追踪系统，同现有技术相比，包括采集模块、检测模块、存储模块、处理模块和输出模块，采用多路摄像头获取行人活动轨迹的视频图像；采用YoloPose模型对所述视频图像中区域内的行人及行人姿态关键点进行检测，获取行人框信息和17个关键点，每个关键点由x、y和c三个参数组成；若识别到某个关键点的置信度低于预设的置信度阈值时，则认为该关键点被遮挡；将行人检测框的坐标、17个关键点的坐标、以及关键点被遮挡情况储存在该轨迹的数据库中；若识别到存在其他轨迹时，则将本轨迹与其他轨迹进行匹配，若本轨迹与其他轨迹匹配成功时，则将本轨迹与其他轨迹两个轨迹合并；若轨迹与其他轨迹匹配失败时，则将本轨迹保存在历史轨迹中；按实际需求，将本轨迹保存的被检测行人的17个关键点以及对应的置信度输出至动作识别模块中，实现关键动作识别。本发明提供的基于姿态关键点的目标追踪系统，基于人体姿态（骨架关键点）信息，解决了轨迹追踪过程中由于行人遮挡现象造成的轨迹错误匹配问题，同时降低了计算量，提升了运行速度，提供了一种鲁棒性更强、实时性更好、具有更强拓展性。

进一步地，本实施例基于姿态关键点的目标追踪系统还包括获取模块和认证模块，其中，获取模块，用于选取鼻子关键点、左眼关键点、右眼关键点，通过线性变换与裁剪的方式获取该行人的面部图像；认证模块，用于采用人脸识别对该行人进行身份认证，并将认证结果储存在该轨迹的数据库中。

获取模块使用ResNet50模型对被检测行人的标准人脸图像进行特征提取，获取512维特征向量。

认证模块将获取的512维特征向量与事先建立的人脸图像库中所有人脸的特征向量进行比对，计算余弦相似度，得到与该行人最相似的人脸，若其相似度大于预设的相似度阈值时，则认为被检测行人是人脸库中的人员，完成身份匹配，否则判定为未知人员。

进一步地，本实施例基于姿态关键点的目标追踪系统还包括判断模块和转码模块，其中，判断模块，用于选取左肩关键点、右肩关键点，判断行人画面是否属于正面类图像、背面类图像或者其他类图像图像；转码模块，用于使用OSNet模型将该行人转码为512维特征向量，并储存在该轨迹相应的正面图像库、背面图像库或其他图像库中。

判断模块依据被检测行人左肩关键点与右肩关键点的相对位置，判断被检测行人图像的类别：若左肩关键点在右肩关键点的右侧，且水平距离大于行人检测框宽度的三分之一，则判断为正面图像；若左肩关键点在右肩关键点的左侧，且水平距离大于行人检测框宽度的三分之一，则判断为背面图像；若以上两个条件均不满足，或行人肩部关键点被遮挡，则判断为其他类图像。在判断两条轨迹是否为同一人时，不再需要对两条轨迹中储存的所有行人图像两两进行匹配，仅需要对相同类别的行人图像进行匹配，极大的节省了计算开销，增强了算法的实时性。

转码模块使用OSNet（Omni-Scale Network,全方位网络）模型将该行人转码为512维特征向量，并将转码的512维特征向量储存在该轨迹相应的正面图像库、背面图像库或其他图像库中。

优选地，本实施例基于姿态关键点的目标追踪系统检测模块包括选取单元、估算单元和获取单元，其中，选取单元，用于在17个关键点中选取第0号、第1号、第2号三个关键点，其中，第0号、第1号、第2号三个关键点分别指代鼻、左眼、右眼三个部位；估算单元，用于标注标准人脸照片上该三个关键点的位置，该标准人脸照片设置在画布上，若识别到被检测行人的第0号、第1号、第2号三个关键点未被遮挡，则记录其坐标（x0，y0）、（x1，y1）、（x2，y2）与画布上的鼻、左眼、右眼标准位置坐标（x’0，y’0）、（x’1，y’1）、（x’2，y’2），使用最小二乘法估算仿射变换矩阵，仿射变换的计算公式如下所示：

（2）

公式（2）中，（c，f）表示图像平移，（a，b，d，e）表示图像旋转与缩放；（x，y）为该关键点的像素坐标，（x’，y’）为画布上的标准位置坐标。

本实施例提供的基于姿态关键点的目标追踪系统，同现有技术相比，使用YoloPose模型对监控画面中行人的检测框以及17个姿态关键点进行检测。若行人的鼻、左眼、右眼三个关键点未被遮挡，则通过旋转、缩放、平移的方法将其面部矫正至标准人脸画布（112*112大小）上。通过剪裁，获取该行人的标准面部图像。本操作替代传统的人脸检测方法，可以在保持精度的同时，极大的节省计算开销。通过左肩关键点与右肩关键点的相对位置，判断行人图像属于正面图像、背面图像或者是侧面图像。在判断两条轨迹是否为同一人时，不再需要对两条轨迹中储存的所有行人图像两两进行匹配，仅需要对相同类别的行人图像进行匹配，极大的节省了计算开销，增强了算法的实时性。对匹配上的图像对，记录其共同包含的姿态关键点（称为“成功匹配的关键点”）。当两条轨迹“成功匹配的关键点”超过全部关键点的80%时，判定两条轨迹属于同一个人。该系统有效避免了由于行人图像被遮挡，而将两个不同行人误认为同一行人的情况。将被检测行人的17个姿态关键点输出至下游的动作识别模组，按需求进行跌倒、追逐、推搡、抽烟等特定行为的动作识别，使得具备良好的可拓展性。

下面以具体的实施例来对本实施例提供的基于姿态关键点的目标追踪方法及系统进行说明：

准备工作1：创建人脸库，人脸库包含人员ID（Identity document，身份标识号码）、人员姓名、人员面部照片、人员面部特征向量（由ResNet50模型从人员面部照片提取）。

准备工作2:记录标准112*112的人脸图像上，鼻、左眼、右眼三个关键点的标准位置（56，67），（36，44），（75，44）。

1、t1时刻获取三路摄像头（甲、乙、丙）监控画面。

2、使用YoloPose模型对三幅画面进行行人以及关键点检测，得到甲摄像头画面有两人，乙丙摄像头画面中没有行人，两个行人分别记录为A、B。行人A的第0号、第1号关键点置信度小于置信度阈值0.5，判断为脸部被遮挡，不进行人脸识别。行人B的第0号、第1号、第2号关键点置信度均大于0.5，记录下行人B的鼻、左眼、右眼三个关键点（349，616），（307，555），（388，553）。将行人B的关键点与标准关键点位置带入仿射变换矩阵中，使用最小二乘法估算出变换矩阵T*。将画面甲的像素矩阵乘以T*，并截取（0-112，0-112）范围内的画面，即可得到行人B的面部画面。

3、将行人B的面部画面传入ResNet50模型中，获取512维特征向量。计算该向量与人脸库中各个特征向量向量的余弦相似度。发现行人B与112号员工最相似，相似度为0.62，大于相似度阈值0.6，确认行人B为112号员工。

4、依据行人A与行人B的左肩关键点、右肩关键点判断当前A的画面为正面、B的画面为背面。为行人A、B分别创建轨迹。当前历史轨迹库无轨迹，因此不进行轨迹匹配。

5、t2时刻获取三路摄像头（甲、乙、丙）监控画面。

6、使用YoloPose模型对三幅画面进行行人检测以及关键点检测，得到甲摄像头中无行人，乙摄像头有一个行人（记录为C），丙摄像头中有一个行人（记录为D）。行人C的第0号关键点被遮挡、行人D的第1号关键点被遮挡，因此不进行面部识别。

7、依据行人C、行人D的左右肩关键点判断行人C为正面图像，行人D为背面图像。当前历史轨迹库中存在轨迹A、轨迹B。将行人C与轨迹A、轨迹B的正面类图像库分别比对（计算OSNet模型提取的特征向量的余弦相似度），发现行人C与轨迹A的第32张图像、第67张图像相似度均大于相似度阈值0.6，行人C与轨迹A的第32张图像均包含关键点（1，2，3，4，9，10，11，12，13，16），行人C与轨迹A的第67张图像均包含关键点（1，2，5，6，7，15，16）。因此行人C与轨迹A成功匹配的关键点为（1，2，3，4，5，6，7，9，10，11，12，13，14，15，16），共16个关键点。大于全部17个关键点的80%。判断行人C与轨迹A为同一人，合并轨迹A与C。将行人D与轨迹A、轨迹B的背面图像库分别比对，发现D与轨迹B的第55张图像相似图大于阈值，行人D与轨迹B的第55张图像均包含关键点（3，4，5，6，7，8）共6个关键点，不足全部关键点的80%，不认为行人D与轨迹B为同一人。将行人D作为新的轨迹保存在历史轨迹库中。

8、继续分析接下来的监控画面。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于姿态关键点的目标追踪方法，其特征在于，包括以下步骤：

采用多路摄像头获取行人活动轨迹的视频图像；

采用YoloPose模型对所述视频图像中区域内的行人及行人姿态关键点进行检测，获取行人框信息和17个关键点，每个关键点由x、y和c三个参数组成；若识别到某个关键点的置信度低于预设的置信度阈值时，则认为该关键点被遮挡；其中，（x，y）为该关键点的像素坐标，c为该关键点的置信度，17个关键点包括鼻子、左眼、右眼、左耳、右耳、左肩、右肩、左胳膊肘、右胳膊肘、左手腕、右手腕、左臀、右臀、左膝、右膝、左脚踝和右脚踝；

2.如权利要求1所述的基于姿态关键点的目标追踪方法，其特征在于，所述采用YoloPose模型对所述视频图像中区域内的行人及行人姿态关键点进行检测，获取行人框信息和17个关键点，每个关键点由x、y和c三个参数组成；若识别到某个关键点的置信度低于预设的置信度阈值时，则认为该关键点被遮挡的步骤之后还包括：

3.如权利要求2所述的基于姿态关键点的目标追踪方法，其特征在于，所述采用YoloPose模型对所述视频图像中区域内的行人及行人姿态关键点进行检测，获取行人框信息和17个关键点，每个关键点由x、y和c三个参数组成；若识别到某个关键点的置信度低于预设的置信度阈值时，则认为该关键点被遮挡的步骤之后还包括：

4.如权利要求3所述的基于姿态关键点的目标追踪方法，其特征在于，所述选取左肩关键点、右肩关键点，判断行人画面是否属于正面类图像、背面类图像或者其他类图像图像的步骤中，依据被检测行人左肩关键点与右肩关键点的相对位置，判断被检测行人图像的类别：若左肩关键点在右肩关键点的右侧，且水平距离大于行人检测框宽度的三分之一时，则判断为正面图像；若左肩关键点在右肩关键点的左侧，且水平距离大于行人检测框宽度的三分之一时，则判断为背面图像；若以上两个条件均不满足，或行人肩部关键点被遮挡时，则判断为其他类图像。

5.如权利要求1至4任意一项所述的基于姿态关键点的目标追踪方法，其特征在于，所述采用YoloPose模型对所述视频图像中区域内的行人及行人姿态关键点进行检测，获取行人框信息和17个关键点，每个关键点由x、y和c三个参数组成；若识别到某个关键点的置信度低于预设的置信度阈值时，则认为该关键点被遮挡的步骤包括：

在17个关键点中选取第0号、第1号、第2号三个关键点，其中，所述第0号、第1号、第2号三个关键点分别指代鼻、左眼、右眼三个部位；

通过最小二乘法估算出最合适的参数（a，b，c，d，e，f），即可得到最优仿射变换矩阵；将被检测行人图像的像素矩阵乘以最优仿射矩阵，即可得到标准图像；对所述标准图像范围进行裁剪，即可得到被检测行人的标准人脸图像。

6.一种基于姿态关键点的目标追踪系统，其特征在于，包括：

检测模块，用于采用YoloPose模型对所述视频图像中区域内的行人及行人姿态关键点进行检测，获取行人框信息和17个关键点，每个关键点由x、y和c三个参数组成；若识别到某个关键点的置信度低于预设的置信度阈值时，则认为该关键点被遮挡；其中，（x，y）为该关键点的像素坐标，c为该关键点的置信度，17个关键点包括鼻子、左眼、右眼、左耳、右耳、左肩、右肩、左胳膊肘、右胳膊肘、左手腕、右手腕、左臀、右臀、左膝、右膝、左脚踝和右脚踝；

7.如权利要求6所述的基于姿态关键点的目标追踪系统，其特征在于，所述基于姿态关键点的目标追踪系统还包括：

8.如权利要求7所述的基于姿态关键点的目标追踪系统，其特征在于，所述基于姿态关键点的目标追踪系统还包括：

9.如权利要求8所述的基于姿态关键点的目标追踪系统，其特征在于，所述判断模块中，依据被检测行人左肩关键点与右肩关键点的相对位置，判断被检测行人图像的类别：若左肩关键点在右肩关键点的右侧，且水平距离大于行人检测框宽度的三分之一时，则判断为正面图像；若左肩关键点在右肩关键点的左侧，且水平距离大于行人检测框宽度的三分之一时，则判断为背面图像；若以上两个条件均不满足，或行人肩部关键点被遮挡时，则判断为其他类图像。

10.如权利要求6至9任意一项所述的基于姿态关键点的目标追踪系统，其特征在于，所述检测模块包括：

选取单元，用于在17个关键点中选取第0号、第1号、第2号三个关键点，其中，所述第0号、第1号、第2号三个关键点分别指代鼻、左眼、右眼三个部位；

获取单元，用于通过最小二乘法估算出最合适的参数（a，b，c，d，e，f），即可得到最优仿射变换矩阵；将被检测行人图像的像素矩阵乘以最优仿射矩阵，即可得到标准图像；对所述标准图像范围进行裁剪，即可得到被检测行人的标准人脸图像。