CN117593788A

CN117593788A - 一种基于计算机视觉的人体姿态分类方法

Info

Publication number: CN117593788A
Application number: CN202311375268.9A
Authority: CN
Inventors: 赵宇; 钟代笛; 仲元红; 罗玲
Original assignee: Chongqing University
Current assignee: Chongqing University
Priority date: 2023-10-23
Filing date: 2023-10-23
Publication date: 2024-02-23

Abstract

本发明公开了计算机科学领域的一种基于计算机视觉的人体姿态分类方法，包括如下步骤：使用摄像头捕获实时视频，使用红外传感器获取额外信息，使用光线传感器测量环境光照强度；使用目标检测模型来检测视频帧中的人体，使用目标跟踪算法跟踪检测到的人体，以获取其轨迹信息；使用图像分割技术来检测遮挡物，分析遮挡物的位置和形状；使用姿态估计模型来分析每个人体的关键点，推断人体的姿势；使用机器学习或深度学习模型来进行人物分类；将来自不同传感器和模型的数据整合在一起，区分真实人体和人偶。本分类方法具有高度的灵活性和适应性，可以在各种复杂场景下提供准确的人体姿态分类和识别，为各种应用提供了有力的支持。

Description

一种基于计算机视觉的人体姿态分类方法

技术领域

本发明属于计算机科学领域，具体是一种基于计算机视觉的人体姿态分类方法。

背景技术

现有的人体姿态分类主要采用传统的基于可穿戴设备的人体姿态分类方法，但该方法需要给目标对象穿戴多种传感器或光学标志，会影响目标对象的运动。同时，基于可穿戴设备的人体姿态分类方法难以广泛应用于公共场所。目前，在公共场所安装的监控摄像头的覆盖面积相当巨大，这些摄像头记录着人类生活的每个角落。传统的视频监控系统是依靠人工查看的方式来监测视频中的异常，这种方法需要相当大的人力成本，且很容易出现遗漏。

为了解决上述问题，中国专利公告号为CN 110688980 B的专利公开了一种基于计算机视觉的人体姿态分类方法，通过监控摄像头采集视频监控数据；构建用于人体姿态分类的训练数据集；筛选出有效人体姿态分类特征；基于神经网络算法，结合训练数据集以及筛选出的有效人体姿态分类特征，选择损失函数和优化算法，训练出人体姿态分类模型；对视频监控数据进行目标检测和识别操作，对于其中被识别为人类目标的区域进行姿态估计，基于姿态估计的结果计算人体姿态特征数据，并将计算得到的特征数据导入人体姿态分类模型，判断得出视频中出现的人的姿态。

该方法不需要目标对象穿戴多种传感器或光学标志，不会影响运动的舒适性，且数据采集成本较低，实时性高，具有较高的处理效率。但是，该方法中，人体姿态分类模型通常只能识别其训练数据集中存在的姿态，对于新的或不常见的姿态可能表现不佳。同时姿态估计是一个复杂的任务，受到图像质量、遮挡、光线条件等因素的影响，可能存在误差，导致分类结果的不准确性。因此，本方案提出了一种基于计算机视觉的人体姿态分类方法，在各种复杂场景下提供准确的人体姿态分类和识别，为各种应用提供了有力的支持。

发明内容

为了解决上述分类结果的不准确问题，本发明提供一种基于计算机视觉的人体姿态分类方法，以在各种复杂场景下提供准确的人体姿态分类和识别，为各种应用提供了有力的支持。

为了实现上述目的，本发明的技术方案如下：一种基于计算机视觉的人体姿态分类方法，包括如下步骤：

步骤一，数据采集：使用摄像头捕获实时视频，使用红外传感器获取额外信息，使用光线传感器测量环境光照强度；

步骤二，目标检测与跟踪：使用目标检测模型来检测视频帧中的人体，使用目标跟踪算法跟踪检测到的人体，以获取其轨迹信息；

步骤三，遮挡物检测：使用图像分割技术来检测遮挡物，分析遮挡物的位置和形状，以确定哪些部分的人体被遮挡；

步骤四，人体姿态预估：使用姿态估计模型来分析每个人体的关键点，包括但不限于头部、手臂和腿部，通过关键点位置推断人体的姿势；

步骤五，人物分类：根据人体的关键点位置、姿势以及其他特征，使用机器学习或深度学习模型来进行人物分类，分类结果包括但不限于平面图像、真人和虚拟人物；

步骤六，数据整合：将来自不同传感器和模型的数据整合在一起，以获得更综合的信息，整合的数据用于改善分类准确性，结合红外传感器数据来区分真实人体和人偶。

采用上述方案的原理及有益效果：该方法可以实时捕获视频流并进行处理，因此适用于需要及时响应的应用，如监控系统、虚拟现实应用等。通过使用多种传感器，包括摄像头、红外传感器和光线传感器，可以获得多维数据，提供更多信息以提高分类准确性。

使用目标检测和跟踪技术可以准确地定位和跟踪人体，从而获得其轨迹信息，这对于分析人体动态姿态非常有帮助。通过检测遮挡物，系统可以识别哪些部分的人体被遮挡，从而更好地理解人体姿态，这在复杂环境中特别有用。姿态估计模型可以分析人体的关键点，提供详细的姿态信息，这对于许多应用，如动作识别、人体动画和虚拟现实等，都非常重要。

通过使用机器学习或深度学习模型进行人物分类，可以根据不同的特征将人体进行分类，这有助于更精确地理解场景中的人物。将来自不同传感器和模型的数据整合在一起，可以提供更全面的信息，提高分类准确性，特别是通过结合红外传感器数据来区分真实人体和人偶，增强了系统的可靠性。这种方法适用于多种应用领域，包括安全监控、体感游戏、虚拟现实、人机交互等，具有广泛的潜在用途。

总的来说，这种基于计算机视觉的人体姿态分类方法综合了多个技术和传感器，具有高度的灵活性和适应性，可以在各种复杂场景下提供准确的人体姿态分类和识别，为各种应用提供了有力的支持。

进一步，步骤一中，使用摄像头捕获实时视频时，使用一个或多个摄像头来捕获实时视频，连续地获取视频帧，通常以每秒多帧的速度进行捕获。

有益效果：摄像头能够以高分辨率捕获图像，从而提供更多的细节信息，这对于人体姿态分类和识别非常重要，特别是需要分析人体关键点的情况下。摄像头以每秒多帧的速度捕获视频，因此能够提供实时性的数据，适用于需要即时响应的应用，如手势识别、虚拟现实和游戏等。使用多个摄像头可以捕获来自不同角度的图像，从而提供多角度的视角，有助于更全面地理解人体姿态，特别是在三维空间中。

某些摄像头，如深度摄像头或时间-of-flight(TOF)摄像头，能够提供关于物体距离的深度信息，这对于精确的姿态估计非常有帮助。摄像头可以用于各种环境，从室内到室外，从光线充足到光线不足，因此具有广泛的适用性。

进一步，步骤二中，目标检测模型包括但不限于YOLO、Faster R-CNN和SSD，将每个检测到的人体用边界框来表示，边界框包围了人体的位置；使用目标跟踪时，对于每个检测到的人体，启动一个目标跟踪器，包括但不限于卡尔曼滤波器、Kalman滤波和SORT，目标跟踪器使用先前帧中的信息来估计当前帧中人体的位置，从而跟踪他们的运动，目标跟踪器为每个跟踪的人体分配一个唯一的标识符，在不同帧之间保持一致。

有益效果：目标检测模型如YOLO、Faster R-CNN和SSD能够高度准确地检测人体的位置，从而为后续的姿态估计提供了准确的起点。目标跟踪器能够在不同的视频帧之间保持对同一人体的跟踪，为分析人体运动和姿态提供了连续性信息。

这些目标跟踪器可以同时跟踪多个人体，因此适用于多人场景，无论是单一目标还是多目标跟踪都能够应对。目标跟踪器通常具有一定的鲁棒性，可以应对一些常见的问题，如遮挡、光照变化、人体尺寸变化等。

目标跟踪器通常能够在实时或接近实时的情况下运行，因此非常适合需要快速响应的应用，如监控系统或虚拟现实。与在每一帧中重新运行目标检测模型相比，目标跟踪器可以节省计算资源，因为它们只需要处理检测到的目标而不是整个图像。

为每个跟踪的人体分配唯一的标识符有助于在不同帧之间保持一致性，这对于分析人体的连续动作和姿态非常有帮助。目标跟踪器可以集成多模态信息，例如光流信息或深度信息，以更好地估计目标的位置和运动，从而提高姿态估计的精度。

进一步，步骤二中，每个跟踪器会持续更新人体的位置，以形成轨迹信息，轨迹信息包括但不限于人体的运动路径、速度和加速度，这些信息可用于分析人体的动态行为和姿态变化。

有益效果：轨迹信息可以帮助识别和分析人体的动态行为，例如行走、跑步、跳跃、旋转等。这对于监控、体感游戏和虚拟现实等应用非常有用。通过分析轨迹信息，可以检测特定事件或行为，如摔倒、迅速移动、异常行为等，从而提高了应用的智能性和安全性。

轨迹信息可以用于估计人体的姿态变化，例如动作的速度和加速度，这对于分析动态姿态非常重要。轨迹信息可以用于分析不同人体之间的互动和碰撞，例如在多人游戏、自动驾驶和社交互动场景中。基于轨迹信息的分析可以用于预测未来的人体行为和姿态，有助于提前采取适当的措施或调整应用行为。

轨迹信息可以与其他传感器数据(如深度传感器、惯性传感器)融合，从而提供更全面的人体行为和姿态信息。持续更新轨迹信息有助于改善目标跟踪的稳定性，减少目标在视频中的跳跃和不连续性，从而提高了整个系统的可靠性。轨迹信息可视化可以为用户提供对人体行为和姿态变化的直观理解，有助于应用的用户界面设计。

进一步，步骤三中，进行图像分割时，使用图像分割算法来将视频帧中的图像分割成不同的区域或对象，图像分割方法包括但不限于语义分割、实例分割和边缘检测；在分割后的图像中，检测和识别可能作为遮挡物的区域或对象，通过分析图像中不同区域的特征，一旦检测到可能的遮挡物区域，进一步分析这些区域的位置和形状，使用形态学操作、边缘检测、连通性分析等技术来确定遮挡物的形状和边界。

有益效果：通过在人体姿态分类方法中引入图像分割和遮挡物检测步骤，可以增加系统对复杂场景中遮挡问题的处理能力，提高了准确性和鲁棒性，使系统更适用于现实世界的监控和交互应用。

进一步，步骤四中，姿态估计模型包括但不限于OpenPose、PoseNet和HRNet，姿态估计模型基于深度学习的模型，在图像中检测多个关键点，并估计它们的位置。

有益效果：深度学习的姿态估计模型在人体姿态分类方法中发挥了重要作用，提供了高精度的关键点检测、多人支持、实时性和鲁棒性等优点，有助于实现更准确和可靠的人体姿态分类和识别。

进一步，步骤五中，用机器学习或深度学习模型来进行人物分类时，将人体的特征输入到模型中，模型将输出相应的分类标签。

有益效果：使用机器学习或深度学习模型进行人物分类可以提供高度准确和自动化的分类过程，适用于各种应用，从虚拟现实到安全监控等。这些模型在处理大量数据和复杂场景时表现出色彩优势，有助于提高人体姿态分类方法的性能。

进一步，步骤六中，将来自不同传感器和模型的数据进行整合时，将姿态估计的关键点位置与人物分类的结果进行组合，将关键点坐标、姿态信息和分类概率进行组合，以创建更具信息量的特征向量；设计整合策略，确定如何加权不同传感器和模型的数据，可以使用加权平均或投票机制的整合方法。

有益效果：将来自不同传感器和模型的数据进行整合是一种强大的方法，可以提高人体姿态分类方法的准确性、鲁棒性和可信度。这种方法广泛应用于许多领域，包括虚拟现实、监控系统、自动驾驶和体感游戏等，以改善用户体验和系统性能。

附图说明

图1为本发明实施例的基于计算机视觉的人体姿态分类方法示意图。

具体实施方式

下面通过具体实施方式进一步详细说明：

实施例一

实施例基本如附图1所示：

一种基于计算机视觉的人体姿态分类方法，具体包括如下步骤：

步骤一，数据采集：假设我们在一个公共场所，如火车站、机场、购物中心或街头，希望使用计算机视觉技术来监控和分析人群的行为，以提高安全性和管理效率。将摄像头分布在公共场所的不同位置，捕获实时视频，使用一个或多个摄像头来捕获实时视频，连续地获取视频帧，通常以每秒多帧的速度进行捕获。使用红外传感器获取额外信息，使用光线传感器测量环境光照强度。

步骤二，目标检测与跟踪：使用目标检测模型来检测视频帧中的人体，使用目标跟踪算法跟踪检测到的人体，以获取其轨迹信息。

目标检测模型包括但不限于YOLO、Faster R-CNN和SSD，将每个检测到的人体用边界框来表示，边界框包围了人体的位置；使用目标跟踪时，对于每个检测到的人体，启动一个目标跟踪器，包括但不限于卡尔曼滤波器、Kalman滤波和SORT，目标跟踪器使用先前帧中的信息来估计当前帧中人体的位置，从而跟踪他们的运动，目标跟踪器为每个跟踪的人体分配一个唯一的标识符，在不同帧之间保持一致。

每个跟踪器会持续更新人体的位置，以形成轨迹信息，轨迹信息包括但不限于人体的移动路径、速度和加速度，这些信息可用于分析人体的动态行为和姿态变化。通过计算速度和加速度等参数，我们可以检测异常行为，例如突然奔跑或堵塞。

步骤三，遮挡物检测：使用图像分割技术来检测遮挡物，分析遮挡物的位置和形状，以确定哪些部分的人体被遮挡；检测并识别可能作为遮挡物的区域，例如广告牌前的柱子或其他人。

进行图像分割时，使用图像分割算法来将视频帧中的图像分割成不同的区域或对象，图像分割方法包括但不限于语义分割、实例分割和边缘检测；在分割后的图像中，检测和识别可能作为遮挡物的区域或对象，通过分析图像中不同区域的特征，如颜色、纹理和形状。一旦检测到可能的遮挡物区域，进一步分析这些区域的位置和形状，使用形态学操作、边缘检测、连通性分析等技术来确定遮挡物的形状和边界。

步骤四，人体姿态预估：使用姿态估计模型来分析每个人体的关键点，包括但不限于头部、手臂和腿部，通过关键点位置推断人体的姿势；姿态估计模型包括但不限于OpenPose、PoseNet和HRNet，姿态估计模型基于深度学习的模型，在图像中检测多个关键点，并估计它们的位置。

步骤五，人物分类：根据人体的关键点位置、姿势以及其他特征，使用机器学习或深度学习模型来进行人物分类，分类结果包括但不限于平面图像、真人和虚拟人物；用机器学习或深度学习模型来进行人物分类时，将人体的特征输入到模型中，模型将输出相应的分类标签。

步骤六，数据整合：将来自不同传感器和模型的数据整合在一起，以获得更综合的信息，整合的数据用于改善分类准确性，结合红外传感器数据来区分真实人体和人偶。将来自不同传感器和模型的数据进行整合时，将姿态估计的关键点位置与人物分类的结果进行组合，将关键点坐标、姿态信息和分类概率进行组合，以创建更具信息量的特征向量；设计整合策略，确定如何加权不同传感器和模型的数据，可以使用加权平均或投票机制的整合方法。

以上所述的仅是本发明的实施例，方案中公知的具体结构和/或特性等常识在此未作过多描述。应当指出，对于本领域的技术人员来说，在不脱离本发明结构的前提下，还可以作出若干变形和改进，这些也应该视为本发明的保护范围，这些都不会影响本发明实施的效果和专利的实用性。本申请要求的保护范围应当以其权利要求的内容为准，说明书中的具体实施方式等记载可以用于解释权利要求的内容。

Claims

1.一种基于计算机视觉的人体姿态分类方法，其特征在于：包括如下步骤：

2.根据权利要求1所述的基于计算机视觉的人体姿态分类方法，其特征在于：步骤一中，使用摄像头捕获实时视频时，使用一个或多个摄像头来捕获实时视频，连续地获取视频帧，通常以每秒多帧的速度进行捕获。

3.根据权利要求2所述的基于计算机视觉的人体姿态分类方法，其特征在于：步骤二中，目标检测模型包括但不限于YOLO、Faster R-CNN和SSD，将每个检测到的人体用边界框来表示，边界框包围了人体的位置；使用目标跟踪时，对于每个检测到的人体，启动一个目标跟踪器，包括但不限于卡尔曼滤波器、Kalman滤波和SORT，目标跟踪器使用先前帧中的信息来估计当前帧中人体的位置，从而跟踪他们的运动，目标跟踪器为每个跟踪的人体分配一个唯一的标识符，在不同帧之间保持一致。

4.根据权利要求3所述的基于计算机视觉的人体姿态分类方法，其特征在于：步骤二中，每个跟踪器会持续更新人体的位置，以形成轨迹信息，轨迹信息包括但不限于人体的运动路径、速度和加速度，这些信息可用于分析人体的动态行为和姿态变化。

5.根据权利要求4所述的基于计算机视觉的人体姿态分类方法，其特征在于：步骤三中，进行图像分割时，使用图像分割算法来将视频帧中的图像分割成不同的区域或对象，图像分割方法包括但不限于语义分割、实例分割和边缘检测；在分割后的图像中，检测和识别可能作为遮挡物的区域或对象，通过分析图像中不同区域的特征，一旦检测到可能的遮挡物区域，进一步分析这些区域的位置和形状，使用形态学操作、边缘检测、连通性分析等技术来确定遮挡物的形状和边界。

6.根据权利要求5所述的基于计算机视觉的人体姿态分类方法，其特征在于：步骤四中，姿态估计模型包括但不限于OpenPose、PoseNet和HRNet，姿态估计模型基于深度学习的模型，在图像中检测多个关键点，并估计它们的位置。

7.根据权利要求6所述的基于计算机视觉的人体姿态分类方法，其特征在于：步骤五中，用机器学习或深度学习模型来进行人物分类时，将人体的特征输入到模型中，模型将输出相应的分类标签。

8.根据权利要求7所述的基于计算机视觉的人体姿态分类方法，其特征在于：步骤六中，将来自不同传感器和模型的数据进行整合时，将姿态估计的关键点位置与人物分类的结果进行组合，将关键点坐标、姿态信息和分类概率进行组合，以创建更具信息量的特征向量；设计整合策略，确定如何加权不同传感器和模型的数据，可以使用加权平均或投票机制的整合方法。