CN117372844B

CN117372844B - 基于改进的时空自适应图卷积的骨架检测及摔倒检测方法

Info

Publication number: CN117372844B
Application number: CN202311662068.1A
Authority: CN
Inventors: 王计斌; 陈晓芳; 陶维
Original assignee: Nanjing Howso Technology Co ltd
Current assignee: Nanjing Howso Technology Co ltd
Priority date: 2023-12-06
Filing date: 2023-12-06
Publication date: 2024-02-13
Anticipated expiration: 2043-12-06
Also published as: CN117372844A

Abstract

本发明公开了一种基于改进的时空自适应图卷积的骨架检测及摔倒检测方法，步骤为：S1：采集图像数据，获取每帧图像数据；S2：采用预先训练好的yolov5目标人员检测模型检测每帧图像数据中是否有目标人员出现，若有目标人员出现，则转至步骤S3，若无则结束；S3：对于每个检测到的目标人员，使用Deepsort目标追踪算法进行目标跟踪，得到跟踪结果，并计算相似度得到目标关联的结果，更新每个目标人员的轨迹信息；S4：对每个目标人员结合轨迹信息进行姿态识别，并采用时空自适应图卷积网络提取姿态的特征向量，采用分类器对人体行为分类和识别，判断目标人员是否发生了摔倒事件。该方法具有更高的准确性和鲁棒性。

Description

基于改进的时空自适应图卷积的骨架检测及摔倒检测方法

技术领域

本发明属于人工智能技术领域，尤其涉及一种基于改进的时空自适应图卷积的骨架检测及摔倒检测方法。

背景技术

现有的技术采用基于计算机视觉的方法，这种方法使用摄像头或深度传感器来捕捉人体动作和姿势，通过分析关键点或骨架数据进行摔倒检测。然而，计算机视觉方法对于光照变化、遮挡或视角变化比较敏感，可能导致检测精度的下降，在实际应用中存在很大缺陷。

现有的技术采用基于机器学习的方法，这种方法利用机器学习算法，通过训练模型来识别摔倒行为的特征模式。然而，传统的机器学习方法往往需要手动提取特征，且对于复杂的时空关系建模能力有限。

现有的技术采用基于传感器方法的摔倒检测算法，这种方法主要依靠类似三轴加速器，陀螺仪，压力传感器等来检测人体运动并定位人体位置来识别摔倒行为。Yodpijit等人使用加速度计和陀螺仪运动传感器结合检测摔倒行为，用基于人工神经网络(Artificial Neural Network, ANN)的算法区分摔倒行为和日常行为。Chen KH等人使用配有运动传感器的智能手机检测摔倒行为。通过智能手机中的运动传感器和传输模块，计算人体运动的变化，并将数据发送到服务器分析运动行为并识别出摔倒。然而，由于可穿戴设备通常价格昂贵并且容易导致穿戴者的不适，没有很好地普适性，因此在公共场所检测没有佩戴传感器设备的人是否摔倒是不现实的。基于环境设备的方法与可穿戴设备同样需要依赖传感器。不同的是，主要依靠雷达或地面传感器等设备采集电流或音频信息来判断是否发生摔倒行为。由于环境设备对外界噪声等干扰非常敏感。因此，在复杂的多人场景中，基于环境设备的方法显然也是效果不太好的。

现有的技术采用基于计算机视觉传统方法的摔倒检测算法。随着计算机视觉技术的飞速发展，越来越多的研究人员关注于行为识别的研究。人类行为识别被广泛的应用于安全监控，人机交互以及虚拟现实。由于上述基于传感器设备方法的局限性，采用基于计算机视觉的摔倒检测近年来受到越来越多的关注。基于计算机视觉的方法不需要通过传感器设备，只需要安装摄像头，通过视频就可以识别出是否有人摔倒，且精度较传感器方法更高。Wang等人提出一种新的前景分割模型来检测行人，通过行人的轮廓变化来检测摔倒行为。Zerrouki等人使用隐马尔可夫模型，根据行人的轮廓形态比特征，识别出摔倒行为并对行为进行分类。Yu等人采用隐马尔可夫模型结合加速度传感器，在传感器获取的数据用于分别单独训练隐马尔可夫模型，用方向校准算法弥补误差。邓志峰等人通过结合几何特征以及构建行人外接矩阵来判断不同方向上的摔倒行为。Fan等人通过分别计算动态与静态特征对摔倒行为进行分类。对Miao等人采用椭圆拟合法，将人体轮廓用一个椭圆包裹住，采用几何特征与位置信息等特征结合SVM识别摔倒行为并对不同行为进行分类。但是，这种传统方法侧重于特征提取和分类，容易受到噪声、光照变化和遮挡的影响。

由于以上摔倒检测方法存在一些缺点：基于传感器的摔倒检测方法依赖特定的传感器，这使得系统的部署和使用受到一定的限制，需要在特定的环境中安装和配置传感器设备。并且，基于传感器方法的检测范围和覆盖范围通常受限于传感器的感知范围。例如，使用固定位置的加速度计仅能检测到固定范围内的摔倒事件，无法覆盖整个环境。传感器方法还需要实时获取和处理传感器数据，并对其进行分析和判断。这对于系统的实时性和稳定性提出了要求，并且对传感器数据的质量和准确性有一定的依赖性。基于计算机视觉传统方法的摔倒检测算法对环境要求较高，需要有清晰的摄像头视野和良好的光照条件，以便准确地捕捉和分析人体的姿态和动作信息。在复杂或恶劣的环境下，算法的性能可能会下降。计算机视觉传统方法通常依赖于手工设计的特征提取方法，需要针对摔倒检测任务设计和选择适合的特征。然而，这种手工特征提取往往受到人工经验和主观因素的影响，无法充分利用数据的潜在信息。

中国专利文献（CN112966628A）公开了一种基于图卷积神经网络的视角自适应多目标摔倒检测方法包括以下步骤：采用目标检测算法检测目标视频源中每一帧图像的人物目标，采用姿态估计算法提取每一帧图像中人物目标的关键骨骼点数据，当连续检测到同一人物目标的帧数大于预设的检测阈值时，将所提取的关键骨骼点数据输入完成训练的视角自适应子网络中，得到视角调整参数；根据视角调整参数对关键骨骼点数据进行视角调整，再根据视角调整后的关键骨骼点数据计算运动数据，将视角调整后的关键骨骼点数据和运动数据输入完成训练的图卷积摔倒识别主网络进行摔倒检测，输出检测结果标签。该方法无法充分利用数据的潜在信息。

因此，本发明提供一种基于改进的时空自适应图卷积的骨架检测及摔倒检测方法，适应不同的摔倒模式和环境条件，且该方法具有更高的准确性和鲁棒性。

发明内容

本发明要解决的技术问题是，提供一种基于改进的时空自适应图卷积的骨架检测及摔倒检测方法，适应不同的摔倒模式和环境条件，且该方法具有更高的准确性和鲁棒性。

为了解决上述技术问题，本发明采用的技术方案是：该基于改进的时空自适应图卷积的骨架检测及摔倒检测方法，具体包括以下步骤：

S1：采集图像数据，获取每帧图像数据；

S2：采用预先训练好的yolov5目标人员检测模型检测每帧图像数据中是否有目标人员出现，若有目标人员出现，则转至步骤S3，若无目标人员出现则结束；

S3：对于每个检测到的目标人员，使用Deepsort目标追踪算法进行目标跟踪，得到跟踪结果，并计算相似度得到目标关联的结果，更新每个目标人员的轨迹信息；

S4：对每个目标人员结合轨迹信息进行姿态识别，并采用时空自适应图卷积网络提取姿态的特征向量，采用分类器对人体行为进行分类和识别，判断目标人员是否发生了摔倒事件。

采用上述技术方案，采用深度学习方法能够自动学习和提取特征，适应不同的摔倒模式和环境条件，并且可以从大量的数据中进行端到端的训练和优化，这使得基于深度学习的摔倒检测算法具有更高的准确性和鲁棒性。通过在ST-GCN摔倒检测模型中应用自适应图卷积网络，提高了模型的灵活性、适应性和表示能力，从而更准确地进行人体动作识别和时空特征建模。提高了对复杂的时空特征建模能力、增强了模型的灵活性和适应性等。自适应图卷积网络可以根据输入数据的特征和上下文信息动态地调整卷积操作中的权重。通过自适应的权重调整，模型可以根据不同的情况对特征进行加权，更好地捕捉和强调关键的时空特征。自适应图卷积网络还可以适应不同的环境和场景，对于光照变化、背景噪声、遮挡等因素具有一定的鲁棒性。这使得摔倒检测模型能够在不同的实际应用场景中保持较好的性能。

优选地，所述步骤S2中训练yolov5目标人员检测模型的具体步骤为：

S21：采用视频抽帧的方式，对步骤S1中采集到的图像数据进行抽帧处理，生成摔倒数据集；

S22：对摔倒数据集进行增强处理，得到增强数据集，并划分为训练集和测试集；

S23：搭建YOLOV5算法模型，输入数据并训练，得到算法模型权重，获得yolov5目标人员检测模型。其中为提高模型检测的准确性，通过搜集大量人员摔倒的真实场景下的视频以及模拟拍摄的人员摔倒的视频，并采用视频抽帧的方式，对视频进行抽帧处理，生成摔倒数据集。采用常用的数据增强手段，如Mosaic数据增强、自适应锚框计算等，增强数据集，实现增强模型的泛化能力。

优选地，所述步骤S3的具体步骤为：

S31：利用卡尔曼滤波对目标人员的下一帧图像数据的位置进行预测，再进行匹配；

S32：利用匈牙利算法进行数据关联，即输入视频到检测网络得到目标人员的位置信息，再传输到Deepsort目标追踪算法的跟踪网络中进行数据关联并对该目标人员的前后帧的目标人员进行匹配，从而得到跟踪目标；

S33：再利用卡尔曼滤波更新轨迹确定追踪结果并确定ID。

优选地，所述步骤S32中计算相似度利用了目标人员的运动信息和外观信息，对于运动信息采用马氏距离判断预测目标人员与检测目标人员的关联度，马氏距离的公式为：

；

其中，是检测框j的位置；是跟踪器i预测的位置；表示将第j个数据点的特征向量与第i个数据点的特征向量相减，得到一个差向量，这个差向量则表示两个数据点在各个特征维度上的差异或距离；表示将差向量进行转置即从行向量变为列向量，以便于矩阵运算；是检测与预测位置的协方差矩阵；马氏距离是通过计算检测位置和平均追踪位置之间的标准差将状态测量的不确定性进行了考虑；

当目标长久遮挡或视角抖动，则引入外观信息，通过余弦距离来解决因遮挡带来身份切换的问题；余弦距离的表达式为：

；

其中，是检测框的本征向量；是跟踪器i对应距离最近的N帧（N设定为100）本征向量的集合；为外观特征向量库；

再采用线性加权的方式求和，公式为：

；

其中，为权重参数，该公式将马氏距离和余弦距离结合起来，通过调整权重系数来平衡两者的贡献；取值范围在[0,1]之间；函数用于表示第i个样本和第j个样本之间的综合距离或相似性；通过调整权重参数λ，能在组合距离度量时平衡两个距离度量的重要性；当且仅当度量值存在于和之间，才认为目标关联。其中“是跟踪器i 对应距离最近”是指与当前帧目标特征相似度最高的N帧，需要计算当前帧目标特征与每个之前帧目标特征之间的余弦相似度，并选择相似度最高的N帧；即利用训练好的模型对第j 个检测框和第i个跟踪框进行特征提取，获得表观特征向量和表观特征向量，将第i个跟踪框的第k个表观特征向量存储于表观特征库中，为第j个检测框与第i个跟踪框之间的表观特征余弦相似度，该值与表观特征间的最小余弦距离之和为1；其中，越小则代表跟踪框和检测框的表观特征相似度越高，两者的关联匹配度越大。

优选地，所述步骤S4的具体步骤为：

S41 Alphapose姿态识别：采用 Alphapose模型的自顶向下的方法进行骨骼检测，得到连续骨架帧，再用SPPE(single person pose estimation) 算法对检测到的目标人员作姿态估计，得到目标人员骨骼图，

S42摔倒行为识别：采用时空自适应图卷积网络在空间和时间两个维度上进行特征提取，获得目标人员的特征向量；

S43人体行为分类和识别：使用训练好的分类器对目标人员的特征向量进行分类和识别，所述分类器将根据特征向量判断输入数据是否属于摔倒类别。

优选地，所述步骤S41中在Alphapose模型中添加了对称空间变换网络(Symmetricspace transformation network，SSTN)、由姿态引导的样本生成器(Pose-guidedProposals Generator，PGPG)和姿态非极大值抑制器(Parametric Pose Non-MaximumSuppression，PPNMS)实现骨骼检测；具体步骤为：

S411数据预处理：对裁剪出的目标人员的图像片段进行预处理，包括图像的缩放、归一化和通道顺序转换等操作，以适应Alphapose模型的输入要求；

S412对多人姿态估计：使用Alphapose对裁剪后的行人图像片段进行多人姿态估计，使用Alphapose模型检测到人体关键点（如头、肩、手肘、膝盖等）的位置，并估计出目标人员的姿态信息；

S413结果可视化：将多人姿态估计的结果与原始图像或视频帧结合，绘制关键点的连接线和姿态角度的信息，得到目标人员骨骼图，用于后续进行分析和展示。采用Alphapose与图卷积相结合的方法，很好地避免了对视频环境的依赖，本模型在公开数据集上与多个模型进行了对比试验，结果表明本模型具有较高的检测准确率和较低的场景依赖性。

优选地，所述步骤S42中的时空自适应图卷积网络(STA-GCN)由空间自适应图卷积SA-GC和时间自适应图卷积TA-GC组成，且空间自适应图卷积SA-GC和时间自适应图卷积TA-GC中均有嵌入式图卷积的拓扑自适应编码器TAE。

优选地，所述步骤S42中采用时空自适应图卷积网络通过图卷积层对行人骨架图进行特征提取的具体步骤为：

S421：将在时空图上引入一个特征提取算子，首先针对时空图中的图卷积，其中/>为骨架序列中跨T帧的所有节点的集合，/>为在时空图/>中的一个节点；/>表示骨架序列中的一个节点，其中n是节点的索引，t是时间步的索引；即/>是在时间步t上的一个节点，/>代表某个特定的时刻即时间步t在骨架序列中的一个位置或特征；n是节点的索引，用于唯一标识时空图中的不同节点；在中，n表示节点的编，它是一个整数，从1到N，其中 N 是节点的总数；t通常表示时间步或时间帧，即用来表示数据集中的每个时刻或时间点；T表示总的时间步数或时间帧数；/>为时空边缘集合；

S422：将一个时空图分解为跨时间的个空间图和跨节点的/>个时间图；空间图表示为/>，其中/>是空间边集，表示为空间邻接矩阵/>；其中R表示矩阵的实数域，R^T×N×N表示一个三维矩阵，其元素属于R，即实数域中的元素；当所有空间图具有相同的空间相关性时，空间邻接矩阵被降级为/>形式；同样，时间图表示为，/>表示时间图/>中的时间边集；时间边集用于定义节点之间的时间关系或时间连接；间邻接矩阵为/>；在时空图分解之后，发展了空间图卷积S-GC和时间图卷积T-GC；

其中空间图卷积S-GC表示为：

；

其中，是/>的元素，/>表示时空图中的一个节点，其中p是节点的索引，t是时间步的索引，在空间图卷积S-GC 中，它用于表示空间图中的节点；W表示权重矩阵或权重参数，用于线性变换或特征的加权汇总，即/>表示对节点/>应用权重，用于对输入特征进行加权汇总，以生成节点/>上的输出特征；

其中时间图卷积T-GC表示为：

；

其中，是/>的元素；/>表示时空图中的一个节点，其中n是节点的索引，q是时间步的索引，在时间图卷积T-GC中，它用于表示时间图中的节点；W表示权重矩阵或权重参数，用于线性变换或特征的加权汇总，即/>表示对节点/>的应用的权重，用于对输入特征进行加权汇总，以生成节点/>上的输出特征；

再利用空间图卷积S-GC和时间图卷积T-GC提取时空图上的特征，获得特征向量，其中特征提取表示为：

；

其中，是/>的元素；/>表示在空间图卷积S-GC中用于连接节点/>和节点/>之间的权重或连接系数，它是时空图中的空间邻接矩阵/>的元素，用于衡量节点之间的空间关系或连接强度；具体为，/>表示节点/>和节点/>之间的空间连接强度，用于确定如何在空间图中传播特征信息；N用于表示节点的索引范围，表示节点/>和节点中的节点索引；q表示时间图的时间步或时间帧的索引，用于表示在时间图卷积T-GC中的不同时间步或时间帧；p是空间图的节点的索引；W表示权重矩阵或权重参数，用于线性变换或特征的加权汇总，即/>和/>均用于对输入特征进行加权汇总。这些权重矩阵通常是神经网络模型中的可学习参数，它们用于调整和控制特征在不同节点之间的传播和汇总方式，以捕捉时空图中的复杂特征关系；在模型的训练过程中，这些权重矩阵会根据损失函数进行调整，以最优化模型的性能。

该方法使用YOLO v5网络模型，得到人体目标检测框信息、置信度信息以及分类信息；该模型的目标跟踪部分采用YOLO v5结合Deepsort的方法，其中每个跟踪实例需要与YOLO v5所得的目标检测结果进行匹配，根据不同的情况可分为３个状态，初始化时设定为临时状态，如果没有匹配上任何检测结果则会被删除；如果连续匹配上一定次数，则被设定为已跟踪状态；在已跟踪状态时如果未匹配次数超过设定的最大次数，则被删除；在姿态估计部分，将目标检测及跟踪部分检测得到每一帧的目标检测框传入，在姿态估计阶段，在模型中通过Alphapose对每一帧图像进行人体骨骼关键点识别与检测，然后将得到的骨骼关键点数据进行归一化数据处理；在姿态估计之后，得到人体骨架关键点的信息，将得到的骨骼点以图信息的形式传入改进的时空自适应图卷积神经网络（STA-GCN）进行图卷积，将图卷积后的张量传入Line-ar层进行分类，实现人体摔倒检测；引入时空自适应图卷积对行人目标的时空关系进行建模，利用行人的运动轨迹信息和关键点位置信息，实现特征的自适应学习和提取；时空自适应图卷积可以更好地捕捉行人的运动特征和姿态变化，增强了特征的表征能力。

优选地，所述步骤S43的具体步骤为：

S431：首先对特征向量进行预处理，获得预处理后的特征向量；

S432：再选择分类器模型使用已标记的训练数据对分类器进行训练；

S433：再用未标记的测试数据对训练好的分类器进行评估，

S434：使用训练好的分类器对预处理后的特征向量进行分类和识别，根据特征向量判断输入数据是否属于摔倒类别。

优选地，所述步骤S431中预处理的方式包括特征归一化和降维；所述步骤S432中的分类器模型选择支持向量机SVM；所述步骤S433中通过计算准确率、召回率和F1分数来评估分类器的性能。

与现有技术相比，本发明具有的有益效果为：

（1）高准确性：YOLOv5作为目标检测器具有较高的准确性，可以快速准确地检测图像或视频中的行人目标。而Deepsort能够实现对行人目标的连续跟踪，从而减少了误检和漏检，提高了摔倒检测的准确性；

（2）实时性：YOLOv5和Deepsort都是针对实时应用设计的目标检测和跟踪算法，因此整个系统能够在实时场景中高效运行，满足实时摔倒检测的需求；

（3）连续姿态估计：结合Deepsort对行人目标的连续跟踪，摔倒检测可以对行人的姿态进行连续估计，不仅可以准确判断行人是否摔倒，还能获取行人在整个视频序列中的姿态变化信息；

（4）时空自适应图卷积：引入时空自适应图卷积能够捕捉行人目标的运动特征和姿态变化，增强特征的表征能力。通过学习行人目标在时空中的关系，摔倒检测的特征表示更加全面和有意义；

（5）多任务学习：整合YOLOv5、Deepsort和姿态估计模块形成多任务学习框架，各个模块之间相互协作、共享特征，提高了整个系统的性能；

（6）通用性：基于YOLOv5和Deepsort的摔倒检测方法可以应用于各种类型的摄像头和场景，具有较强的通用性和适应性。

附图说明

图1为本发明的基于改进的时空自适应图卷积的骨架检测及摔倒检测方法流程图；

图2为本发明的基于改进的时空自适应图卷积的骨架检测及摔倒检测方法中的行人检测及跟踪总流程图；

图3为本发明的基于改进的时空自适应图卷积的骨架检测及摔倒检测方法中的Deepsort算法中级联匹配流程图；

图4为本发明的基于改进的时空自适应图卷积的骨架检测及摔倒检测方法中的时空自适应图卷积网络结；

图5为本发明的基于改进的时空自适应图卷积的骨架检测及摔倒检测方法中的骨骼检测示意图。

具体实施方式

下面结合附图对本发明实施例进行详细描述，以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

本技术方案中的公知常识具体有：

（1）YOLOv5目标检测算法：

YOLOv5技术特点：YOLOv5是一种单阶段目标检测算法，该算法在YOLOv4的基础上添加了一些新的改进思路，使其速度与精度都得到了极大的性能提升。YOLOv5目标检测算法相比YOLOv4算法有以下一些改进思路：

输入端：在模型训练阶段，提出了一些改进思路，主要包括Mosaic数据增强、自适应锚框计算等；

Mosaic数据增强通过随机选取四张不同的训练图像，并将它们拼接成一个大图像，形成一个“马赛克”（Mosaic）图像。在拼接的过程中，还会随机调整和翻转每张图像的尺寸和位置。这样可以使模型在训练过程中接触到更多的背景和目标样本，增加数据集的丰富性和多样性。Mosaic数据增强可以提高模型的泛化能力和鲁棒性，减轻过拟合问题；

自适应锚框计算是一种根据目标在图像中的分布和尺寸动态调整锚框的方法。传统的目标检测算法中通常使用固定的锚框来预测目标的边界框。而自适应锚框计算则根据训练集中目标的分布情况，动态地生成锚框，使其更适应目标的尺寸和长宽比。这样可以提高目标检测算法对不同尺寸和形状目标的检测准确性。自适应锚框计算通常结合聚类算法或统计分析方法来确定最优的锚框尺寸和长宽比。这些技术在目标检测算法中被广泛应用，旨在增加数据的多样性、提高模型的适应性和准确性。它们的使用可以使模型更好地适应各种场景和目标，并在实际应用中取得更好的性能；

基准网络：融合其它检测算法中的一些新思路，主要包括：Focus结构与CSP结构；

Focus结构是YOLOv5中用于替代传统的卷积操作的一种特殊结构。传统的卷积操作通常会对输入特征图进行较大的尺度缩减，导致信息丢失和计算量增加。而Focus结构则采用了类似于分组卷积的思想，将输入特征图分为较小的子图，并在子图内进行卷积操作。这样可以减少信息的丢失，并提高计算效率。Focus结构有助于在减少计算量的同时保持特征图的丰富性；

CSP结构是一种特殊的网络结构，用于改进特征图的传递和特征的提取。CSP结构通过将输入特征图分为两个分支，其中一个分支进行卷积操作，而另一个分支则直接传递原始特征图。这种分支结构可以促进特征的传播和融合，提高模型对不同尺度的目标的感知能力。CSP结构在YOLOv5中被应用于不同的网络层级，以增强特征的提取和表达能力；YOLOv5的Focus结构和CSP结构的应用使得模型能够更好地处理不同尺度的目标，提高目标检测的精度和鲁棒性。通过融合其他检测算法中的新思路，YOLOv5的基准网络在目标检测任务中取得了较好的性能表现；

Neck网络：目标检测网络在BackBone与最后的Head输出层之间往往会插入一些层，Yolov5中添加了FPN+PAN结构, 这种结构常用于目标检测任务中，用于提取和融合不同尺度的特征信息，以便更好地检测多尺度目标；

FPN（Feature Pyramid Network）是一种用于处理多尺度特征的网络结构。它通过在主干网络（Backbone）的不同层级上构建特征金字塔，生成一系列具有不同尺度的特征图。这些特征图包含了丰富的语义和空间信息，能够捕捉不同尺度目标的细节和上下文。FPN结构利用上采样和下采样的操作，将这些特征图进行融合，得到一系列具有不同分辨率的特征金字塔，以满足不同尺度目标的检测需求；

PAN（Path Aggregation Network）结构是在FPN基础上的进一步改进。它引入了横向连接（lateral connections）和自顶向下的路径（top-down pathways），以更好地融合和聚合特征信息。横向连接用于将高分辨率的浅层特征与低分辨率的深层特征相结合，以丰富和增强特征表示。自顶向下的路径则通过上采样操作将较低分辨率的特征映射与高分辨率的特征映射相结合，以获取更丰富的上下文信息；

Head输出层：输出层的锚框机制与YOLOv4相同，主要改进的是训练时的损失函数GIOU_Loss，以及预测框筛选的DIOU_nms；

在YOLOv5的Head输出层，使用了一组预定义的锚框来预测目标的边界框。每个锚框通常与多个网格单元（grid cell）相关联，通过回归预测目标的位置和尺寸。这些锚框的大小和长宽比通常根据训练集中目标的分布进行设计和调整，以适应不同尺度和形状的目标；

在训练时，YOLOv5改进了损失函数的计算方法，采用了GIOU_Loss（GeneralizedIntersection over Union Loss）。GIOU_Loss是一种IoU损失函数的改进版本，用于衡量预测边界框与真实边界框之间的重叠程度。它考虑了边界框之间的相交区域和相并区域的面积，并通过计算广义的IoU值来优化模型。相较于传统的IoU损失函数，GIOU_Loss在优化目标检测任务时可以更好地处理边界框的重叠情况，提高检测的准确性和鲁棒性；

另外，YOLOv5还改进了预测框筛选的方法，引入了DIOU_nms（Distance-IoU Non-Maximum Suppression）。DIOU_nms在非极大值抑制（NMS）过程中考虑了边界框之间的距离和IoU值，用于选择最具代表性的边界框。它通过综合考虑边界框的位置和形状信息，在抑制冗余预测框的同时保留最相关的目标框。这种筛选方法能够进一步提高目标检测的准确性和召回率；

（2）Deepsort目标跟踪算法：Deepsort的前身是SORT算法，SORT算法是由目标检测器以及跟踪器所构成，其跟踪器的核心是卡尔曼滤波算法和匈牙利算法。利用卡尔曼滤波算法预测检测框在下一帧的状态，将该状态与下一帧的检测结果利用匈牙利算法进行匹配，实现追踪。一旦物体受到遮挡或者其他原因没有被检测到，卡尔曼滤波预测的状态信息将无法和检测结果进行匹配，该追踪片段将会提前结束。而Deepsort则引入了深度学习中的重识别算法来提取被检测物体（检测框物体中）的外观特征（低维向量表示），在每次（每帧）检测+追踪后，进行一次物体外观特征的提取并保存。后面每执行一步时，都要执行一次当前帧被检测物体外观特征与之前存储的外观特征的相似度计算，依次来避免遇到漏检的情况，将失去身份ID的情况，可以说Deepsort不光使用了物体的速度和方向趋势来对目标进行跟踪，同时也利用物体的外观特征巩固对是否为同一物体的判断；Deepsort主要特点：

1. 多目标跟踪：Deepsort能够同时跟踪多个目标，通过对每个目标进行关联和轨迹管理，实现对视频中多个目标的准确跟踪；

2. 结合深度学习和传统方法：Deepsort结合了深度学习和传统的卡尔曼滤波器。深度学习用于目标检测和特征提取，提供丰富的目标特征表示；卡尔曼滤波用于目标状态的估计和预测，提供目标的位置和运动信息；

3. 强大的特征表示：通过深度学习网络提取的特征表示具有较高的判别性，能够准确度量目标之间的相似度。这有助于准确关联目标并处理外观变化、遮挡等问题；

4. 鲁棒性：Deepsort具有一定的鲁棒性，能够处理目标的出现、消失和遮挡等常见场景下的挑战。通过使用卡尔曼滤波进行状态预测和轨迹管理，可以一定程度上弥补目标检测的错误或不稳定性；

5. 实时性能：Deepsort在实时目标跟踪方面表现良好，具有较快的速度和较低的计算资源需求。这使得它适用于在计算资源受限的设备上进行实时目标跟踪，如移动设备、嵌入式系统等。

实施例：基于改进的时空自适应图卷积的骨架检测及摔倒检测方法，如图1所示，具体包括以下步骤：

S1：采集图像数据，通过视频或者rtsp流，获取每帧图像数据；

所述步骤S2中训练yolov5目标人员检测模型的具体步骤为：

S23：搭建YOLOV5算法模型，输入数据并训练，得到算法模型权重，获得yolov5目标人员检测模型；

如图 2 所示，所述步骤S3的具体步骤为：

S31：利用卡尔曼滤波对目标人员的下一帧图像数据的位置进行预测，再进行匹配；包括级联匹配和IOU匹配；

如图3所示，首先利用卡尔曼滤波对目标人员的下一帧图像的位置进行预测，对于跟踪到的目标人员进行级联匹配，对于没有跟踪到轨迹的经过IOU匹配，经过级联匹配，得到没匹配上的跟踪实例、没匹配上的检测实例和匹配上的跟踪实例，对于没匹配上的检测实例再进行IOU匹配，经过IOU匹配后得到没匹配上的跟踪实例、没匹配上的检测实例和匹配上的跟踪实例，其中对于匹配上的跟踪实例转至步骤S33；对于没匹配上的跟踪实例中无跟踪到目标人员的轨迹则删除；没匹配上的跟踪实例中有已跟踪的目标人员的轨迹，则判断未匹配次数超过设定的最大次数，若大于则删除；若小于则转至采用卡尔曼滤波对目标人员的预测；

所述步骤S32中计算相似度利用了目标人员的运动信息和外观信息，对于运动信息采用马氏距离判断预测目标人员与检测目标人员的关联度，马氏距离的公式为：

；

其中，是检测框的本征向量；是跟踪器i对应的距离最近的N帧本征向量的集合；本实施例中N设定为100；为外观特征向量库；为了充分利用运动信息和外观信息，再采用线性加权的方式求和，公式为：

；

其中，为权重参数，该公式将马氏距离和余弦距离结合起来，通过调整权重系数来平衡两者的贡献；取值范围在[0,1]之间；函数用于表示第i个样本和第j个样本之间的综合距离或相似性；通过调整权重参数λ，能在组合距离度量时平衡两个距离度量的重要性；当且仅当度量值存在于和之间，才认为目标关联；其中“是跟踪器i对应距离最近”是指与当前帧目标特征相似度最高的N帧，需要计算当前帧目标特征与每个之前帧目标特征之间的余弦相似度，并选择相似度最高的N帧；即利用训练好的模型对第j个检测框和第i个跟踪框进行特征提取，获得表观特征向量和表观特征向量，将第i 个跟踪框的第k个表观特征向量存储于表观特征库中，为第j个检测框与第i个跟踪框之间的表观特征余弦相似度，该值与表观特征间的最小余弦距离之和为1；其中，越小则代表跟踪框和检测框的表观特征相似度越高，两者的关联匹配度越大；

S33：再利用卡尔曼滤波更新轨迹确定追踪结果并确定ID；最后利用匈牙利算法进行数据关联，提升跟踪效果，减少身份切换问题，输入视频到检测网络得到目标人员的位置信息，再传输到跟踪网络中进行数据关联并对前后帧的人匹配，得到跟踪结果；Deepsort计算相似度利用了目标的运动信息；根据目标关联的结果，更新每个已有行人目标的轨迹信息。可以利用卡尔曼滤波器进行目标状态的预测和更新，通过预测和观测之间的协方差矩阵来估计行人目标的位置和速度。对于未关联的新行人目标，创建新的目标轨迹，并为其分配唯一的标识符。这些新目标的轨迹将会在后续的帧中被更新和跟踪。通过上述步骤，Deepsort能够实时跟踪行人目标并维护其轨迹信息。在摔倒检测中，可以结合行人跟踪的结果进行后续的摔倒事件检测，例如，通过分析行人的姿态和运动轨迹等信息来判断是否发生了摔倒事件；

S4：对每个目标人员结合轨迹信息进行姿态识别，并采用时空自适应图卷积网络提取姿态的特征向量，采用分类器对人体行为进行分类和识别，判断目标人员是否发生了摔倒事件；

所述步骤S4的具体步骤为：

S41 Alphapose姿态识别：采用 Alphapose模型的自顶向下的方法进行骨骼检测，得到连续骨架帧，再用SPPE(single person pose estimation) 算法对检测到的目标人员作姿态估计，得到目标人员骨骼图，使用了目标检测和姿态估计后的效果如图5所示，可以看出经过目标检测得到了目标人员的检测框，经过姿态估计后得到的人体骨架图；图5先使用目标检测再进行姿态估计，属于是对人体行为识别的通用方法，其姿态估计方法可以提供更多的人体信息，如关节位置、姿态角度等，在图5中姿态估计后的图中看出，这些信息可以用于更全面地分析人体状态，从而提高对摔倒事件的准确性；此外，姿态估计方法能够捕捉人体的动态变化，包括运动轨迹、姿态转换等；这对于区分摔倒和其他正常的行为非常重要，因为摔倒通常伴随着不同寻常的动作；通过跟踪人体关键点在时间上的移动轨迹，可以获得人体部位之间的相互关系和连续变化；在摔倒过程中，关键点的轨迹可能会显示出异常的模式，这有助于识别摔倒事件；

所述步骤S41中在Alphapose模型中添加了对称空间变换网络(Symmetric spacetransformation network，SSTN)、由姿态引导的样本生成器(Pose-guided ProposalsGenerator，PGPG)和姿态非极大值抑制器(Parametric Pose Non-Maximum Suppression，PPNMS)实现骨骼检测；已有的骨骼模型主要有两个问题: 定位错误和产生冗余检测结果。针对这些问题，Alphapose模型添加了三个模块：对称空间变换网络(Symmetric spacetransformation network，SSTN)、由姿态引导的样本生成器(Pose-guided ProposalsGenerator，PGPG)和姿态非极大值抑制器(Parametric Pose Non-Maximum Suppression，PPNMS)。SSTN的作用为对人体检测框进行感兴趣区域提取，达到自动调整检测框的目的，通过添加该模块使上图中目标检测结果更加准确。PGPG作用为对已有的数据进行姿态引导的数据扩充，增加训练样本，达到数据增强的目的；作用于目标检测和SPPE的训练；PPNMS是一种参数化姿态非极大抑制方法，通过定义姿态距离计算姿态相似度来消除冗余的检测框，当相似度低于某一阈值时作为冗余框删除。通过结合这三个模块，Alphapose实现了更精确的骨骼检测；

具体步骤为：

S413结果可视化：将多人姿态估计的结果与原始图像或视频帧结合，绘制关键点的连接线和姿态角度的信息，得到目标人员骨骼图，用于后续进行分析和展示；

在真实的视频中，动作行为并不仅仅包含单帧的情况，还包含连续的时间。因此使用Alphapose算法提取骨架之后，得到的是连续骨架帧。人体骨架帧序列是由关节点坐标组成，早期提取骨架特征的工作主要交给时空卷积神经网络，通过连接整帧关节的坐标向量，继而构成一个特征向量。虽然卷积神经网络可以提取时空特征，但是该方法没有考虑到骨架关节之间骨架边的自然连接以及帧与帧之间同一个关节连接起来的时间边。2018年有研究人员提出的ST-GCN模型使用图卷积神经网络（GCN）来处理骨架图。然而，在时空图上的特征提取操作仍然存在两个缺点：(1)在空间特征学习阶段，固定的空间拓扑在所有姿态之间是共享的，对于姿态变化较大的动作可能不是最优的。使用固定的空间拓扑可能会错误地增强不相关的连接或削弱关键的连接，不能准确地表示空间依赖性。这一事实表明，空间拓扑结构应适应骨架序列中的每个姿态。(2)在学习时间特征阶段，现有方法应用具有固定小核的时间卷积来提取短程时间特征。它导致对动作识别至关重要的时间远程关节依赖性建模的能力较弱。为了学习在空间和时间维度上的鲁棒特征表示，该技术方案提出了一种改进的ST-GCN网络时空自适应图卷积网络(STA-GCN)；所述步骤S42中的时空自适应图卷积网络(STA-GCN)由空间自适应图卷积SA-GC和时间自适应图卷积TA-GC组成，且空间自适应图卷积SA-GC和时间自适应图卷积TA-GC中均有嵌入式图卷积的拓扑自适应编码器TAE；SA-GC模块通过对空间自适应联合依赖关系进行建模来提取空间特征。TA-GC模块旨在通过捕获时间维度上的直接远程联合依赖关系来学习时间特征。该模型与SA-GC和TA-GC模块相结合，可以在空间和时间两个维度上学习判别特征；使用TAE组件来学习空间自适应拓扑和时间自适应拓扑。现有的GCN方法使用固定的时空拓扑。这种固定的空间拓扑迫使每个骨架框架采用相同的空间拓扑，而固定的时间拓扑迫使所有轨迹使用相同的时间拓扑。这种固定的拓扑结构不足以表示每个姿态或每个轨迹的联合依赖。因此，我们提出TAE通过学习空间自适应拓扑和时间自适应拓扑来解决这一问题。空间自适应拓扑可以为骨架序列中的每一帧生成特定于姿态的依赖关系，以学习判别性的空间特征。时间自适应拓扑可以对轨迹图中任意两个节点之间的直接远程依赖关系进行建模，以提取鲁棒的时间特征；

如图4所示，所述步骤S42中采用时空自适应图卷积网络通过图卷积层对行人骨架图进行特征提取的具体步骤为：

其中空间图卷积S-GC表示为：

；

其中时间图卷积T-GC表示为：

；

其中，是/>的元素；/>表示在空间图卷积S-GC中用于连接节点/>和节点/>之间的权重或连接系数，它是时空图中的空间邻接矩阵/>的元素，用于衡量节点之间的空间关系或连接强度；具体为，/>表示节点/>和节点/>之间的空间连接强度，用于确定如何在空间图中传播特征信息；N用于表示节点的索引范围，表示节点/>和节点中的节点索引；q表示时间图的时间步或时间帧的索引，用于表示在时间图卷积T-GC中的不同时间步或时间帧；p是空间图的节点的索引；W表示权重矩阵或权重参数，用于线性变换或特征的加权汇总，即/>和/>均用于对输入特征进行加权汇总。这些权重矩阵通常是神经网络模型中的可学习参数，它们用于调整和控制特征在不同节点之间的传播和汇总方式，以捕捉时空图中的复杂特征关系；在模型的训练过程中，这些权重矩阵会根据损失函数进行调整，以最优化模型的性能；

S43人体行为分类和识别：使用训练好的分类器对目标人员的特征向量进行分类和识别，所述分类器将根据特征向量判断输入数据是否属于摔倒类别；

所述步骤S43的具体步骤为：

所述步骤S431中预处理的方式包括特征归一化和降维；这些预处理步骤有助于优化分类器的性能；

S432：再选择分类器模型使用已标记的训练数据对分类器进行训练；所述步骤S432中的分类器模型选择支持向量机SVM；并使用已标记的训练数据对分类器进行训练。训练数据是一组带有标签的特征向量，其中标签表示每个特征向量对应的摔倒行为类别；

S433：再用未标记的测试数据对训练好的分类器进行评估，所述步骤S433中通过计算准确率、召回率和F1分数来评估分类器的性能；

对于本领域的普通技术人员而言，具体实施例只是对本发明进行了示例性描述，显然本发明具体实现并不受上述方式的限制，只要采用了本发明的方法构思和技术方案进行的各种非实质性的改进，或未经改进将本发明的构思和技术方案直接应用于其它场合的，均在本发明的保护范围之内。

Claims

1.一种基于改进的时空自适应图卷积的骨架检测及摔倒检测方法，其特征在于，具体包括以下步骤：

S1：采集图像数据，获取每帧图像数据；

S4：对每个目标人员结合轨迹信息进行姿态识别，并采用时空自适应图卷积网络提取姿态的特征向量，采用分类器对人体行为分类和识别，判断目标人员是否发生了摔倒事件；

所述步骤S2中训练yolov5目标人员检测模型的具体步骤为：

S21：用视频抽帧的方式，对步骤S1中采集到的图像数据进行抽帧处理，生成摔倒数据集；

所述步骤S3的具体步骤为：

S31：利用卡尔曼滤波对目标人员的下一帧图像的位置进行预测，再进行匹配；

S33：再更新轨迹确定追踪结果并确定ID；

其中，d_j是检测框j的位置；y_i是跟踪器i预测的位置；d_j-y_i表示将第j个数据点的特征向量与第i个数据点的特征向量相减，得到一个差向量，这个差向量则表示两个数据点在各个特征维度上的差异或距离；(d_j-y_i)^T表示将差向量进行转置即从行向量变为列向量，以便于矩阵运算；S_i是检测与预测位置的协方差矩阵；当目标长久遮挡或视角抖动，则引入外观信息，通过余弦距离来解决因遮挡带来身份切换的问题；余弦距离的表达式为：

其中，r_j是检测框d_j的本征向量；即r_j表示第j个数据点的特征向量；是r_j的转置，其中包含了第j个数据点在各个特征维度上的特征值信息；/>是跟踪器i对应的距离最近的N帧本征向量的集合；R_i为外观特征向量库；利用运动信息和外观信息，采用线性加权的方式求和，公式为：

c_i,j＝λd⁽¹⁾(i,j)+(1-λ)d⁽²⁾(i,j)；

其中，λ为权重参数，取值范围在[0,1]之间；函数c_i,j用于表示第i个样本和第j个样本之间的综合距离或相似性；通过调整权重参数λ，能在组合距离度量时平衡两个距离度量的重要性；当且仅当度量值c_i,j存在于d⁽¹⁾(i,j)和d⁽²⁾(i,j)之间，才认为目标关联。

2.根据权利要求1所述的基于改进的时空自适应图卷积的骨架检测及摔倒检测方法，其特征在于，所述步骤S4的具体步骤为：

S41Alphapose姿态识别：采用Alphapose模型的自顶向下的方法进行骨骼检测，得到连续骨架帧，再用SPPE算法对检测到的目标人员作姿态估计，得到目标人员骨骼图，

3.根据权利要求2所述的基于改进的时空自适应图卷积的骨架检测及摔倒检测方法，其特征在于，所述步骤S41中在Alphapose模型中添加了对称空间变换网络、由姿态引导的样本生成器和姿态非极大值抑制器实现骨骼检测；具体步骤为：S411数据预处理：对裁剪出的目标人员的图像片段进行预处理；

S412对多人姿态估计：使用Alphapose对裁剪后的行人图像片段进行多人姿态估计；Alphapose模型检测至人体关键点的位置，并估计出目标人员的姿态信息；

S413结果可视化：将多人姿态估计的结果与原始图像或视频帧结合，绘制关键点的连接线和姿态角度的信息，得到目标人员骨骼图，用于后续进行分析和展示。

4.根据权利要求3所述的基于改进的时空自适应图卷积的骨架检测及摔倒检测方法，其特征在于，所述步骤S42中的时空自适应图卷积网络由空间自适应图卷积SA-GC和时间自适应图卷积TA-GC组成，且空间自适应图卷积SA-GC和时间自适应图卷积TA-GC中均有嵌入式图卷积的拓扑自适应编码器TAE。

5.根据权利要求4所述的基于改进的时空自适应图卷积的骨架检测及摔倒检测方法，其特征在于，所述步骤S42中采用时空自适应图卷积网络通过图卷积层对行人骨架图进行特征提取的具体步骤为：

S421：将在时空图上引入一个特征提取算子，首先针对时空图中的图卷积，其中/>为骨架序列中跨T帧的所有节点的集合，v_nt为在时空图/>中的一个节点；v_nt表示骨架序列中的一个节点，其中n是节点的索引，t是时间步的索引；因此，v_nt是在时间步t上的一个节点；v_nt代表某个特定的时刻即时间步t在骨架序列中的一个位置或特征；n是节点的索引，用于唯一标识时空图中的不同节点；在v_nt中，n表示节点的编号，它是一个整数，从1到N，其中N是节点的总数；t表示时间步或时间帧，用来表示数据集中的每个时刻或时间点；T表示总的时间步数或时间帧数；ε^st为时空边缘集合；

S422：将一个时空图分解为跨时间的T个空间图和跨节点的N个时间图；空间图表示为其中ε^s是空间边集，表示为空间邻接矩阵A^s∈R^T×N×N；其中R表示矩阵的实数域，R^T×N×N表示一个三维矩阵，其元素属于R，即实数域中的元素；当所有空间图具有相同的空间相关性时，空间邻接矩阵被降级为A∈R^N×N形式；同样，时间图表示为/>ε^t表示时间图/>中的时间边集；时间边集用于定义节点之间的时间关系或时间连接；间邻接矩阵为A^t∈R^N×T×T；在时空图分解之后，发展了空间图卷积S-GC和时间图卷积T-GC；

其中空间图卷积S-GC表示为：

其中，是A^s的元素，v_pt表示时空图中的一个节点，其中p是节点的索引，t是时间步的索引，在空间图卷积S-GC中，它用于表示空间图中的节点；W表示权重矩阵或权重参数，用于线性变换或特征的加权汇总；即w(v_pt)表示对节点v_pt应用的权重，用于对输入特征进行加权汇总，以生成节点v_nt上的输出特征；

时间图卷积T-GC表示为：

其中，是A^t的元素，v_nq表示时空图中的一个节点，其中n是节点的索引，q是时间步的索引，在时间图卷积T-GC中，它用于表示时间图中的节点；W表示权重矩阵或权重参数，用于线性变换或特征的加权汇总；即w(v_nq)表示对节点v_nq应用的权重，用于对输入特征进行加权汇总，以生成节点v_nq上的输出特征；

再利用空间图卷积S-GC和时间图卷积T-GC提取时空图上的特征，获得特征向量，其中特征提取的表示为：

其中，是A^t的元素；/>表示在空间图卷积S-GC中用于连接节点v_pq和节点v_nq之间的权重或连接系数，它是时空图中的空间邻接矩阵A^s的元素，用于衡量节点之间的空间关系或连接强度；具体为，/>表示节点v_pq和节点v_nq之间的空间连接强度，用于确定如何在空间图中传播特征信息；N用于表示节点的索引范围，表示节点v_pq和节点v_nq中的节点索引；q表示时间图的时间步或时间帧的索引，用于表示在时间图卷积T-GC中的不同时间步或时间帧；p是空间图的节点的索引；W表示权重矩阵或权重参数，用于线性变换或特征的加权汇总；即w₁(v_pq)和w₂(v_nq)均用于对输入特征进行加权汇总。

6.根据权利要求4所述的基于改进的时空自适应图卷积的骨架检测及摔倒检测方法，其特征在于，所述步骤S43的具体步骤为：

S433：再用未标记的测试数据对训练好的分类器进行评估，

7.根据权利要求6所述的基于改进的时空自适应图卷积的骨架检测及摔倒检测方法，其特征在于，所述步骤S431中预处理的方式包括特征归一化和降维；所述步骤S432中的分类器模型选择支持向量机SVM；所述步骤S433中通过计算准确率、召回率和F1分数来评估分类器的性能。