CN117726821B

CN117726821B - 一种面向医疗视频中区域遮挡的医护行为识别方法

Info

Publication number: CN117726821B
Application number: CN202410165468.XA
Authority: CN
Inventors: 钟忺; 韩希钰; 鞠熠昊; 刘文璇; 贾雪梅; 赵石磊; 黄文心; 巫世峰; 沈默思
Original assignee: Wuhan University of Technology WUT
Current assignee: Wuhan University of Technology WUT
Priority date: 2024-02-05
Filing date: 2024-02-05
Publication date: 2024-05-10
Anticipated expiration: 2044-02-05
Also published as: CN117726821A

Abstract

本发明提供一种面向医疗视频中区域遮挡的医护行为识别方法，涉及视频识别技术领域，包括：获取医护视频，利用预训练的检测器对医护视频进行主体检测，得到医护主体轨迹；在医护视频的第一帧中，通过约束条件在背景区域中获得伪遮挡补丁，将伪遮挡补丁粘贴至医护主体上；对于医护视频的剩余帧，根据医护主体轨迹添加时间轨迹，得到带有伪遮挡补丁的医护主体轨迹；令静态分支数据和动态分支数据进行互学习，并训练医护识别网络，得到医护识别模型；获取新的医护视频，利用医护识别模型对新的医护视频进行识别，得到医护主体及医护主体行为轨迹。本发明能够解决医护人员或患者行为主体运动时产生的区域遮挡问题。

Description

一种面向医疗视频中区域遮挡的医护行为识别方法

技术领域

本发明涉及视频识别技术领域，尤其涉及一种面向医疗视频中区域遮挡的医护行为识别方法。

背景技术

人体行为识别是在计算机视觉领域的一个重要任务，旨在对整个视频或者特定片段中的行为进行分类，这一任务在监控安防、医疗卫生等多种日常生活场景中都有广泛的应用，例如公开号为CN116631133A一种基于行为识别的智能视频监控系统与CN115170336A一种异常医疗行为识别方法、设备及存储介质。因此，有针对性地探讨行为识别性能在不同场景下的表现具有重要的研究意义。

虽然现有的行为识别方法已取得了显著的进展，但由于行为主体的多样性以及复杂性，模型在面对复杂场景时性能会受到影响，如涉及到区域漂移、区域遮挡问题时，不同特征之间的信息融合和对齐十分困难。由于行为主体在运动过程中出现遮挡部分运动的发生区域不可避免，因此，补充行为局部特征，提升行为识别的特征表达能力，具有极大的现实意义，可以帮助应对现实生活中的复杂情况，如在医护监护场景下，通过视频数据准确识别患者的病症行为对于患者的诊断和治疗至关重要，医护人员也可以获得有关病人健康状况的关键信息，从而更准确地了解病人的需要，提供更好的医疗护理。由于在医疗视频中，患者和设备的不稳定性可能会导致图像中的噪声、遮挡或其他视觉干扰，因此提升行为识别的特征表达能力可以帮助模型学习如何处理这些挑战，从而提高模型的鲁棒性和医疗的准确性。

经过对行为识别任务中标准数据集的遮挡样本进行统计分析，发现遮挡样本的分布呈现出稀疏性特征。然而，由于稀疏分布的特点，模型只能获取有限的信息，这可能导致模型学习到无效的特征。因此，在应对这一问题时，数据增强技术的应用显得至关重要，特别是在医疗领域，医用数据相对有限，尤其是标记的医疗影像或视频数据，因此需要利用数据增广来丰富训练样本。但由于医护人员或患者的运动具有复杂性和多样性，不能利用随机擦除的数据增强方法，这会破坏运动主体的语义信息和时空的一致性，所以在对医用样本进行增强时，应考虑时间和空间的变化，从而增加遮挡样本的多样性，提升模型性能，这对于医护监护情境中应用模型至关重要。

此外，行为识别领域背景常常会对分类器性能产生负面影响。在一些场景中，由于视频的背景相对单一，导致分类器的识别性能主要受背景影响，而忽略了行为本身，这种现象被称为“背景作弊”。具体而言，背景缺乏多样性会导致模型在处理相邻帧时，更加关注背景而不是行为者的行为，最终影响了行为识别的准确性。因此，通过采用常规的数据增强技术，增加视频中背景的多样性，有助于捕捉空间维度中的上下文特征，减轻对行为的干扰。同理，由于医疗图像和视频数据通常包含不同患者的情况，因此通过引入数据增强来增加数据的多样性，使模型更能适应各种情况。

综上所述，针对医疗视频中区域遮挡问题的医护行为识别任务仍然需要更加深入的研究，以设计出更适用的方法来解决这一问题。

发明内容

有鉴于此，本发明提供一种面向医疗视频中区域遮挡的医护行为识别方法，采用背景辅助与行为主体互学习的医护行为识别方法，用于解决医护人员或患者行为主体运动时产生的区域遮挡问题。

本发明的技术目的是这样实现的：

本发明提供一种面向医疗视频中区域遮挡的医护行为识别方法，包括以下步骤：

S1获取医护视频，医护视频包括多帧图像，每一帧均包括前景区域和背景区域，利用预训练的检测器对医护视频进行主体检测，得到医护主体轨迹，其中，前景区域包含医护主体；

S2在医护视频的第一帧中，通过约束条件在背景区域中获得伪遮挡补丁，将伪遮挡补丁粘贴至医护主体上；

S3对于医护视频的剩余帧，在第一帧添加的伪遮挡补丁上，根据医护主体轨迹添加时间轨迹，得到带有伪遮挡补丁的医护主体轨迹；

S4对背景区域进行静态数据增强，将其作为静态分支数据，并将带有伪遮挡补丁的医护主体轨迹作为动态分支数据，令静态分支数据和动态分支数据进行互学习，并训练医护识别网络，得到医护识别模型；

S5获取新的医护视频，利用医护识别模型对新的医护视频进行识别，得到医护主体及医护主体行为轨迹。

在上述技术方案的基础上，优选的，步骤S1包括：

S11获取预训练的检测器，其中，检测器为基于YOLO的检测网络；

S12利用预训练的检测器对医护视频的多帧图像依次进行行为主体检测，获得初步的行为主体边界框；

S13设定行为主体边界框的顶点，对行为主体边界框进行限制，以得到医护主体轨迹。

在上述技术方案的基础上，优选的，步骤S13中，设定行为主体边界框的顶点为：

；

式中，T_i表示医护视频中的第i帧，x和y分别表示横向坐标和纵向坐标，下标L和R分别表示一个边界框中相对左边和右边的坐标，k表示第i帧中包含的边界框数量，{·}表示检测到的边界框的坐标集合。

在上述技术方案的基础上，优选的，步骤S2包括：

S21在医护视频的第一帧T₁中，随机初始化伪遮挡补丁的坐标：

S22随机选择前景区域中的点，并随机初始化/>的坐标：

S23将伪遮挡补丁粘贴至前景区域中的/>，令医护主体被部分遮挡。

在上述技术方案的基础上，优选的，步骤S23由以下公式计算：

；

式中，h和w分别是伪遮挡补丁的高度和宽度，/>和/>分别是伪遮挡补丁/>的随机初始化坐标，x ₁和y ₁分别是前景区域中/>的坐标，/>表示第一帧T₁原始坐标上的初始像素值。

在上述技术方案的基础上，优选的，步骤S3包括：

S31引入随机游走算法，随机初始化移动步幅q和初始移动角度θ，根据移动步幅q和初始移动角度θ确定医护主体的运动方向；

S32对于医护视频的剩余帧，利用伪遮挡补丁覆盖医护主体，得到带有伪遮挡补丁的医护主体轨迹：

引入随机追随策略，令伪遮挡补丁的运动路径追随医护主体轨迹，计算相邻两帧间医护主体的动作运动的位置位移，确定下一帧的伪遮挡补丁的移动角度；

根据下一帧的伪遮挡补丁的移动角度，确定伪遮挡补丁的最终移动方向；

根据伪遮挡补丁的最终移动方向，确定下一帧的伪遮挡补丁的坐标，利用伪遮挡补丁进行覆盖。

在上述技术方案的基础上，优选的，步骤S32中，计算相邻两帧间医护主体的动作运动的位置位移，确定下一帧的伪遮挡补丁的移动角度，由以下公式计算：

；

式中，η代表下一帧的伪遮挡补丁的移动角度，和/>代表第i帧中行为主体边界框的相对左边和右边的坐标，/>和/>代表第i+1帧中行为主体边界框的相对左边和右边的坐标。

在上述技术方案的基础上，优选的，步骤S32中，根据下一帧的伪遮挡补丁的移动角度，确定伪遮挡补丁的最终移动方向，由以下公式计算：

；

式中，γ代表伪遮挡补丁的最终移动方向，mod(·,·)代表取余运算。

在上述技术方案的基础上，优选的，步骤S4中，医护识别网络在训练时的损失函数为：

；

式中，为总的损失函数，λ为平衡参数，/>为交叉熵损失，/>代表最大均值差异损失。

在上述技术方案的基础上，优选的，步骤S4中，对背景区域进行静态数据增强，包括：

对医护视频中的背景区域进行随机擦除，对背景区域擦除一个矩形区域，其中，每个背景区域中随机擦除的矩形区域不尽相同。

本发明的方法相对于现有技术具有以下有益效果：

（1）通过动态时空感知擦除部分，将医护人员或患者的轨迹与动态时空关系关联，选择背景补丁来替换第一帧的部分行为者语义信息，以增强补丁的上下文语义干扰的真实性和复杂性，更加关注上下文帧的连续性，以便学习行为者的细粒度可辨别特征，对于序列中剩余的帧，在补丁上添加一个时间轨迹以保持上下文一致性；

（2）通过背景辅助与行为主体互学习部分，减小带有医护人员或患者动态信息的数据和带有多样化背景的视频全局特征之间的距离，平衡原始数据和添加擦除信息的特征分布，增加全局指导，恢复擦除分支丢失的信息，并提高原始分支的抗干扰能力，使网络能够更强大地识别局部行为区域，从而提高对抗遮挡的鲁棒性，该部分使模型在面对医用复杂场景和遮挡情况时，仍然能够有效地捕捉行为特征，增强医护行为识别的可靠性和鲁棒性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例的方法流程图。

具体实施方式

下面将结合本发明实施方式，对本发明实施方式中的技术方案进行清楚、完整地描述，显然，所描述的实施方式仅仅是本发明一部分实施方式，而不是全部的实施方式。基于本发明中的实施方式，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施方式，都属于本发明保护的范围。

如图1所示，本发明提供一种面向医疗视频中区域遮挡的医护行为识别方法，包括以下步骤：

具体地，本发明一实施例中，步骤S1包括：

为了提取医用视频中医护人员或患者行为主体更准确和连续的运动特征，需要专注于在激活过程中信息变化剧烈的行为主体区域。在网络的开始阶段，给定一个医护行为类别视频，在序列帧上使用行为主体检测器，以便后续模型能够直接表征行为者的特征。

首先，使用预训练的检测器对医护人员或患者行为主体检测，以获得初步的行为主体边界框，为医用行为识别网络提供特定的行为主体轨迹。

使用的行为主体检测器基于YOLO系列进行设置，尽管不同的检测器稍微影响模型，但不会对最终结果产生显著误差。这里采用在COCO数据集上预训练的检测器，并在目标活动数据集上进行行为主体检测，以获得初步的行为主体边界框，为医护行为识别网络提供特定的行为主体轨迹。

然后，限制医护人员或患者行为主体边界框，使其最小地包含所有行为主体，即在一个医疗行为视频中确定行为主体的边界框顶点。

；

对得到的行为主体边界框进行微调改进，具体而言，在同一帧中检测到多个医护人员或患者时，不同边界框中的行为主体由于其行动的差异而破坏视频所代表的整体行为类别。因此，将边界框的数量限制为一个，并进行扩展，使其包含所有行为主体。在这个过程中记录边界框的坐标点，包括每帧中的所有行为主体，并取每个坐标点的极值，以使其最小地包含所有行为主体。

具体地，本发明一实施例中，步骤S2包括：

S22随机选择前景区域中的点，并随机初始化/>的坐标

在视频第一帧，通过约束条件获得伪遮挡补丁，并粘贴到医护人员或患者行为主体前景区域，使行为主体被背景块部分遮挡。

该方法与随机擦除并随意选择补丁的方法不同，更加注重医护人员或患者行为区域的完整性。这种约束方案有以下优势：它既不引入额外的噪声，也不会执行无用的遮挡，从而促进了数据的多样性和模型的鲁棒性。

在空间维度上，对于每一帧，都包括前景和背景。其中，前景包含医护人员或患者行为主体，相应地，前景以外的其他区域被视为背景。从背景区域中随机选取一块交换入前景区域中进行自然遮挡的模拟，记为，该选区过程随机旨在模拟医疗视频中真实医护环境中出现的遮挡情况。这里选择背景与前景进行交换提升了医护行为类别对背景的辨别能力，同时增加背景的多样性。在时间维度上，将序列分为两种操作，分别是对第一帧和其他帧的操作。

以一个具体例子对步骤S2进行说明：

在每个医疗视频序列的第一帧T₁中，伪遮挡补丁的坐标是随机初始化的。

；

其中，H和W分别表示图框T₁的高度和宽度，h和w分别是伪遮挡补丁的高度和宽度。

随机选择前景中的，并随机初始化/>的坐标。

；

其中，进一步得到坐标。

将上述伪遮挡补丁粘贴到医护人员或患者行为主体前景区域/>，使行为主体被背景块部分遮挡。

；

将上述伪遮挡补丁粘贴到医护人员或患者行为主体前景区域，导致行为主体被背景块部分遮挡。这样，模型就能享受到不同遮挡的医护训练数据的优点，从而更好地区分行为特征。

具体地，本发明一实施例中，步骤S3包括：

；

以一个具体的例子对步骤S3进行说明：

对于序列中剩余的N-1帧，基于之前帧，在伪遮挡补丁上添加一个时间轨迹，以保持上下文一致性。

为确保伪遮挡补丁的移动是动态的，与医疗视频序列中的时间和空间特征的变化保持一致，伪遮挡补丁的位置应该随着时间的推移而变化，以反映医护人员或患者行为主体在物理世界中的动态运动规律。因此，为了获得动态的时序遮挡，结合随机游走、随机追随方案来模拟补丁的移动不确定性。基于对医护人员或患者的随机轨迹的考虑，在研究的过程中观察到每个医护视频类别在行为过程中都包含其潜在的规律性，因此，动态时序信息通过医护人员或患者行为主体的运动轨迹来引导伪遮挡补丁的移动路径。

首先，引入随机游走方案，随机初始化移动步幅q和角度θ的变化以确定运动方向，从而确保伪遮挡补丁在时间和空间维度上形成连续的轨迹。

；

其中，θ代表随机初始化的移动角度，q代表移动的步幅，使擦除块的移动控制在一定的范围内移动，h和w分别是伪遮挡补丁的高度和宽度，x_i,y_i代表其余N-1帧的坐标，这样就得到了经过随机游走动态时空感知擦除增广后的医疗视频帧坐标序列。

为了保持伪遮挡补丁的内容一致性，可以对其余帧中确定的补丁进行覆盖。

；

其中，表示第i帧原始坐标上的初始像素值，/>与/>的大小和形状一致，利用伪遮挡补丁覆盖初始像素值。

综上分析，随机游走方案是针对擦除区域增加了其本身在一定区域内移动的时空信息，满足了视频帧间的时间和空间上的连续性。

引入随机追随策略，使用医护人员或患者行为主体的运动轨迹引导遮挡补丁的运动路径，即计算相邻两帧间医护主体的动作运动的位置位移，以探索未来的动作运动。

；

在得到医护视频中的检测框坐标后，相邻两帧移动角度的方向聚集了动作的运动轨迹，且所有帧中边界框的中心坐标重叠，因此定义伪遮挡补丁移动的最终方向的角度。

；

根据遮挡补丁的方向角度，定义下一帧的坐标表示。

；

类似地，为了保持伪遮挡补丁的内容一致性，对其余帧中确定的补丁进行覆盖。

具体地，本发明一实施例中，步骤S4包括：

对于背景区域，使用静态数据增强方法，丰富背景多样，以减少分类器负面影响。

为了探索背景的多样性，在网络中引入了静态增强分支，遵循图像增强的思想，使用随机擦除方法，并将其预测作为目标分支构建的参考。随机擦除是无参数学习，简单高效且易于实现，该方法是将原数据集中一部分保持原样，另外一部分如背景区域随机擦除一个矩形区域，并用随机值擦除它的像素，更好的实现对遮挡医护数据的模拟以及生成不同遮挡程度的医护训练图像，降低过拟合的风险，使模型对遮挡情况具有鲁棒性。

对于增加的干扰信息和数据与原始数据，通过使用最大均值差异来最小化两种数据之间的差异，从而达到背景辅助与行为主体互学习的目标。

为了限制具有医护人员或患者动态时空感知擦除数据增强和背景静态数据增强之间的数据差异，平衡原始数据和添加擦除信息的特征分布，增加全局指导，恢复擦除分支丢失的信息，以及提高原始分支的抗干扰能力，引入了一种背景辅助与行为主体互学习的方法，以学习这两个分支的共同知识，使网络能够更强大地识别医护人员或患者局部行为区域，从而提高对抗遮挡医护样本的鲁棒性。

在利用静态分支数据和动态分支数据训练医护识别网络时，采用最大均值差异使两种数据之间的距离最小化，用于测量两种数据之间的特征分布的距离。

；

式中，和/>分别是来自动态和静态数据域的样本，m和n分别表示两个域的样本数，/>表示特征提取器，将这两个域的数据映射到一个高维再生希尔伯特空间中，MMD值越小，说明两种数据越相似。

将最大均值差异平方并将其简化得到内积，从而不显式地表示映射函数

；

其中，k(·,·)代表核函数，K(·)代表克拉姆矩阵，P(U)和P(V)分别代表动态和静态的数据分布。

最终使用对整个互学习的方法进行约束。

其中，参数λ用于平衡上述损失函数，有利于联合训练，代表交叉熵损失，用于约束组合分支输出的动作表征学习，/>代表最大均值差异损失，用于约束动态分支和静态分支之间的相似性。

综上，使用背景辅助与行为主体互学习的思想来增强对原始数据和添加了干扰信息的数据之间的特征分布进行学习，通过相互的指导和损失函数来不断拉近两种分布的相似性，从而提高医护识别网络的识别准确率。

在得到训练好的医护识别模型后，即可对新的医护视频进行医护主体识别，该模型对于复杂场景，如区域漂移、区域遮挡等视频均具有较好的识别效果。

以上所述仅为本发明的较佳实施方式而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种面向医疗视频中区域遮挡的医护行为识别方法，其特征在于，包括以下步骤：

步骤S3包括：

根据伪遮挡补丁的最终移动方向，确定下一帧的伪遮挡补丁的坐标，利用伪遮挡补丁进行覆盖；

2.如权利要求1所述的一种面向医疗视频中区域遮挡的医护行为识别方法，其特征在于，步骤S1包括：

3.如权利要求2所述的一种面向医疗视频中区域遮挡的医护行为识别方法，其特征在于，步骤S13中，设定行为主体边界框的顶点为：

；

4.如权利要求1所述的一种面向医疗视频中区域遮挡的医护行为识别方法，其特征在于，步骤S2包括：

S22随机选择前景区域中的点，并随机初始化/>的坐标：

5.如权利要求4所述的一种面向医疗视频中区域遮挡的医护行为识别方法，其特征在于，步骤S23由以下公式计算：

；

6.如权利要求1所述的一种面向医疗视频中区域遮挡的医护行为识别方法，其特征在于，步骤S32中，计算相邻两帧间医护主体的动作运动的位置位移，确定下一帧的伪遮挡补丁的移动角度，由以下公式计算：

；

7.如权利要求6所述的一种面向医疗视频中区域遮挡的医护行为识别方法，其特征在于，步骤S32中，根据下一帧的伪遮挡补丁的移动角度，确定伪遮挡补丁的最终移动方向，由以下公式计算：

；

8.如权利要求1所述的一种面向医疗视频中区域遮挡的医护行为识别方法，其特征在于，步骤S4中，医护识别网络在训练时的损失函数为：

；

9.如权利要求1所述的一种面向医疗视频中区域遮挡的医护行为识别方法，其特征在于，步骤S4中，对背景区域进行静态数据增强，包括：