CN116189296A

CN116189296A - 一种基于手部姿态视频的帕金森运动迟缓量化分析方法

Info

Publication number: CN116189296A
Application number: CN202310059396.6A
Authority: CN
Inventors: 李桂森; 王治忠; 王松伟; 牛晓可
Original assignee: Zhengzhou University
Current assignee: Zhengzhou University
Priority date: 2023-01-13
Filing date: 2023-01-13
Publication date: 2023-05-30

Abstract

本发明公开了一种基于手部姿态视频的帕金森运动迟缓量化分析方法，包括以下步骤：A：构建手部姿态数据集；B：构建包含特征提取网络、区域候选网络、边界框头部网络和关键点头部网络的Mask R‑CNN深度神经网络模型；C：对Mask R‑CNN深度神经网络模型进行训练，获得手部21个关键点组成的关键点序列；D：对关键点序列进行运动特征提取得到对应的运动特征；E：依据运动特征获得波峰序列和波谷序列；F：基于波峰序列和波谷序列，对五种运动迟缓参数进行量化，五种运动迟缓参数分别为慢速、低振、幅度衰减、迟疑和停顿。本发明能够以手部姿态视频片段为载体，实现灵活、可解释的运动迟缓量化。

Description

一种基于手部姿态视频的帕金森运动迟缓量化分析方法

技术领域

本发明涉及一种帕金森运动迟缓量化分析方法，尤其涉及一种基于手部姿态视频的帕金森病运动迟缓量化分析方法。

背景技术

运动迟缓，即非意志性运动停止，是帕金森病(PD)患者常见的运动症状之一，也是临床筛查和诊断的一个主要依据。目前，评价运动迟缓严重程度的金标准是统一帕金森病评定量表(MDS-UPDRS)。在MDS-UPDRS运动检查第三部分中，列举了三种典型针对手部的运动迟缓项目：手指敲击、手运动和手旋前-旋后运动。这些项目要求帕金森患者尽可能以最大的幅度连续快速地执行阶段性动作，然后由评分者评估动作的速度、幅度、有无幅度的逐渐缩小以及有无迟疑和停顿，并按照0-4五种严重程度进行评分。然而，由于评估过程本质上是主观的，关键取决于评分者的培训和经验，导致不同评分者之间会存在很大程度的差异。此外，由于手部动作的大小和微妙性，人眼可能无法捕捉帕金森患者在快速运动检查下的每个细节。

现有的PD运动迟缓量化分析方法多依赖于可穿戴传感器(如加速度计、陀螺仪、磁力计等)，根据运动信号量化振幅、速度、加速度等运动特性。然而，专业传感器成本高昂、操作复杂，不便于大规模推广应用。最近，基于深度学习的姿态估计技术取得了显著进步，它能够以完全非接触的形式从PD临床视频中定位患者手部关键点。这些关键点序列包含了丰富的时空信息，并以紧凑的形式表征运动迟缓症状。然而，由于手部关节高度灵活，自咬合严重，以及公共手姿态数据集规模和灵活性受限等原因，手部姿态估计比其他身体部位更具挑战性。此外，由于手部图像分辨率往往较低，为了避免复杂背景误检，通常需要额外部署深度网络模型定位手部RoI区域，并将其单独裁剪进行非端到端的姿态估计。

针对以上问题，许多研究工作尝试使用OpenPose(开源姿态估计框架)作为一种直观的解决方案。然而，公共手姿态数据集训练的OpenPose模型无法有效应对PD临床视频的独特挑战，如临床定义的手姿态和明显自遮挡等。其次，作为自底向上的姿态估计模型，OpenPose依赖人体关键点和手工规则粗略估计PD患者的手部RoI区域，使量化过程变得繁琐。

发明内容

本发明的目的是提供一种基于手部姿态视频的帕金森运动迟缓量化分析方法，能够以手部姿态视频片段为载体，实现灵活、可解释的运动迟缓量化，以辅助帕金森疾病的早期检测、常规监测和治疗评估。

本发明采用下述技术方案：

一种基于手部姿态视频的帕金森运动迟缓量化分析方法，包括以下步骤：

A：构建用于PD临床视频手部姿态估计的手部姿态数据集；

B：构建Mask R-CNN深度神经网络模型，Mask R-CNN深度神经网络模型包含特征提取网络、区域候选网络、边界框头部网络和关键点头部网络；

特征提取网络，用于对输入的手部姿态数据集中的原始图像进行特征提取，并对不同尺度特征进行融合，将融合后的五种不同尺度的特征图送入区域候选网络；

区域候选网络，用于根据设定的初始锚框生成区域候选；然后结合区域候选和分辨率最大的前四种尺度的特征图生成两种不同分辨率的RoI特征图，并分别送入并行设置的边界框头部网络和关键点头部网络；

边界框头部网络，用于根据输入的RoI特征图进行手部目标分类和边界框回归，输出精确的手部边界框；

关键点头部网络，用于对输入的RoI特征图进行手部目标关键点检测，最终输出手部21个关键点；

C：利用手部姿态数据集中的训练集对构建的Mask R-CNN深度神经网络模型进行训练，获得手部姿态视频中受试者的手部21个关键点组成的关键点序列；

D：对步骤C中得到的关键点序列进行运动特征提取，得到对应的运动特征；

E：依据步骤D中得到的运动特征，获得表征手部姿态视频中受试者的周期性动作变化的波峰序列和波谷序列；

F：基于步骤E中得到的波峰序列和波谷序列，对五种运动迟缓参数进行量化，五种运动迟缓参数分别为慢速、低振、幅度衰减、迟疑和停顿。

所述的步骤A包括以下具体步骤：

A1：使用视频采集装置，采集受试者执行指定动作的手部姿态视频；指定动作是指受试者按照MDS-UPDRS评定量表中要求，左右手分别执行手指敲击、手运动和手旋前-旋后运动三类手部运动迟缓检查项目；

A2：将手部姿态视频中所有的图像帧随机打乱，均匀采样N张图像帧构建手部姿态数据集；然后将手部姿态数据集按比例随机划分为训练集、验证集和测试集，最后对手部边界框和21个关键点进行人工标注。

所述的步骤B中，特征提取网络采用ResNet-50-FPN网络，对原始图像进行特征提取并结合特征金字塔结构对不同尺度特征进行融合，生成P2、P3、P4、P5和P6五种不同尺度的特征图，送入区域候选网络。

所述的步骤B中，区域候选网络对P2、P3、P4、P5和P6五种特征图中所有网格点设置三种宽高比例不同的初始锚框，采用RPN网络对初始锚框进行边界框回归以及二值分类，获得区域候选；然后结合区域候选和分辨率最大的P2、P3、P4、P5四种特征图进行RoIAlign操作，生成两种不同分辨率的RoI特征图，分别送入并行设置的边界框头部网络和关键点头部网络。

所述的步骤B中，边界框头部网络从左到右分别为第一卷积层和第一全连接层，边界框头部网络依据区域候选网络输出的RoI特征图，生成边界框回归偏移量和手部分类softmax分数；然后根据边界框回归偏移量和分类softmax分数生成精确的手部边界框。

所述的步骤B中，关键点头部网络包含特征提取子网络、分布期望解码子网络和分布方差解码子网络；

特征提取子网络用于对区域候选网络输出的RoI特征图进行特征提取，特征提取子网络首先通过第二卷积层将ROI特征图映射为特征图f₁，然后通过第三卷积层对特征图f₁进行进一步的特征提取并映射为特征图f₂；

分布期望解码子网络用于解码控制关键点底层分布位置的期望

分布期望解码子网络首先通过第四卷积层对特征图f₂进行通道数改变并映射为特征图f₃；分布期望解码子网络再对特征图f₃使用2倍双线性上采样模块进行上采样，输出概率图π；最后，分布期望解码子网络对概率图π采用Soft-Argmax操作，基于以下定义解码分布期望/>

即手部21个关键点坐标：

其中，π_yi表示预测目标出现在y_i的概率，y_i表示概率图π的离散网格位置；

分布方差解码子网络用于解码控制关键点底层分布尺度的方差

分布方差解码子网络首先对特征图f₂采用全局平均池化操作并生成一维向量v₁，然后将一维向量v₁作为第二全连接层的输入，再经过Sigmoid激活函数最终生成的偏差/>

所述的步骤B中，网络训练过程中，基于分布期望解码子网络输出的期望

和分布方差解码子网络输出的方差/>

使用RLE Loss建模关键点底层分布，RLE Loss的定义为：

其中，

μ_g表示关键点坐标标签；/>

表示标准高斯分布；/>

表示关键点底层分布，/>

所述的步骤D中，运动特征的提取方法如下：

在给定关键点序列

下，针对MDS-UPDRS对手指敲击、手运动和手旋前-旋后运动三类手部运动迟缓检查项目的检查要求，分别定义三种不同的运动特征提取方式；

1)手指敲击的运动特征提取方式为：计算食指尖端与拇指尖端之间的欧式距离s_f.t.(t)；

其中，p₄(t)表示食指尖端关键点坐标，p₈(t)表示拇指尖端关键点坐标；

表示二范数公式，t表示视频帧数；

2)手运动的运动特征提取方式为：计算五个手指指尖和手掌关键点之间的欧氏距离的平均值s_h.m.(t)；

其中，p_{i＝4,8,12,16,20}(t)分别表示五个手指指尖关键点坐标，p₀(t)表示手掌关键点坐标；

3)手旋前-旋后运动的运动特征提取方式为：计算小指到拇指关键点的水平偏移量s_p.s.(t)；

s_p.s.(t)＝median{x₁(t),x₂(t)x₃(t),x₄(t)}

-median{x₁₇(t),x₁₈(t)x₁₉(t),x₂₀(t)}；

其中，x_1,2,3,4(t)分别表示拇指上四个关键点横坐标，x_17,18,19,20(t)分别表示小指上四个关键点横坐标，median表示取序列中值。

所述的步骤E包括以下具体步骤：

E1：首先对步骤D中得到的运动特征进行归一化处理；

给定边界框头部网络输出的手部边界框斜边长序列

则手指敲击、手运动和手旋前-旋后运动的归一化运动特征分别表示为：

其中，scale为尺度因子；

E2：对步骤E1中得到归一化后的三种运动特征分别应用Savitzky-Golay滤波，滤波后的三种运动特征统一表示为

针对得到的s_ft.norm.(t)应用Savitzky-Golay滤波时，窗口宽度为11，拟合阶数为2；

针对得到的s_hm.norm.(t)应用Savitzky-Golay滤波时，窗口宽度为15，拟合阶数为2；

针对得到的s_ps.norm.(t)应用Savitzky-Golay滤波时，窗口宽度为13，拟合阶数为2；

E3：将步骤E2中得到的滤波后的三种运动特征

视为准周期信号，采用基于多尺度的自动峰值检测算法进行峰值检测，分别得到对应的波峰序列/>

和波谷序列/>

其中，p₁表示第一个波峰，v₁表示第一个波谷。

所述的步骤F包括以下具体步骤：

F1：基于步骤E中得到的波峰序列

和波谷序列

将一个“峰-谷-峰”周期视为一次运动循环；给定采样频率f，则第i个运动循环的频率r_i和振幅a_i的计算公式如下：

其中，

和/>

分别表示波峰点p_i+1和p_i对应的运动特征值；/>

表示波谷点v_i对应的运动特征值；

F2：根据得到的频率r_i和振幅a_i，分别定义五种运动迟缓参数的量化为：

慢速：

序列中值；

低振：

序列中值；

振幅衰减：

迟疑：

序列最小值；

停顿：

序列最小值。

本发明具有以下有益效果：

1)本发明构建了特定领域的手部姿态数据集，数据集侧重应对受试者执行MDS-UPDRS相关项目的临床检查视频中，手部姿态具有的独特挑战，如临床定义的手势、视频拍摄的视角(手部尽可能处于中央位置)、特殊的自遮挡和透视效果(受试者在做出特定动作时，手部姿态出现的自遮挡和透视效果)；

2)构建Mask R-CNN模型实现端到端的手部姿态估计，并重新设计关键点头部网络结构，引入Soft-Argmax和RLE Loss方法提升关键点回归精度；

3)通过分析PD临床视频手部关键点的运动时序，量化了五种典型的运动迟缓特征参数，这些参数综合了MDS-UPDRS评分中描述的临床症状，能够为临床医生提供更客观、具体的关于PD患者运动迟缓的解释。

附图说明

图1为本发明的流程示意图。

具体实施方式

以下结合附图和实施例对本发明作以详细的描述：

如图1所示，本发明所述的一种基于手部姿态视频的帕金森运动迟缓量化分析方法，包括以下步骤：

A：构建用于PD临床视频手部姿态估计的手部姿态数据集；

所述的步骤A包括以下具体步骤：

其中，受试者为PD患者。执行手部敲击动作时，受试者以最大的幅度和最快的速度用食指拍打拇指10次；执行手运动(握拳实验)动作时，受试者曲肘紧握拳，充分打开手掌，并以最快的速度反复伸掌握拳10次；执行手旋前-旋后运动(轮替实验)动作时，受试者将手臂前伸、手掌朝下，并以最快的速度和最大的幅度交替上下翻转手掌10次；上述动作要求为现有MDS-UPDRS评定量表中要求，在此不再赘述。

本实施例中，视频采集装置可采用智能手机，视频采集装置的拍摄分辨率不小于640×480，帧率为30/fps。视频采集时要求手部姿态视频画面中仅包含受试者执行动作的一只手部实例，且尽可能处于中央位置；

A2：使用Python的random.shuffle函数，将手部姿态视频中所有的图像帧随机打乱，均匀采样N张图像帧构建手部姿态数据集；然后将手部姿态数据集按照6：2：2的比例随机划分为训练集(PH-train)、验证集(PH-val)和测试集(PH-test)，最后使用开源关键点标注工具coco-annotator对手部边界框和21个关键点进行人工标注。

本实施例中，N的取值可为1906。手部边界框为紧密包围手部位置的矩形框，由矩形左上角坐标(x₁，y₁)与右下角坐标(x₂，y₂)确定；手部21个关键点为手部的21个骨骼关节点。手部边界框与21个关键点均为本领域常规技术，在此不再赘述。

特征提取网络，用于对输入的手部姿态数据集中的原始图像进行特征提取，并结合特征金字塔(FPN)结构对不同尺度特征进行融合，将融合后的五种不同尺度的特征图送入区域候选网络；

区域候选网络，用于对设定的初始锚框进行边界框回归和二值分类，生成区域候选；然后结合区域候选和分辨率最大的前四种尺度的特征图进行RoIAlign操作，生成两种不同分辨率的RoI(感兴趣区域)特征图并分别送入并行设置的边界框头部网络和关键点头部网络；

边界框头部网络，用于对输入的RoI特征图进行手部目标分类和进一步的边界框回归，最终输出精确的手部边界框；

本发明中，Mask R-CNN深度神经网络基于Detectron2框架构建。

特征提取网络，采用ResNet-50-FPN网络，通过自上而下、自下而上和横向连接的方式对原始图像进行特征提取和多尺度特征融合，生成P2、P3、P4、P5和P6五种不同尺度的特征图，送入区域候选网络。

区域候选网络，对P2、P3、P4、P5和P6五种特征图中所有网格点设置三种宽高比例不同的初始锚框，采用RPN网络对初始锚框进行边界框回归以及二值(Positive和Negative)分类，获得区域候选；然后结合区域候选和P2、P3、P4、P5四种特征图(即五种特征图中分辨率最大的前四种特征图)进行RoIAlign操作，生成7×7和14×14两种分辨率的RoI特征图，分别送入并行设置的边界框头部网络和关键点头部网络。

边界框头部网络从左到右分别为堆叠的4个3×3×256×256大小的第一卷积层和2个1024×1024大小的第一全连接层，边界框头部网络依据区域候选网络输出的7×7分辨率的RoI特征图，生成维度为4k和2k的边界框回归偏移量和手部分类softmax分数，k为检测的边界框数目；然后根据边界框回归偏移量和分类softmax分数生成精确的手部边界框，

本发明中，在关键点头部网络中引入Soft-Argmax和RLE Loss方法，以提升关键点回归精度；关键点头部网络共包含特征提取子网络、分布期望解码子网络和分布方差解码子网络；

特征提取子网络用于对区域候选网络输出的RoI特征图进行特征提取，特征提取子网络首先通过3×3×256×512大小的第二卷积层将14×14×256大小的ROI特征图映射为14×14×512大小的特征图f₁，然后通过堆叠8个3×3×512×512大小的第三卷积层对特征图f₁进行进一步的特征提取，并映射为14×14×512大小的特征图f₂；

即关键点数值坐标；分布期望解码子网络首先通过1×1×512×21大小的第四卷积层将特征图f₂映射为14×14×21大小的特征图f₃，以将通道数改变为21，与手部关键点数量保持一致。为了生成高分辨率的特征图，分布期望解码子网络再对特征图f₃使用2倍双线性上采样模块进行上采样，输出28×28×21大小的概率图π；最后，分布期望解码子网络对概率图π采用Soft-Argmax操作，基于以下定义解码分布期望/>

即手部21个关键点坐标：

分布方差解码子网络首先对特征图f₂采用全局平均池化(GAP)操作以实现降维，生成维度为512的一维向量v₁，然后将一维向量v₁作为维度为512×42第二全连接层的输入，再经过Sigmoid激活函数最终生成维度为42的偏差/>

从最大似然估计角度来说，关键点坐标回归常用的L1或L2损失函数是基于特定输出概率分布的假设，使输出分别服从拉普拉斯分布和高斯分布。然而，这种未参考的基础分布限制了回归的性能。因此，网络训练过程中，本发明基于分布期望解码子网络输出的期望

和分布方差解码子网络输出的方差/>

使用RLE Loss建模关键点底层分布，从而促进学习过程。RLE Loss的定义为：

其中，

μ_g表示关键点坐标标签；/>

表示标准高斯分布；/>

表示关键点底层分布，/>

控制关键点底层分布的位置，/>

控制该分布的尺度；/>

可使用黎曼和近似；

C：利用步骤A中手部姿态数据集中的训练集对步骤B中构建的Mask R-CNN深度神经网络模型进行训练，获得手部姿态视频中受试者的手部21个关键点组成的关键点序列

步骤C中，Mask R-CNN模型基于Detectron2框架实现，骨干网络使用ResNet-50-FPN网络，并经过ImageNet预训练；采用随机梯度下降(SGD)优化器，初始学习率为1e-3，并分别在第10K和20K迭代降低10倍(共30K次迭代)；权重衰减率、batch_size和momentum参数分别设为0.0001，16和0.9。

D：对步骤C中得到的关键点序列

进行运动特征提取，得到对应的运动特征；

步骤D中，运动特征的提取方法如下：

针对MDS-UPDRS对手指敲击、手运动和手旋前-旋后运动三类手部运动迟缓检查项目的检查要求，分别定义三种不同的运动特征提取方式；在给定关键点序列

下，

1)手指敲击的运动特征提取方式为：计算食指尖端与拇指尖端之间的欧式距离s_f.t.(t)，

表示二范数公式，t表示视频帧数；

2)手运动的运动特征提取方式为：计算五个手指指尖和手掌关键点之间的欧氏距离的平均值s_h.m.(t)，

3)手旋前-旋后运动的运动特征提取方式为：计算小指到拇指关键点的水平偏移量s_p.s.(t)，

s_p.s.(t)＝median{x₁(t),x₂(t)x₃(t),x₄(t)}

-median{x₁₇(t),x₁₈(t)x₁₉(t),x₂₀(t)}(5)

其中，x_1,2,3,4(t)分别表示拇指上四个关键点横坐标，x_17,18,19,20(t)分别表示小指上四个关键点横坐标，median表示取序列中值；

E：对步骤D中得到的运动特征分别进行归一化、Savitzky-Golay平滑滤波以及AMPD峰值检测处理，获得表征手部姿态视频中受试者的周期性动作变化的波峰序列和波谷序列；

本发明中，步骤E包括以下具体步骤：

E1：由于在不同的手部姿态视频中，视频采集装置和受试者手部之间的距离不同会导致原始空间值不可避免地发生变化，因此，本发明中首先对步骤D中得到的运动特征进行归一化处理。

给定边界框头部网络输出的手部边界框斜边长序列

其中，scale为尺度因子。

E2：由于不可避免的预测小误差或者不连续的数据标注等原因，提取的运动特征容易出现轻微抖动(尖峰、锯齿等高频噪声)，将会导致伪局部极值出现。因此，本发明中还分别对步骤E1中得到归一化后的三种运动特征应用Savitzky-Golay滤波，参数设置如下：

滤波后的三种运动特征统一表示为

E3：将步骤E2中得到的滤波后的三种运动特征

视为准周期信号，采用基于多尺度的自动峰值检测(Automatic Multiscale-based Peak Detection,AMPD)算法进行峰值检测，分别得到对应的波峰序列/>

和波谷序列/>

其中，p₁表示第一个波峰，v₁表示第一个波谷。

F：基于步骤E中得到的波峰序列

和波谷序列/>

对五种运动迟缓参数进行量化，五种运动迟缓参数分别为慢速、低振、幅度衰减、迟疑和停顿；

本发明中，步骤F包括以下具体步骤：

F1：基于步骤E中得到的波峰序列

和波谷序列

将一个“峰-谷-峰”(PVP)周期视为一次运动循环；给定采样频率f，即手部姿态视频的帧率，则第i个运动循环的频率r_i和振幅a_i的计算公式如下：

其中，

和/>

分别表示波峰点p_i+1和p_i对应的运动特征值；/>

表示波谷点v_i对应的运动特征值；

慢速：

序列中值；

低振：

序列中值；

振幅衰减：

迟疑：

序列最小值；

停顿：

序列最小值。/>

Claims

1.一种基于手部姿态视频的帕金森运动迟缓量化分析方法，其特征在于，包括以下步骤：

A：构建用于PD临床视频手部姿态估计的手部姿态数据集；

2.根据权利要求1所述的基于手部姿态视频的帕金森运动迟缓量化分析方法，其特征在于，所述的步骤A包括以下具体步骤：

3.根据权利要求1所述的基于手部姿态视频的帕金森运动迟缓量化分析方法，其特征在于：所述的步骤B中，特征提取网络采用ResNet-50-FPN网络，对原始图像进行特征提取并结合特征金字塔结构对不同尺度特征进行融合，生成P2、P3、P4、P5和P6五种不同尺度的特征图，送入区域候选网络。

4.根据权利要求3所述的基于手部姿态视频的帕金森运动迟缓量化分析方法，其特征在于：所述的步骤B中，区域候选网络对P2、P3、P4、P5和P6五种特征图中所有网格点设置三种宽高比例不同的初始锚框，采用RPN网络对初始锚框进行边界框回归以及二值分类，获得区域候选；然后结合区域候选和分辨率最大的P2、P3、P4、P5四种特征图进行RoIAlign操作，生成两种不同分辨率的RoI特征图，分别送入并行设置的边界框头部网络和关键点头部网络。

5.根据权利要求3所述的基于手部姿态视频的帕金森运动迟缓量化分析方法，其特征在于：所述的步骤B中，边界框头部网络从左到右分别为第一卷积层和第一全连接层，边界框头部网络依据区域候选网络输出的RoI特征图，生成边界框回归偏移量和手部分类softmax分数；然后根据边界框回归偏移量和分类softmax分数生成精确的手部边界框。

6.根据权利要求3所述的基于手部姿态视频的帕金森运动迟缓量化分析方法，其特征在于：所述的步骤B中，关键点头部网络包含特征提取子网络、分布期望解码子网络和分布方差解码子网络；