CN111382679B

CN111382679B - 帕金森病步态运动障碍严重程度的评估方法、系统及设备

Info

Publication number: CN111382679B
Application number: CN202010116450.2A
Authority: CN
Inventors: 钱晓华; 郭睿
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2020-02-25
Filing date: 2020-02-25
Publication date: 2022-08-02
Anticipated expiration: 2040-02-25
Also published as: CN111382679A

Abstract

本发明提供帕金森病步态运动障碍严重程度的自动评估方法、系统及设备。所述评估方法包括：获取帕金森病患者的步态视频；对所述步态视频的数据进行处理，并将其划分成训练集和测试集，以对神经网络模型进行训练和测试；利用所述神经网络模型对待评估的帕金森病患者的步态视频进行分析，以得到所述待评估的帕金森病患者的步态运动障碍严重程度的评估结果。本发明首次提出利用神经网络模型分析帕金森病患者的步态视频来自动评估帕金森病步态运动障碍严重程度的方法，相比于现有技术具有操作便捷、评估效率高等诸多优势。

Description

帕金森病步态运动障碍严重程度的评估方法、系统及设备

技术领域

本发明涉及帕金森病患者步态运动分析领域，特别是涉及帕金森病步态运动障碍严重程度的自动评估方法、系统及设备。

背景技术

帕金森病(PD)是一种渐进式的神经退行性疾病，其四个主要症状为静止性震颤、僵硬、运动障碍和姿势不稳。其中，运动障碍是PD最典型的临床特征和最容易识别的症状之一[1]。目前对于帕金森病运动功能评估的主要依据是评估量表，统一帕金森病评定量表(UPDRS)[2]是评估PD的最完善的标准评定量表，并于2007年更新了由运动障碍协会(MDS)修订后的版本，被称为MDS-UPDRS[3]。该量表的第三部分评价的是PD运动症状，要求评分者根据所观察到病人的情况来对步态、脚趾拍地运动、腿部灵活性等18个项目进行0-4分的严重程度评分，0分表示正常，4分表示重度。在实践中，经验丰富的临床医生会根据该量表对患者的运动功能进行量化评估。但这存在两个弊端：一方面，临床医生的评估费时较长，并且存在主观性。另一方面，这种评估方式不利于实现PD患者移动化的实时家庭管理和及时的病情反馈。因此，如何自动、客观地进行帕金森病患者的运动评估已成为当前重要的研究热点和亟待解决的问题。

步态运动障碍是帕金森病中常见的运动障碍之一，并且与疾病的严重程度具有很强的相关性[4]，因此步态评估是MDS-UPDRS量表[3]中运动症状评估的重要组成部分之一，临床医生主要通过患者的步幅大小、步速、转身和摆臂等方面综合评估。自动化的步态运动障碍严重程度的量化分析也成为了实现帕金森病患者的自动化运动评估的重要环节。

1.帕金森病患者步态运动的自动量化分析

目前，结合MDS-UPDRS量表对帕金森步态运动障碍的严重程度进行自动量化分析的方法主要分为基于传感器和基于视觉这两类模式。基于对传感器的应用，Federico等人[5，6]由部署在胸部和大腿上的三个惯性测量单元组成的身体传感器网络提取和分析了步态在时域和频域上的运动学特征，然后通过K最邻近分类器在UPDRS步态评估任务中分别实现了62％和53％的精度；Tunc等人[7]将步态特征与PD症状相关联，通过步态传感器获取的地面反作用力信号提取了16个时域特征和7个频域特征，之后利用局部加权森林的混合模型对数字特征进行了回归分析，得到了对于UPDRS量表的总评估分数(范围为0-199)的最佳相关系数为0.895的结果。基于视觉的模式通常依赖于使用单个摄像机捕获运动者的步态，一般分析流程通常包括PD步态获取、数据预处理、特征提取与选择、分类这四个阶段。具体地，Chen等人[8]使用线性判别分析从使用便携式摄像机采集的侧面视角的步态图像序列中提取了人体轮廓特征，计算了通过人的上半身获得的姿势异常指数和通过人的下半身获得的脚运动异常指数，然后通过线性回归模型来评估整体运动异常，在测试中所获得的结果与UPDRS量表中第III部分即运动检查部分的子评分总和的相关系数为0.85。

由于基于传感器的模式往往能够采集到较为精确的运动信号，已有的基于视觉的模式都集中于对侧面视角的评估，因此上述方法大多取得了不错的性能，但依然存在很多局限性。首先在基于传感器的模式下，传感器大多需要直接与人接触，佩戴后或多或少都会影响到病人的动作，并且传感器往往需要增加额外的开销，使其难以在日常移动化的评估中普及。其次在基于视觉的模式下，主要存在着以下三个问题：1)传统的特征工程方式需要通过图像预处理来提取和选择重要的特征，这对视频的拍摄提出了很高的要求，例如需要侧面视角的拍摄以为提取人体轮廓特征提供条件，患者的外观与穿着、拍摄环境的背景、光照等因素对图像预处理的效果产生很大影响，使得模型缺乏鲁棒性；2)已有研究表明[9]，在判断PD患者的步态运动时，除了脚部之外，患者身体的其他部位也可以提供有用的特征信息，MDS-UPDRS中步态评估规则中也明确指出还应考虑患者的转身和摆臂情况，因此在评估时应当结合患者的所有身体部位综合考虑。尽管已有研究[8]将人体的上半身和下半身特征同时进行分析，但由于两类特征是分别提取，导致割裂了人体上下半身的关联性。此外，侧面视角下拍摄的视频虽然为人体轮廓特征的提取分析提供了便捷性，但会导致严重的肢体遮挡与重叠问题，尤其是在传统的图像预处理方法提取到的人体轮廓中，手臂和腿部经常难以区分，导致难以捕捉手臂运动和手臂与腿部运动的相关性；3)传统方法往往需要事先定义并提取大量的特征来进行分类或回归分析，这可能无法保证已将所有有意义的特征都纳入考虑。而基于可以自动提取更强大特征的深度学习技术在PD步态视觉的量化评估领域的相关研究还比较少。

2.基于深度学习技术的细粒度动作识别

近年来，动作识别领域成果颇丰，但传统的动作识别数据集中的动作大多具有显著的外观和行动差异，因此现有的很多动作识别方法很难在外观和行动上都高度相似的细粒度动作识别中取得良好的性能。这为人体动作识别领域提出了更大的挑战。

早期的细粒度动作识别研究大多集中在细粒度的人与物体间大量的交互作用上[10-13]，着重对人的动作于感兴趣对象之间的局部上下文信息进行了建模。但在更多实际情况中，需要通过动作本身的差异来实现细粒度级别的分类，如何在具有高复杂性和整体相似性的视频序列数据集中发现最具判别性的局部运动特征成为了该问题解决的关键。为此，Bharat等人[14]定位通过集成跟踪机制得到的人体周围的边界框，并通过多流CNN和LSTM先后对空间和时间建模；Zhu等人[15]提出了三分支通道时空注意力模块，将其包含的通道空间分支、通道时间分支、空间时间分支分别嵌入基于RGB帧和光流的膨胀3D卷积网络，以充分利用视频序列的空间、时间和通道信息。

但上述已有方法依然存在一定的局限性。例如，传统RGB帧中复杂环境因素可能会对细粒度分类产生一定程度上的干扰，[14]中需要专门跟踪人体边界框。其次，深度学习网络中的多分支、多尺度信息往往都是为了最后的同一个任务而服务，例如[15]中提出的三分支注意力模块都服务于最后的动作识别任务，但是，多分支、多尺度下提取的不同的特征信息往往缺乏强相关性的约束。

前文涉及的参考文献如下：

[1]Jankovic J：Parkinson’s disease：clinical features anddiagnosis.Journal of neurology，neurosurgery&psychiatry 2008，79(4)：368-376.

[2]Disease MDSTFoRSfPs：The unified Parkinson′s disease rating scale(UPDRS)：status and recommendations.Movement Disorders 2003，18(7)：738-750.

[3]Goetz CG，Tilley BC，Shaftman SR，Stebbins GT，Fahn S，Martinez-MartinP，Poewe W，Sampaio C，Stern MB，Dodel R：Movement Disorder Society-sponsoredrevision of the Unified Parkinson′s Disease Rating Scale(MDS-UPDRS)：scalepresentation and clinimetric testing results.Movement disorders：officialjournal of the Movement Disorder Society 2008，23(15)：2129-2170.

[4]Morris ME，Iansek R：Characteristics of motor disturbance inParkinson′s disease and strategies for movement rehabilitation.Human MovementScience 1996，15(5)：649-669.

[5]Parisi F，Ferrari G，Giuberti M，Contin L，Cimolin V，Azzaro C，AlbaniG，Mauro A：Body-sensor-network-based kinematic characterization andcomparative outlook of UPDRS scoring in leg agility，sit-to-stand，and Gaittasks in Parkinson′s disease.IEEE journal of biomedical and healthinformatics 2015，19(6)：1777-1793.

[6]Parisi F，Ferrari G，Giuberti M，Contin L，Cimolin V，Azzaro C，AlbaniG，Mauro A：Inertial BSN-based characterization and automatic UPDRS evaluationof the gait task of Parkinsonians.IEEE Transactions on Affective Computing2016，7(3)：258-271.

[7]

T，

K，

Toprak MK，Erdem H，

H：Parkinson′sdisease monitoring from gait analysis via foot-worn sensors.Biocyberneticsand Biomedical Engineering 2018，38(3)：760-772.

[8]Chen Y-Y，Cho C-W，Lin S-H，Lai H-Y，Lo Y-C，Chen S-Y，Chang Y-J，HuangW-T，Chen C-H，Jaw F-S：A vision-based regression model to evaluate Parkinsoniangait from monocular image sequences.Expert Systems with Applications 2012，39(1)：520-526.

[9]Cho C-W，Chao W-H，Lin S-H，Chen Y-Y：A vision-based analysis systemfor gait recognition in patients with Parkinson’s disease.Expert Systems withapplications 2009，36(3)：7033-7039.

[10]Ni B，Yang X，Gao S：Progressively parsing interactional objects forfine grained action detection.In：Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition：2016.1020-1028.

[11]Zhou Y，Ni B，Hong R，Wang M，Tian Q：Interaction part mining：A mid-level approach for fine-grained action recognition.In：Proceedings of the IEEEconference on computer vision and pattern recognition：2015.3323-3331.

[12]Ni B，Paramathayalan VR，Moulin P：Multiple granularity analysis forfine-grained action detection.In：Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition：2014.756-763.

[13]Zhou Y，Ni B，Yan S，Moulin P，Tian Q：Pipelining localized semanticfeatures for fine-grained action recognition.In：European conference oncomputer vision：2014.Springer：481-496.

[14]Singh B，Marks TK，Jones M，Tuzel O，Shao M：A multi-stream bi-directional recurrent neural network for fine-grained action detection.In：Proceedings of the IEEE Conference on Computer Vision and PatternRecognition：2016.1961-1970.

[15]Zhu Y，Liu G：Fine-grained action recognition using multi-viewattentions.The Visual Computer 2019：1-11。

发明内容

鉴于以上所述现有技术的缺点，本发明的目的在于提供帕金森病步态运动障碍严重程度的自动评估方法、系统及设备，用于解决现有技术中的以上不足。

为实现上述目的及其他相关目的，本发明提供一种帕金森病步态运动障碍严重程度的自动评估方法，包括：获取帕金森病患者的步态视频；对所述步态视频的数据进行处理，并将其划分成训练集和测试集，以对神经网络模型进行训练和测试；利用所述神经网络模型对待评估的帕金森病患者的步态视频进行分析，以得到所述待评估的帕金森病患者的步态运动障碍严重程度的评估结果。

于本发明一实施例中，对所述步态视频的数据进行处理的步骤包括：从所述步态视频的每一帧图像中分别提取人体关键点的坐标；根据所述人体关键点的坐标构建基于关节点的空间时间图和基于骨骼的空间时间图；其中，所述基于关节点的空间时间图表示为

节点集

包含每一帧图像中的N个关节点，边集

包含空间上每一帧图像中人体自然连接的关节组成的边集合以及时间维度上的边集合，后者ε_P＝{v_tiv_(t+1)i|t＝1，…，T-1}的意义为连续帧中的相同关节进行连接所构成的边集，T为正整数；所述基于骨骼的空间时间图表示为

节点集

包含每一帧图像中的N个骨骼向量形成的节点，边集ε^*包含空间上每一帧图像中人体自然连接的节点组成的边集合以及时间上连续帧中的相同节点进行连接所构成的边集。

于本发明一实施例中，所述神经网络模型采用双流空间时间图卷积模型，用以得到基于关节点的空间时间图的各类评估分数的概率值及基于骨骼的空间时间图的各类评估分数的概率值；其中，所述双流空间时间图卷积模型的每个ST-GCN单元中的空间图卷积操作的实现公式为：

其中，每个ST-GCN单元的输入特征为

输入特征的通道数为C_in，T为帧数，N为关节点数；经过空间图卷积操作后的输出特征为

输出特征的通道数为C_out；骨架序列中每帧的体内关节的邻接矩阵为A+I，由人体关节自然连接所形成的邻接矩阵A和表示自连接的单位矩阵I表示；M为可学习的边的权重矩阵；Dⁱⁱ＝∑_j(A^ij+I^ij)为度矩阵，用于邻接矩阵的归一化操作，W是通过卷积操作实现的图结构的权重函数，用以提升输入特征的通道维度。

于本发明一实施例中，所述双流空间时间图卷积模型中的两个ST-GCN单元还连接有空间时间注意力感知模块，用以利用空间时间信息选择空间时间维度下的判别性特征区域；其中，所述空间时间注意力感知模块中空间时间注意力感知系数矩阵α的实现公式为：

α＝δ₂(θ₃(δ₁(θ₁(f_{att_in})+θ₂(E))))

其中，f_{att_in}为注意力感知模块的输入低层特征，E为引导空间时间注意力的高层特征，三个线性变换θ₁、θ₂、θ₃函数都是通过基于通道的卷积操作来实现的，δ₁(x)采用线性整流函数ReLU，δ₂(x)为α的归一化函数，如下所示：

其中，α_min为矩阵中的最小值，T_x、V_x分别为矩阵的时间、空间维度。

此外，所述空间时间注意力感知模块在前向或后向传播过程中都会自动过滤不相关的特征激活，来自非判别性特征区域的梯度在后向传播过程中会逐渐被降低权重，使得较浅层的模型参数基于由所述空间时间注意力感知模块感知的与分类任务相关的判别性时空区域进行更新。

于本发明一实施例中，所述方法还包括：采用多尺度时空注意力感知机制来学习多尺度下的不同的空间时间注意力感知系数；在所述多尺度时空注意力感知机制下，每个所述空间时间注意力感知模块的输出均由输入特征激活图与空间时间注意力感知系数矩阵α相乘得到；在每个尺度下的空间时间注意力感知模块中，通过高层显著性图E过滤、融合和感知时空判别性特征信息以生成该尺度下空间时间注意力感知模块的输出。

于本发明一实施例中，在网络训练过程中，根据损失函数计算输出分数与输入分数的误差，利用反向传播算法调整优化网络的参数；其中，所述神经网络模型的训练损失函数

由约束多尺度分支的深度监督项

和特征稀疏化项

共同构成，实现公式为：

其中，N是批大小，y⁽ⁱ⁾是第i个样本的真实标签，

是第i个样本的预测标签，NClass是样本的类别数量，NF为多尺度下拟合的全连接层的个数，w_j代表对应的全连接层的权重；

项的

项是交叉熵损失，用于最小化给定训练样本的分类错误，

项是L2正则项，用于最小化不同尺度下的全连接层拟合得到的分类分数之间的差异，增强各尺度间判别性特征选择的相关性；

项

通过对多尺度分支拟合的所有全连接层权重的约束来实现判别性特征的稀疏化；λ₁和λ₂是权衡参数，用以平衡两个模型驱动项之间的相对重要性。

于本发明一实施例中，所述方法还包括：采用软投票策略对基于关节点的空间时间图卷积网络的输出概率值和骨骼的空间时间图卷积网络的输出概率值进行等权重值相加，从而得到所述神经网络模型对不同预设分数类别的最终输出概率值；将概率值最高输出所对应的预设分数类别作为所述帕金森病患者的步态运动障碍严重程度的预测评估分数。

为实现上述目的及其他相关目的，本发明提供一种帕金森病步态运动障碍严重程度的自动评估系统，包括：步态视频获取模块，用于获取帕金森病患者的步态视频；对所述步态视频的数据进行处理，并将其划分成训练集和测试集；神经网络构建模块，用于通过所述训练集和测试集对神经网络模型进行训练和测试；神经网络应用模块，用于利用所述神经网络模型对待评估的帕金森病患者的步态视频进行分析，以得到所述待评估的帕金森病患者的运动障碍严重程度的评估结果。

为实现上述目的及其他相关目的，本发明提供一种计算机可读存储介质，其中存储有计算机程序，所述计算机程序被处理器加载执行时，实现所述的帕金森病步态运动障碍严重程度的自动评估方法。

为实现上述目的及其他相关目的，本发明提供一种电子设备，包括：处理器及存储器；其中，所述存储器用于存储计算机程序；所述处理器用于加载执行所述计算机程序，以使所述电子设备执行所述的帕金森病步态运动障碍严重程度的自动评估方法。

如上所述，与帕金森病的步态运动障碍严重程度的评估领域已有的相关研究相比，本发明的优越性主要体现在以下方面：

(1)本发明中的模型实现了基于骨架序列的端到端的特征学习方式，患者穿着、拍摄环境等外界条件对模型性能的影响较小，尽管由于数据集的限制本发明只研究了正面视角，但本发明的方法不易受拍摄视角的限制，可以拓展到其他视角和其他动作任务，具有更强的鲁棒性；

(2)本发明通过图结构对骨架序列建模时同时考虑了姿态估计模型识别出的共18个关节点，涵盖了人的全身，使得在进行特征提取与评估时，模型能同时充分考虑人体的全部特征，而不会割裂任何一个身体部位；

(3)传统的特征工程的方法往往需要自定义特征进行分析和进一步选择，很难保证提取出全部有意义的特征，而本发明实现了基于深度监督下多尺度稀疏化时空注意力感知机制的双流空间时间图卷积网络模型，不仅能实现端到端的特征学习，摆脱了自定义特征的局限性，而且时空注意力感知机制和特征稀疏化策略的引入还实现了判别性特征的进一步增强与稀疏化，更有利于模型最终的分类评估。

上述优越性可通过本发明在实验数据集上的实验结果来显现，对实验结果的具体分析详见下文。

附图说明

图1为本发明提出的一种基于深度监督下多尺度稀疏化时空注意力感知机制的双流空间时间图卷积网络框架示意图。

图2为双流空间时间图卷积网络的结构示意图。

图3为时空注意力感知模块的结构示意图。

图4为本发明提出的一种基于深度监督下多尺度稀疏化时空注意力感知机制的双流时空图卷积网络的帕金森病步态运动障碍严重程度的量化评估方法的流程示意图。

图5为人体姿态估计模型输出的18个人体关键点的分布示意图。

图6为本发明提出的模型在实验数据集上实现的每个分数类别的受试者工作特征(ROC)曲线。

图7为本发明提出的模型在实验数据集上的分类结果的混淆矩阵。

图8为本发明提出的模型与先进的动作识别模型在实验数据集上评估结果的绝对分类误差的累积分布函数(CDF)曲线的比较。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

针对现有技术中的前述不足，本发明首次提出利用神经网络模型分析帕金森病患者的步态视频来评估帕金森病步态运动障碍严重程度的方法，这种帕金森病步态运动障碍严重程度的评估方法主要包括如下步骤：首先，获取帕金森病患者的步态视频；其次，对所述步态视频的数据进行处理，并将其划分成训练集和测试集，以对神经网络模型进行训练和测试；再次，利用所述神经网络模型对待评估的帕金森病患者的步态视频进行分析，以得到所述待评估的帕金森病患者的运动障碍严重程度的评估结果。相比于现有技术，本发明的帕金森病步态运动障碍严重程度的评估方法，具有操作便捷、评估效率高等诸多优势。需要说明的是，本发明不对具体的神经网络模型加以限制，凡是能用于分析帕金森病患者的步态视频，以从中分析出帕金森病步态运动障碍严重程度的神经网络模型，皆应被视为本发明的保护范围。

如图1所示，显示为本发明实施例提出的一种用于评估帕金森病步态运动障碍严重程度的神经网络模型，该神经网络模型是一种基于深度监督下多尺度稀疏化时空注意力感知机制的双流空间时间图卷积网络。输入由从PD患者步态视频中提取的骨架序列构成，分为关节流和骨骼流分别输入。然后，多尺度时空注意力感知模块被并入双流ST-GCN的第4个和第7个ST-GCN单元中，以更好地利用空间时间信息选择空间时间维度下的判别性特征区域，其中最后一个ST-GCN单元的输出特征映射被用作注意力模块的输入显著性图E，用以感知并建模空间时间维度上的全局上下文信息。最后，通过在多尺度特征向量f₁、f₂、f₃和多尺度级联特征向量[f₁，f₂，f₃]上分别拟合全连接层来给出关节流和骨骼流的最终预测分数，并通过软投票的分数融合机制获得双流网络的最终预测。该网络的能量函数由最小化分类错误的交叉熵项、约束各尺度间特征相关性的L2正则项、实现特征稀疏化的L1正则项共同构成。以下做出详细介绍。

1.双流空间时间图卷积网络

人体关节点所构成的骨架并不具备规则的欧几里得空间结构，并且每个关节点都有自己的特征信息以及关节点相互之间的结构信息，因此考虑通过空间时间图建模人体骨架序列的层次表示。具有N个关节、T帧的原始骨架序列由每一帧的关节点坐标先后在空间和时间上建模而成。在空间上进行建模时，完整的骨架序列可视为由每一帧的空间图构成，表示为

其中

t＝1，2，...，T表示人体骨架序列在时刻t的空间图，此时节点集

包含了人体的N个关节点，边集

表示人体自然连接的关节集合

所构成的边。由于仅在空间上建模难以表征骨架序列在时间维度上的有效信息，因此需同时对空间和时间进行建模，所形成的无向空间时间图可表示为

其中节点集

包含每一帧中的N个关节点，边集

包含空间上每一帧中人体自然连接的关节组成的边集合以及时间维度上的边集合，后者ε_P＝{v_tiv_(t+1)i|t＝1，…，T-1}的意义为连续帧中的相同节点进行连接所构成的边集，T为正整数。

为了更好地对人体骨架序列进行丰富而全面的建模，本发明实施例还探索了作为二阶信息的骨骼信息对于步态分析的重要性。具体地，人体的骨骼都由两个关节点连接而成，根据人体运动时向心性和离心性的特点，可根据一阶关节信息将每个骨骼表示为从靠近骨架重心的源关节指向远离骨架重心的目标关节的向量，若给定源关节和目标关节的坐标表示分别为v₁＝(x₁，y₁)、v₂＝(x₂，y₂)，则骨骼向量为

每一个骨骼向量视为源关节的节点信息。由于鼻子关键点没有分配给任何骨骼，所以鼻子处的节点信息由一个值为0的空骨骼向量表示。由此在对二阶骨骼信息建模后的无向空间时间图可表示为

其中节点集

包含每一帧中的N个骨骼向量形成的节点，边集ε^*包含空间上每一帧中人体自然连接的节点组成的边集合以及时间上连续帧中的相同关节进行连接所构成的边集。

给定上面定义的时空图结构，双流空间时间图卷积网络由在基于关节点和骨骼的空间时间图上分别应用十个ST-GCN单元组成，以逐渐提取高层次特征。其中后面九个单元都引入了残差机制。关节流的输入为基于关节点序列构建的空间时间图

骨骼流的输入为基于骨骼序列构建的空间时间图

每个ST-GCN单元均先后包含了一个空间图卷积操作和一个时间卷积操作，如图2所示。

在空间维度上，设每个ST-GCN单元的输入特征为

这里输入特征的通道数为C_in，T为帧数，N为关节点数。经过空间图卷积操作后的输出特征为

输出特征的通道数为C_out。在空间图卷积操作中，骨架序列中每帧的体内关节的邻接矩阵为A+I，由人体关节自然连接所形成的邻接矩阵A和表示自连接的单位矩阵I表示，以同时刻画关节之间的空间结构特征和关节自身的特征信息。此外，由于在空间结构中不同关节之间连接的边的重要性是不同的，因此这里通过添加可学习的边的权重矩阵M以形成新的邻接矩阵

来缩放同一节点特征对相邻不同节点的贡献，M被初始化为全1矩阵。最终，每个ST-GCN单元中的空间图卷积操作可通过公式(1)来实现：

这里Dⁱⁱ＝∑_j(A^ij+I^ij)为度矩阵，用于邻接矩阵的归一化操作，W是通过1×1卷积操作实现的图结构的权重函数，提升了输入特征的通道维度。

为建模骨架序列内的时间信息，在时间维度上直接应用经典的一维卷积运算操作。具体地，由于所有帧中的相同节点可以自然地组织为1D序列，因此在空间图卷积操作计算的输出特征映射上执行

的普通卷积运算，其中

是时间卷积操作的内核大小。

2.深度监督下的多尺度稀疏化时空注意力感知机制

设

为所选特定层的输出特征激活图，其中C_f为通道维度，T_f和V_f分别为时间和空间上的维度。对于特征映射f_{att_in}，时空注意力感知模块会通过将高层显著性特征图与低层多样化特征图在空间时间维度上合并，计算得到二维时空注意力系数矩阵

并将其扩展到通道维度

以识别空间时间特征图中判别性的特征区域，并增强较低级特征映射f_{att_in}中对应于判别性区域的特征激活。最终，时空注意力感知模块的输出是所选低层的输出特征图

与其对应的时空注意力感知系数α^*相乘融合得到的f_{att_out}＝α^*f_{att_in}，

具体而言，时空注意力感知模块通过捕获粗尺度下的时空网格级别上的显著性图E作为特征增强信号来驱动时空判别性区域的感知，并在全局范围内对它们的关系进行建模。设

为这样的显著性图。由于E需要从空间时间上下文中编码全局信息，而如果将全连接层的输出直接作为显著性图又会失去空间时间维度上的全局结构信息，因此这里将最后一个ST-GCN单元的输出特征映射作为较粗尺度下的显著性图E，以隐式地驱动空间时间维度上的判别性区域的感知，并将E进行双线性上采样以匹配低级特征映射f_{att_in}的维度。这样，时空注意力感知模块就会在空间时间上下文判别性特征区域的选择上具有更强大的感知能力。由此时空注意力感知模块的具体结构可由图3直观地展现，用公式表述如下所示：

α＝δ₂(θ₃(δ₁(θ₁(f_{att_in})+θ₂(E)))) (2)

其中，f_{att_in}为注意力感知模块的输入低层特征，E为引导空间时间注意力的高层特征，三个线性变换θ₁、θ₂、θ₃函数都是通过基于通道的1×1卷积操作来实现的，δ₁(x)采用线性整流函数ReLU，δ₂(x)为空间时间注意力感知系数矩阵α的归一化函数，如下所示：

此外，时空注意力感知模块在前向或后向传播过程中都会自动过滤不相关的特征激活，来自非判别性特征区域的梯度在后向传播过程中会逐渐被降低权重，使得较浅层的模型参数主要基于由注意力模块感知的与分类任务相关的判别性时空区域进行更新。

为了对多级空间时间语义信息进行建模，本发明实施例采用了多尺度时空注意力感知机制来学习多尺度下的不同的空间时间注意力感知系数。这样，每个注意力模块可以学会专注于与分类任务有关的时空判别性特征区域的子集。在多尺度时空注意力感知机制下，每个注意力模块的输出均由输入特征激活图与时空注意力系数矩阵相乘得到。在每个尺度下的时空注意力感知模块中，通过高层显著性图E过滤、融合和感知时空判别性特征信息以生成该尺度下注意力模块的输出。

多尺度时空注意力感知机制下产生的多尺度特征信息尽管具有不同的特征层次，但最终都服务于同一个分类任务。为了增强不同尺度下的特征信息的相关性，本发明实施例在损失函数中对每个全连接层的输出分数都进行深度监督的组合约束，用公式具体可表示为：

其中，N是批大小，y⁽ⁱ⁾是第i个样本的真实标签，

是第i个样本的预测标签，NClass是样本的类别数量，NF为多尺度下拟合的全连接层的个数，q，m，n为正整数，其中，m，n分别是公式的求和符号中上限为NF的正整数表示。

的第一项是交叉熵损失，其目的是最小化给定训练样本的分类错误，第二项是L2正则项，旨在最小化不同尺度下的全连接层拟合得到的分类分数之间的差异，增强各尺度间判别性特征选择的相关性。

在帕金森患者的步态骨架序列的细粒度运动评估中，具有判别性的序列特征往往是稀疏化的，因此在损失函数中进一步添加L1正则化项作为模型驱动项之一，以实现模型驱动下判别性时空特征的稀疏化，用公式表述如下：

其中，w_j代表对应的全连接层的权重，这里通过对多尺度分支拟合的所有全连接层权重的约束实现了判别性特征的稀疏化。

进一步地，将公式(4)和(5)组合在一起，本发明实施例提出的模型的训练总损失函数由约束多尺度分支的深度监督项和特征稀疏化项共同构成，用公式整合表示为：

其中，λ₁和λ₂是权衡参数，以平衡两个模型驱动项之间的相对重要性，具体数值通过多次实验得出。

如图4所示，基于前文提出的神经网络模型，本发明的一种基于深度监督下多尺度稀疏化时空注意力感知机制的双流时空图卷积网络的帕金森病步态运动障碍严重程度的量化评估方法，包括如下步骤：

步骤1：数据获取。

本发明实施例仅需要一部可拍摄视频的智能手机或摄像机作为数据采集设备。本实施方式中使用的拍摄设备进行视频录制的像素分辨率为1920×1080，帧速率为30帧/秒。将拍摄设备放置于代表病人行走终点的红线的正前方，并保持固定不动。

在视频采集过程中，被拍摄的患者需要从远处固定的椅子上起身，向代表行走终点的红线处直线行走，到达终点后，再转身走回椅子处并坐下。临床评估专家在整个视频采集过程中全程陪同被拍摄的患者，并根据MDS-UPDRS的细则对采集过程中的任何非标准动作进行纠正。

步骤2：人体关键点坐标的获取。

将采集的视频剪辑为只保留患者起身开始行走到最后行走结束的片段，将这个片段转换为连续的帧图像序列，并依次输入至人体姿态估计模型AlphaPose，得到了每一帧中人体18个关键点(如图5所示)的二维坐标序列。接下来对得到的坐标序列进行了一系列预处理：首先，对所有坐标序列进行了归一化操作，以将其值映射到[0，1]区间内；然后在每个片段中，以第一帧中人体中心点为新坐标系的原点，对其余所有帧中的所有坐标进行变换，得到了新坐标系下的坐标序列。

步骤3：空间时间图的构建。

1)基于关节点的空间时间图

首先在空间上，根据人体结构的连通性，在每一帧内将自然连接的关节点相连；其次在时间上，将相邻帧中的相同关节相连，以此构成了基于关节点的空间时间图。

2)基于骨骼的空间时间图

给定源关节和目标关节的坐标，将两个坐标相减得到了源关节对应的骨骼向量。由于鼻子关键点没有分配给任何骨骼，所以鼻子处的节点信息由一个值为0的空骨骼向量表示。这样最终每个关节点的信息均由这个关节点作为源关节时所对应的骨骼向量表示，并先后在空间上和时间上进行连接以构成基于骨骼的空间时间图。

步骤4：通过双流时空图卷积模型进行分数概率值的获取。

根据步骤3，一个长度为T帧的视频被转换为坐标元组表示的骨架序列，并以(2，T，18，1)的张量形式表示。采用五折交叉验证将患者的步态视频数据集随机划分为5个固定的独立的折叠，并使用5折中的4折进行训练，其余1折用于测试。初始学习率设置为1e-4，批大小设置为8个样本，采用具有Nesterov动量为0.9的随机梯度下降法作为优化策略。在网络的训练过程中，根据损失函数计算输出分数与输入分数的误差，利用反向传播算法调整优化网络的参数。本实施方式将训练集训练115轮，在训练结束后将测试集输入已经保存的训练好的模型中，如图5中的聚合策略所示，得到了主干分支、两个多尺度分支和所有分支级联操作后的特征图，将这四种特征图分别输入各自的全连接层，可以得到4组预测分数的概率值，每类预测分数的概率值均取4组中对应预测分数概率值的最大值，最终分别得到了基于关节流和骨骼流的四个分数类别对应的概率值。

步骤5：软投票策略进行双流融合。

将基于关节流和骨骼流的输出概率值采用软投票策略进行等权重值相加，得到模型对类别0、1、2、3分的最终输出概率值，概率值最高的对应类别为模型的预测类别，即患者步态运动障碍严重程度的预测评估分数。

实现上述各方法实施例的全部或部分步骤可以通过计算机程序相关的硬件来完成。基于这样的理解，本发明还提供一种计算机程序产品，包括一个或多个计算机指令。所述计算机指令可以存储在计算机可读存储介质中。所述计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(如：软盘、硬盘、磁带)、光介质(如：DVD)、或者半导体介质(如：固态硬盘Solid State Disk(SSD))等。

以下，我们对上述方法的分类结果进行评估(即模型效果评估)。

使用准确率(accuracy)、精确率(precision)、召回率(recall)、F1分数(F1-score)以及受试者工作特征曲线(ROC)和曲线下的面积(AUC)作为性能指标评估模型的分类结果，分别定义为：

其中，TP、FP和FN分别表示真阳性、假阳性和假阴性分类样本的数量。此外，在临床实际中，医生认为在评估分数的上下浮动1分的误差范围内的评估是可接受的，因此定义了可接受准确率，表示模型评估分数与医生评估分数误差≤1即视为正确评估时的准确率。为了进一步评估模型的可靠性，还定义了绝对分类误差e，计算为

其中y∈{0，1，2，3}为医生对MDS-UPDRS中步态的打分标签，

为模型的预测标签，并由此计算了误差e的累积分布函数(CDF)，e的CDF曲线下面积(AUC)最大化对应了样本总体的绝对分类误差的最小化，因此可以被视为代表性的性能优化指标，以确定能够实现最佳分类性能的模型。

上述优越性可通过在实验数据集上的实验结果来显现，对实验结果的具体分析如下：

(1)分类结果分析

在实验数据集上采取了定量五折交叉验证以评估本发明提出的模型，实验结果显示本发明提出的模型能够取得65.66％的总准确率，而在医生可接受的误差范围内的准确率可达98.90％。如表1所示，还分别计算了每一个分数类别的准确率、可接受准确率、精确率、召回率和F1分数，分数3取得了最好的判别性能，每一分数类别在医生可接受的误差范围内都取得了非常高的准确率。如图7所示的混淆矩阵也印证了这一结论。尽管分数2的判别性能比较差，但对分数2判别的错误结果主要集中在错判为1、3分上。图6中展示的各个分数类别下的ROC曲线也说明本发明提出的模型取得了较好的分类性能，进一步印证了上述结论。

表1本发明提出的模型在实验数据集上的分类结果

(2)与先进的动作识别模型的对比

在与三个先进的动作识别方法进行对比的过程中，将本发明所使用的实验数据集分别用在它们官方开源代码中的网络结构中。表2中的结果表明，与先进的方法相比，本发明提出的模型在各项评估指标上均取得了最好的性能。为了进一步比较本发明提出的模型与先进方法的性能，在图8中绘制了每种模型的绝对分类误差的累积分布函数曲线，显示了每个模型在实验数据集上获得的误差累积分布函数。根据曲线下面积可以观察到，尽管所有模型都具有相似的整体变化趋势，但本发明提出的模型具有最大的曲线下面积，表明绝对误差最小，因而实现了最佳性能。

表2本发提出的模型与先进的动作识别方法的性能对比

注：ST-GCN为时空图卷积网络，ST-AGCN为基于时空注意力感知机制的空间时间图卷积网络，L_d为深度监督策略，L_s为稀疏化策略，ST-GCN(空间配置策略)、2s-AGCN、Motif-STGCN为先进的动作识别模型。

(3)消融实验分析

为了验证所有策略的必要性和优越性，对本发明所提出的模型进行了逐项消融实验。如表2所示，本发明提出的模型的总准确率为65.66％，平均精确率为65.39％，平均召回率为65.09％，比基线网络关节流-STGCN的总准确率高了8.42％，比基线网络的平均精确率高了7.49％，比基线网络的平均召回率高了8.22％。定量分析结果的出色表现证实了本发明提出的模型中深度监督下的多尺度时空注意力感知机制和特征稀疏化策略的有效性。

综上所述，本发明实施例针对现有技术中帕金森病患者步态运动的特征建模存在的不足，决定基于深度学习技术通过易于拍摄、无特殊环境因素限制的正面视角的步态视频实现自动化的PD步态严重程度的评估：首先，通过先进的人体姿态估计模型从视频中逐帧提取出人体的关节点序列，然后，通过深度学习模型将关节点序列构成的骨架序列进行自动评估分类。另外，本发明的评估技术还针对现有技术中基于深度学习技术的细粒度动作识别存在的不足，在成本函数中引入了深度监督项，对多尺度时空注意力模块提取得到的特征信息分别拟合全连接层进行最小化分类错误的约束，并在不同分支间通过正则化项加以强相关性的约束。采用深度学习技术有效地提取了帕金森步态视频所形成的骨架序列中的判别性的细粒度时空特征，实现了通过正面视角的步态视频对帕金森步态运动障碍严重程度的量化评估，克服了传统的基于传感器的评估方法、基于视觉的特征工程方法的局限性，为未来帕金森步态运动障碍视频的自动量化评估的实现和普及提供了潜在的工具。

除此之外，本发明还提供一种帕金森病步态运动障碍严重程度的自动评估系统，包括：步态视频获取模块，用于获取帕金森病患者的步态视频；对所述步态视频的数据进行处理，并将其划分成训练集和测试集；神经网络构建模块，用于通过所述训练集和测试集对神经网络模型进行训练和测试；神经网络应用模块，用于利用所述神经网络模型对待评估的帕金森病患者的步态视频进行分析，以得到所述待评估的帕金森病患者的运动障碍严重程度的评估结果。

由于本系统实施例的具体实施方式与前述方法实施例的原理一致，故于此不再重复展开。

除此之外，本发明还提供一种电子设备，如台式机、便携式电脑、平板电脑、智能手机等设备。详细的，电子设备至少包括通过总线连接的：存储器、处理器，其中，存储器用于存储计算机程序，处理器用于执行存储器存储的计算机程序，以执行前述的全部或部分步骤。

综上所述，本发明的帕金森病步态运动障碍严重程度的评估方法、系统及设备，首次提出利用神经网络模型分析帕金森病患者的步态视频来评估帕金森病步态运动障碍严重程度的方法，相比于现有技术具有操作便捷、评估效率高等诸多优势，有效克服了现有技术中的种种缺点而具高度产业利用价值。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本发明的权利要求所涵盖。

Claims

1.一种帕金森病步态运动障碍严重程度的自动评估方法，其特征在于，包括：

获取帕金森病患者的步态视频；

对所述步态视频的数据进行处理，并将其划分成训练集和测试集，以对神经网络模型进行训练和测试；对所述步态视频的数据进行处理的步骤包括：

从所述步态视频的每一帧图像中分别提取人体关键点的坐标；

根据所述人体关键点的坐标构建基于关节点的空间时间图和基于骨骼的空间时间图；其中，所述基于关节点的空间时间图表示为J＝(v,ε)，节点集

包含每一帧图像中的N个关节点，边集

包含空间上每一帧图像中人体自然连接的关节组成的边集合以及时间维度上的边集合，后者ε_p＝{v_tiv_(t+1)i|t＝1,…,T-1}的意义为连续帧中的相同关节进行连接所构成的边集，T为正整数；所述基于骨骼的空间时间图表示为B＝(v*,ε*)，节点集v*包含每一帧图像中的N个骨骼向量形成的节点，边集ε*包含空间上每一帧图像中人体自然连接的节点组成的边集合以及时间上连续帧中的相同节点进行连接所构成的边集；所述神经网络模型采用双流空间时间图卷积模型ST-GCN，用以得到基于关节点的空间时间图的各类评估分数的概率值及基于骨骼的空间时间图的各类评估分数的概率值；其中，所述双流空间时间图卷积模型的每个ST-GCN单元中的空间图卷积操作的实现公式为：

其中，每个ST-GCN单元的输入特征为

输出特征的通道数为C_out；骨架序列中每帧的体内关节的邻接矩阵为A+I，由人体关节自然连接所形成的邻接矩阵A和表示自连接的单位矩阵I表示；M为可学习的边的权重矩阵；Dⁱⁱ＝∑_j(A^ij+I^ij)为度矩阵，用于邻接矩阵的归一化操作，W是通过卷积操作实现的图结构的权重函数，用以提升输入特征的通道维度；所述双流空间时间图卷积模型中的两个ST-GCN单元还连接有空间时间注意力感知模块，用以利用空间时间信息选择空间时间维度下的判别性特征区域；其中，所述空间时间注意力感知模块中空间时间注意力感知系数矩阵α的实现公式为：

α＝δ₂(θ₃(δ₁(θ₁(f_{att_in})+θ₂(E))))

其中，α_min为矩阵中的最小值，T_x、V_x分别为矩阵的时间、空间维度；

此外，所述空间时间注意力感知模块在前向或后向传播过程中都会自动过滤不相关的特征激活，来自非判别性特征区域的梯度在后向传播过程中会逐渐被降低权重，使得较浅层的模型参数基于由所述空间时间注意力感知模块感知的与分类任务相关的判别性时空区域进行更新；利用所述神经网络模型对待评估的帕金森病患者的步态视频进行分析，以得到所述待评估的帕金森病患者的步态运动障碍严重程度的评估结果。

2.根据权利要求1所述的方法，其特征在于，还包括：

采用多尺度时空注意力感知机制来学习多尺度下的不同的空间时间注意力感知系数；

在所述多尺度时空注意力感知机制下，每个所述空间时间注意力感知模块的输出均由输入特征激活图与空间时间注意力感知系数矩阵α相乘得到；

在每个尺度下的空间时间注意力感知模块中，通过高层显著性图E过滤、融合和感知时空判别性特征信息以生成该尺度下空间时间注意力感知模块的输出。

3.根据权利要求2所述的方法，其特征在于，还包括：在网络训练过程中，根据损失函数计算输出分数与输入分数的误差，利用反向传播算法调整优化网络的参数；其中，所述神经网络模型的训练损失函数L由约束多尺度分支的深度监督项L_d和特征稀疏化项L_s共同构成，实现公式为：

其中，N是批大小，y⁽ⁱ⁾是第i个样本的真实标签，

是第i个样本的预测标签，NClass是样本的类别数量，NF为多尺度下拟合的全连接层的个数，w_j代表对应的全连接层的权重；L_d项的

项是交叉熵损失，用于最小化给定训练样本的分类错误，

项是L2正则项，用于最小化不同尺度下的全连接层拟合得到的分类分数之间的差异，增强各尺度间判别性特征选择的相关性；L_s项

4.根据权利要求2所述的方法，其特征在于，还包括：

采用软投票策略对基于关节点的空间时间图卷积网络的输出概率值和骨骼的空间时间图卷积网络的输出概率值进行等权重值相加，从而得到所述神经网络模型对不同预设分数类别的最终输出概率值；

将概率值最高输出所对应的预设分数类别作为所述帕金森病患者的步态运动障碍严重程度的预测评估分数。

5.一种帕金森病步态运动障碍严重程度的自动评估系统，其特征在于，包括：

步态视频获取模块，用于获取帕金森病患者的步态视频；对所述步态视频的数据进行处理，并将其划分成训练集和测试集；对所述步态视频的数据进行处理的步骤包括：

包含每一帧图像中的N个关节点，边集

包含空间上每一帧图像中人体自然连接的关节组成的边集合以及时间维度上的边集合，后者ε_p＝{v_tiv_(t+1)i|t＝1,...,T-1}的意义为连续帧中的相同关节进行连接所构成的边集，T为正整数；所述基于骨骼的空间时间图表示为B＝(v*,ε*)，节点集v*包含每一帧图像中的N个骨骼向量形成的节点，边集ε*包含空间上每一帧图像中人体自然连接的节点组成的边集合以及时间上连续帧中的相同节点进行连接所构成的边集；

神经网络构建模块，用于通过所述训练集和测试集对神经网络模型进行训练和测试；所述神经网络模型采用双流空间时间图卷积模型ST-GCN，用以得到基于关节点的空间时间图的各类评估分数的概率值及基于骨骼的空间时间图的各类评估分数的概率值；其中，所述双流空间时间图卷积模型的每个ST-GCN单元中的空间图卷积操作的实现公式为：

其中，每个ST-GCN单元的输入特征为

输出特征的通道数为C_out；骨架序列中每帧的体内关节的邻接矩阵为A+I，由人体关节自然连接所形成的邻接矩阵A和表示自连接的单位矩阵I表示；M为可学习的边的权重矩阵；

Dⁱⁱ＝∑_j(A^ij+I^ij)为度矩阵，用于邻接矩阵的归一化操作，W是通过卷积操作实现的图结构的权重函数，用以提升输入特征的通道维度；所述双流空间时间图卷积模型中的两个ST-GCN单元还连接有空间时间注意力感知模块，用以利用空间时间信息选择空间时间维度下的判别性特征区域；其中，所述空间时间注意力感知模块中空间时间注意力感知系数矩阵α的实现公式为：

α＝δ₂(θ₃(δ₁(θ₁(f_{att_in})+θ₂(E))))

此外，所述空间时间注意力感知模块在前向或后向传播过程中都会自动过滤不相关的特征激活，来自非判别性特征区域的梯度在后向传播过程中会逐渐被降低权重，使得较浅层的模型参数基于由所述空间时间注意力感知模块感知的与分类任务相关的判别性时空区域进行更新；神经网络应用模块，用于利用所述神经网络模型对待评估的帕金森病患者的步态视频进行分析，以得到所述待评估的帕金森病患者的运动障碍严重程度的评估结果。

6.一种计算机可读存储介质，其中存储有计算机程序，其特征在于，所述计算机程序被处理器加载执行时，实现如权利要求1至4中任一所述的帕金森病步态运动障碍严重程度的自动评估方法。

7.一种电子设备，其特征在于，包括：处理器及存储器；其中，

所述存储器用于存储计算机程序；

所述处理器用于加载执行所述计算机程序，以使所述电子设备执行如权利要求1至4中任一所述的帕金森病步态运动障碍严重程度的自动评估方法。