CN116189296A - 一种基于手部姿态视频的帕金森运动迟缓量化分析方法 - Google Patents

一种基于手部姿态视频的帕金森运动迟缓量化分析方法 Download PDF

Info

Publication number
CN116189296A
CN116189296A CN202310059396.6A CN202310059396A CN116189296A CN 116189296 A CN116189296 A CN 116189296A CN 202310059396 A CN202310059396 A CN 202310059396A CN 116189296 A CN116189296 A CN 116189296A
Authority
CN
China
Prior art keywords
network
hand
motion
hand gesture
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310059396.6A
Other languages
English (en)
Inventor
李桂森
王治忠
王松伟
牛晓可
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhengzhou University
Original Assignee
Zhengzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhengzhou University filed Critical Zhengzhou University
Priority to CN202310059396.6A priority Critical patent/CN116189296A/zh
Publication of CN116189296A publication Critical patent/CN116189296A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T90/00Enabling technologies or technologies with a potential or indirect contribution to GHG emissions mitigation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Public Health (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Image Analysis (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)

Abstract

本发明公开了一种基于手部姿态视频的帕金森运动迟缓量化分析方法,包括以下步骤:A:构建手部姿态数据集;B:构建包含特征提取网络、区域候选网络、边界框头部网络和关键点头部网络的Mask R‑CNN深度神经网络模型;C:对Mask R‑CNN深度神经网络模型进行训练,获得手部21个关键点组成的关键点序列;D:对关键点序列进行运动特征提取得到对应的运动特征;E:依据运动特征获得波峰序列和波谷序列;F:基于波峰序列和波谷序列,对五种运动迟缓参数进行量化,五种运动迟缓参数分别为慢速、低振、幅度衰减、迟疑和停顿。本发明能够以手部姿态视频片段为载体,实现灵活、可解释的运动迟缓量化。

Description

一种基于手部姿态视频的帕金森运动迟缓量化分析方法
技术领域
本发明涉及一种帕金森运动迟缓量化分析方法,尤其涉及一种基于手部姿态视频的帕金森病运动迟缓量化分析方法。
背景技术
运动迟缓,即非意志性运动停止,是帕金森病(PD)患者常见的运动症状之一,也是临床筛查和诊断的一个主要依据。目前,评价运动迟缓严重程度的金标准是统一帕金森病评定量表(MDS-UPDRS)。在MDS-UPDRS运动检查第三部分中,列举了三种典型针对手部的运动迟缓项目:手指敲击、手运动和手旋前-旋后运动。这些项目要求帕金森患者尽可能以最大的幅度连续快速地执行阶段性动作,然后由评分者评估动作的速度、幅度、有无幅度的逐渐缩小以及有无迟疑和停顿,并按照0-4五种严重程度进行评分。然而,由于评估过程本质上是主观的,关键取决于评分者的培训和经验,导致不同评分者之间会存在很大程度的差异。此外,由于手部动作的大小和微妙性,人眼可能无法捕捉帕金森患者在快速运动检查下的每个细节。
现有的PD运动迟缓量化分析方法多依赖于可穿戴传感器(如加速度计、陀螺仪、磁力计等),根据运动信号量化振幅、速度、加速度等运动特性。然而,专业传感器成本高昂、操作复杂,不便于大规模推广应用。最近,基于深度学习的姿态估计技术取得了显著进步,它能够以完全非接触的形式从PD临床视频中定位患者手部关键点。这些关键点序列包含了丰富的时空信息,并以紧凑的形式表征运动迟缓症状。然而,由于手部关节高度灵活,自咬合严重,以及公共手姿态数据集规模和灵活性受限等原因,手部姿态估计比其他身体部位更具挑战性。此外,由于手部图像分辨率往往较低,为了避免复杂背景误检,通常需要额外部署深度网络模型定位手部RoI区域,并将其单独裁剪进行非端到端的姿态估计。
针对以上问题,许多研究工作尝试使用OpenPose(开源姿态估计框架)作为一种直观的解决方案。然而,公共手姿态数据集训练的OpenPose模型无法有效应对PD临床视频的独特挑战,如临床定义的手姿态和明显自遮挡等。其次,作为自底向上的姿态估计模型,OpenPose依赖人体关键点和手工规则粗略估计PD患者的手部RoI区域,使量化过程变得繁琐。
发明内容
本发明的目的是提供一种基于手部姿态视频的帕金森运动迟缓量化分析方法,能够以手部姿态视频片段为载体,实现灵活、可解释的运动迟缓量化,以辅助帕金森疾病的早期检测、常规监测和治疗评估。
本发明采用下述技术方案:
一种基于手部姿态视频的帕金森运动迟缓量化分析方法,包括以下步骤:
A:构建用于PD临床视频手部姿态估计的手部姿态数据集;
B:构建Mask R-CNN深度神经网络模型,Mask R-CNN深度神经网络模型包含特征提取网络、区域候选网络、边界框头部网络和关键点头部网络;
特征提取网络,用于对输入的手部姿态数据集中的原始图像进行特征提取,并对不同尺度特征进行融合,将融合后的五种不同尺度的特征图送入区域候选网络;
区域候选网络,用于根据设定的初始锚框生成区域候选;然后结合区域候选和分辨率最大的前四种尺度的特征图生成两种不同分辨率的RoI特征图,并分别送入并行设置的边界框头部网络和关键点头部网络;
边界框头部网络,用于根据输入的RoI特征图进行手部目标分类和边界框回归,输出精确的手部边界框;
关键点头部网络,用于对输入的RoI特征图进行手部目标关键点检测,最终输出手部21个关键点;
C:利用手部姿态数据集中的训练集对构建的Mask R-CNN深度神经网络模型进行训练,获得手部姿态视频中受试者的手部21个关键点组成的关键点序列;
D:对步骤C中得到的关键点序列进行运动特征提取,得到对应的运动特征;
E:依据步骤D中得到的运动特征,获得表征手部姿态视频中受试者的周期性动作变化的波峰序列和波谷序列;
F:基于步骤E中得到的波峰序列和波谷序列,对五种运动迟缓参数进行量化,五种运动迟缓参数分别为慢速、低振、幅度衰减、迟疑和停顿。
所述的步骤A包括以下具体步骤:
A1:使用视频采集装置,采集受试者执行指定动作的手部姿态视频;指定动作是指受试者按照MDS-UPDRS评定量表中要求,左右手分别执行手指敲击、手运动和手旋前-旋后运动三类手部运动迟缓检查项目;
A2:将手部姿态视频中所有的图像帧随机打乱,均匀采样N张图像帧构建手部姿态数据集;然后将手部姿态数据集按比例随机划分为训练集、验证集和测试集,最后对手部边界框和21个关键点进行人工标注。
所述的步骤B中,特征提取网络采用ResNet-50-FPN网络,对原始图像进行特征提取并结合特征金字塔结构对不同尺度特征进行融合,生成P2、P3、P4、P5和P6五种不同尺度的特征图,送入区域候选网络。
所述的步骤B中,区域候选网络对P2、P3、P4、P5和P6五种特征图中所有网格点设置三种宽高比例不同的初始锚框,采用RPN网络对初始锚框进行边界框回归以及二值分类,获得区域候选;然后结合区域候选和分辨率最大的P2、P3、P4、P5四种特征图进行RoIAlign操作,生成两种不同分辨率的RoI特征图,分别送入并行设置的边界框头部网络和关键点头部网络。
所述的步骤B中,边界框头部网络从左到右分别为第一卷积层和第一全连接层,边界框头部网络依据区域候选网络输出的RoI特征图,生成边界框回归偏移量和手部分类softmax分数;然后根据边界框回归偏移量和分类softmax分数生成精确的手部边界框。
所述的步骤B中,关键点头部网络包含特征提取子网络、分布期望解码子网络和分布方差解码子网络;
特征提取子网络用于对区域候选网络输出的RoI特征图进行特征提取,特征提取子网络首先通过第二卷积层将ROI特征图映射为特征图f1,然后通过第三卷积层对特征图f1进行进一步的特征提取并映射为特征图f2
分布期望解码子网络用于解码控制关键点底层分布位置的期望
Figure BDA0004060996800000041
分布期望解码子网络首先通过第四卷积层对特征图f2进行通道数改变并映射为特征图f3;分布期望解码子网络再对特征图f3使用2倍双线性上采样模块进行上采样,输出概率图π;最后,分布期望解码子网络对概率图π采用Soft-Argmax操作,基于以下定义解码分布期望/>
Figure BDA0004060996800000042
即手部21个关键点坐标:
Figure BDA0004060996800000043
其中,πyi表示预测目标出现在yi的概率,yi表示概率图π的离散网格位置;
分布方差解码子网络用于解码控制关键点底层分布尺度的方差
Figure BDA00040609968000000413
分布方差解码子网络首先对特征图f2采用全局平均池化操作并生成一维向量v1,然后将一维向量v1作为第二全连接层的输入,再经过Sigmoid激活函数最终生成的偏差/>
Figure BDA0004060996800000044
所述的步骤B中,网络训练过程中,基于分布期望解码子网络输出的期望
Figure BDA0004060996800000045
和分布方差解码子网络输出的方差/>
Figure BDA0004060996800000046
使用RLE Loss建模关键点底层分布,RLE Loss的定义为:
Figure BDA0004060996800000047
其中,
Figure BDA0004060996800000048
μg表示关键点坐标标签;/>
Figure BDA0004060996800000049
表示标准高斯分布;/>
Figure BDA00040609968000000410
表示关键点底层分布,/>
Figure BDA00040609968000000411
所述的步骤D中,运动特征的提取方法如下:
在给定关键点序列
Figure BDA00040609968000000412
下,针对MDS-UPDRS对手指敲击、手运动和手旋前-旋后运动三类手部运动迟缓检查项目的检查要求,分别定义三种不同的运动特征提取方式;
1)手指敲击的运动特征提取方式为:计算食指尖端与拇指尖端之间的欧式距离sf.t.(t);
Figure BDA0004060996800000051
其中,p4(t)表示食指尖端关键点坐标,p8(t)表示拇指尖端关键点坐标;
Figure BDA0004060996800000052
表示二范数公式,t表示视频帧数;
2)手运动的运动特征提取方式为:计算五个手指指尖和手掌关键点之间的欧氏距离的平均值sh.m.(t);
Figure BDA0004060996800000053
其中,pi=4,8,12,16,20(t)分别表示五个手指指尖关键点坐标,p0(t)表示手掌关键点坐标;
3)手旋前-旋后运动的运动特征提取方式为:计算小指到拇指关键点的水平偏移量sp.s.(t);
sp.s.(t)=median{x1(t),x2(t)x3(t),x4(t)}
-median{x17(t),x18(t)x19(t),x20(t)};
其中,x1,2,3,4(t)分别表示拇指上四个关键点横坐标,x17,18,19,20(t)分别表示小指上四个关键点横坐标,median表示取序列中值。
所述的步骤E包括以下具体步骤:
E1:首先对步骤D中得到的运动特征进行归一化处理;
给定边界框头部网络输出的手部边界框斜边长序列
Figure BDA0004060996800000054
则手指敲击、手运动和手旋前-旋后运动的归一化运动特征分别表示为:
Figure BDA0004060996800000055
其中,scale为尺度因子;
E2:对步骤E1中得到归一化后的三种运动特征分别应用Savitzky-Golay滤波,滤波后的三种运动特征统一表示为
Figure BDA0004060996800000061
针对得到的sft.norm.(t)应用Savitzky-Golay滤波时,窗口宽度为11,拟合阶数为2;
针对得到的shm.norm.(t)应用Savitzky-Golay滤波时,窗口宽度为15,拟合阶数为2;
针对得到的sps.norm.(t)应用Savitzky-Golay滤波时,窗口宽度为13,拟合阶数为2;
E3:将步骤E2中得到的滤波后的三种运动特征
Figure BDA0004060996800000062
视为准周期信号,采用基于多尺度的自动峰值检测算法进行峰值检测,分别得到对应的波峰序列/>
Figure BDA0004060996800000063
和波谷序列/>
Figure BDA0004060996800000064
其中,p1表示第一个波峰,v1表示第一个波谷。
所述的步骤F包括以下具体步骤:
F1:基于步骤E中得到的波峰序列
Figure BDA0004060996800000065
和波谷序列
Figure BDA0004060996800000066
将一个“峰-谷-峰”周期视为一次运动循环;给定采样频率f,则第i个运动循环的频率ri和振幅ai的计算公式如下:
Figure BDA0004060996800000067
Figure BDA0004060996800000068
其中,
Figure BDA0004060996800000069
和/>
Figure BDA00040609968000000610
分别表示波峰点pi+1和pi对应的运动特征值;/>
Figure BDA00040609968000000611
表示波谷点vi对应的运动特征值;
F2:根据得到的频率ri和振幅ai,分别定义五种运动迟缓参数的量化为:
慢速:
Figure BDA00040609968000000612
序列中值;
低振:
Figure BDA00040609968000000613
序列中值;
振幅衰减:
Figure BDA00040609968000000614
迟疑:
Figure BDA0004060996800000071
序列最小值;
停顿:
Figure BDA0004060996800000072
序列最小值。
本发明具有以下有益效果:
1)本发明构建了特定领域的手部姿态数据集,数据集侧重应对受试者执行MDS-UPDRS相关项目的临床检查视频中,手部姿态具有的独特挑战,如临床定义的手势、视频拍摄的视角(手部尽可能处于中央位置)、特殊的自遮挡和透视效果(受试者在做出特定动作时,手部姿态出现的自遮挡和透视效果);
2)构建Mask R-CNN模型实现端到端的手部姿态估计,并重新设计关键点头部网络结构,引入Soft-Argmax和RLE Loss方法提升关键点回归精度;
3)通过分析PD临床视频手部关键点的运动时序,量化了五种典型的运动迟缓特征参数,这些参数综合了MDS-UPDRS评分中描述的临床症状,能够为临床医生提供更客观、具体的关于PD患者运动迟缓的解释。
附图说明
图1为本发明的流程示意图。
具体实施方式
以下结合附图和实施例对本发明作以详细的描述:
如图1所示,本发明所述的一种基于手部姿态视频的帕金森运动迟缓量化分析方法,包括以下步骤:
A:构建用于PD临床视频手部姿态估计的手部姿态数据集;
所述的步骤A包括以下具体步骤:
A1:使用视频采集装置,采集受试者执行指定动作的手部姿态视频;指定动作是指受试者按照MDS-UPDRS评定量表中要求,左右手分别执行手指敲击、手运动和手旋前-旋后运动三类手部运动迟缓检查项目;
其中,受试者为PD患者。执行手部敲击动作时,受试者以最大的幅度和最快的速度用食指拍打拇指10次;执行手运动(握拳实验)动作时,受试者曲肘紧握拳,充分打开手掌,并以最快的速度反复伸掌握拳10次;执行手旋前-旋后运动(轮替实验)动作时,受试者将手臂前伸、手掌朝下,并以最快的速度和最大的幅度交替上下翻转手掌10次;上述动作要求为现有MDS-UPDRS评定量表中要求,在此不再赘述。
本实施例中,视频采集装置可采用智能手机,视频采集装置的拍摄分辨率不小于640×480,帧率为30/fps。视频采集时要求手部姿态视频画面中仅包含受试者执行动作的一只手部实例,且尽可能处于中央位置;
A2:使用Python的random.shuffle函数,将手部姿态视频中所有的图像帧随机打乱,均匀采样N张图像帧构建手部姿态数据集;然后将手部姿态数据集按照6:2:2的比例随机划分为训练集(PH-train)、验证集(PH-val)和测试集(PH-test),最后使用开源关键点标注工具coco-annotator对手部边界框和21个关键点进行人工标注。
本实施例中,N的取值可为1906。手部边界框为紧密包围手部位置的矩形框,由矩形左上角坐标(x1,y1)与右下角坐标(x2,y2)确定;手部21个关键点为手部的21个骨骼关节点。手部边界框与21个关键点均为本领域常规技术,在此不再赘述。
B:构建Mask R-CNN深度神经网络模型,Mask R-CNN深度神经网络模型包含特征提取网络、区域候选网络、边界框头部网络和关键点头部网络;
特征提取网络,用于对输入的手部姿态数据集中的原始图像进行特征提取,并结合特征金字塔(FPN)结构对不同尺度特征进行融合,将融合后的五种不同尺度的特征图送入区域候选网络;
区域候选网络,用于对设定的初始锚框进行边界框回归和二值分类,生成区域候选;然后结合区域候选和分辨率最大的前四种尺度的特征图进行RoIAlign操作,生成两种不同分辨率的RoI(感兴趣区域)特征图并分别送入并行设置的边界框头部网络和关键点头部网络;
边界框头部网络,用于对输入的RoI特征图进行手部目标分类和进一步的边界框回归,最终输出精确的手部边界框;
关键点头部网络,用于对输入的RoI特征图进行手部目标关键点检测,最终输出手部21个关键点;
本发明中,Mask R-CNN深度神经网络基于Detectron2框架构建。
特征提取网络,采用ResNet-50-FPN网络,通过自上而下、自下而上和横向连接的方式对原始图像进行特征提取和多尺度特征融合,生成P2、P3、P4、P5和P6五种不同尺度的特征图,送入区域候选网络。
区域候选网络,对P2、P3、P4、P5和P6五种特征图中所有网格点设置三种宽高比例不同的初始锚框,采用RPN网络对初始锚框进行边界框回归以及二值(Positive和Negative)分类,获得区域候选;然后结合区域候选和P2、P3、P4、P5四种特征图(即五种特征图中分辨率最大的前四种特征图)进行RoIAlign操作,生成7×7和14×14两种分辨率的RoI特征图,分别送入并行设置的边界框头部网络和关键点头部网络。
边界框头部网络从左到右分别为堆叠的4个3×3×256×256大小的第一卷积层和2个1024×1024大小的第一全连接层,边界框头部网络依据区域候选网络输出的7×7分辨率的RoI特征图,生成维度为4k和2k的边界框回归偏移量和手部分类softmax分数,k为检测的边界框数目;然后根据边界框回归偏移量和分类softmax分数生成精确的手部边界框,
本发明中,在关键点头部网络中引入Soft-Argmax和RLE Loss方法,以提升关键点回归精度;关键点头部网络共包含特征提取子网络、分布期望解码子网络和分布方差解码子网络;
特征提取子网络用于对区域候选网络输出的RoI特征图进行特征提取,特征提取子网络首先通过3×3×256×512大小的第二卷积层将14×14×256大小的ROI特征图映射为14×14×512大小的特征图f1,然后通过堆叠8个3×3×512×512大小的第三卷积层对特征图f1进行进一步的特征提取,并映射为14×14×512大小的特征图f2
分布期望解码子网络用于解码控制关键点底层分布位置的期望
Figure BDA0004060996800000101
即关键点数值坐标;分布期望解码子网络首先通过1×1×512×21大小的第四卷积层将特征图f2映射为14×14×21大小的特征图f3,以将通道数改变为21,与手部关键点数量保持一致。为了生成高分辨率的特征图,分布期望解码子网络再对特征图f3使用2倍双线性上采样模块进行上采样,输出28×28×21大小的概率图π;最后,分布期望解码子网络对概率图π采用Soft-Argmax操作,基于以下定义解码分布期望/>
Figure BDA0004060996800000102
即手部21个关键点坐标:
Figure BDA0004060996800000103
其中,πyi表示预测目标出现在yi的概率,yi表示概率图π的离散网格位置;
分布方差解码子网络用于解码控制关键点底层分布尺度的方差
Figure BDA0004060996800000104
分布方差解码子网络首先对特征图f2采用全局平均池化(GAP)操作以实现降维,生成维度为512的一维向量v1,然后将一维向量v1作为维度为512×42第二全连接层的输入,再经过Sigmoid激活函数最终生成维度为42的偏差/>
Figure BDA0004060996800000105
从最大似然估计角度来说,关键点坐标回归常用的L1或L2损失函数是基于特定输出概率分布的假设,使输出分别服从拉普拉斯分布和高斯分布。然而,这种未参考的基础分布限制了回归的性能。因此,网络训练过程中,本发明基于分布期望解码子网络输出的期望
Figure BDA0004060996800000106
和分布方差解码子网络输出的方差/>
Figure BDA0004060996800000107
使用RLE Loss建模关键点底层分布,从而促进学习过程。RLE Loss的定义为:
Figure BDA0004060996800000108
其中,
Figure BDA0004060996800000109
μg表示关键点坐标标签;/>
Figure BDA00040609968000001010
表示标准高斯分布;/>
Figure BDA00040609968000001011
表示关键点底层分布,/>
Figure BDA00040609968000001012
控制关键点底层分布的位置,/>
Figure BDA00040609968000001013
控制该分布的尺度;/>
Figure BDA00040609968000001014
可使用黎曼和近似;
C:利用步骤A中手部姿态数据集中的训练集对步骤B中构建的Mask R-CNN深度神经网络模型进行训练,获得手部姿态视频中受试者的手部21个关键点组成的关键点序列
Figure BDA00040609968000001015
步骤C中,Mask R-CNN模型基于Detectron2框架实现,骨干网络使用ResNet-50-FPN网络,并经过ImageNet预训练;采用随机梯度下降(SGD)优化器,初始学习率为1e-3,并分别在第10K和20K迭代降低10倍(共30K次迭代);权重衰减率、batch_size和momentum参数分别设为0.0001,16和0.9。
D:对步骤C中得到的关键点序列
Figure BDA0004060996800000111
进行运动特征提取,得到对应的运动特征;
步骤D中,运动特征的提取方法如下:
针对MDS-UPDRS对手指敲击、手运动和手旋前-旋后运动三类手部运动迟缓检查项目的检查要求,分别定义三种不同的运动特征提取方式;在给定关键点序列
Figure BDA0004060996800000112
下,
1)手指敲击的运动特征提取方式为:计算食指尖端与拇指尖端之间的欧式距离sf.t.(t),
Figure BDA0004060996800000113
其中,p4(t)表示食指尖端关键点坐标,p8(t)表示拇指尖端关键点坐标;
Figure BDA0004060996800000114
表示二范数公式,t表示视频帧数;
2)手运动的运动特征提取方式为:计算五个手指指尖和手掌关键点之间的欧氏距离的平均值sh.m.(t),
Figure BDA0004060996800000115
其中,pi=4,8,12,16,20(t)分别表示五个手指指尖关键点坐标,p0(t)表示手掌关键点坐标;
3)手旋前-旋后运动的运动特征提取方式为:计算小指到拇指关键点的水平偏移量sp.s.(t),
sp.s.(t)=median{x1(t),x2(t)x3(t),x4(t)}
-median{x17(t),x18(t)x19(t),x20(t)}(5)
其中,x1,2,3,4(t)分别表示拇指上四个关键点横坐标,x17,18,19,20(t)分别表示小指上四个关键点横坐标,median表示取序列中值;
E:对步骤D中得到的运动特征分别进行归一化、Savitzky-Golay平滑滤波以及AMPD峰值检测处理,获得表征手部姿态视频中受试者的周期性动作变化的波峰序列和波谷序列;
本发明中,步骤E包括以下具体步骤:
E1:由于在不同的手部姿态视频中,视频采集装置和受试者手部之间的距离不同会导致原始空间值不可避免地发生变化,因此,本发明中首先对步骤D中得到的运动特征进行归一化处理。
给定边界框头部网络输出的手部边界框斜边长序列
Figure BDA0004060996800000121
则手指敲击、手运动和手旋前-旋后运动的归一化运动特征分别表示为:
Figure BDA0004060996800000122
其中,scale为尺度因子。
E2:由于不可避免的预测小误差或者不连续的数据标注等原因,提取的运动特征容易出现轻微抖动(尖峰、锯齿等高频噪声),将会导致伪局部极值出现。因此,本发明中还分别对步骤E1中得到归一化后的三种运动特征应用Savitzky-Golay滤波,参数设置如下:
针对得到的sft.norm.(t)应用Savitzky-Golay滤波时,窗口宽度为11,拟合阶数为2;
针对得到的shm.norm.(t)应用Savitzky-Golay滤波时,窗口宽度为15,拟合阶数为2;
针对得到的sps.norm.(t)应用Savitzky-Golay滤波时,窗口宽度为13,拟合阶数为2;
滤波后的三种运动特征统一表示为
Figure BDA0004060996800000123
E3:将步骤E2中得到的滤波后的三种运动特征
Figure BDA0004060996800000131
视为准周期信号,采用基于多尺度的自动峰值检测(Automatic Multiscale-based Peak Detection,AMPD)算法进行峰值检测,分别得到对应的波峰序列/>
Figure BDA0004060996800000132
和波谷序列/>
Figure BDA0004060996800000133
其中,p1表示第一个波峰,v1表示第一个波谷。
F:基于步骤E中得到的波峰序列
Figure BDA0004060996800000134
和波谷序列/>
Figure BDA0004060996800000135
对五种运动迟缓参数进行量化,五种运动迟缓参数分别为慢速、低振、幅度衰减、迟疑和停顿;
本发明中,步骤F包括以下具体步骤:
F1:基于步骤E中得到的波峰序列
Figure BDA0004060996800000136
和波谷序列
Figure BDA0004060996800000137
将一个“峰-谷-峰”(PVP)周期视为一次运动循环;给定采样频率f,即手部姿态视频的帧率,则第i个运动循环的频率ri和振幅ai的计算公式如下:
Figure BDA0004060996800000138
Figure BDA0004060996800000139
其中,
Figure BDA00040609968000001310
和/>
Figure BDA00040609968000001311
分别表示波峰点pi+1和pi对应的运动特征值;/>
Figure BDA00040609968000001312
表示波谷点vi对应的运动特征值;
F2:根据得到的频率ri和振幅ai,分别定义五种运动迟缓参数的量化为:
慢速:
Figure BDA00040609968000001313
序列中值;
低振:
Figure BDA00040609968000001314
序列中值;
振幅衰减:
Figure BDA00040609968000001315
迟疑:
Figure BDA00040609968000001316
序列最小值;
停顿:
Figure BDA00040609968000001317
序列最小值。/>

Claims (10)

1.一种基于手部姿态视频的帕金森运动迟缓量化分析方法,其特征在于,包括以下步骤:
A:构建用于PD临床视频手部姿态估计的手部姿态数据集;
B:构建Mask R-CNN深度神经网络模型,Mask R-CNN深度神经网络模型包含特征提取网络、区域候选网络、边界框头部网络和关键点头部网络;
特征提取网络,用于对输入的手部姿态数据集中的原始图像进行特征提取,并对不同尺度特征进行融合,将融合后的五种不同尺度的特征图送入区域候选网络;
区域候选网络,用于根据设定的初始锚框生成区域候选;然后结合区域候选和分辨率最大的前四种尺度的特征图生成两种不同分辨率的RoI特征图,并分别送入并行设置的边界框头部网络和关键点头部网络;
边界框头部网络,用于根据输入的RoI特征图进行手部目标分类和边界框回归,输出精确的手部边界框;
关键点头部网络,用于对输入的RoI特征图进行手部目标关键点检测,最终输出手部21个关键点;
C:利用手部姿态数据集中的训练集对构建的Mask R-CNN深度神经网络模型进行训练,获得手部姿态视频中受试者的手部21个关键点组成的关键点序列;
D:对步骤C中得到的关键点序列进行运动特征提取,得到对应的运动特征;
E:依据步骤D中得到的运动特征,获得表征手部姿态视频中受试者的周期性动作变化的波峰序列和波谷序列;
F:基于步骤E中得到的波峰序列和波谷序列,对五种运动迟缓参数进行量化,五种运动迟缓参数分别为慢速、低振、幅度衰减、迟疑和停顿。
2.根据权利要求1所述的基于手部姿态视频的帕金森运动迟缓量化分析方法,其特征在于,所述的步骤A包括以下具体步骤:
A1:使用视频采集装置,采集受试者执行指定动作的手部姿态视频;指定动作是指受试者按照MDS-UPDRS评定量表中要求,左右手分别执行手指敲击、手运动和手旋前-旋后运动三类手部运动迟缓检查项目;
A2:将手部姿态视频中所有的图像帧随机打乱,均匀采样N张图像帧构建手部姿态数据集;然后将手部姿态数据集按比例随机划分为训练集、验证集和测试集,最后对手部边界框和21个关键点进行人工标注。
3.根据权利要求1所述的基于手部姿态视频的帕金森运动迟缓量化分析方法,其特征在于:所述的步骤B中,特征提取网络采用ResNet-50-FPN网络,对原始图像进行特征提取并结合特征金字塔结构对不同尺度特征进行融合,生成P2、P3、P4、P5和P6五种不同尺度的特征图,送入区域候选网络。
4.根据权利要求3所述的基于手部姿态视频的帕金森运动迟缓量化分析方法,其特征在于:所述的步骤B中,区域候选网络对P2、P3、P4、P5和P6五种特征图中所有网格点设置三种宽高比例不同的初始锚框,采用RPN网络对初始锚框进行边界框回归以及二值分类,获得区域候选;然后结合区域候选和分辨率最大的P2、P3、P4、P5四种特征图进行RoIAlign操作,生成两种不同分辨率的RoI特征图,分别送入并行设置的边界框头部网络和关键点头部网络。
5.根据权利要求3所述的基于手部姿态视频的帕金森运动迟缓量化分析方法,其特征在于:所述的步骤B中,边界框头部网络从左到右分别为第一卷积层和第一全连接层,边界框头部网络依据区域候选网络输出的RoI特征图,生成边界框回归偏移量和手部分类softmax分数;然后根据边界框回归偏移量和分类softmax分数生成精确的手部边界框。
6.根据权利要求3所述的基于手部姿态视频的帕金森运动迟缓量化分析方法,其特征在于:所述的步骤B中,关键点头部网络包含特征提取子网络、分布期望解码子网络和分布方差解码子网络;
特征提取子网络用于对区域候选网络输出的RoI特征图进行特征提取,特征提取子网络首先通过第二卷积层将ROI特征图映射为特征图f1,然后通过第三卷积层对特征图f1进行进一步的特征提取并映射为特征图f2
分布期望解码子网络用于解码控制关键点底层分布位置的期望
Figure FDA0004060996790000031
分布期望解码子网络首先通过第四卷积层对特征图f2进行通道数改变并映射为特征图f3;分布期望解码子网络再对特征图f3使用2倍双线性上采样模块进行上采样,输出概率图π;最后,分布期望解码子网络对概率图π采用Soft-Argmax操作,基于以下定义解码分布期望/>
Figure FDA0004060996790000032
即手部21个关键点坐标:
Figure FDA0004060996790000033
其中,
Figure FDA0004060996790000034
表示预测目标出现在yi的概率,yi表示概率图π的离散网格位置;
分布方差解码子网络用于解码控制关键点底层分布尺度的方差
Figure FDA0004060996790000035
分布方差解码子网络首先对特征图f2采用全局平均池化操作以实现降维,并将生成的一维向量v1作为第二全连接层的输入,再经过Sigmoid激活函数最终生成的偏差/>
Figure FDA00040609967900000314
7.根据权利要求6所述的基于手部姿态视频的帕金森运动迟缓量化分析方法,其特征在于:所述的步骤B中,网络训练过程中,基于分布期望解码子网络输出的期望
Figure FDA00040609967900000315
和分布方差解码子网络输出的方差/>
Figure FDA00040609967900000316
使用RLE Loss建模关键点底层分布,RLE Loss的定义为:
Figure FDA0004060996790000036
其中,
Figure FDA0004060996790000037
μg表示关键点坐标标签;/>
Figure FDA0004060996790000038
表示标准高斯分布;/>
Figure FDA0004060996790000039
表示关键点底层分布,/>
Figure FDA00040609967900000310
8.根据权利要求1所述的基于手部姿态视频的帕金森运动迟缓量化分析方法,其特征在于,所述的步骤D中,运动特征的提取方法如下:
在给定关键点序列
Figure FDA00040609967900000311
下,针对MDS-UPDRS对手指敲击、手运动和手旋前-旋后运动三类手部运动迟缓检查项目的检查要求,分别定义三种不同的运动特征提取方式;
1)手指敲击的运动特征提取方式为:计算食指尖端与拇指尖端之间的欧式距离sf.t.(t);
Figure FDA00040609967900000312
其中,p4(t)表示食指尖端关键点坐标,p8(t)表示拇指尖端关键点坐标;
Figure FDA00040609967900000313
表示二范数公式,t表示视频帧数;
2)手运动的运动特征提取方式为:计算五个手指指尖和手掌关键点之间的欧氏距离的平均值sh.m.(t);
Figure FDA0004060996790000041
其中,pi=4,8,12,16,20(t)分别表示五个手指指尖关键点坐标,p0(t)表示手掌关键点坐标;
3)手旋前-旋后运动的运动特征提取方式为:计算小指到拇指关键点的水平偏移量sp.s.(t);
sp.s.(t)=median{x1(t),x2(t)x3(t),x4(t)}
-median{x17(t),x18(t)x19(t),x20(t)};
其中,x1,2,3,4(t)分别表示拇指上四个关键点横坐标,x17,18,19,20(t)分别表示小指上四个关键点横坐标,median表示取序列中值。
9.根据权利要求8所述的基于手部姿态视频的帕金森运动迟缓量化分析方法,其特征在于,所述的步骤E包括以下具体步骤:
E1:首先对步骤D中得到的运动特征进行归一化处理;
给定边界框头部网络输出的手部边界框斜边长序列
Figure FDA0004060996790000042
则手指敲击、手运动和手旋前-旋后运动的归一化运动特征分别表示为:
Figure FDA0004060996790000043
Figure FDA0004060996790000044
Figure FDA0004060996790000045
其中,scale为尺度因子;
E2:对步骤E1中得到归一化后的三种运动特征分别应用Savitzky-Golay滤波,滤波后的三种运动特征统一表示为
Figure FDA0004060996790000046
针对得到的sft.norm.(t)应用Savitzky-Golay滤波时,窗口宽度为11,拟合阶数为2;
针对得到的shm.norm.(t)应用Savitzky-Golay滤波时,窗口宽度为15,拟合阶数为2;
针对得到的sps.norm.(t)应用Savitzky-Golay滤波时,窗口宽度为13,拟合阶数为2;
E3:将步骤E2中得到的滤波后的三种运动特征
Figure FDA0004060996790000051
视为准周期信号,采用基于多尺度的自动峰值检测算法进行峰值检测,分别得到对应的波峰序列/>
Figure FDA0004060996790000052
和波谷序列/>
Figure FDA0004060996790000053
其中,p1表示第一个波峰,v1表示第一个波谷。
10.根据权利要求1所述的基于手部姿态视频的帕金森运动迟缓量化分析方法,其特征在于,所述的步骤F包括以下具体步骤:
F1:基于步骤E中得到的波峰序列
Figure FDA0004060996790000054
和波谷序列/>
Figure FDA0004060996790000055
将一个“峰-谷-峰”周期视为一次运动循环;给定采样频率f,则第i个运动循环的频率ri和振幅ai的计算公式如下:
Figure FDA0004060996790000056
Figure FDA0004060996790000057
其中,
Figure FDA0004060996790000058
和/>
Figure FDA0004060996790000059
分别表示波峰点pi+1和pi对应的运动特征值;/>
Figure FDA00040609967900000510
表示波谷点vi对应的运动特征值;
F2:根据得到的频率ri和振幅ai,分别定义五种运动迟缓参数的量化为:
慢速:
Figure FDA00040609967900000511
序列中值;
低振:
Figure FDA00040609967900000512
序列中值;
振幅衰减:
Figure FDA00040609967900000513
迟疑:
Figure FDA00040609967900000514
序列最小值;
停顿:
Figure FDA00040609967900000515
序列最小值。/>
CN202310059396.6A 2023-01-13 2023-01-13 一种基于手部姿态视频的帕金森运动迟缓量化分析方法 Pending CN116189296A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310059396.6A CN116189296A (zh) 2023-01-13 2023-01-13 一种基于手部姿态视频的帕金森运动迟缓量化分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310059396.6A CN116189296A (zh) 2023-01-13 2023-01-13 一种基于手部姿态视频的帕金森运动迟缓量化分析方法

Publications (1)

Publication Number Publication Date
CN116189296A true CN116189296A (zh) 2023-05-30

Family

ID=86439724

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310059396.6A Pending CN116189296A (zh) 2023-01-13 2023-01-13 一种基于手部姿态视频的帕金森运动迟缓量化分析方法

Country Status (1)

Country Link
CN (1) CN116189296A (zh)

Similar Documents

Publication Publication Date Title
Lin et al. Movement primitive segmentation for human motion modeling: A framework for analysis
US8824802B2 (en) Method and system for gesture recognition
EP2400370B1 (en) Information processing device and information processing method
US11281896B2 (en) Physical activity quantification and monitoring
JP4860749B2 (ja) 画像中の人物における位置決め指示との適合性を判定する機器、システム、及び方法
Pang et al. Automatic detection and quantification of hand movements toward development of an objective assessment of tremor and bradykinesia in Parkinson's disease
US11403882B2 (en) Scoring metric for physical activity performance and tracking
TW201123031A (en) Robot and method for recognizing human faces and gestures thereof
CN107832736B (zh) 实时人体动作的识别方法和实时人体动作的识别装置
CN111460976B (zh) 一种数据驱动的基于rgb视频的实时手部动作评估方法
Pintea et al. Hand-tremor frequency estimation in videos
Monir et al. Rotation and scale invariant posture recognition using Microsoft Kinect skeletal tracking feature
CN110991268A (zh) 一种基于深度图像的帕金森手部运动量化分析方法和系统
Adhikari et al. A Novel Machine Learning-Based Hand Gesture Recognition Using HCI on IoT Assisted Cloud Platform.
JP2003256850A (ja) 動き認識装置および画像処理装置並びにプログラム
CN116189296A (zh) 一种基于手部姿态视频的帕金森运动迟缓量化分析方法
KR101413853B1 (ko) 적외선 영상을 이용한 생체 신호 측정 방법 및 장치
CN106446837B (zh) 一种基于运动历史图像的挥手检测方法
Shitole et al. Dynamic hand gesture recognition using PCA, Pruning and ANN
Liu et al. A framework for webcam-based hand rehabilitation exercises
Leng et al. Fine-grained Human Activity Recognition Using Virtual On-body Acceleration Data
Rane et al. Virtual Personal Trainer using Microsoft Kinect and Machine Learning
Qiu et al. Machine Learning based Movement Analysis and Correction for Table Tennis
Varia et al. A refined 3d dataset for the analysis of player actions in exertion games
Alves et al. Vision-based segmentation of continuous mechanomyographic grasping sequences

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination