CN116189296A - 一种基于手部姿态视频的帕金森运动迟缓量化分析方法 - Google Patents
一种基于手部姿态视频的帕金森运动迟缓量化分析方法 Download PDFInfo
- Publication number
- CN116189296A CN116189296A CN202310059396.6A CN202310059396A CN116189296A CN 116189296 A CN116189296 A CN 116189296A CN 202310059396 A CN202310059396 A CN 202310059396A CN 116189296 A CN116189296 A CN 116189296A
- Authority
- CN
- China
- Prior art keywords
- network
- hand
- motion
- hand gesture
- sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 31
- 208000027089 Parkinsonian disease Diseases 0.000 title claims abstract description 20
- 206010034010 Parkinsonism Diseases 0.000 title claims abstract description 20
- 238000004445 quantitative analysis Methods 0.000 title claims abstract description 15
- 238000000605 extraction Methods 0.000 claims abstract description 38
- 206010006100 Bradykinesia Diseases 0.000 claims abstract description 22
- 208000006083 Hypokinesia Diseases 0.000 claims abstract description 22
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 14
- 238000012549 training Methods 0.000 claims abstract description 14
- 238000003062 neural network model Methods 0.000 claims abstract description 11
- 101150029607 SS18L1 gene Proteins 0.000 claims abstract description 6
- 238000009826 distribution Methods 0.000 claims description 45
- 210000003811 finger Anatomy 0.000 claims description 32
- 238000001914 filtration Methods 0.000 claims description 16
- 210000003813 thumb Anatomy 0.000 claims description 13
- 230000009471 action Effects 0.000 claims description 12
- 238000001514 detection method Methods 0.000 claims description 12
- 238000005070 sampling Methods 0.000 claims description 12
- 230000008859 change Effects 0.000 claims description 7
- 238000010606 normalization Methods 0.000 claims description 6
- 230000006870 function Effects 0.000 claims description 5
- 230000008569 process Effects 0.000 claims description 5
- 238000013139 quantization Methods 0.000 claims description 5
- 238000013507 mapping Methods 0.000 claims description 4
- 238000012360 testing method Methods 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 claims description 3
- 210000004932 little finger Anatomy 0.000 claims description 3
- 230000000737 periodic effect Effects 0.000 claims description 3
- 238000011176 pooling Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 230000009467 reduction Effects 0.000 claims description 3
- 238000012795 verification Methods 0.000 claims description 3
- 108020004705 Codon Proteins 0.000 claims description 2
- 239000000969 carrier Substances 0.000 abstract description 2
- 238000011002 quantification Methods 0.000 abstract 1
- 208000018737 Parkinson disease Diseases 0.000 description 11
- 208000024891 symptom Diseases 0.000 description 3
- UXFQFBNBSPQBJW-UHFFFAOYSA-N 2-amino-2-methylpropane-1,3-diol Chemical compound OCC(N)(C)CO UXFQFBNBSPQBJW-UHFFFAOYSA-N 0.000 description 2
- 101150035093 AMPD gene Proteins 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 210000004247 hand Anatomy 0.000 description 2
- 208000012661 Dyskinesia Diseases 0.000 description 1
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000000386 athletic effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000012854 evaluation process Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 210000002478 hand joint Anatomy 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000017311 musculoskeletal movement, spinal reflex action Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
- G06V40/28—Recognition of hand or arm movements, e.g. recognition of deaf sign language
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T90/00—Enabling technologies or technologies with a potential or indirect contribution to GHG emissions mitigation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Public Health (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Pathology (AREA)
- Human Computer Interaction (AREA)
- Epidemiology (AREA)
- Primary Health Care (AREA)
- Image Analysis (AREA)
- Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
Abstract
本发明公开了一种基于手部姿态视频的帕金森运动迟缓量化分析方法,包括以下步骤:A:构建手部姿态数据集;B:构建包含特征提取网络、区域候选网络、边界框头部网络和关键点头部网络的Mask R‑CNN深度神经网络模型;C:对Mask R‑CNN深度神经网络模型进行训练,获得手部21个关键点组成的关键点序列;D:对关键点序列进行运动特征提取得到对应的运动特征;E:依据运动特征获得波峰序列和波谷序列;F:基于波峰序列和波谷序列,对五种运动迟缓参数进行量化,五种运动迟缓参数分别为慢速、低振、幅度衰减、迟疑和停顿。本发明能够以手部姿态视频片段为载体,实现灵活、可解释的运动迟缓量化。
Description
技术领域
本发明涉及一种帕金森运动迟缓量化分析方法,尤其涉及一种基于手部姿态视频的帕金森病运动迟缓量化分析方法。
背景技术
运动迟缓,即非意志性运动停止,是帕金森病(PD)患者常见的运动症状之一,也是临床筛查和诊断的一个主要依据。目前,评价运动迟缓严重程度的金标准是统一帕金森病评定量表(MDS-UPDRS)。在MDS-UPDRS运动检查第三部分中,列举了三种典型针对手部的运动迟缓项目:手指敲击、手运动和手旋前-旋后运动。这些项目要求帕金森患者尽可能以最大的幅度连续快速地执行阶段性动作,然后由评分者评估动作的速度、幅度、有无幅度的逐渐缩小以及有无迟疑和停顿,并按照0-4五种严重程度进行评分。然而,由于评估过程本质上是主观的,关键取决于评分者的培训和经验,导致不同评分者之间会存在很大程度的差异。此外,由于手部动作的大小和微妙性,人眼可能无法捕捉帕金森患者在快速运动检查下的每个细节。
现有的PD运动迟缓量化分析方法多依赖于可穿戴传感器(如加速度计、陀螺仪、磁力计等),根据运动信号量化振幅、速度、加速度等运动特性。然而,专业传感器成本高昂、操作复杂,不便于大规模推广应用。最近,基于深度学习的姿态估计技术取得了显著进步,它能够以完全非接触的形式从PD临床视频中定位患者手部关键点。这些关键点序列包含了丰富的时空信息,并以紧凑的形式表征运动迟缓症状。然而,由于手部关节高度灵活,自咬合严重,以及公共手姿态数据集规模和灵活性受限等原因,手部姿态估计比其他身体部位更具挑战性。此外,由于手部图像分辨率往往较低,为了避免复杂背景误检,通常需要额外部署深度网络模型定位手部RoI区域,并将其单独裁剪进行非端到端的姿态估计。
针对以上问题,许多研究工作尝试使用OpenPose(开源姿态估计框架)作为一种直观的解决方案。然而,公共手姿态数据集训练的OpenPose模型无法有效应对PD临床视频的独特挑战,如临床定义的手姿态和明显自遮挡等。其次,作为自底向上的姿态估计模型,OpenPose依赖人体关键点和手工规则粗略估计PD患者的手部RoI区域,使量化过程变得繁琐。
发明内容
本发明的目的是提供一种基于手部姿态视频的帕金森运动迟缓量化分析方法,能够以手部姿态视频片段为载体,实现灵活、可解释的运动迟缓量化,以辅助帕金森疾病的早期检测、常规监测和治疗评估。
本发明采用下述技术方案:
一种基于手部姿态视频的帕金森运动迟缓量化分析方法,包括以下步骤:
A:构建用于PD临床视频手部姿态估计的手部姿态数据集;
B:构建Mask R-CNN深度神经网络模型,Mask R-CNN深度神经网络模型包含特征提取网络、区域候选网络、边界框头部网络和关键点头部网络;
特征提取网络,用于对输入的手部姿态数据集中的原始图像进行特征提取,并对不同尺度特征进行融合,将融合后的五种不同尺度的特征图送入区域候选网络;
区域候选网络,用于根据设定的初始锚框生成区域候选;然后结合区域候选和分辨率最大的前四种尺度的特征图生成两种不同分辨率的RoI特征图,并分别送入并行设置的边界框头部网络和关键点头部网络;
边界框头部网络,用于根据输入的RoI特征图进行手部目标分类和边界框回归,输出精确的手部边界框;
关键点头部网络,用于对输入的RoI特征图进行手部目标关键点检测,最终输出手部21个关键点;
C:利用手部姿态数据集中的训练集对构建的Mask R-CNN深度神经网络模型进行训练,获得手部姿态视频中受试者的手部21个关键点组成的关键点序列;
D:对步骤C中得到的关键点序列进行运动特征提取,得到对应的运动特征;
E:依据步骤D中得到的运动特征,获得表征手部姿态视频中受试者的周期性动作变化的波峰序列和波谷序列;
F:基于步骤E中得到的波峰序列和波谷序列,对五种运动迟缓参数进行量化,五种运动迟缓参数分别为慢速、低振、幅度衰减、迟疑和停顿。
所述的步骤A包括以下具体步骤:
A1:使用视频采集装置,采集受试者执行指定动作的手部姿态视频;指定动作是指受试者按照MDS-UPDRS评定量表中要求,左右手分别执行手指敲击、手运动和手旋前-旋后运动三类手部运动迟缓检查项目;
A2:将手部姿态视频中所有的图像帧随机打乱,均匀采样N张图像帧构建手部姿态数据集;然后将手部姿态数据集按比例随机划分为训练集、验证集和测试集,最后对手部边界框和21个关键点进行人工标注。
所述的步骤B中,特征提取网络采用ResNet-50-FPN网络,对原始图像进行特征提取并结合特征金字塔结构对不同尺度特征进行融合,生成P2、P3、P4、P5和P6五种不同尺度的特征图,送入区域候选网络。
所述的步骤B中,区域候选网络对P2、P3、P4、P5和P6五种特征图中所有网格点设置三种宽高比例不同的初始锚框,采用RPN网络对初始锚框进行边界框回归以及二值分类,获得区域候选;然后结合区域候选和分辨率最大的P2、P3、P4、P5四种特征图进行RoIAlign操作,生成两种不同分辨率的RoI特征图,分别送入并行设置的边界框头部网络和关键点头部网络。
所述的步骤B中,边界框头部网络从左到右分别为第一卷积层和第一全连接层,边界框头部网络依据区域候选网络输出的RoI特征图,生成边界框回归偏移量和手部分类softmax分数;然后根据边界框回归偏移量和分类softmax分数生成精确的手部边界框。
所述的步骤B中,关键点头部网络包含特征提取子网络、分布期望解码子网络和分布方差解码子网络;
特征提取子网络用于对区域候选网络输出的RoI特征图进行特征提取,特征提取子网络首先通过第二卷积层将ROI特征图映射为特征图f1,然后通过第三卷积层对特征图f1进行进一步的特征提取并映射为特征图f2;
分布期望解码子网络用于解码控制关键点底层分布位置的期望分布期望解码子网络首先通过第四卷积层对特征图f2进行通道数改变并映射为特征图f3;分布期望解码子网络再对特征图f3使用2倍双线性上采样模块进行上采样,输出概率图π;最后,分布期望解码子网络对概率图π采用Soft-Argmax操作,基于以下定义解码分布期望/>即手部21个关键点坐标:
其中,πyi表示预测目标出现在yi的概率,yi表示概率图π的离散网格位置;
分布方差解码子网络用于解码控制关键点底层分布尺度的方差分布方差解码子网络首先对特征图f2采用全局平均池化操作并生成一维向量v1,然后将一维向量v1作为第二全连接层的输入,再经过Sigmoid激活函数最终生成的偏差/>
所述的步骤D中,运动特征的提取方法如下:
1)手指敲击的运动特征提取方式为:计算食指尖端与拇指尖端之间的欧式距离sf.t.(t);
2)手运动的运动特征提取方式为:计算五个手指指尖和手掌关键点之间的欧氏距离的平均值sh.m.(t);
其中,pi=4,8,12,16,20(t)分别表示五个手指指尖关键点坐标,p0(t)表示手掌关键点坐标;
3)手旋前-旋后运动的运动特征提取方式为:计算小指到拇指关键点的水平偏移量sp.s.(t);
sp.s.(t)=median{x1(t),x2(t)x3(t),x4(t)}
-median{x17(t),x18(t)x19(t),x20(t)};
其中,x1,2,3,4(t)分别表示拇指上四个关键点横坐标,x17,18,19,20(t)分别表示小指上四个关键点横坐标,median表示取序列中值。
所述的步骤E包括以下具体步骤:
E1:首先对步骤D中得到的运动特征进行归一化处理;
其中,scale为尺度因子;
针对得到的sft.norm.(t)应用Savitzky-Golay滤波时,窗口宽度为11,拟合阶数为2;
针对得到的shm.norm.(t)应用Savitzky-Golay滤波时,窗口宽度为15,拟合阶数为2;
针对得到的sps.norm.(t)应用Savitzky-Golay滤波时,窗口宽度为13,拟合阶数为2;
所述的步骤F包括以下具体步骤:
F2:根据得到的频率ri和振幅ai,分别定义五种运动迟缓参数的量化为:
本发明具有以下有益效果:
1)本发明构建了特定领域的手部姿态数据集,数据集侧重应对受试者执行MDS-UPDRS相关项目的临床检查视频中,手部姿态具有的独特挑战,如临床定义的手势、视频拍摄的视角(手部尽可能处于中央位置)、特殊的自遮挡和透视效果(受试者在做出特定动作时,手部姿态出现的自遮挡和透视效果);
2)构建Mask R-CNN模型实现端到端的手部姿态估计,并重新设计关键点头部网络结构,引入Soft-Argmax和RLE Loss方法提升关键点回归精度;
3)通过分析PD临床视频手部关键点的运动时序,量化了五种典型的运动迟缓特征参数,这些参数综合了MDS-UPDRS评分中描述的临床症状,能够为临床医生提供更客观、具体的关于PD患者运动迟缓的解释。
附图说明
图1为本发明的流程示意图。
具体实施方式
以下结合附图和实施例对本发明作以详细的描述:
如图1所示,本发明所述的一种基于手部姿态视频的帕金森运动迟缓量化分析方法,包括以下步骤:
A:构建用于PD临床视频手部姿态估计的手部姿态数据集;
所述的步骤A包括以下具体步骤:
A1:使用视频采集装置,采集受试者执行指定动作的手部姿态视频;指定动作是指受试者按照MDS-UPDRS评定量表中要求,左右手分别执行手指敲击、手运动和手旋前-旋后运动三类手部运动迟缓检查项目;
其中,受试者为PD患者。执行手部敲击动作时,受试者以最大的幅度和最快的速度用食指拍打拇指10次;执行手运动(握拳实验)动作时,受试者曲肘紧握拳,充分打开手掌,并以最快的速度反复伸掌握拳10次;执行手旋前-旋后运动(轮替实验)动作时,受试者将手臂前伸、手掌朝下,并以最快的速度和最大的幅度交替上下翻转手掌10次;上述动作要求为现有MDS-UPDRS评定量表中要求,在此不再赘述。
本实施例中,视频采集装置可采用智能手机,视频采集装置的拍摄分辨率不小于640×480,帧率为30/fps。视频采集时要求手部姿态视频画面中仅包含受试者执行动作的一只手部实例,且尽可能处于中央位置;
A2:使用Python的random.shuffle函数,将手部姿态视频中所有的图像帧随机打乱,均匀采样N张图像帧构建手部姿态数据集;然后将手部姿态数据集按照6:2:2的比例随机划分为训练集(PH-train)、验证集(PH-val)和测试集(PH-test),最后使用开源关键点标注工具coco-annotator对手部边界框和21个关键点进行人工标注。
本实施例中,N的取值可为1906。手部边界框为紧密包围手部位置的矩形框,由矩形左上角坐标(x1,y1)与右下角坐标(x2,y2)确定;手部21个关键点为手部的21个骨骼关节点。手部边界框与21个关键点均为本领域常规技术,在此不再赘述。
B:构建Mask R-CNN深度神经网络模型,Mask R-CNN深度神经网络模型包含特征提取网络、区域候选网络、边界框头部网络和关键点头部网络;
特征提取网络,用于对输入的手部姿态数据集中的原始图像进行特征提取,并结合特征金字塔(FPN)结构对不同尺度特征进行融合,将融合后的五种不同尺度的特征图送入区域候选网络;
区域候选网络,用于对设定的初始锚框进行边界框回归和二值分类,生成区域候选;然后结合区域候选和分辨率最大的前四种尺度的特征图进行RoIAlign操作,生成两种不同分辨率的RoI(感兴趣区域)特征图并分别送入并行设置的边界框头部网络和关键点头部网络;
边界框头部网络,用于对输入的RoI特征图进行手部目标分类和进一步的边界框回归,最终输出精确的手部边界框;
关键点头部网络,用于对输入的RoI特征图进行手部目标关键点检测,最终输出手部21个关键点;
本发明中,Mask R-CNN深度神经网络基于Detectron2框架构建。
特征提取网络,采用ResNet-50-FPN网络,通过自上而下、自下而上和横向连接的方式对原始图像进行特征提取和多尺度特征融合,生成P2、P3、P4、P5和P6五种不同尺度的特征图,送入区域候选网络。
区域候选网络,对P2、P3、P4、P5和P6五种特征图中所有网格点设置三种宽高比例不同的初始锚框,采用RPN网络对初始锚框进行边界框回归以及二值(Positive和Negative)分类,获得区域候选;然后结合区域候选和P2、P3、P4、P5四种特征图(即五种特征图中分辨率最大的前四种特征图)进行RoIAlign操作,生成7×7和14×14两种分辨率的RoI特征图,分别送入并行设置的边界框头部网络和关键点头部网络。
边界框头部网络从左到右分别为堆叠的4个3×3×256×256大小的第一卷积层和2个1024×1024大小的第一全连接层,边界框头部网络依据区域候选网络输出的7×7分辨率的RoI特征图,生成维度为4k和2k的边界框回归偏移量和手部分类softmax分数,k为检测的边界框数目;然后根据边界框回归偏移量和分类softmax分数生成精确的手部边界框,
本发明中,在关键点头部网络中引入Soft-Argmax和RLE Loss方法,以提升关键点回归精度;关键点头部网络共包含特征提取子网络、分布期望解码子网络和分布方差解码子网络;
特征提取子网络用于对区域候选网络输出的RoI特征图进行特征提取,特征提取子网络首先通过3×3×256×512大小的第二卷积层将14×14×256大小的ROI特征图映射为14×14×512大小的特征图f1,然后通过堆叠8个3×3×512×512大小的第三卷积层对特征图f1进行进一步的特征提取,并映射为14×14×512大小的特征图f2;
分布期望解码子网络用于解码控制关键点底层分布位置的期望即关键点数值坐标;分布期望解码子网络首先通过1×1×512×21大小的第四卷积层将特征图f2映射为14×14×21大小的特征图f3,以将通道数改变为21,与手部关键点数量保持一致。为了生成高分辨率的特征图,分布期望解码子网络再对特征图f3使用2倍双线性上采样模块进行上采样,输出28×28×21大小的概率图π;最后,分布期望解码子网络对概率图π采用Soft-Argmax操作,基于以下定义解码分布期望/>即手部21个关键点坐标:
其中,πyi表示预测目标出现在yi的概率,yi表示概率图π的离散网格位置;
分布方差解码子网络用于解码控制关键点底层分布尺度的方差分布方差解码子网络首先对特征图f2采用全局平均池化(GAP)操作以实现降维,生成维度为512的一维向量v1,然后将一维向量v1作为维度为512×42第二全连接层的输入,再经过Sigmoid激活函数最终生成维度为42的偏差/>
从最大似然估计角度来说,关键点坐标回归常用的L1或L2损失函数是基于特定输出概率分布的假设,使输出分别服从拉普拉斯分布和高斯分布。然而,这种未参考的基础分布限制了回归的性能。因此,网络训练过程中,本发明基于分布期望解码子网络输出的期望和分布方差解码子网络输出的方差/>使用RLE Loss建模关键点底层分布,从而促进学习过程。RLE Loss的定义为:
步骤C中,Mask R-CNN模型基于Detectron2框架实现,骨干网络使用ResNet-50-FPN网络,并经过ImageNet预训练;采用随机梯度下降(SGD)优化器,初始学习率为1e-3,并分别在第10K和20K迭代降低10倍(共30K次迭代);权重衰减率、batch_size和momentum参数分别设为0.0001,16和0.9。
步骤D中,运动特征的提取方法如下:
1)手指敲击的运动特征提取方式为:计算食指尖端与拇指尖端之间的欧式距离sf.t.(t),
2)手运动的运动特征提取方式为:计算五个手指指尖和手掌关键点之间的欧氏距离的平均值sh.m.(t),
其中,pi=4,8,12,16,20(t)分别表示五个手指指尖关键点坐标,p0(t)表示手掌关键点坐标;
3)手旋前-旋后运动的运动特征提取方式为:计算小指到拇指关键点的水平偏移量sp.s.(t),
sp.s.(t)=median{x1(t),x2(t)x3(t),x4(t)}
-median{x17(t),x18(t)x19(t),x20(t)}(5)
其中,x1,2,3,4(t)分别表示拇指上四个关键点横坐标,x17,18,19,20(t)分别表示小指上四个关键点横坐标,median表示取序列中值;
E:对步骤D中得到的运动特征分别进行归一化、Savitzky-Golay平滑滤波以及AMPD峰值检测处理,获得表征手部姿态视频中受试者的周期性动作变化的波峰序列和波谷序列;
本发明中,步骤E包括以下具体步骤:
E1:由于在不同的手部姿态视频中,视频采集装置和受试者手部之间的距离不同会导致原始空间值不可避免地发生变化,因此,本发明中首先对步骤D中得到的运动特征进行归一化处理。
其中,scale为尺度因子。
E2:由于不可避免的预测小误差或者不连续的数据标注等原因,提取的运动特征容易出现轻微抖动(尖峰、锯齿等高频噪声),将会导致伪局部极值出现。因此,本发明中还分别对步骤E1中得到归一化后的三种运动特征应用Savitzky-Golay滤波,参数设置如下:
针对得到的sft.norm.(t)应用Savitzky-Golay滤波时,窗口宽度为11,拟合阶数为2;
针对得到的shm.norm.(t)应用Savitzky-Golay滤波时,窗口宽度为15,拟合阶数为2;
针对得到的sps.norm.(t)应用Savitzky-Golay滤波时,窗口宽度为13,拟合阶数为2;
E3:将步骤E2中得到的滤波后的三种运动特征视为准周期信号,采用基于多尺度的自动峰值检测(Automatic Multiscale-based Peak Detection,AMPD)算法进行峰值检测,分别得到对应的波峰序列/>和波谷序列/>
其中,p1表示第一个波峰,v1表示第一个波谷。
本发明中,步骤F包括以下具体步骤:
F2:根据得到的频率ri和振幅ai,分别定义五种运动迟缓参数的量化为:
Claims (10)
1.一种基于手部姿态视频的帕金森运动迟缓量化分析方法,其特征在于,包括以下步骤:
A:构建用于PD临床视频手部姿态估计的手部姿态数据集;
B:构建Mask R-CNN深度神经网络模型,Mask R-CNN深度神经网络模型包含特征提取网络、区域候选网络、边界框头部网络和关键点头部网络;
特征提取网络,用于对输入的手部姿态数据集中的原始图像进行特征提取,并对不同尺度特征进行融合,将融合后的五种不同尺度的特征图送入区域候选网络;
区域候选网络,用于根据设定的初始锚框生成区域候选;然后结合区域候选和分辨率最大的前四种尺度的特征图生成两种不同分辨率的RoI特征图,并分别送入并行设置的边界框头部网络和关键点头部网络;
边界框头部网络,用于根据输入的RoI特征图进行手部目标分类和边界框回归,输出精确的手部边界框;
关键点头部网络,用于对输入的RoI特征图进行手部目标关键点检测,最终输出手部21个关键点;
C:利用手部姿态数据集中的训练集对构建的Mask R-CNN深度神经网络模型进行训练,获得手部姿态视频中受试者的手部21个关键点组成的关键点序列;
D:对步骤C中得到的关键点序列进行运动特征提取,得到对应的运动特征;
E:依据步骤D中得到的运动特征,获得表征手部姿态视频中受试者的周期性动作变化的波峰序列和波谷序列;
F:基于步骤E中得到的波峰序列和波谷序列,对五种运动迟缓参数进行量化,五种运动迟缓参数分别为慢速、低振、幅度衰减、迟疑和停顿。
2.根据权利要求1所述的基于手部姿态视频的帕金森运动迟缓量化分析方法,其特征在于,所述的步骤A包括以下具体步骤:
A1:使用视频采集装置,采集受试者执行指定动作的手部姿态视频;指定动作是指受试者按照MDS-UPDRS评定量表中要求,左右手分别执行手指敲击、手运动和手旋前-旋后运动三类手部运动迟缓检查项目;
A2:将手部姿态视频中所有的图像帧随机打乱,均匀采样N张图像帧构建手部姿态数据集;然后将手部姿态数据集按比例随机划分为训练集、验证集和测试集,最后对手部边界框和21个关键点进行人工标注。
3.根据权利要求1所述的基于手部姿态视频的帕金森运动迟缓量化分析方法,其特征在于:所述的步骤B中,特征提取网络采用ResNet-50-FPN网络,对原始图像进行特征提取并结合特征金字塔结构对不同尺度特征进行融合,生成P2、P3、P4、P5和P6五种不同尺度的特征图,送入区域候选网络。
4.根据权利要求3所述的基于手部姿态视频的帕金森运动迟缓量化分析方法,其特征在于:所述的步骤B中,区域候选网络对P2、P3、P4、P5和P6五种特征图中所有网格点设置三种宽高比例不同的初始锚框,采用RPN网络对初始锚框进行边界框回归以及二值分类,获得区域候选;然后结合区域候选和分辨率最大的P2、P3、P4、P5四种特征图进行RoIAlign操作,生成两种不同分辨率的RoI特征图,分别送入并行设置的边界框头部网络和关键点头部网络。
5.根据权利要求3所述的基于手部姿态视频的帕金森运动迟缓量化分析方法,其特征在于:所述的步骤B中,边界框头部网络从左到右分别为第一卷积层和第一全连接层,边界框头部网络依据区域候选网络输出的RoI特征图,生成边界框回归偏移量和手部分类softmax分数;然后根据边界框回归偏移量和分类softmax分数生成精确的手部边界框。
6.根据权利要求3所述的基于手部姿态视频的帕金森运动迟缓量化分析方法,其特征在于:所述的步骤B中,关键点头部网络包含特征提取子网络、分布期望解码子网络和分布方差解码子网络;
特征提取子网络用于对区域候选网络输出的RoI特征图进行特征提取,特征提取子网络首先通过第二卷积层将ROI特征图映射为特征图f1,然后通过第三卷积层对特征图f1进行进一步的特征提取并映射为特征图f2;
分布期望解码子网络用于解码控制关键点底层分布位置的期望分布期望解码子网络首先通过第四卷积层对特征图f2进行通道数改变并映射为特征图f3;分布期望解码子网络再对特征图f3使用2倍双线性上采样模块进行上采样,输出概率图π;最后,分布期望解码子网络对概率图π采用Soft-Argmax操作,基于以下定义解码分布期望/>即手部21个关键点坐标:
8.根据权利要求1所述的基于手部姿态视频的帕金森运动迟缓量化分析方法,其特征在于,所述的步骤D中,运动特征的提取方法如下:
1)手指敲击的运动特征提取方式为:计算食指尖端与拇指尖端之间的欧式距离sf.t.(t);
2)手运动的运动特征提取方式为:计算五个手指指尖和手掌关键点之间的欧氏距离的平均值sh.m.(t);
其中,pi=4,8,12,16,20(t)分别表示五个手指指尖关键点坐标,p0(t)表示手掌关键点坐标;
3)手旋前-旋后运动的运动特征提取方式为:计算小指到拇指关键点的水平偏移量sp.s.(t);
sp.s.(t)=median{x1(t),x2(t)x3(t),x4(t)}
-median{x17(t),x18(t)x19(t),x20(t)};
其中,x1,2,3,4(t)分别表示拇指上四个关键点横坐标,x17,18,19,20(t)分别表示小指上四个关键点横坐标,median表示取序列中值。
9.根据权利要求8所述的基于手部姿态视频的帕金森运动迟缓量化分析方法,其特征在于,所述的步骤E包括以下具体步骤:
E1:首先对步骤D中得到的运动特征进行归一化处理;
其中,scale为尺度因子;
针对得到的sft.norm.(t)应用Savitzky-Golay滤波时,窗口宽度为11,拟合阶数为2;
针对得到的shm.norm.(t)应用Savitzky-Golay滤波时,窗口宽度为15,拟合阶数为2;
针对得到的sps.norm.(t)应用Savitzky-Golay滤波时,窗口宽度为13,拟合阶数为2;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310059396.6A CN116189296A (zh) | 2023-01-13 | 2023-01-13 | 一种基于手部姿态视频的帕金森运动迟缓量化分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310059396.6A CN116189296A (zh) | 2023-01-13 | 2023-01-13 | 一种基于手部姿态视频的帕金森运动迟缓量化分析方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116189296A true CN116189296A (zh) | 2023-05-30 |
Family
ID=86439724
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310059396.6A Pending CN116189296A (zh) | 2023-01-13 | 2023-01-13 | 一种基于手部姿态视频的帕金森运动迟缓量化分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116189296A (zh) |
-
2023
- 2023-01-13 CN CN202310059396.6A patent/CN116189296A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Lin et al. | Movement primitive segmentation for human motion modeling: A framework for analysis | |
US8824802B2 (en) | Method and system for gesture recognition | |
EP2400370B1 (en) | Information processing device and information processing method | |
US11281896B2 (en) | Physical activity quantification and monitoring | |
JP4860749B2 (ja) | 画像中の人物における位置決め指示との適合性を判定する機器、システム、及び方法 | |
Pang et al. | Automatic detection and quantification of hand movements toward development of an objective assessment of tremor and bradykinesia in Parkinson's disease | |
US11403882B2 (en) | Scoring metric for physical activity performance and tracking | |
TW201123031A (en) | Robot and method for recognizing human faces and gestures thereof | |
CN107832736B (zh) | 实时人体动作的识别方法和实时人体动作的识别装置 | |
CN111460976B (zh) | 一种数据驱动的基于rgb视频的实时手部动作评估方法 | |
Pintea et al. | Hand-tremor frequency estimation in videos | |
Monir et al. | Rotation and scale invariant posture recognition using Microsoft Kinect skeletal tracking feature | |
CN110991268A (zh) | 一种基于深度图像的帕金森手部运动量化分析方法和系统 | |
Adhikari et al. | A Novel Machine Learning-Based Hand Gesture Recognition Using HCI on IoT Assisted Cloud Platform. | |
JP2003256850A (ja) | 動き認識装置および画像処理装置並びにプログラム | |
CN116189296A (zh) | 一种基于手部姿态视频的帕金森运动迟缓量化分析方法 | |
KR101413853B1 (ko) | 적외선 영상을 이용한 생체 신호 측정 방법 및 장치 | |
CN106446837B (zh) | 一种基于运动历史图像的挥手检测方法 | |
Shitole et al. | Dynamic hand gesture recognition using PCA, Pruning and ANN | |
Liu et al. | A framework for webcam-based hand rehabilitation exercises | |
Leng et al. | Fine-grained Human Activity Recognition Using Virtual On-body Acceleration Data | |
Rane et al. | Virtual Personal Trainer using Microsoft Kinect and Machine Learning | |
Qiu et al. | Machine Learning based Movement Analysis and Correction for Table Tennis | |
Varia et al. | A refined 3d dataset for the analysis of player actions in exertion games | |
Alves et al. | Vision-based segmentation of continuous mechanomyographic grasping sequences |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |