CN114783065A

CN114783065A - 基于人体姿态估计的帕金森症预警方法

Info

Publication number: CN114783065A
Application number: CN202210514364.6A
Authority: CN
Inventors: 秦静; 陈雨龙; 汪祖民; 刘燕; 韩悦; 季长清
Original assignee: Dalian University
Current assignee: Dalian University
Priority date: 2022-05-12
Filing date: 2022-05-12
Publication date: 2022-07-22
Anticipated expiration: 2042-05-12
Also published as: CN114783065B

Abstract

本发明公开了一种基于人体姿态估计的帕金森症预警方法，包括：将监控视频分割为图片，所述图片输入特征提取网络ResNet‑50‑FPN后得到特征图一，使用区域生成网络RPN获取多个目标建议框；通过区域特征聚集方式RoIAlign对所述目标建议框进行区域池化，在每个感兴趣区域RoI中提取到小的特征图记为感兴趣区域特征图；将所述感兴趣区域特征图输入到改进的Mask R‑CNN网络得到特征图三，所述特征图三先用反卷积进行分辨率复原，再进行两倍的线性插值上采样，获取骨骼关节点图；所述骨骼关节点图输入到门控循环单元模型GRU中。本发明通过Mask R‑CNN+GRU模型预测人体姿态，提高了帕金森症估计的精准度；并在预测过程加入了时间的维度，保证了预测可靠性。

Description

基于人体姿态估计的帕金森症预警方法

技术领域

本发明涉及帕金森症预警技术领域，具体涉及基于人体姿态估计的帕金森症预警方法。

背景技术

帕金森病(Parkinson’s disease,PD)是一种常发生在中老年人身上的神经系统退行性疾病，其临床显著特征表现为震颤、动作迟缓、姿势平衡障碍的运动症状和睡眠障碍、嗅觉障碍的非运动症状。特别是走路时表现为前冲的步态,患者身体前倾、出现小碎步、越走越快,有时无法控制,容易跌倒从而导致外伤。到2030年，我国预计有500万人患有帕金森病症。随着疾病的发展，帕金森病不仅会影响患者本身的日常活动，还会带来庞大的社会和医疗负担。因此，能够及时发现帕金森患者对社会的发展具有重大意义。

现有帕金森症预测方法是观察被检测人的日常行为进行分析，主要包括：平衡测试，睡眠测试，穿衣能力测试等。此类方法需要大量医护人员的协助，居家时很难做到，并且存在准确性较差问题。因此做到及时、迅速、准确地发现帕金森的症状变得极其重要。

发明内容

本发明的目的在于，提出一种基于人体姿态估计的帕金森症预警方法，其提出Mask R-CNN+GRU模型，用于预测人体姿态，提高了帕金森症估计的精准度。

为实现上述目的，本申请提出基于人体姿态估计的帕金森症预警方法，包括：

将监控视频分割为图片，所述图片输入特征提取网络ResNet-50-FPN后得到特征图一，使用区域生成网络RPN获取多个目标建议框；

通过区域特征聚集方式RoIAlign对所述目标建议框进行区域池化，在每个感兴趣区域RoI中提取到小的特征图记为感兴趣区域特征图；

将所述感兴趣区域特征图输入到改进的Mask R-CNN网络，所述Mask R-CNN网络中卷积层进行特征提取操作得到特征图二，再利用基于注意力残差模块和数据旁路的支路一、基于混合空洞卷积全连接神经网络FCN的支路二分别进行深度特征提取；所述支路一与支路二提取的结果叠加后生成特征图三，所述特征图三先用反卷积进行分辨率复原，再进行两倍的线性插值上采样，获取骨骼关节点图；

所述骨骼关节点图输入到门控循环单元模型GRU中，该模型首先获取更新门z_t，再获取重置门r_t，其次是获取候选隐藏层

通过重置门r_t控制需要从前一时刻的隐藏层h_t-1中遗忘多少信息,通过更新门z_t控制需要加入多少当前时刻的隐藏层

信息，最后得到模型输出的分类概率分数h_t。

进一步的，所述特征提取网络ResNet-50-FPN包括残差卷积网络ResNet和特征金字塔网络FPN，所述残差卷积网络ResNet的卷积层为50层；图片先输入到ResNet-50网络中，所述ResNet-50网络的输出结果送到FPN网络中，由FPN网络输出特征图一。

进一步的，所述区域特征聚集方式RoIAlign，具体是将所述目标建议框平均划分为四份，然后在这四份里面均匀的设计四个或九个采样点；RoIAlign通过双线性插值从目标建议框上相邻网格点得到每个采样点的值。

进一步的，改进的Mask R-CNN网络包括五个相同的卷积层，每个卷积层设置64个1×1、步长为1的卷积核；该网络中支路一的输入处设有两个相同的注意力残差模块，其配合数据旁路连通网路中的前后层，将两个注意力残差模块进行连接和像素级的叠加，然后经过卷积层降低维度，输入至全连接层进行形状重塑得到与支路二尺寸一致的卷积层；所述支路二为三个空间卷积率不同的空洞卷积层一、空洞卷积层二及空洞卷积层三；将两个支路叠加后，对特征图三先用反卷积进行分辨率复原再进行两倍的线性插值上采样，输出最终的骨骼关节点信息，然后再与帕金森症患者的经典发病姿态进行对比，如果相似度大于0.5则启动计时器，若下一张特征图的相似度还是大于0.5则继续计时，若小于0.5则停止计时。

进一步的，所述注意力残差模块的输入为：

V∈R^H×W×C

其中R^H×W×C为特征图二，H是图片高，W是图片宽，C是图片的通道；经过降维卷积层、空洞卷积层、升维卷积层后，学习到的权重为：

V'∈R^H×W×C

设学习的残差映射为b∈R^1×1×C/r，所述注意力残差模块的输出为

则有：

其中C为输入的维度，r为降维的倍数，*表示空间上下文中的按元素相乘。

更进一步的，支路二中的空洞卷积有一个空洞卷积率，记作d，表示在卷积核中填充d-1个0；所述空洞卷积的卷积核大小为：

n＝k+(k-1)*(d-1)

其中n为等效卷积核的尺寸，k代表实际卷积核尺寸；

更进一步的，所述特征图三宽度获取方式为：

其中W为新的宽度，w为初始的宽度，p为填充的个数，s为步长。

更进一步的，所述更新门z_t获取方式为：

z_t＝σ(sum[W_z·y_t-1，W_z·x_t])+b_f

其中，W_z是更新门的权重矩阵，y_t-1表示上一时刻GRU网络输出值，b_f是更新门的偏置项，σ是sigmoid函数，x_t表示图像数据样本在t时刻的数据；

所述重置门r_t获取方式为：

r_t＝σ(sum[[W_r·y_t-1，W_r·x_r]])+b_r

其中，W_r是重置门的权重矩阵，y_t-1表示上一时刻GRU网络输出值，b_r是重置门的偏置项，σ是sigmoid函数；

所述候选隐藏层

获取方式为：

其中，

是候选隐藏层

的权重矩阵，

是候选隐藏层

的偏置项；

所述分类概率分数h_t获取方式为：

更进一步的，将人体骨骼关节点和内在时间相关性的特性分别送入到下式函数中，所得结果进行加权求和：

其中，

为图像的相似度，k为计时器从开始到结束之间截取的图像个数；σ是sigmoid函数；

为GRU输出的h_t值；l为GRU输出的h_t个数，Δt等于计时器的结束时间减去开始时间；c为最终的预测分数，若大于0.5则发出预警，若小于0.5则不发出预警。

本发明采用的以上技术方案，与现有技术相比，具有的优点是：本发明采用改进后的Mask R-CNN进行特征提取，增强了有用特征，能更精准的预测出人体骨骼关节点。通过Mask R-CNN+GRU模型预测人体姿态，提高了帕金森症估计的精准度；并在预测过程加入了时间的维度，保证了预测可靠性。通过一种全新的帕金森症预警方式，大大减少了医护人员的负担。

附图说明

图1为获取感兴趣区域特征图的流程图；

图2为改进的Mask R-CNN模型实现过程图；

图3为注意力残差卷积模块实现过程图；

图4为GRU模型实现过程图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请，即所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。

实施例1

本实施例提供一种基于人体姿态估计的帕金森症预警方法，具体包括：

首先通过居家、养老院环境中的高空间分辨率摄影头对测试者的日常行为进行实时拍摄；将拍摄到的视频数据进行图像采样，采样频率为0.1秒，即每隔0.1秒从视频中截取一张图像。引入改进的Mask R-CNN网络来代替传统的Mask R-CNN网络，改进的Mask R-CNN可以解决由人体运动不确定性造成的17个人体骨骼关节点重叠从而导致的错误预测问题，并且改进后的Mask R-CNN网络具有较强的特征提取能力，能极大提高对于17个人体骨骼关节点的预测能力。具体的17个人体骨骼关节点为鼻子、左眼、右眼、左耳、右耳、左肩、右肩、左肘、右肘、左手腕、右手腕、左臀部、右臀部、左膝、右膝、左脚踝、右脚踝。该17个人体骨骼关键点能准确的描绘出当前人体姿态。得到当前的人体姿态后先进行静态预测，如与帕金森患者姿态相似度大于0.5则启动计时器，0.1秒后得到下一张图像继续进行静态预测，如果当前姿态与帕金森患者姿态相似度还大于0.5则继续计时，若小于0.5则停止计时。然后将描绘出的人体姿态送入GRU中进行内在时间相关性分析，若测试者当前的动作姿态被判定存在患有帕金森的风险，则对外界发出警报。

具体的，如图1所示，首先生成图像的感兴趣区域特征图：将截取到的图片送入到特征提取网络ResNet-50-FPN中，所述特征提取网络包括残差卷积网络ResNet和特征金字塔网络FPN，ResNet网络分为5个阶段Stage，其中Stage 0的结构比较简单，可以视其为对输入input图片的预处理，后4个Stage都由模块Block组成，结构较为相似。在Stage 0中，包含64个7×7大小的卷积核，并且该卷积核的步长为2，卷积完成之后进入BN层、再经过非线性激活函数ReLU进行非线性缩放，最终进入最大池化层Maxpool，其卷积核大小为3×3、步长为2。在Stage 1中，包含3个相同的block，每个block由三个卷积层组成，其中第一层用64个1×1，步长为1的卷积核，卷积完成之后进入BN层、再经过ReLU激活函数进行非线性缩放；第二层用64个3×3，步长为1的卷积核，卷积完成之后进入BN层、再经过ReLU激活函数进行非线性缩放；第三层用256个1×1，步长为1的卷积核，卷积完成之后进入BN层；从BN输出后，与原始输入图片进行相加合并后送入ReLU激活函数进行非线性缩放。在Stage 2中，包含4个相同的block，每个block由三个卷积层组成，其中第一层用128个1×1，步长为1的卷积核，卷积完成之后进入BN层、再经过ReLU激活函数进行非线性缩放；第二层用128个3×3，步长为1的卷积核，卷积完成之后进入BN层、再经过ReLU激活函数进行非线性缩放；第三层用512个1×1，步长为1的卷积核，卷积完成之后进入BN层；从BN输出后，与原始输入图片进行相加合并后送入ReLU激活函数进行非线性缩放。在Stage 3中，包含4个相同的block，每个block由三个卷积层组成，其中第一层用256个1×1，步长为1的卷积核，卷积完成之后进入BN层、再经过ReLU激活函数进行非线性缩放；第二层用256个3×3，步长为1的卷积核，卷积完成之后进入BN层、再经过ReLU激活函数进行非线性缩放；第三层用1024个1×1，步长为1的卷积核，卷积完成之后进入BN层；从BN输出后，与原始输入图片进行相加合并后送入ReLU激活函数进行非线性缩放。在Stage 4中，包含4个相同的block，每个block由三个卷积层组成，其中第一层用512个1×1，步长为1的卷积核，卷积完成之后进入BN层、再经过ReLU激活函数进行非线性缩放；第二层用512个3×3，步长为1的卷积核，卷积完成之后进入BN层、再经过ReLU激活函数进行非线性缩放；第三层用2048个1×1，步长为1的卷积核，卷积完成之后进入BN层；从BN输出后，与原始输入图片进行相加合并后送入ReLU激活函数进行非线性缩放，输出的图片送入到特征金字塔网络FPN中进行进一步特征提取，FPN网络包含两个部分：第一部分是自底向上的过程，第二部分是自顶向下和侧向连接的融合过程。其中自底向上的过程与普通CNN没有区别，自顶向下的过程就是上采样过程，将顶层的小特征图进行放大，为了方便与卷积得到的特征图相加；然后使用区域生成网络RPN获取多个目标建议框；

通过区域特征聚集方式RoIAlign对所述目标建议框进行区域池化，在每个感兴趣区域RoI中提取到的特征图记为感兴趣区域特征图；

得到感兴趣区域特征图之后将送入到改进的Mask R-CNN中进行人体骨骼关键点识别，如图2所示。首先卷积层是指五个相同的卷积层，每个卷积层设置64个1×1、步长为1的卷积核。得到特征图二后，开始进行两个支路的延伸，支路一的输入处设有两个一样的注意力残差模块，配合数据旁路连通网路中的前后层，将两个注意力残差模块进行连接和像素级的叠加，使用级联方式，使得网络中每一层都接受来自前几层的特征映射。然后，经过卷积层降低维度，输入至全连接层后进行形状重塑得到与支路二尺寸一致的卷积层。而支路二为三个空间卷积率不同的空洞卷积层一、空洞卷积层二及空洞卷积层三；将两个支路叠加后，对特征图三先用反卷积进行分辨率复原再进行两倍的线性插值上采样，输出最终的骨骼关节点信息，然后再与帕金森症患者的经典发病姿态进行对比，如果相似度大于0.5则启动计时器，若下一张图像的相似度还是大于0.5则继续计时，若小于0.5则停止计时。

如图3所示，为了增加感受野，在空间和通道的背景下自适应地突出特征映射的信息，故设计了注意力残差模块，设注意力残差模块的输入为：

V∈R^H×W×C

经过降维卷积层、空洞卷积层、升维卷积层后，学习到的权重为：

V'∈R^H×W×C

则有：

具体的，之路二中的空洞卷积是为了扩大感受野并且避免产生多余的参数引入。空洞卷积有一个空洞卷积率，记作d，表示在卷积核中填充(d-1)个0，故可以根据需要设计d的取值。进一步的，记输入特征尺寸为H×W×C，卷积核大小为f×f×C，则空洞卷积的卷积核大小为：

n＝k+(k-1)*(d-1)

其中n为等效卷积核的尺寸，k代表实际卷积核尺寸。

特征图三的宽度获取方式为：

具体的，将改进的Mask R-CNN输出人体骨骼关节点后输入到GRU网络中，如图4所示，GRU网络具有良好动态学习时间序列数据内在时间相关性的自回归网络架构特性，使其在学习长序列图像数据的时序依赖关系方面有着优良的性能。具体为：

将所述骨骼关节点图输入到GRU模型中首先得到GRU模型的更新门z_t：

z_t＝σ(sum[W_z·y_t-1，W_z·x_t])+b_f

更新门帮助模型决定到底要将多少过去的信息传递到未来，其中，W_z是更新门的权重矩阵，y_t-1表示上一时刻GRU网络的输出值，b_f是更新门的偏置项，σ是sigmoid函数，x_t表示图像数据样本在t时刻的数据；

再获取重置门r_t：

r_t＝σ(sum[[W_r·y_t-1，W_r·x_r]])+b_r

重置门主要决定了到底有多少过去的信息需要遗忘，其中，W_r是重置门的权重矩阵，y_t-1表示上一时刻GRU网络的输出值，b_r是重置门的偏置项，σ是sigmoid函数；

其次是获取候选隐藏层

候选隐藏层

是当前时刻的新信息,候选隐藏层与前两个门的最大不同就是采用了tanh作为激活函数。这是因为tanh的输出值在(-1，1)之间，使用tanh作为激活函数方便GRU控制加入多少当前时刻的隐藏层信息。

最后通过重置门r_t控制需要从前一时刻的隐藏层h_t-1中遗忘多少信息,通过更新门z_t控制需要加入多少当前时刻的隐藏层

信息，得到模型输出的分类概率分数h_t：

将人体骨骼关节点和内在时间相关性的特性分别送入到下式函数中，所得结果进行加权求和：

其中，

本发明提出改进的Mask R-CNN+GRU模型能够最大化的提取人体姿态时序信息，Mask R-CNN能够在测试者任意活动下(即使遮挡某处骨骼关节点)保持良好的性能，确切的预测出人体姿态；GRU在学习长序列数据的时序依赖关系方面有着优良的性能，综合两种网络结构，可以训练一个泛化能力强的帕金森病辅助预警模型，很好的识别出潜在的帕金森症患者，实现了对潜在患者的24小时监督，减少了医护人员对潜在患者做各种测试的必要性，大大减少了医护人员的负担。

前述对本发明的具体示例性实施方案的描述是为了说明和例证的目的。这些描述并非想将本发明限定为所公开的精确形式，并且很显然，根据上述教导，可以进行很多改变和变化。对示例性实施例进行选择和描述的目的在于解释本发明的特定原理及其实际应用，从而使得本领域的技术人员能够实现并利用本发明的各种不同的示例性实施方案以及各种不同的选择和改变。本发明的范围意在由权利要求书及其等同形式所限定。

Claims

1.基于人体姿态估计的帕金森症预警方法，其特征在于，包括：

信息，最后得到模型输出的分类概率分数h_t。

2.根据权利要求1所述基于人体姿态估计的帕金森症预警方法，其特征在于，所述特征提取网络ResNet-50-FPN包括残差卷积网络ResNet和特征金字塔网络FPN，所述残差卷积网络ResNet的卷积层为50层；图片先输入到ResNet-50网络中，所述ResNet-50网络的输出结果送到FPN网络中，由FPN网络输出特征图一。

3.根据权利要求1所述基于人体姿态估计的帕金森症预警方法，其特征在于，所述区域特征聚集方式RoIAlign，具体是将所述目标建议框平均划分为四份，然后在这四份里面均匀的设计四个或九个采样点；RoIAlign通过双线性插值从目标建议框上相邻网格点得到每个采样点的值。

4.根据权利要求1所述基于人体姿态估计的帕金森症预警方法，其特征在于，改进的Mask R-CNN网络包括五个相同的卷积层，每个卷积层设置64个1×1、步长为1的卷积核；该网络中支路一的输入处设有两个相同的注意力残差模块，其配合数据旁路连通网路中的前后层，将两个注意力残差模块进行连接和像素级的叠加，然后经过卷积层降低维度，输入至全连接层进行形状重塑得到与支路二尺寸一致的卷积层；所述支路二为三个空间卷积率不同的空洞卷积层一、空洞卷积层二及空洞卷积层三；将两个支路叠加后，对特征图三先用反卷积进行分辨率复原再进行两倍的线性插值上采样，输出最终的骨骼关节点信息，然后再与帕金森症患者的经典发病姿态进行对比，如果相似度大于0.5则启动计时器，若下一张特征图的相似度还是大于0.5则继续计时，若小于0.5则停止计时。

5.根据权利要求1或4所述基于人体姿态估计的帕金森症预警方法，其特征在于，所述注意力残差模块的输入为：

V∈R^H×W×C

V'∈R^H×W×C