CN111783612A

CN111783612A - 一种基于视频流的帕金森非接触式智能检测方法及系统

Info

Publication number: CN111783612A
Application number: CN202010597179.9A
Authority: CN
Inventors: 邹娟; 曾碧霄; 汤达夫; 向懿; 陈钢; 王求真; 郭建强
Original assignee: Xiangtan University
Current assignee: Institute of Computing Technology of CAS; Xiangtan University
Priority date: 2020-06-28
Filing date: 2020-06-28
Publication date: 2020-10-16

Abstract

本发明涉及一种基于视频流的帕金森非接触式智能检测方法及系统。该方法包括：收集帕金森患者和非帕金森病患者的相关视频数据；构建视频预处理模型；构建视频通道模型；根据收集的处理过的视频数据和所建立的视频通道模型，确定视频特征向量；构建网络模型；根据所得视频特征向量和所建网络模型，得到标签向量；根据得到的标签向量，确定帕金森患者。本发明能够降低了检测成本与操作难度，提高交互性与检测效率。

Description

一种基于视频流的帕金森非接触式智能检测方法及系统

技术领域

本发明涉及帕金森非接触式智能检测邻域，特别是一种基于视频流的帕金森非接触式智能检测方法及系统。

背景技术

帕金森病又名震颤麻痹，是一种常见的神经系统变性疾病，主要影响人的运动系统，老年人多见，主要病变在黑质和纹状体。震颤、肌强直及运动减少是本病的主要临床特征。随着病情的加重，僵硬感将会在脸部肌肉运动时表现得更加明显，所以“面具脸”为临床判断是否患帕金森病的重要指标。

到目前为止，帕金森病虽然没有一套完全彻底的整治方案，但如果患者在早期就被诊断发现，那便可以提前进行治疗和提前采取一些措施以防止一些意外的发生现。帕金森病的检测方法有很多，例如脑CT、MRI检测、可穿戴式的传感设备等，但它们都需要大量人工或高科技物理设备的参与，这类方式加大了检测成本和限制了受测试者的活动范围，具有一定的局限性。随着移动设备的普及，拍摄视频已是一件非常简单方便的事，因此，本发明通过拍摄脸部动作的视频就能进行帕金森的检测，降低了检测成本与操作难度，弥补了现有方案的不足。

发明内容

本发明的目的是提供一种基于视频流的帕金森非接触式智能检测方法及系统，能够对患者脸部的脸部动作特征进行分析训练，使帕金森病患者的诊断更加准确方便。

为实现上述目的，本发明提供了如下方案：

一种基于视频流的帕金森非接触式智能检测方法，包括以下步骤：

收集帕金森患者和非帕金森病患者的相关视频数据；

构建视频预处理模型；

构建视频通道模型；

根据处理过的视频数据和所建立的视频通道模型，确定视频特征向量

构建网络模型；

根据所得视频特征向量和所建网络模型，得到标签向量；

根据得到的标签向量，确定帕金森患者。

可选的，所述构建视频预处理模型，具体包括：

应用MTCNN的人脸识别多任务级联网络框架，得到人脸特征信息的帧序列特征矩阵。

可选的，所述构建视频通道模型，具体包括：

构建3D核卷积网络的视频通道模型，所述视频通道模型包括第一视频深度卷积阶段、第二视频深度卷积阶段和视频全连接阶段，所述第一视频深度卷积阶段包括第一视频卷积层、第二视频卷积层和第一视频池化层，所述第二视频深度卷积阶段包括第三视频卷积层、第四视频卷积层和第二视频池化层，所述视频全连接阶段包括视频输入层、视频隐藏层和视频输出层。

可选的，所述根据所述处理过的视频数据集和所述视频通道模型，确定视频特征向量，具体包括：

将所述第一视频卷积层、所述第二视频卷积层、所述第三视频卷积层和所述第四视频卷积层中卷积核的个数分别设置为32、32、64和64，卷积核的大小均设置为3×3×3，步长均设置为1，边界零填充均设置为1，对各卷积层的输出都进行归一化处理；

将所述第一视频池化层和所述第二视频池化层均采用最大池化的方式，池化区域核的大小均设置为2×2×3，步长均设置为2；

将所述第一视频深度卷积阶段和所述视频第二深度卷积阶段的输出特征矩阵扁平化处理为1维特征向量。

可选的，所述构建网络模型，具体包括：

构建输入特征向量的全连接网络模型，所述全连接阶段包括输入层、第一隐藏层、第二隐藏层和输出层。

可选的，根据所述视频特征向量和所述网络模型，得到标签向量，具体包括：

将视频特征向量作为所述网络模型全连接阶段的输入向量，得到2维标签向量。

一种基于视频流的帕金森非接触式智能检测系统，包括以下步骤：

视频数据获取模块，用于收集帕金森患者和非帕金森病患者的相关视频数据；

视频预处理模块，用于提取人脸特征信息的帧序列特征矩阵。

视频通道模型构建模块，用于构建视频通道模型；

视频特征向量确定模块，用于根据所述处理过的视频数据集和所述视频通道模型，确定视频特征向量；

网络模型构建模块，用于构建网络模型；

标签向量确定模块，用于根据所述视频特征向量和所述网络模型，得到标签向量；

帕金森患者确定模块，用于根据所述标签向量，确定帕金森患者。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明基于视频流，仅需摄像头拍摄患者脸部视频就能进行有效检查，减少了人工的工作量，降低了成本，检测方式简单高效。与传统方法不同，本发明从视频中提取有效数据，降低算法的部署难度，具有可扩展性和可移植性的特点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明基于视频流的帕金森非接触式智能检测方法流程图；

图2是本发明基于视频流的帕金森非接触式智能检测系统结构图；

图3是本发明的视频通道模型图；

图4是本发明的网络模型图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的目的在于提供一种基于视频流的帕金森非接触式智能检测方法及系统，通过对脸部肌肉运动特征的分析，能够解决传统帕金森检测中需要复杂的物理设备，成本高，方法复杂和鲁棒性不强等问题。

为使本发明的上述目的、特征、优点能够更加明显易懂，下面结合附图和具体实施方式对本发明做进一步详细说明。

图1是本发明基于视频流的帕金森非接触式智能检测方法流程图。如图1所示，一种基于视频流的帕金森非接触式智能检测方法包括：

步骤101：获取帕金森患者和非帕金森患者的音视频数据集。

本发明构建了一个由2N个受试者组成的通过临床验证的数据集，其中帕金森患者与非患者比例为1：1。该数据集包含2N条纯人脸视频，将这样的数据以及二分类标签作为整个模型的初始输入数据。

步骤102：构建视频预处理模型，具体包括：

应用了MTCNN的人脸识别多任务级联网络框架，得到大小为32×32包含人脸特征信息的帧序列特征矩阵。

步骤103：构建视频通道模型，具体包括：

步骤104：根据所述处理过的视频数据集和所述视频通道模型，确定视频特征向量，具体包括：

将所述第一视频卷积层、所述第二视频卷积层、所述第三视频卷积层和所述第四视频卷积层中卷积核的个数分别设置为32、32、64和64，卷积核的大小均设置为3×3×3，步长均设置为1，边界零填充均设置为1，对各卷积层的输出都进行归一化处理。

将所述第一视频池化层和所述第二视频池化层均采用最大池化的方式，池化区域核的大小均设置为2×2×3，步长均设置为2。

步骤105：构建网络模型，具体包括：

步骤106：根据所述视频特征向量和所述网络模型，得到标签向量，具体包括：

将视频特征向量作为所述网络模型全连接阶段的输入向量，得到2维标签向量。全连接阶段以ReLu作为激活函数，使用Dropout方法减少过拟合现象，最后输出2维标签向量。

步骤107：根据所述标签向量，确定帕金森患者。

图2是本发明基于音视频的帕金森非接触式智能检测系统结构图。如图2所示，一种基于音视频的帕金森非接触式智能检测系统包括：

数据集获取模块201，用于获取帕金森患者和非帕金森患者的视频数据集；

视频预处理模块202，用于获取包含人脸特征信息的帧序列特征矩阵。

视频通道模型构建模块203，用于构建视频通道模型；

视频特征向量确定模块204，用于根据所述处理过的视频数据集和所述视频通道模型，确定视频特征向量；

网络模型构建模块205，用于构建网络模型；

标签向量确定模块206，用于根据所述视频特征向量和所述网络模型，得到标签向量；

帕金森患者确定模块207，用于根据所述标签向量，确定帕金森患者。

为了更为详尽的论述本发明，以下提供一个具体的实施例，具体步骤如下：

步骤一、数据集的构建：

本实施例构建了一个由200个受试者组成的通过临床验证的数据集，其中帕金森患者与非患者比例为1：1。该数据集包含200条纯人脸视频，将这样的数据以及二分类标签作为整个模型的初始输入数据。本实施例的工作主要是在youtube上搜索帕金森患者和非患者在自然表达场景下的相关视频，通过检索‘Parkinson facial OR vlog’筛选出含有‘Parkinson facial’或者‘Parkinson vlog’的条目，选择性跟踪含有大量帕金森节目的发布源，非患者片段则从亲属/治疗师描述患者病情的片段中截取。符合实验要求的节目有如下特点：1)人物面部清晰，完整；2)人物位置不过分偏离画面中心；3)含人物自然叙述片段。视频从youtube上挑选后，将经二次剪辑后的6.5秒视频片段交由医生团队进行临床标定，剔除争议的部分，最终保留100个帕金森患者视频与100个对照视频。

步骤二、视频预处理模型的构建：

为了从视频中提取人脸部分，本实施例应用了MTCNN的人脸识别多任务级联网络框架，该框架能够以从粗略到精细的方式预测面部和关键点位置，即使是在头部姿势多种多样的情况下也能保持鲁棒，得到大小为32×32包含人脸特征信息的帧序列特征矩阵。每一个样本的数据由通道数为200且大小为32×32的帧序列特征矩阵以及二分类标签向量Y组成，在二维标签向量Y中0表示非患者，1表示患者。

步骤三、视频通道模型的构建，如图3所示：

视频通道模型为3D核卷积网络，由2个深度卷积阶段和1个全连接阶段组成。先将通道数为200且大小为32×32的帧序列特征矩阵Vec_visual1做减去平均值再除以最大值的归一化处理(BatcNormalization)，然后通过第1个深度卷积阶段：第一卷积层(Conv3D_1)+第二卷积层(Conv3D_2)+第一池化层(MaxPool3D_1)，第一、第二卷积层的卷积核大小均设置为3×3×3，数量均设置为32，步长均设置为1，边界零填充(padding)均设置为1，池化层采用最大池化的方式，池化区域核大小为2×2×3，步长为2，输出通道数为32且大小为16×16的特征向量Vec_visual2。接着Vec_visual2通过第2个深度卷积阶段：第三卷积层(Conv3D_3)+第四卷积层(Conv4D_4)+第二池化层(MaxPool3D_2)，第三、第四卷积层的卷积核大小均设置为3×3×3，数量均设置为32，步长均设置为1，边界零填充(padding)均设置为1，第二池化层采用最大池化的方式，池化区域核大小为2×2×3，步长为2，输出通道数为64且大小为7×7的特征向量Vec_visual3，对每个卷积层的输出都进行减去平均值再除以最大值的归一化处理(BatcNormalization)，使其恢复原来输入时的分布。将Vec_visual3扁平化处理(Flatten)成大小为1×3136的特征向量Vec_visual4，作为全连接阶段的输入向量。全连接阶段的结构：输入层(Input Layer)+1层隐藏层(Hidden Layer)+输出层(Output Layer)，采用ReLU作为激活函数，使用Dropout方法随机使一定的神经元失活来减少过拟合现象，失活概率P＝0.3，最后输出大小为1×512的视频特征向量Vec_visual。

步骤四、网络模型的构建，如图4所示：

网络模型由视频特征输入阶段和全连接阶段组成。将视频通道输出的大小为1×512的视频特征向量Vec_visual作为网络模型的输入向量，全连接阶段的结构：输入层(InputLayer)+第一隐藏层(Hidden Layer_1)+第二隐藏层(Hidden Layer_2)+输出层(OutputLayer)，该阶段采用二分类交叉熵(Binary_Crossentropy)作为损失函数，输入层和第一隐藏层以及第一隐藏层和第二隐藏层之间采用ReLu作为激活函数，使用Dropout方法随机使一定的神经元失活来减少过拟合现象，失活概率p＝0.3，特征向量Vec_visual通过整个全连接阶段后得到大小为1×2的输出向量Vec_output，对Vec_output先做减去平均值再除以最大值的归一化处理(BatcNormalization)并且再用sigmoid函数进行处理Vec_target，根据二维向量Vec_target中两个值的大小确定是否为患者。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于视频流的帕金森非接触式智能检测方法，其特征在于，包括如下方法：

收集帕金森患者和非帕金森病患者的相关视频数据；

构建视频预处理模型；

构建视频通道模型；

根据收集的处理过的视频数据集和所建立的视频通道模型，确定视频特征向量；

构建网络模型；

根据所得视频特征向量和所建网络模型，得到标签向量；

根据得到的标签向量，确定帕金森患者。

2.根据权利要求1所述的基于视频流的帕金森非接触式智能检测方法，其特征在于，所述构建视频预处理模型，具体包括：

3.根据权利要求1所述的基于视频流的帕金森非接触式智能检测方法，其特征在于，所述构建音频通道模型，具体包括：

4.根据权利要求3所述的基于视频流的帕金森非接触式智能检测方法，其特征在于，根据所述处理过的视频数据集和所述视频通道模型，确定视频特征向量，具体包括：

将所述第一视频卷积层、所述第二视频卷积层、所述第三视频卷

积层和所述第四视频卷积层中卷积核的个数分别设置为32、32、64和64，卷积核的大小均设置为3×3×3，步长均设置为1，边界零填充均设置为1，对各卷积层的输出都进行归一化处理；

将所述第一视频池化层和所述第二视频池化层均采用最大池化的

方式，池化区域核的大小均设置为2×2×3，步长均设置为2；

将所述第一视频深度卷积阶段和所述视频第二深度卷积阶段的输

出特征矩阵扁平化处理为1维特征向量。

5.根据权利要求1所述的基于视频流的帕金森非接触式智能检测方法，其特征在于，所述构建网络模型，具体包括：

构建输入特征向量的全连接网络模型，所述全连接阶段包括输入

层、第一隐藏层、第二隐藏层和输出层。

6.根据权利要求5所述的基于视频流的帕金森非接触式智能检测方法，其特征在于，根据所述视频特征向量和所述网络模型，得到标签向量，具体包括：

7.一种基于视频流的帕金森非接触式智能检测系统，其特征在于，包括：

视频预处理模块，用于获取包含人脸特征信息的帧序列特征矩阵。

视频通道模型构建模块，用于构建视频通道模型；

视频特征向量确定模块，用于根据所述处理过的频数据集和所述视频通道模型，确定视频特征向量；

网络模型构建模块，用于构建网络模型；