CN111553899A

CN111553899A - 一种基于音视频的帕金森非接触式智能检测方法及系统

Info

Publication number: CN111553899A
Application number: CN202010348501.4A
Authority: CN
Inventors: 邹娟; 向懿; 曾碧霄; 陈钢; 房海鹏; 郑金华
Original assignee: Xiangtan University
Current assignee: Institute of Computing Technology of CAS; Xiangtan University
Priority date: 2020-04-28
Filing date: 2020-04-28
Publication date: 2020-08-18

Abstract

本发明涉及一种基于音视频的帕金森非接触式智能检测方法及系统。该方法包括：获取帕金森患者和非帕金森患者的音视频数据集；构建音频通道模型；构建视频通道模型；根据所述音视频数据集和所述音频通道模型，确定音频特征向量；根据所述音视频数据集和所述视频通道模型，确定视频特征向量；构建融合网络模型；根据所述音频特征向量、所述视频特征向量和所述融合网络模型，得到标签向量；根据所述标签向量，确定帕金森患者。本发明能够将面部特征与声音特征综合分析，提高交互性以及检测效率。

Description

一种基于音视频的帕金森非接触式智能检测方法及系统

技术领域

本发明涉及帕金森非接触式智能检测领域，特别是涉及一种基于音视频的帕金森非接触式智能检测方法及系统。

背景技术

随着人脸识别技术、自然语言处理技术的发展，基于视频进行病症诊断的医疗应用不断涌现。帕金森“面具脸”是指帕金森患者由于运动性障碍导致的面部表情减少症状，临床表现由轻到重依次表现为：正常、面部呆板、面部表情差、不自主张口、完全没有表情等。随着帕金森病的发展期不断推演，僵硬感将会越发明显地在面部肌肉运动时显现。言语障碍是指由运动-言语系统中的运动区的神经损伤造成的运动性语言障碍，在所有的帕金森患者中，大约有90％的患者会出现这种症状，其特征主要表现为声音强度的降低、倾向于升高和不变的音调、模糊不清的言语。“面具脸”和言语障碍均为临床判定是否患帕金森病的重要指标。

目前针对于帕金森症状检测的应用场景，大量的研究专注于“面具脸”特征对应的视频单通道或是“言语障碍”对应的音频单通道问题，基于预先设置好的动作指令，记录患者做出相应的表情模拟或发声练习过程，利用人脸关键点标定或者音频信号特征处理等技术对单通道特征进行分析判定。现有的工作具有以下普遍性局限：1)单通道模型。将面部特征与声音特征分割开来，忽略构音困难与面部肌肉运动性僵硬之间的内在联系。2)存在指令干扰。不论是视频通道还是音频通道，均要求受试者在规定时间内完成指定要求，交互性差。3)耗时长。由于播报指令--受试者反馈环节的设计，视频时长普遍在20s以上。

发明内容

本发明的目的是提供一种基于音视频的帕金森非接触式智能检测方法及系统，能够将面部特征与声音特征综合分析，提高交互性以及检测效率。

为实现上述目的，本发明提供了如下方案：

一种基于音视频的帕金森非接触式智能检测方法，包括：

获取帕金森患者和非帕金森患者的音视频数据集；

构建音频通道模型；

构建视频通道模型；

根据所述音视频数据集和所述音频通道模型，确定音频特征向量；

根据所述音视频数据集和所述视频通道模型，确定视频特征向量；

构建融合网络模型；

根据所述音频特征向量、所述视频特征向量和所述融合网络模型，得到标签向量；

根据所述标签向量，确定帕金森患者。

可选的，所述构建音频通道模型，具体包括：

构建2D核卷积网络的音频通道模型，所述音频通道模型包括第一音频深度卷积阶段、第二音频深度卷积阶段和音频全连接阶段，所述第一音频深度卷积阶段包括第一音频卷积层、第二音频卷积层和第一音频池化层，所述第二音频深度卷积阶段包括第三音频卷积层、第四音频卷积层和第二音频池化层，所述音频全连接阶段包括音频输入层、音频隐藏层和音频输出层。

可选的，所述根据所述音视频数据集和所述音频通道模型，确定音频特征向量，具体包括：

将所述第一音频卷积层、所述第二音频卷积层、所述第三音频卷积层和所述第四音频卷积层中卷积核的个数分别设置为32、32、64和64，卷积核的大小均设置为3×3，步长均设置为1，边界零填充均设置为1，对各卷积层的输出都进行归一化处理；

将所述第一音频池化层和所述第二音频池化层均采用最大池化的方式，池化区域核的大小均设置为2×2，步长均设置为2；

将所述第一音频深度卷积阶段和所述音频第二深度卷积阶段的输出特征矩阵扁平化处理为1维特征向量。

可选的，所述构建视频通道模型，具体包括：

构建3D核卷积网络的视频通道模型，所述视频通道模型包括第一视频深度卷积阶段、第二视频深度卷积阶段和视频全连接阶段，所述第一视频深度卷积阶段包括第一视频卷积层、第二视频卷积层和第一视频池化层，所述第二视频深度卷积阶段包括第三视频卷积层、第四视频卷积层和第二视频池化层，所述视频全连接阶段包括视频输入层、视频隐藏层和视频输出层。

可选的，所述根据所述音视频数据集和所述视频通道模型，确定视频特征向量，具体包括：

将所述第一视频卷积层、所述第二视频卷积层、所述第三视频卷积层和所述第四视频卷积层中卷积核的个数分别设置为32、32、64和64，卷积核的大小均设置为3×3×3，步长均设置为1，边界零填充均设置为1，对各卷积层的输出都进行归一化处理；

将所述第一视频池化层和所述第二视频池化层均采用最大池化的方式，池化区域核的大小均设置为2×2×3，步长均设置为2；

将所述第一视频深度卷积阶段和所述视频第二深度卷积阶段的输出特征矩阵扁平化处理为1维特征向量。

可选的，所述构建融合网络模型，具体包括：

构建由特征融合阶段和全连接阶段组成的融合网络模型，所述融合全连接阶段包括输入层、第一隐藏层、第二隐藏层和输出层。

可选的，所述根据所述根据所述音频特征向量、所述视频特征向量和所述融合网络模型，得到标签向量，具体包括：

将所述音频通道模型输出的1维音频特征向量和所述视频通道模型输出的1维视频拼接成1维融合特征向量；

将融合特征向量作为所述融合网络模型全连接阶段的输入向量，得到2维标签向量。

一种基于音视频的帕金森非接触式智能检测系统，包括：

数据集获取模块，用于获取帕金森患者和非帕金森患者的音视频数据集；

音频通道模型构建模块，用于构建音频通道模型；

视频通道模型构建模块，用于构建视频通道模型；

音频特征向量确定模块，用于根据所述音视频数据集和所述音频通道模型，确定音频特征向量；

视频特征向量确定模块，用于根据所述音视频数据集和所述视频通道模型，确定视频特征向量；

融合网络模型构建模块，用于构建融合网络模型；

标签向量确定模块，用于根据所述音频特征向量、所述视频特征向量和所述融合网络模型，得到标签向量；

帕金森患者确定模块，用于根据所述标签向量，确定帕金森患者。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明将面部特征与声音特征综合起来分析，考虑了构音困难与面部肌肉运动性僵硬之间的内在联系。本发明不论是构建视频通道还是构建音频通道，均不要求受试者在规定时间内完成指定要求，从而解决了现有技术中交互性差的问题。另外，本发明基于音视频的帕金森非接触式智能检测方法能够迅速得到检测结果，提高了检测效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明基于音视频的帕金森非接触式智能检测方法流程图；

图2是本发明基于音视频的帕金森非接触式智能检测系统结构图；

图3是本发明的音频通道模型图；

图4是本发明的视频通道模型图；

图5是本发明的融合网络模型图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

图1是本发明基于音视频的帕金森非接触式智能检测方法流程图。如图1所示，一种基于音视频的帕金森非接触式智能检测方法包括：

步骤101：获取帕金森患者和非帕金森患者的音视频数据集。

本发明构建了一个由2N个受试者组成的通过临床验证的数据集，其中帕金森患者与非患者比例为1：1。该数据集包含2N条纯人脸视频以及与其对应的2N个语音特征矩阵，将这样的数据以及二分类标签作为整个模型的初始输入数据。

步骤102：构建音频通道模型，具体包括：

步骤103：构建视频通道模型，具体包括：

步骤104：根据所述音视频数据集和所述音频通道模型，确定音频特征向量，具体包括：

将所述第一音频卷积层、所述第二音频卷积层、所述第三音频卷积层和所述第四音频卷积层中卷积核的个数分别设置为32、32、64和64，卷积核的大小均设置为3×3，步长均设置为1，边界零填充均设置为1，对各卷积层的输出都进行归一化处理。

将所述第一音频池化层和所述第二音频池化层均采用最大池化的方式，池化区域核的大小均设置为2×2，步长均设置为2。

步骤105：根据所述音视频数据集和所述视频通道模型，确定视频特征向量，具体包括：

将所述第一视频卷积层、所述第二视频卷积层、所述第三视频卷积层和所述第四视频卷积层中卷积核的个数分别设置为32、32、64和64，卷积核的大小均设置为3×3×3，步长均设置为1，边界零填充均设置为1，对各卷积层的输出都进行归一化处理。

将所述第一视频池化层和所述第二视频池化层均采用最大池化的方式，池化区域核的大小均设置为2×2×3，步长均设置为2。

步骤106：构建融合网络模型，具体包括：

步骤107：根据所述音频特征向量、所述视频特征向量和所述融合网络模型，得到标签向量，具体包括：

将融合特征向量作为所述融合网络模型全连接阶段的输入向量，得到2维标签向量。全连接阶段以ReLu作为激活函数，使用Dropout方法减少过拟合现象，最后输出2维标签向量。

步骤108：根据所述标签向量，确定帕金森患者。

图2是本发明基于音视频的帕金森非接触式智能检测系统结构图。如图2所示，一种基于音视频的帕金森非接触式智能检测系统包括：

数据集获取模块201，用于获取帕金森患者和非帕金森患者的音视频数据集。

音频通道模型构建模块202，用于构建音频通道模型。

视频通道模型构建模块203，用于构建视频通道模型。

音频特征向量确定模块204，用于根据所述音视频数据集和所述音频通道模型，确定音频特征向量。

视频特征向量确定模块205，用于根据所述音视频数据集和所述视频通道模型，确定视频特征向量。

融合网络模型构建模块206，用于构建融合网络模型。

标签向量确定模块207，用于根据所述音频特征向量、所述视频特征向量和所述融合网络模型，得到标签向量。

帕金森患者确定模块208，用于根据所述标签向量，确定帕金森患者。

实施例1：

为了更为详尽的论述本发明，以下提供一个具体的实施例，具体步骤如下：

步骤一、数据集的构建：

本实施例构建了一个由200个受试者组成的通过临床验证的数据集，其中帕金森患者与非患者比例为1∶1。该数据集包含200条纯人脸视频以及与其对应的200个语音特征矩阵，将这样的数据以及二分类标签作为整个模型的初始输入数据。本实施例的工作主要是在youtube上搜索帕金森患者和非患者在自然表达场景下的相关视频，通过检索‘Parkinson facial OR vlog’筛选出含有‘Parkinson facial’或者’Parkinson vlog’的条目，选择性跟踪含有大量帕金森节目的发布源，非患者片段则从亲属/治疗师描述患者病情的片段中截取。符合实验要求的节目有如下特点：1)人物面部清晰，完整；2)人物位置不过分偏离画面中心；3)含人物自然叙述片段；4)无明显噪音；5)视频属性中包含视频及音频信息。视频从youtube上挑选后，将经二次剪辑后的6.5秒视频片段交由医生团队进行临床标定，剔除争议的部分，最终保留100个帕金森患者视频与100个对照视频。

为了从视频中提取人脸部分，本实施例应用了MTCNN的人脸识别多任务级联网络框架，该框架能够以从粗略到精细的方式预测面部和关键点位置，即使是在头部姿势多种多样的情况下也能保持鲁棒，得到大小为32×32包含人脸特征信息的帧序列特征矩阵。对音频信号进行了logfbank特征以及mfcc特征的提取，得到649×39的音频特征矩阵。每一个样本的数据由通道数为200且大小为32×32的帧序列特征矩阵、大小为649×39的音频特征矩阵以及二分类标签向量Y组成，在二维标签向量Y中0表示非患者，1表示患者。

步骤二、音频通道模型的构建，如图3所示：

音频通道模型为2D核卷积网络，由2个深度卷积阶段和1个全连接阶段组成。先将大小为649×39的音频特征矩阵Vec_audio1做减去平均值再除以最大值的归一化处理(BatchNormalization)，然后通过第1个深度卷积阶段：第一卷积层(Conv2D_1)+第二卷积层(Conv2D_2)+第一池化层(MaxPool2D_1)，第一、第二卷积层的卷积核大小均设置为3×3，数量均设置为32，步长均设置为1，边界零填充(padding)均设置为1，池化层采用最大池化的方式，池化区域核大小为2×2，步长为2，输出通道数为32且大小为324×19的特征向量Vec_audio2。接着Vec_audio2通过第2个深度卷积阶段：第三卷积层(Conv2D_3)+第四卷积层(Conv2D_4)+第二池化层(MaxPool2D_2)，第三、第四卷积层的卷积核大小均设置为3×3，数量均设置为32，步长均设置为1，边界零填充(padding)均设置为1，第二池化层采用最大池化的方式，池化区域核大小为2×2，步长为2，输出通道数为64且大小为161×8的特征向量Vec_audio3，对每个卷积层的输出都进行减去平均值再除以最大值的归一化处理(BatchNormalization)，使其恢复原来输入时的分布。将Vec_audio3扁平化处理(Flatten)成大小为1×82432的特征向量Vec_audio4，作为全连接阶段的输入向量。全连接阶段的结构：输入层(Input Layer)+1层隐藏层(Hidden Layer)+输出层(Output Layer)，采用ReLU作为激活函数，使用Dropout方法随机使一定的神经元失活来减少过拟合现象，失活概率p＝0.3，最后输出大小为1×512的音频特征向量Vec_audio。

步骤三、视频通道模型的构建，如图4所示：

视频通道模型为3D核卷积网络，由2个深度卷积阶段和1个全连接阶段组成。先将通道数为200且大小为32×32的帧序列特征矩阵Vec_visual1做减去平均值再除以最大值的归一化处理(BatchNormalization)，然后通过第1个深度卷积阶段：第一卷积层(Conv3D_1)+第二卷积层(Conv3D_2)+第一池化层(MaxPool3D_1)，第一、第二卷积层的卷积核大小均设置为3×3×3，数量均设置为32，步长均设置为1，边界零填充(padding)均设置为1，池化层采用最大池化的方式，池化区域核大小为2×2×3，步长为2，输出通道数为32且大小为16×16的特征向量Vec_visual2。接着Vec_visual2通过第2个深度卷积阶段：第三卷积层(Conv3D_3)+第四卷积层(Conv4D_4)+第二池化层(MaxPool3D_2)，第三、第四卷积层的卷积核大小均设置为3×3×3，数量均设置为32，步长均设置为1，边界零填充(padding)均设置为1，第二池化层采用最大池化的方式，池化区域核大小为2×2×3，步长为2，输出通道数为64且大小为7×7的特征向量Vec_visual3，对每个卷积层的输出都进行减去平均值再除以最大值的归一化处理(BatchNormalization)，使其恢复原来输入时的分布。将Vec_visual3扁平化处理(Flatten)成大小为1×3136的特征向量Vec_visual4，作为全连接阶段的输入向量。全连接阶段的结构：输入层(Input Layer)+1层隐藏层(Hidden Layer)+输出层(Output Layer)，采用ReLU作为激活函数，使用Dropout方法随机使一定的神经元失活来减少过拟合现象，失活概率P＝0.3，最后输出大小为1×512的音频特征向量Vec_visual。

步骤四、融合网络模型的构建，如图5所示：

融合网络模型由特征融合阶段和全连接阶段组成。将音频通道输出的大小为1×512的音频特征向量Vec_audio和视频通道输出的大小为1×512的音频特征向量Vec_visual拼接成大小为1×1024的融合特征向量Vec_merge，该特征向量作为融合网络中全连接阶段的输入向量，全连接阶段的结构：输入层(Input Layer)+第一隐藏层(Hidden Layer_1)+第二隐藏层(Hidden Layer_2)+输出层(Output Layer)，该阶段采用二分类交叉熵(Binary_Crossentropy)作为损失函数，输入层和第一隐藏层以及第一隐藏层和第二隐藏层之间采用ReLu作为激活函数，使用Dropout方法随机使一定的神经元失活来减少过拟合现象，失活概率p＝0.3，特征向量Vec_merge通过整个全连接阶段后得到大小为1×2的输出向量Vec_output，对Vec_output先做减去平均值再除以最大值的归一化处理(BatchNormalization)并且再用sigmoid函数进行处理Vec_target，根据二维向量Vec_target中两个值的大小确定是否为患者。

为了验证本发明的有效性，本实施例通过Anaconda3编程平台采用Python编程语言进行实验，网络模型采用5折交叉验证的方式训练取平均测试结果，交叉验证可以防止模型过拟合的同时保证每一折对应训练数据与验证数据不重叠。音频单通道、视频单通道网络和音视频双通道融合网络的测试结果分别为55％、57.5％、75％。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于音视频的帕金森非接触式智能检测方法，其特征在于，包括：

获取帕金森患者和非帕金森患者的音视频数据集；

构建音频通道模型；

构建视频通道模型；

构建融合网络模型；

根据所述标签向量，确定帕金森患者。

2.根据权利要求1所述的基于音视频的帕金森非接触式智能检测方法，其特征在于，所述构建音频通道模型，具体包括：

3.根据权利要求2所述的基于音视频的帕金森非接触式智能检测方法，其特征在于，所述根据所述音视频数据集和所述音频通道模型，确定音频特征向量，具体包括：

4.根据权利要求1所述的基于音视频的帕金森非接触式智能检测方法，其特征在于，所述构建视频通道模型，具体包括：

5.根据权利要求4所述的基于音视频的帕金森非接触式智能检测方法，其特征在于，所述根据所述音视频数据集和所述视频通道模型，确定视频特征向量，具体包括：

6.根据权利要求1所述的基于音视频的帕金森非接触式智能检测方法，其特征在于，所述构建融合网络模型，具体包括：

7.根据权利要求6所述的基于音视频的帕金森非接触式智能检测方法，其特征在于，所述根据所述根据所述音频特征向量、所述视频特征向量和所述融合网络模型，得到标签向量，具体包括：

8.一种基于音视频的帕金森非接触式智能检测系统，其特征在于，包括：

音频通道模型构建模块，用于构建音频通道模型；

视频通道模型构建模块，用于构建视频通道模型；

融合网络模型构建模块，用于构建融合网络模型；