CN109508644B

CN109508644B - 基于深度视频数据分析的面瘫等级评估系统

Info

Publication number: CN109508644B
Application number: CN201811221249.XA
Authority: CN
Inventors: 谢飞; 郜刚; 繆飞
Original assignee: Shaanxi Great Wisdom Medical Care Technology Co ltd
Current assignee: Shaanxi Great Wisdom Medical Care Technology Co ltd
Priority date: 2018-10-19
Filing date: 2018-10-19
Publication date: 2022-10-21
Anticipated expiration: 2038-10-19
Also published as: CN109508644A

Abstract

本发明公开了一种基于深度视频数据分析的面瘫等级评估系统，包括：训练集建立模块、评估模型建立模块、输入模块、判断和输出模块，其中所述的评估模型建立模块建立评估网络，并根据所述的训练集进行评估网络的训练，得到评估模型；所述的识别网络包括三路并行设置的LSTM网络，每个LSTM网络用于提取一个面部区域的运动特征信息，然后用于对不同面部区域提取的运动特征信息，采用一维线性卷积核分别对所述运动特征信息进行加权，并采用特征向量相加的方式进行加权后特征的融合以得到融合特征，然后通过对所述的融合特征进行分类而得到对应的分级结果；所提取的特征中能够较大程度包含面部肌肉运动的动态信息，从而能大幅提升面瘫分级精度。

Description

基于深度视频数据分析的面瘫等级评估系统

技术领域

本发明涉及医疗、神经网络技术领域，具体涉及一种基于深度视频数据分析的面瘫等级评估系统。

背景技术

面瘫是面部肌肉运动功能受到阻碍的一种常见且多发的疾病，其主要症状为面部表情肌群无法进行正常的功能性运动，临床常表现为单侧周围性的面瘫(一侧面部患病，另一侧正常)，发病范围广泛且不受年龄限制。面瘫会对患者的身心健康产生极大的危害，既会影响到患者的正常工作和生活又会严重妨碍患者与他人的社交活动，给患者带来较重的精神负担。因此，对病症进行准确的诊断和评估就显得极为重要，这关系到治疗方案的制定以及后续疗效的评估。

目前，有关面瘫分级评估的主要方法大致可以分为如下的两类：基于关键点检测的面瘫分级方法和利用人脸区域分块进行面瘫等级评估，这些方法存在着一系列问题有待改进：

第一，采用区域分块进行等级评估的算法往往只考虑单个器官的局部区域，这样做非常容易造成病人的面部整体信息遭到破坏，导致分块之间缺乏一定的关联性。

第二，传统的区域分块算法需要对每个分块区域分别进行训练，有多少个分块区域就需要重复训练多少次，这样做不仅耗时而且效率较低，也无法保证区域分块间的关联性。

第三，传统的区域分块算法在进行区域间的特征融合时一般采用的是加权的方式，但是其加权系数的选择是通过多次人工试验得到的，而且其系数是一个固定的值无法根据实际的问题做出自适应调整和优化，导致其得到的融合特征往往无法很好地适应实际情况。

第四，传统的区域分块算法大多是采用面部静态图像的面瘫分级评估，只考虑了面瘫患者的面部不对称信息而忽略了其面部肌肉的运动信息。

此外，传统的面瘫评估方法大多是采用传统的机器学习算法，难以从海量数据中提取更有效的特征信息。即使某些方法能够保留患者肌肉运动信息，也难以表现出病人运动变化的完整过程。

发明内容

针对现有技术中存在的问题和挑战，本发明提出一种基于深度视频数据分析的面瘫等级评估系统，该系统中建立了Triple-stream LSTM网络，该网络通过视频数据能够自动学习面瘫患者在做不同面部动作时的面部状态的深层次特征，并且，所提取的特征中能够较大程度包含面部肌肉运动的动态信息，从而能大幅提升面瘫分级精度。

为了实现上述任务，本发明采用以下技术方案：

一种基于深度视频数据分析的面瘫等级评估系统，包括：

训练集建立模块，用于通过视频数据建立训练集；

评估模型建立模块，用于建立评估网络，并根据所述的训练集进行评估网络的训练，得到评估模型；所述的识别网络包括三路并行设置的LSTM网络，每个LSTM网络用于提取一个面部区域的运动特征信息，然后用于对不同面部区域提取的运动特征信息，采用一维线性卷积核分别对所述运动特征信息进行加权，并采用特征向量相加的方式进行加权后特征的融合以得到融合特征，然后通过对所述的融合特征进行分类而得到对应的分级结果；

输入模块，用于接收待评估的视频并进行预处理，得到待测试样本；

判断和输出模块，用于将待测试样本输入所述的评估模型中，得到模型的输出结果即为评估结果，并将评估结果通过显示器进行输出。

进一步地，所述的训练集建立模块包括：

视频数据获取模块，用于根据从医院采集面瘫病人面部做动作时的视频，对视频进行去噪处理，得到去噪后的视频；

视频分类模块，用于对去噪后的视频，按照病人面部所做动作进行分类，将每个动作按照医生给定的面瘫分级表进行面瘫等级的划分；

视频分帧模块，用于将每个视频按照分区规则截取成该视频中动作对应的分块子视频，对于每一个分块子视频分别进行分帧处理，并去除未做动作时间段的图像，得到分帧序列图像；

样本建立模块，用于根据所述的分帧序列图像建立训练集。

进一步地，所述的分区规则为：

1)抬眉：由额头区域R₁、眉毛眼睛区域R₂和上半脸联合区域R₅组成；

2)闭眼：由额头区域R₁、眉毛眼睛区域R₂和上半脸联合区域R₅组成；

3)耸鼻：由眉毛眼睛区域R₂、鼻子区域R₃和中半脸联合区域R₆组成；

4)鼓腮：由鼻子区域R₃、嘴巴区域R₄和下半脸联合区域R₇组成；

5)示齿：由鼻子区域R₃、嘴巴区域R₄和下半脸联合区域R₇组成；

6)微笑：由鼻子区域R₃、嘴巴区域R₄和下半脸联合区域R₇组成；

7)皱眉：由额头区域R₁、眉毛眼睛区域R₂和上半脸联合区域R₅组成。

进一步地，根据所述的分帧序列图像建立训练集，包括：

将所有的分帧序列图像分别按比例放缩，采样成一维行向量形式，并在行向量末尾额外添加一列表示对应的面瘫分级标记的标签；然后将每5个一维行向量合并为一个样本，每个样本包含的一维行向量的标签一致；从而得到每个面部区域对应的样本集，所有样本集构成训练集。

进一步地，所述的评估模型建立模块，包括：

特征提取模块，包括三路并行设置的LSTM网络，每个LSTM网络分别用于提取一个面部区域的运动特征信息；

参数加权模块，用于对不同面部区域提取的运动特征信息，采用一维线性卷积核分别对所述运动特征信息进行加权，并采用特征向量相加的方式进行加权后特征的融合以得到融合特征；

分级输入模块，用于对所述融合特征进行分类而得到对应的分级结果；

训练模块，用于以样本为单位，将所有的样本的顺序打乱，选取训练样本和验证样本，将训练样本和验证样本输入到所述的评估网络中，采用随机梯度下降算法进行训练，得到评估模型。

进一步地，所述的预处理过程为：对视频进行分帧处理，将处理后得到的图像按比例放缩，采样成一维向量的形式，并将每5个一维向量合并为一个待测试样本。

本发明与现有技术相比，具有以下技术特点：

第一，本发明系统中所选取的区域分块是基于动作的面部变化，针对不同的动作划分出相应的区域，不仅具有人脸的几何形状信息，而且还包含局部细节纹理信息；此外，所选取的区域中既有局部五官区域分块又有包含两个五官区域的半全局联合区域分块，区域分块间的关联性得到了非常有效地保留。

第二，本发明系统是三个区域分块同时同步并行进行训练的，只需要训练一次网络就能够同时提取到三个区域的特征，相比较对每个区域分别进行训练，能够大幅地缩短训练时间，提高网络的实用性。此外，由于不同区域分块的帧之间维持着一一对应的关系，因此在所提取的分块区域特征间也是存在着一定联系。

第三，本发明系统在进行区域特征间的融合叠加时所选取的加权系数不是通过逐次试验得到的，而是通过网络的训练自适应学习得到的，能够随着输入的改变不断进行自适应地调整和优化，所提取得到的融合特征也更能较准确地表达数据的更有效的特征信息，并且融合特征中能够反映出各区域提取特征之间的关联性。此外，通过将加权系求解优化问题内化为网络内部参数学习和优化环节，这在一定程度上简化了算法的流程和处理步骤，无需再进行额外的操作。

第四，本发明系统是基于深度视频数据分析的方法进行面瘫等级评估，既能够在保存大量的面部肌肉运动的动态细节信息的同时，也能够极大程度上克服传统机器学习方法处理数据能力不足的问题，且所输入的视频样本中包含病人相对完整的运动过程。

第五，本发明能够大幅有效提升医生面瘫诊断的效率，为医生进行面瘫诊断提供一定的参考和建议。同时本发明可以帮助患者在没有医生的情形下进行自测，以方便患者了解自身病情变化。

附图说明

图1为本发明系统中评估网络的结构示意图；

图2为面部划分为不同区域的示意图；

图3的(a)为上半脸联合区域示意图，(b)为中半脸联合区域示意图，(c)为下半脸联合区域示意图；

图4为参数加权示模块意图；

图5为一个LSTM单元的内部组成结构示意图；

图6为LSTM网络和Triple-steamLSTM网络的loss函数曲线和acc函数曲线对比图，其中(a)为抬眉，(b)为闭眼，(c)为耸鼻，(d)为鼓腮，(e)为示齿，(f)为微笑，(g)为皱眉。

具体实施方式

为了更好地体现面部运动变化的局部细节，提供一定程度上的区域关注机制，本方案将人脸划分成4块五官局部矩形区域，分别用R₁、R₂、R₃和R₄进行表示，如图2所示，依次表示为额头区域、眉毛眼睛区域、鼻子区域和嘴巴区域。为了避免由于区域分块导致面部整体信息与区域之间的关联性遭到破坏的问题，我们在进行局部五官区域分块的同时增加包含两个五官区域的矩形联合区域。根据动作的关注区域不同，将其划分为上半脸，中半脸和下半脸这三个联合区域，分别用包含额头和眉毛眼睛的上半脸区域R₅、包含眉毛眼睛和鼻子的中半脸区域R6和包含鼻子和嘴巴的下半脸区域R₇进行表示，具体细节请参考图3。

由于医生在进行面瘫诊断时，要求待诊断面瘫患者分别做抬眉、闭眼、耸鼻、鼓腮、示齿、微笑和皱眉这7个标准动作用于进行面瘫的等级评估。因此，本方案也同样利用这七个面部动作的视频进行面瘫分级，并且每个标准动作分别选取面部的两个局部五官区域和一个联合区域作为参考区域(对于闭眼动作仅选取一个面部器官区域作为参考)，对于不同标准动作所选取的参考区域的分区规则如下：

1)抬眉：由额头区域R₁、眉毛眼睛区域R₂和上半脸联合区域R₅组成。

2)闭眼：由额头区域R₁、眉毛眼睛区域R₂和上半脸联合区域R₅组成。

3)耸鼻：由眉毛眼睛区域R₂、鼻子区域R₃和中半脸联合区域R₆组成。

4)鼓腮：由鼻子区域R₃、嘴巴区域R₄和下半脸联合区域R₇组成。

5)示齿：由鼻子区域R₃、嘴巴区域R₄和下半脸联合区域R₇组成。

6)微笑：由鼻子区域R₃、嘴巴区域R₄和下半脸联合区域R₇组成。

本发明的一种基于深度视频分析的面瘫等级评估系统，包括以下模块：

1.训练集建立模块

用于获取视频，并进行视频帧序列的划分，从而构成训练集，具体包括：

1.1视频数据获取模块，用于根据从医院采集面瘫病人面部做动作时的视频，对视频进行去噪处理，得到去噪后的视频；所述的去噪处理主要是指去除视频中的抖动噪声。

1.2，视频分类模块，用于对去噪后的视频，按照病人面部所做动作进行分类，将每个动作按照医生给定的面瘫分级表进行面瘫等级的划分；

该步骤中，首先将不同动作的视频进行分类，得到抬眉、闭眼、耸鼻、鼓腮、示齿、微笑和皱眉这7类动作的视频；对于每一类动作视频，将其中的每个视频根据视频中病人面部的动作按照面瘫分级表进行划分，其中面瘫分级表包含正常及轻微、轻度面瘫、中度面瘫和重度面瘫四个等级，分别用0,1,2,3表示，每个等级分别对应面瘫患者的不同面部情况。通过该步骤处理，得到了7类视频，以及每类视频中每个视频对应的面瘫等级。

1.3，视频分帧模块，用于将每个视频按照分区规则截取成该视频中动作对应的分块子视频，这样每一个视频就分别分割出了对应的三个分块子视频；对于每一个分块子视频分别进行分帧处理，即将分块子视频分成一帧帧图像，并去除未做动作时间段的图像，得到分帧序列图像；

该步骤中，所述的分区规则是指前述的1)-7)，该规则中，将每个面部动作分成三个区域，其中有两个是五官局部区域，剩余一个是包含有两个五官局部区域的联合区域。例如对于一个抬眉的视频，分别从视频中截取额头区域R₁、眉毛眼睛区域R₂和上半脸联合区域R₅对应的三个分块子视频，即仅包含这些区域的子视频；再将分块子视频分别进行分帧；其中五官局部区域截取比例为16:9大小，联合区域截取比例为4:3大小。

1.4，样本建立模块，用于将所有的分帧序列图像分别按比例放缩，采样成一维行向量形式，并在行向量末尾额外添加一列表示对应的面瘫分级标记(即0,1,2,3)的标签；然后将每5个一维行向量合并为一个样本，每个样本包含的一维行向量的标签一致；从而得到每个面部区域(R₁-R₇)对应的样本集，所有样本集构成训练集。

该步骤中在建立样本时，所述的标签是指分帧序列图像对应的视频的面瘫等级(1.2部分)；在样本集中，将不足5个行向量的样本剔除。

2.评估模型建立模块

该模块用于建立评估网络，然后在网络框架的基础上利用训练集进行训练和测试，得到评估模型；所述的评估网络包括以下子模块：

2.1，特征提取模块，包括三路并行设置的LSTM(Long Short-Term Memory，LSTM)网络，每个LSTM网络分别用于提取一个面部区域的运动特征信息；

2.2，参数加权模块，用于对不同面部区域提取的运动特征信息进行加权融合；具体地，采用一维线性卷积核分别对所述运动特征信息进行加权，并采用特征向量相加的方式进行加权后特征的融合以得到融合特征；

2.3，分级输入模块，用于对所述融合特征进行分类而得到对应的分级结果。具体地，本实施例中采用softmax分类器进行分类。

特征提取模块、参数加权模块、分级输入模块共同构成所述的评估网络Triple-stream LSTM，如图1所示。

2.4，训练模块，用于以样本为单位，将所有的样本的顺序打乱，选取前70％作为训练样本，其余30％作为验证样本，将训练样本和验证样本输入到所述的评估网络中，采用随机梯度下降算法进行训练，得到评估模型。

3.输入模块

用于接收待评估的视频，并进行预处理，以得到待测试样本；

所述的预处理过程为：对视频进行分帧处理，将处理后得到的图像按比例放缩，采样成一维向量的形式，并将每5个一维向量合并为一个待测试样本。

4.判断和输出模块

用于将待测试样本输入所述的评估模型中，得到模型的输出结果即为评估结果，并将评估结果通过显示器进行输出，具体形式为：对一段待评估视频经预处理后输入到所评估模型中的待测试样本的评估结果进行统计，选择认定次数最多的等级作为最终的输出评判等级，并将评判等级进行显示输出。

本方案评估系统的三分支网络构架具有三分支区域输入，相比单分支区域输入的架构来说其训练时间将更短。应当注意的是，这三个分支输入区域之间不是孤立存在的，每个不同区域的输入样本间存在着一种一一对应的关系，而这种对应关系能够保证所提取的特征之间是存在相应的关联性的，单分支区域输入的架构则很难保证这种区域特征间的关联性。此外，这种三分支区域输入的架构也额外提供了一种多分辨率视角，即联合区域提供整体宏观性视角，细节五官区域提供细节微观性视角，因此能够将多种分辨率视角的特征进行有效结合以提高识别的精度。通过进行对比实验的结果也表明这种三分支区域输入架构网络的收敛速度是要比单分支区域输入架构网络的收敛速度快很多的。

由于本方案进行面瘫等级评估是利用分块区域分别进行评估以得到相应的区域提取特征，那么其总体特征(融合特征)应是所有分块区域特征的加权融合，如下式所示：

F_sum＝α₁F₁+α₂F₂+α₃F₃

其中，F₁、F₂和F₃分别表示各分块区域的提取特征，α₁、α₂和α₃分别表示其对应区域提取特征的加权系数，F_sum表示加权融合后得到的总体特征(融合特征)。

传统的加权融合是通过逐次进行试验来得到最佳的加权系数的，其加权系数一般是根据经验人工设置的一个固定的常量。但是随之而来会产生三个问题：首先，加权的系数必须通过逐次地进行试验才能得到，通过少量次数的试验往往无法获得最优的加权系数组合，对于数据量很小的样本这样做无可厚非，但是对于数据量非常大的样本这样做的效率就十分低下了；其次，每个区域的加权系数为一个固定的常量，对于耸鼻动作来说鼻子区域对总体特征的贡献量是比较大的而对于示齿动作来说其对总体特征的贡献量就没那么大了，如果采用固定的加权系数就难以辨别这种差异；最后，若采用针对每个动作分别去求取相应的最佳加权系数值的方法，会在无形中增加计算的复杂度，试验成本会随着参考动作数的增加成倍增长。事实上，对于同一个动作来说，其区域的加权系数也不应是一个固定不变的常量，而是应当随着样本的变化能够进行自适应动态调整的。

为了使加权系数能够随着网络训练进行自适应调节，我们将其融入到网络内部结构之中，以自动学习到最优的融合参数。我们的具体思路是在每个提取特征向量之后额外添加一个1D的1×1大小的线性卷积层，如图4所示。图4中，f₁，……，f_n分别表示所提取特征的每个特征分量，w为1×1大小卷积核的权值，αf₁，……，αf_n分别表示每个特征分量加权后的值。由于我们添加1×1卷积层是用于进行参数加权，因此我们不采用激活函数，此外该卷积层只有一个参数(权值)，用于学习区域提取特征的加权系数值。因为线性1×1的卷积相当于对每个输入分量乘以卷积核的权值，因此该操作相当于给提取特征整体乘以卷积核的权值进行加权。由于卷积核的权值是随着网络的训练不断进行调整的，因此加权的结果也能随着网络的训练不断进行优化和改善。

试验与结果分析

数据来源：本文实验数据由当地合作医院在与病人协商，在病人允许的情况下经过长期的数据采集，共获得了55位面瘫患者的视频图像数据，其中男性患者27位，女性患者28位。每位患者一共采集七段视频，分别对应抬眉、闭眼、耸鼻、鼓腮、示齿、微笑和皱眉这七个动作，每个动作平均每个病人做3遍。按照面瘫的严重程度依次将其分为正常、轻微、中度和重度这4个等级，分别由三位专科医生对其进行评分，在3位医生评判的结果一致的情况下，评分直接作为病人面瘫等级的标准参考值(ground truth)，当意见不一致的情况下，由资深面瘫诊断专家进行综合分析，给出最终的评分结果。

数据预处理：我们将采集好的视频数据按七个动作依次分为七组，每组按面瘫等级划分为4个类(分别用0,1,2,3进行表示)。之后我们对视频进行去抖动处理并按照3.2节所述的参考区域的划分标准对视频进行分割，每个视频分别分割出三个相关区域的子视频，其中五官区域的截取比例为16:9大小，联合区域的截取比例为4:3大小，分别将其保存为1920×1080和1440×1080分辨率大小的子视频，并将视频进行分帧处理。随后，我们以5帧序列长度为一组作为一个训练样本。

网络训练：我们的Triple-stream网络采用标准的反向传播算法进行端到端训练。使用Mini-batch随机梯度下降(SGD)算法来优化交叉熵损失函数，梯度下降的优化采用Aadm优化方法。初始学习率设定为0.00001，batch的大小为800，所提取的特征向量维是128，训练的迭代次数为1000。实验中以序列为单位随机抽取70％作为训练数据，余下30％作为测试数据。

试验结果分析：

动作

抬眉

闭眼

耸鼻

鼓腮

示齿

微笑

皱眉

准确率

97.02％

97.67％

93.05％

98.13％

97.88％

97.78％

96.56％

上表展示了实验结果，从表中我们可以看出，Triple-stream LSTM普遍分级的准确率还是非常高的。除了耸鼻动作外，其余6个动作的分级准确率均能超过96％。且分级的准确率能比其余方法平均能高出3％左右。为了更好地说明Triple-stream LSTM网络在收敛速度上的性能优势，我们分别作出不同动作下Triple-stream LSTM的学习曲线(见图6)，并与LSTM的学习曲线进行对比以便突出我们在性能上的优势。从图中我们明显可以看出，对于任意的一个动作，Triple-stream LSTM Loss曲线的下降速度是明显要比LSTM Loss曲线的下降速度快很多的，对大部分动作来说，Triple-stream LSTM的精度平均能比LSTM高出10％。此外，相比较LSTM学习曲线Triple-stream LSTM的学习曲线更加平缓，Triple-stream LSTM学习曲线波动要比LSTM学习曲线的波动小很多，也就是说Triple-streamLSTM方法的收敛速度要明显快于LSTM方法。

Claims

1.一种基于深度视频数据分析的面瘫等级评估系统，其特征在于，包括：

训练集建立模块，用于通过视频数据建立训练集；

评估模型建立模块，用于建立评估网络，并根据所述的训练集进行评估网络的训练，得到评估模型；所述的评估网络包括三路并行设置的LSTM网络，每个LSTM网络用于提取一个面部区域的运动特征信息，然后用于对不同面部区域提取的运动特征信息，采用一维线性卷积核分别对所述运动特征信息进行加权，并采用特征向量相加的方式进行加权后特征的融合以得到融合特征，然后通过对所述的融合特征进行分类而得到对应的分级结果；

2.如权利要求1所述的基于深度视频数据分析的面瘫等级评估系统，其特征在于，所述的训练集建立模块包括：

样本建立模块，用于根据所述的分帧序列图像建立训练集。

3.如权利要求2所述的基于深度视频数据分析的面瘫等级评估系统，其特征在于，根据所述的分帧序列图像建立训练集，包括：

4.如权利要求2所述的基于深度视频数据分析的面瘫等级评估系统，其特征在于，所述的分区规则为：

5.如权利要求1所述的基于深度视频数据分析的面瘫等级评估系统，其特征在于，所述的评估模型建立模块，包括：

6.如权利要求1所述的基于深度视频数据分析的面瘫等级评估系统，其特征在于，所述的预处理过程为：对视频进行分帧处理，将处理后得到的图像按比例放缩，采样成一维向量的形式，并将每5个一维向量合并为一个待测试样本。