CN116416664A

CN116416664A - 一种结合面部动态行为的抑郁症识别系统、介质及设备

Info

Publication number: CN116416664A
Application number: CN202310230445.8A
Authority: CN
Inventors: 高瑞; 石敏; 谯旭
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2023-03-06
Filing date: 2023-03-06
Publication date: 2023-07-11

Abstract

本发明属于视频流数据分类识别领域，提供了一种结合面部动态行为的抑郁症识别系统、介质及设备，用于获取待测试者面部视频数据集；基于待测试者面部视频数据集，基于待测试者面部视频数据集，根据外部轮廓点位置构建人脸轮廓凸包，基于凸包分割面部区域，得到人脸轮廓RGB图像数据；基于人脸轮廓RGB图像数据，提取对应的人脸轮廓动态光流图；通过人脸轮廓RGB图像数据和对应的人脸轮廓动态光流图提取图像面部表情时空特征；通过待测试者面部视频数据集提取视频面部行为时空特征；融合图像面部表情时空特征和视频面部行为时空特征进行抑郁症识别，输出识别结果。

Description

一种结合面部动态行为的抑郁症识别系统、介质及设备

技术领域

本发明属于视频流数据分类识别领域，尤其涉及一种结合面部动态行为的抑郁症识别系统、介质及设备。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

现有的抑郁症诊断方式主要是根据患者在临床访谈中的自我报告和临床医生的评估判定，受到患者主观情绪不定和不同临床医生评估效果存异的影响，抑郁症的识别也受到较大限制。研究表明，抑郁症患者在面部表情变化方面异于正常人群，如何运用机器学习等技术提取面部特征来自动识别抑郁症这一课题也逐渐受到研究者的重视。

虽然基于机器学习的自动诊断方式在抑郁识别领域已有相对广泛的应用，但是它们在抑郁症面部特征的提取方面大多基于单一的静态图像，忽略了面部表情的动态变化；

同时在说话时会伴随着头部姿势以及手势的变化，抑郁者患者往往表现为头部摆动缓慢，现有技术往往忽略了其特点，采用抽帧的方式提起面部变化，导致提取的面部表情变化特征会出现不连贯的缺陷导致识别的精准度下降。

发明内容

为了解决上述背景技术中存在的至少一项技术问题，本发明提供一种结合面部动态行为的抑郁症识别系统、介质及设备，其充分利用图像数据的人脸空间特征和视频数据的面部时间特征。该方法能够充分利用人脸的静态特征和动态特征来识别面部的时空变化。

为了实现上述目的，本发明采用如下技术方案：

本发明的第一个方面提供一种结合面部动态行为的抑郁症识别系统，包括：

数据获取模块，其用于获取待测试者面部视频数据集；

数据处理模块，其用于基于待测试者面部视频数据集，根据外部轮廓点位置构建人脸轮廓凸包，基于凸包分割面部区域，得到人脸轮廓RGB图像数据；基于人脸轮廓RGB图像数据，提取对应的人脸轮廓动态光流图；

症状预测模块，其用于通过人脸轮廓RGB图像数据和对应的人脸轮廓动态光流图提取图像面部表情时空特征；通过待测试者面部视频数据集提取视频面部行为时空特征；融合图像面部表情时空特征和视频面部行为时空特征进行抑郁症识别，输出识别结果。

本发明的第二个方面提供一种计算机可读存储介质。

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如下步骤：

获取待测试者面部视频数据集；

基于待测试者面部视频数据集，基于待测试者面部视频数据集，根据外部轮廓点位置构建人脸轮廓凸包，基于凸包分割面部区域，得到人脸轮廓RGB图像数据；基于人脸轮廓RGB图像数据，提取对应的人脸轮廓动态光流图；

通过人脸轮廓RGB图像数据和对应的人脸轮廓动态光流图提取图像面部表情时空特征；通过待测试者面部视频数据集提取视频面部行为时空特征；融合图像面部表情时空特征和视频面部行为时空特征进行抑郁症识别，输出识别结果。

本发明的第三个方面提供一种计算机设备。

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如下步骤：

获取待测试者面部视频数据集；

与现有技术相比，本发明的有益效果是：

1、针对在抑郁症面部特征的提取方面大多基于单一的静态图像，忽略了面部表情的动态变化，本发明通过人脸轮廓RGB图像数据和对应的人脸轮廓动态光流图提取图像面部表情时空特征；通过待测试者面部视频数据集提取视频面部行为时空特征；融合图像面部表情时空特征和视频面部行为时空特征进行抑郁症识别，既充分利用了面部光流特征在时间表征上的优越性，又保证了面部时空特征的完整性与连贯性，在单一面部表情变化特征的基础上，补充了头部姿态以及手势变化的动态特征，从而使最终的抑郁识别结果更加准确。

2、由于光流图包含了丰富的面部时间信息，在分类识别精度上优于单一的RGB特征，因此基于面部表情特征提取网络提取RGB图像下面部表情特征与光流图特征，经过特征融合后可以更好地捕捉面部的细微表情变化，进而提高分类精度。

3、通过3D-2D深度融合网络提取视频的面部表情特征可以弥补抽帧导致的部分光流图缺失，使得提取的面部表情变化特征更加连贯全面，同时待识别抑郁者在说话时会伴随着头部姿势以及手势的变化，抑郁者患者往往表现为头部摆动缓慢，低头尽可能避免眼神交流的状态，因此在捕获面部表情变化特征的基础上，通过3D-2D深度融合网络可以更好地提取到待抑郁识别者的头部姿势与手势等面部行为的变化，为抑郁症的判断提供更全面的头部与手势等面部行为的动态特征。

本发明附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1是本发明实施例一的结合面部动态行为的抑郁症识别系统框图；

图2是本发明实施例一的结合面部动态行为的抑郁症识别方法的模型结构图；

图3是本发明实施例一的图像预处理与光流提取模块结构图；

图4是本发明实施例一的视频动态时空特征提取模型结构图。

具体实施方式

下面结合附图与实施例对本发明作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

实施例一

参照图1-图2，本实施例提供一种基于融合双流网络的抑郁症识别系统，包括：

数据获取模块，其用于获取待测试者面部视频数据集；

具体地，获取面部视频数据集后，将包括抑郁人员的视频表现和BDI-Ⅱ抑郁自评表得分，将缺失任一部分的数据进行删除，并根据BDI-Ⅱ抑郁得分将数据划分为未抑郁、轻度、中度、重度抑郁四类抑郁水平，进而得到抑郁人员的诊断数据集，从中随机筛选80％的数据分为训练集S，剩余20％作为测试集R。

抽帧模块，其用于根据视频长度调整帧率抽取关键图像帧；

其中，抽帧模块中，数据集中每个视频的长度不固定，通过计算总帧数与帧率的差值获取抽帧间隔，从而使每个视频采集得到同样的帧数；在视频抽帧时根据视频长度确定抽帧间隔，确保将人脸面部变化情况较好的保留在图像帧中。

本实施例中，设定每个视频抽取帧数为6帧，以视频总帧数与当前帧数的差值以及已抽帧数与剩余待抽帧数的差值为基础，取两个差值的商的取整数值作为下一帧的抽帧间隔，最终在长度不一的每个视频中抽取相同的帧数，通过手工修正偏差数据，保证数据的合理性。

参照图3，人脸轮廓处理模块，其用于基于关键图像帧进行人脸关键点的标记，根据外部轮廓点位置构建人脸轮廓凸包，基于凸包分割面部区域，得到人脸轮廓RGB图像数据；

其中，人脸轮廓处理模块中，利用AAM模型识别裁剪出人脸面部轮廓区域。在人脸图像处理时基于AAM模型提取人脸关键点特征，并根据最外层面部关键点构建人脸外轮廓凸包，基于凸包进行不规则分割得到人脸轮廓，进一步地消除了背景光线变化及杂物等因素的干扰。

基于AAM模型提取面部特征点并标记人脸轮廓，基于opencv的convexhull函数得到凸包，该凸包以人脸外轮廓为边界，包含了所有的人脸特征点，将该凸包区域作为掩膜与原始图像进行与运算，分割得到仅包含人脸面部外轮廓的三通道图像，依据得到的眼睛部位特征点计算仿射变换矩阵，并将人脸的眼睛对齐到水平线上，实现人脸对齐操作，使后续光流计算更多地关注面部五官的变化。

数据增强模块，其用于对人脸轮廓RGB图像做二值化操作以消除面部噪点；

其中，数据增强模块中，将人脸轮廓RGB图像通过二值化操作去除噪点，由于光流的计算过程易受到光线及噪点的影响，二值化操作可以消除面部肤色不均以及面部噪点对光流计算的影响，通过全局阈值法使面部的五官轮廓更加清晰，进一步利用Dlib人脸检测模块识别并裁剪得到人脸矩形框，使人脸在图像中占比增大，便于后续光流计算。因此对面部轮廓进行全局二值化操作，可以增强面部五官的对比度，较好的提高了后续光流的计算精度与特征提取的准确度。

光流提取模块，其用于通过光流提取法提取光流并可视化得到对应的面部光流图像数据；

本实施例中，光流提取模块中，采用的光流提取法为deepflow光流提取法。人脸的面部变化具有不规律性，虽然不同人在不同情境下的表情习惯不同，但大都基于眼球的变化、说话时唇部的动作以及眉毛的紧张程度等五官来体现，传统的光流算法不适用于捕捉这些细微的变化，而deepflow法是一种基于匹配算法与变分方法相结合的光流提取法，在快速运动的光流计算中具有一定的优越性。通过deepflow法可以更好的捕捉到面部表情的细微变化以及眼球的快速转动，提取得到的光流图所包含的时间信息更加丰富，且精确度更高。

症状预测模块包括特征提取模块和特征融合模块；

特征提取模块，其用于结合面部RGB图与光流图分别提取图像面部特征与光流特征，通过concat初步特征融合得到图像面部表情时空特征；同时并行操作将原始视频灰度化后提取得到第二流网络提取的视频面部行为时空特征；

本实施例特征提取模块中，基于人脸轮廓RGB图像数据和对应的人脸轮廓动态光流图，采用两个独立的ResNet50深度网络提取图像面部表情时空特征，基于待测试者面部视频数据集采用融合3D CNN的2D ResNet50网络提取视频面部行为时空特征。

特征融合模块，其用于基于Bi-LSTM双向长短期模块将提取的图像面部表情时空特征与视频面部行为时空特征拼接融合，由双全连接层完成最终的分类识别，最终得到抑郁识别分类结果，分类结果包括：未抑郁、轻度、中度、重度抑郁四类。

本实施例中，在双流网络结构方面，通过构造面部表情特征提取深度网络与面部行为特征提取深度网络分别提取图像与视频数据下面部表情与行为的时空特征。

在面部表情特征提取网络构造过程中采用双层独立的ResNet50深度网络，分别输入RGB面部特征图与对应的光流图提取得到面部特征与光流特征，通过deepflow光流提取模块基于前后两帧图像提取表征面部表情变化的光流图，将提取得到的RGB图像面部特征矩阵与光流图特征矩阵通过concat操作进行拼接融合，并通过一层全连接层保留2048维深度特征作为面部图像特征。

其中，光流特征可以很好的反应面部动态变化信息，第一流网络通过将RGB图像特征与光流图像特征融合可以在一定程度上反应面部的表情状态与变化。

参照图4，在面部行为特征提取网络构造过程中通过3层3D CNN卷积层级联50层ResNet残差块构成3D-2D深度融合网络，每一层均由3D卷积块连接激活层和池化层组成，从而提取视频中的面部四维特征，其中四维特征中视频帧数表征时间信息，图像帧的长和宽与通道数表征空间信息，将四维特征通过线性激活层和最大池化层进行归一化处理得到特征图，并输入ResNet50 2D深度网络中对特征图进行特征的下采样，可以进一步地得到包含时空信息的更深层次的视频特征，通过一层全连接层保留2048维深度特征作为视频特征。

由于光流图包含了丰富的面部时间信息，在分类识别精度上优于单一的RGB特征，因此基于面部表情特征提取网络提取RGB图像下面部表情特征与光流图特征，经过特征融合后可以更好地捕捉面部的细微表情变化，进而提高分类精度。进一步地通过3D-2D深度融合网络提取视频的面部表情特征可以弥补抽帧导致的部分光流图缺失，使得提取的面部表情变化特征更加连贯全面。

同时待识别抑郁者在说话时会伴随着头部姿势以及手势的变化，抑郁者患者往往表现为头部摆动缓慢，低头尽可能避免眼神交流的状态，因此在捕获面部表情变化特征的基础上，通过3D-2D深度融合网络可以更好地提取到待抑郁识别者的头部姿势与手势等面部行为的变化，为抑郁症的判断提供更全面的头部与手势等面部行为的动态特征。

最后通过Bi-LSTM网络将来自上述双流网络的特征连接并进行平均；

本实施例中，Bi-LSTM网络通过两个LSTM网络组合拼接而成，其中一个LSTM网络正向处理输入特征，另一个LSTM网络反向处理输入特征，双向LSTM网络并行处理特征的前后依赖关系，并在最后一层将处理后的图像面部时空特征与视频面部时空特征进行特征的拼接融合，得到融合后的4096维特征，并通过两层全连接层输出最终的识别结果。

由于Bi-LSTM网络基于两个LSTM长短时记忆网络，可以更好的找到特征之间的依赖关系，通过Bi-LSTM网络可以更好的将图像数据与视频数据下面部表情的时空特征与面部行为进行融合，从而得到更有效的分类特征，最终通过双层全连接层输出分类结果。

上述方案的优势在于，双流网络基于原始视频，分别以图像数据与视频数据为输入，通过构造基于双ResNet50深度网络的第一流面部表情特征提取网络与融合3D CNN卷积块的2D ResNet50深度网络的第二流面部行为特征提取网络，既充分利用了面部光流特征在时间表征上的优越性，又基于3D CNN卷积块保证了面部时空特征的完整性与连贯性，在单一面部表情变化特征的基础上，补充了头部姿态以及手势变化的动态特征，从而使最终的抑郁识别结果更加准确。

实施例二

本实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如下步骤：

获取待测试者面部视频数据集；

实施例三

本实施例提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如下步骤：

获取待测试者面部视频数据集；

本实施例的所述处理器执行所述程序时实现的步骤与实施例一中的结合面部动态行为的抑郁症识别系统的各个模块的具体实施过程相同，此处不再累述。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(RandomAccessMemory，RAM)等。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种结合面部动态行为的抑郁症识别系统，其特征在于，包括：

数据获取模块，其用于获取待测试者面部视频数据集；

数据处理模块，其用于基于待测试者面部视频数据集，根据外部轮廓点位置构建人脸轮廓凸包，基于凸包分割面部区域，得到人脸轮廓RGB图像数据；基于人脸轮廓RGB图像数据提取对应的人脸轮廓动态光流图；

2.如权利要求1所述的一种结合面部动态行为的抑郁症识别系统，其特征在于，所述系统还包括数据增强模块，其用于对人脸轮廓RGB图像数据做二值化操作。

3.如权利要求1所述的一种结合面部动态行为的抑郁症识别系统，其特征在于，所述系统还包括抽帧模块，其用于视频长度调整帧率抽取关键图像帧，以视频总帧数与当前帧数的差值以及已抽帧数与剩余待抽帧数的差值为基础，取两个差值的商的取整数值作为下一帧的抽帧间隔。

4.如权利要求1所述的一种结合面部动态行为的抑郁症识别系统，其特征在于，数据处理模块中，基于AAM模型提取面部特征点并标记人脸轮廓，基于opencv的convexhull函数得到凸包，该凸包以人脸外轮廓为边界，将该凸包区域作为掩膜与原始图像进行与运算，分割得到仅包含人脸面部外轮廓的三通道图像，依据得到的眼睛部位特征点计算仿射变换矩阵，并将人脸的眼睛对齐到水平线上，得到人脸轮廓RGB图像数据。

5.如权利要求1所述的一种结合面部动态行为的抑郁症识别系统，其特征在于，所述数据处理模块中，采用deepflow光流提取法提取对应的人脸轮廓动态光流图。

6.如权利要求1所述的一种结合面部动态行为的抑郁症识别系统，其特征在于，所述症状预测模块中，采用两个独立的ResNet50深度网络提取图像面部表情时空特征，采用融合3D CNN的2D ResNet50网络提取视频面部行为时空特征。

7.如权利要求1所述的一种结合面部动态行为的抑郁症识别系统，其特征在于，所述症状预测模块中，基于Bi-LSTM双向长短期模块将提取的图像面部表情时空特征与视频面部行为时空特征拼接融合，Bi-LSTM网络通过两个LSTM网络组合拼接而成，其中一个LSTM网络正向处理输入特征，另一个LSTM网络反向处理输入特征，双向LSTM网络并行处理特征的前后依赖关系，并在最后一层将处理后的图像面部时空特征与视频面部时空特征进行特征的拼接融合。

8.如权利要求1所述的一种结合面部动态行为的抑郁症识别系统，其特征在于，所述分类结果包括未抑郁、轻度、中度、重度抑郁四类。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如下步骤：

获取待测试者面部视频数据集；

10.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如下步骤：

获取待测试者面部视频数据集；