CN113517064A

CN113517064A - 一种抑郁症程度评估方法、系统、装置及存储介质

Info

Publication number: CN113517064A
Application number: CN202110398234.6A
Authority: CN
Inventors: 樊小毛; 林宏拓; 何显亮; 戴嘉惠; 蓝连涛
Original assignee: South China Normal University
Current assignee: South China Normal University
Priority date: 2021-04-14
Filing date: 2021-04-14
Publication date: 2021-10-19

Abstract

本发明公开了一种抑郁症程度评估方法、系统、装置及存储介质；该方法包括获取第一视频，所述第一视频为包含人物表情变化和人物语音的视频；随机截取第一组图片，第一组图片为所述第一视频中的连续多帧图片；将第一组图片输入人脸表情识别模型中处理，得到多个表情特征向量；将多个表情特征向量输入微表情抑郁症识别模型中处理，得到第一评分；提取第一音频，第一音频为所述第一组图片对应的语音片段；将第一音频输入语音抑郁症识别模型中处理，得到第二评分；根据第一评分和第二评分，评估抑郁症程度；本发明有效地将语音与微表情这两个指标结合起来评估抑郁症程度，评估精度更高，鲁棒性更强。本发明可广泛应用于抑郁症评估技术领域。

Description

一种抑郁症程度评估方法、系统、装置及存储介质

技术领域

本发明涉及抑郁症评估技术领域，尤其是一种抑郁症程度评估方法、系统、装置及存储介质。

背景技术

抑郁症是当前最常见的精神疾病之一。据世界卫生组织2021年的调查，全球约有3.5亿人患有抑郁症，其中65％左右的患者有过自杀的念头，更有15％左右的患者自杀。这种疾病的症状有许多种，往往表现为长期情绪低落，沉溺于不良情绪，如悲伤、内疚、自卑、兴趣丧失、功能减退等，严重影响着人们的身心健康，其无疑对个人、家庭以及社会都是极大的损失。因此，尽早发现抑郁症，及时治疗，把问题扼杀在萌芽状态成为解决问题的关键；但医院检测抑郁症的流程十分复杂，很多人可能因懒惰、嫌麻烦或者没钱而不想去医院检查。

发明内容

本发明旨在至少解决现有技术中存在的技术问题之一。为此，本发明提出一种抑郁症程度评估方法、系统、装置及存储介质。

本发明所采取的技术方案是：

一方面，本发明实施例包括一种抑郁症程度评估方法，包括：

获取第一视频，所述第一视频为包含人物表情变化和人物语音的视频；

随机截取第一组图片，所述第一组图片为所述第一视频中的连续多帧图片；

将所述第一组图片输入人脸表情识别模型中处理，得到多个表情特征向量；

将多个所述表情特征向量输入微表情抑郁症识别模型中处理，得到第一评分；

提取第一音频，所述第一音频为所述第一组图片对应的语音片段；

将所述第一音频输入语音抑郁症识别模型中处理，得到第二评分；

根据所述第一评分和所述第二评分，评估抑郁症程度。

进一步地，所述将所述第一组图片输入人脸表情识别模型中处理之前，所述方法还包括：

对所述第一组图片进行预处理，所述预处理包括人脸检测处理和人脸对齐处理；

将预处理后的第一组图片通过线性反投影算法转化为LBP图片；

将所述LBP图片分成多个局部块，并提取每个所述局部块的直方图；

将每个所述局部块的直方图依次连接形成LBP特征的统计直方图，得到所述第一组图片对应的一维向量。

进一步地，所述方法还包括构建所述人脸表情识别模型，包括：

将所述第一组图片对应的一维向量输入多层感知机中，构建得到所述人脸表情识别模型。

进一步地，所述方法还包括构建所述微表情抑郁症识别模型，包括：

将多个所述表情特征向量按顺序拼接成一个第一特征向量；

将所述第一特征向量输入支持向量机中，构建得到所述微表情抑郁症识别模型。

进一步地，所述提取第一音频之后，所述方法还包括对所述第一音频进行预处理，包括：

剪去所述第一音频中的干扰语音片段和静音片段；

将剪去干扰语音片段和静音片段后的其余语音片段进行拼接，得到音频文件；

对所述音频文件进行裁剪，并使用Python对音频文件进行特征提取，得到语音特征。

进一步地，所述方法还包括构建所述语音抑郁症识别模型，包括：

将所述语音特征进行合并，得到语音特征向量；

将所述语音特征向量进行标记，并输入支持向量机中，构建得到所述语音抑郁症识别模型。

进一步地，所述方法还包括对所述语音抑郁症识别模型进行训练和测试，包括：

构建音频训练集和音频测试集；

获取所述音频训练集以对所述语音抑郁症识别模型进行训练；

获取所述测试集以验证所述语音抑郁症识别模型是否训练完成。

另一方面，本发明实施例还包括一种抑郁症程度评估系统，包括：

获取模块，用于获取第一视频，所述第一视频为包含人物表情变化和人物语音的视频；

截取模块，用于随机截取第一组图片，所述第一组图片为所述第一视频中的连续多帧图片；

第一处理模块，用于将所述第一组图片输入人脸表情识别模型中处理，得到多个表情特征向量；

第二处理模块，用于将多个所述表情特征向量输入微表情抑郁症识别模型中处理，得到第一评分；

提取模块，用于提取第一音频，所述第一音频为所述第一组图片对应的语音片段；

第三处理模块，用于将所述第一音频输入语音抑郁症识别模型中处理，得到第二评分；

评估模块，用于根据所述第一评分和第二评分，评估抑郁症程度。

另一方面，本发明实施例还包括一种抑郁症程度评估装置，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现所述的抑郁症程度评估方法。

另一方面，本发明实施例还包括计算机可读存储介质，其上存储有处理器可执行的程序，所述处理器可执行的程序在被处理器执行时用于实现所述的抑郁症程度评估方法。

本发明的有益效果是：

本发明通过将多个表情特征向量输入微表情抑郁症识别模型中处理，得到第一评分；将第一音频输入语音抑郁症识别模型中处理，得到第二评分；然后根据第一评分和第二评分，评估抑郁症程度，有效地将语音与微表情这两个指标结合起来评估抑郁症程度，相较于只基于语音或者只基于微表情来评估抑郁症程度的方式，本发明评估精度更高，鲁棒性更强。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1为本发明实施例所述抑郁症程度评估方法的步骤流程图；

图2为本发明实施例所述将人脸图片转化为一维向量的示意图；

图3为本发明实施例所述人脸面部表情的特征向量示意图；

图4为本发明实施例所述微表情抑郁症识别模型构建示意图；

图5为本发明实施例所述抑郁症程度评估装置的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

在本发明的描述中，需要理解的是，涉及到方位描述，例如上、下、前、后、左、右等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

在本发明的描述中，若干的含义是一个或者多个，多个的含义是两个以上，大于、小于、超过等理解为不包括本数，以上、以下、以内等理解为包括本数。如果有描述到第一、第二只是用于区分技术特征为目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。

本发明的描述中，除非另有明确的限定，设置、安装、连接等词语应做广义理解，所属技术领域技术人员可以结合技术方案的具体内容合理确定上述词语在本发明中的具体含义。

下面结合附图，对本申请实施例作进一步阐述。

参照图1，本发明实施例提出一种抑郁症程度评估方法，包括但不限于以下步骤：

S1.获取第一视频，所述第一视频为包含人物表情变化和人物语音的视频；

S2.随机截取第一组图片，所述第一组图片为所述第一视频中的连续多帧图片；

S3.将所述第一组图片输入人脸表情识别模型中处理，得到多个表情特征向量；

S4.将多个所述表情特征向量输入微表情抑郁症识别模型中处理，得到第一评分；

S5.提取第一音频，所述第一音频为所述第一组图片对应的语音片段；

S6.将所述第一音频输入语音抑郁症识别模型中处理，得到第二评分；

S7.根据所述第一评分和所述第二评分，评估抑郁症程度。

本发明实施例通过将抑郁症患者和健康人的语音数据和表情变化的视频数据用机器学习的方法分别训练出微表情抑郁症识别模型和语音抑郁症识别模型，用来捕捉抑郁症患者和健康人的语音和微表情的特征，从而达到抑郁症检测的目的。最终，可将这些模型部署在手机的App上，其对抑郁症的发现和监督具有十分重要的意义，同时可以让抑郁症的识别变得简单便捷，以及有效提高人们对抑郁症的重视程度，对实现全民心理健康起到了重要的推进作用。

本实施例中，在步骤S3之前，也就是所述将所述第一组图片输入人脸表情识别模型中处理之前，所述方法还包括：

具体地，本实施例在构建和训练出微表情抑郁症识别模型之前，要先构建得到人脸表情识别模型，以提取人脸面部表情的特征向量，具体地，首先采用人脸表情数据集JAFFE(包括人类生、恶心、害怕、开心、中性、伤心、惊讶七种基本表情的数据集)来训练一个人脸表情识别模型。对于人脸图片来说，首先要对其进行预处理(包括人脸检测和人脸对齐)。再将预处理完后的人脸图片，通过线性反投影算法转化为具有纹理特征的图片(即LBP图片)，因为这样对人脸的面部表情的识别有显著的帮助。然后将LBP图片分成m个局部块，并提取每个局部块的直方图，接着将这些直方图依次连接在一起形成LBP特征的统计直方图(形成一维向量)，再将其放入多层感知机进行人脸表情识别模型(modelA)的构建。最终构建得到的人脸表情识别模型用来提取人脸面部表情的特征向量(如图3所示)，人脸图片转化为一维向量的流程如图2所示。

在构建并训练好人脸表情识别模型之后，可进一步构建和训练微表情抑郁症识别模型。本实施例中，考虑到动态的表情变化比静态的表情效果更好，从网络上收集了很多抑郁症患者和健康人的表情变化视频，从每一个视频中随机提取出连续的四帧图片作为一个数据，然后将每一个数据的四张图片经过如图2所示的转化方式转化成一维向量后，分别输入到人脸表情识别模型(modelA)中，得出4个表情特征向量，接着将这4个向量按顺序拼接成一个四倍长度的特征向量，最后将所有的特征向量放入支持向量机中，构建得到微表情抑郁症识别模型(modelB)，构建流程如图4所示。

本实施例中，通过获取语音数据，并提取语音特征向量，放入支持向量机中，构建得到语音抑郁症识别模型；具体地，本实施例通过app收集用户的语音数据用作分析。采取机器人提问，用户回答问题的形式，以16000的采样率，wav格式的方式，获取用户的回答语音。为了能够更好地提取收集到的音频文件中的特征，本实施例先对音频样本进行预处理。被试者在听机器人进行提问的时候是没有语音信息的，而且机器人的声音会对特征提取进行干扰，于是要把这一部分语音段减去。其次，还要剪去长时间的静音段(非语音)，再将其余部分拼接为一个新的音频文件。每个被试者的语音长度都不同，为了统一处理，将每一个有效的音频文件进行裁剪，以10秒为移动步长，以30秒为截取窗口；使用Python对音频文件进行特征提取，提取得语音的Mel频率倒谱系数等特征。本实施例对于2017AVEC数据库中的数据经过预处理之后一共得到3990个音频片段样本，其中划分为训练集包含2881段，测试集1109段。获取到的训练集和测试集可进一步对语音抑郁症识别模型进行训练和测试。

本实施例中，将提取到的语音特征合并成语音特征向量，打上标记放入支持向量机中构建得到语音抑郁症识别模型。然后，根据模型训练结果和报告不断调整模型参数，得到最优的结果并输出训练好的语音抑郁症识别模型。

同样地，本实施例也通过同样的方法对人脸表情识别模型、微表情抑郁症识别模型进行训练和测试，得到训练好的人脸表情识别模型和训练好的微表情抑郁症识别模型；在三个模型都训练好以后，进行有效结合；具体地，获取一个包含人物表情变化和人物语音的视频，随机截取视频中的连续4帧图片，进这连续4帧图片先经过如图2所示的转化方式转化成一维向量，然后，输入训练好的人脸表情识别模型(modelA)中处理，再输入训练好的微表情抑郁症识别模型(modelB)中处理，得出一个评分S1；然后将视频中的连续4帧图片对应的的音频部分提取出来，输入训练好的语音抑郁症识别模型(modelC)中得到另一个评分S2，最终将这两个评分以一定的权重结合起来得到最终评分S；本实施例中，评分越高代表患抑郁症的可能性越大(或者说抑郁程度越大)。

本发明实施例所述抑郁症陈程度评估方法具有以下技术效果：

本发明实施例通过将多个表情特征向量输入微表情抑郁症识别模型中处理，得到第一评分；将第一音频输入语音抑郁症识别模型中处理，得到第二评分；然后根据第一评分和第二评分，评估抑郁症程度，有效地将语音与微表情这两个指标结合起来评估抑郁症程度，相较于只基于语音或者只基于微表情来评估抑郁症程度的方式，本发明评估精度更高，鲁棒性更强。

本实施例还提出一种抑郁症程度评估系统，包括：

参照图5，本发明实施例还提出一种抑郁症程度评估装置200，具体包括：

至少一个处理器210；

至少一个存储器220，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器210执行，使得所述至少一个处理器210实现如图1所示的方法。

其中，存储器220作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序以及非暂态性计算机可执行程序。存储器220可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中，存储器220可选包括相对于处理器210远程设置的远程存储器，这些远程存储器可以通过网络连接至处理器210。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

可以理解到，图5中示出的装置结构并不构成对装置200的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图5所示的装置200中，处理器210可以调取存储器220中储存的程序，并执行但不限于图1所示实施例的步骤。

以上所描述的装置200实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现实施例的目的。

本发明实施例还提供了一种计算机可读存储介质，该计算机可读存储介质存储有处理器可执行的程序，所述处理器可执行的程序在被处理器执行时用于实现如图1所示的方法。

本申请实施例还公开了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行图1所示的方法。

可以理解的是，上文中所公开方法中的全部或某些步骤、系统可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器，如中央处理器、数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

上面结合附图对本发明实施例作了详细说明，但是本发明不限于上述实施例，在技术领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.一种抑郁症程度评估方法，其特征在于，包括：

根据所述第一评分和所述第二评分，评估抑郁症程度。

2.根据权利要求1所述的一种抑郁症程度评估方法，其特征在于，所述将所述第一组图片输入人脸表情识别模型中处理之前，所述方法还包括：

将预处理后的所述第一组图片通过线性反投影算法转化为LBP图片；

3.根据权利要求2所述的一种抑郁症程度评估方法，其特征在于，所述方法还包括构建所述人脸表情识别模型，包括：

4.根据权利要求1所述的一种抑郁症程度评估方法，其特征在于，所述方法还包括构建所述微表情抑郁症识别模型，包括：

将多个所述表情特征向量按顺序拼接成一个第一特征向量；

5.根据权利要求1所述的一种抑郁症程度评估方法，其特征在于，所述提取第一音频之后，所述方法还包括对所述第一音频进行预处理，包括：

剪去所述第一音频中的干扰语音片段和静音片段；

6.根据权利要求5所述的一种抑郁症程度评估方法，其特征在于，所述方法还包括构建所述语音抑郁症识别模型，包括：

将所述语音特征进行合并，得到语音特征向量；

7.根据权利要求5所述的一种抑郁症程度评估方法，其特征在于，所述方法还包括对所述语音抑郁症识别模型进行训练和测试，包括：

构建音频训练集和音频测试集；

8.一种抑郁症程度评估系统，其特征在于，包括：

9.一种抑郁症程度评估装置，其特征在于，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现如权利要求1-7任一项所述的方法。

10.计算机可读存储介质，其特征在于，其上存储有处理器可执行的程序，所述处理器可执行的程序在被处理器执行时用于实现如权利要求1-7任一项所述的方法。