CN114241599A

CN114241599A - 一种基于多模态特征的抑郁倾向测评系统和方法

Info

Publication number: CN114241599A
Application number: CN202111406942.6A
Authority: CN
Inventors: 朱心红; 王新安; 戴子茜; 何建容; 喻方桦; 李秋平; 曹莉萍; 王梦瑶; 张晓菲; 孙加琪
Original assignee: Guangdong Provincial Laboratory Of Artificial Intelligence And Digital Economy Guangzhou
Current assignee: Guangdong Provincial Laboratory Of Artificial Intelligence And Digital Economy Guangzhou
Priority date: 2021-11-24
Filing date: 2021-11-24
Publication date: 2022-03-25

Abstract

本申请公开了一种基于多模态特征的抑郁倾向测评系统和方法，该抑郁倾向测评系统包括原始数据采集装置、数据预处理装置、多模态特征提取装置和结果输出装置。原始数据采集装置用于采集原始数据，数据预处理装置用于从原始数据中提取待处理数据，多模态特征提取装置用于依据待处理数据获取多模态特征数据，结果输出装置用于将多模态特征数据输入一抑郁倾向测评数学模型，以获取抑郁倾向测评结果。由于多模态特征数据包括待测用户的面部特征数据、音频特征数据和步态特征数据，并将该多模态特征输入抑郁倾向测评数学模型以实现对待测用户的抑郁倾向测评，进而提高抑郁倾向测评的准确性。

Description

一种基于多模态特征的抑郁倾向测评系统和方法

技术领域

本发明涉及人体检测系统和检测数据处理与智能分析技术领域，具体涉及一种基于多模态特征的抑郁倾向测评系统和方法。

背景技术

当今社会人们的压力越来越大，过大的压力会使人产生抑郁倾向，严重影响人们的学习、工作和生活。抑郁倾向在人们的生活中普遍存在，其主要表现为心情低落、注意偏差、记忆力降低等等。目前常见的自查抑郁倾向的测量方法通常采用心理健康自查表，如《状况自评表SCL90》、《伯恩斯抑郁状况自查表》等等。在此背景下，运用人工智能技术辅助医生进行病患的筛查和识别，减轻医生的工作压力，具有重要的现实意义。

现有基于人工智能技术的抑郁症检测方法中，基于面部表情、语音的较多。在基于面部表情的特征提取中，AUs和Landmarks已被证实是有效特征，但低维的手工特征仍无法代表整个面部信息，造成大量信息损失。在基于音频的特征提取中，虽然声学特征提取的方式多种多样，但缺乏泛化能力强、能消除因特征不同或同一特征实现方式不同所造成差异的简约、可自动提取的特征集。基于步态进行抑郁症检测的研究较为缺失，尚没有行之有效的解决方案。

发明内容

本发明主要解决的技术问题是如何基于面部表情、语音和步态的多模态进行抑郁倾向的评测。

第一方面，一种实施例中提供一种基于多模态特征的抑郁倾向测评系统，其特征在于，包括：

原始数据采集装置，用于采集原始数据，所述原始数据包含待测用户面部的视频数据、包含待测用户声音的音频数据和包含待测用户步态的视频数据；

数据预处理装置，用于从所述原始数据中提取待处理数据，所述待处理数据包括待测用户的面部视频数据、音频数据和步态视频数据；

多模态特征提取装置，用于依据所述待处理数据获取多模态特征数据，所述多模态特征数据包括面部特征数据、音频特征数据和步态特征数据；所述面部特征数据包括面部特征向量；所述音频特征数据包括语音特征向量；所述步态特征数据包括步态特征向量；

结果输出装置，用于将所述多模态特征数据输入一抑郁倾向测评数学模型，以获取抑郁倾向测评结果。

一实施例中，所述依据所述待处理数据获取多模态特征数据，包括：

对所述面部视频数据按一预设帧率进行采样，以获取面部图片；

对采样获取的每一帧所述面部图片使用MTCNN网络进行人脸图像裁剪和对齐；

采用面部编码器对裁剪后的所述面部图片进行特征提取，以获取所述面部特征向量；其中，所述面部编码器以ResNet-50作为主干网络。

对所述音频数据按一预设步长截取短期帧；

通过支持向量机模型对所述短期帧进行筛选，以裁减掉非语音段并保留语音段；

对筛选后的所述短期帧进行拼接，以获取预设时间长度的音频片段；

提取所述音频片段的音频统计特性；所述音频统计性包括频率特征、能量特征和/或谱特征；

计算每个所述音频片段的梅尔功率谱图；

应用卷积神经网络对所述音频统计特性进行特征提取，以获取音频特性特征；

和所述梅尔功率谱图进行特征提取，以获取梅尔功率谱图特征；

将所述音频特性特征和所述梅尔功率谱图特征进行中期融合，以获取所述语音特征向量。

对所述步态视频数据按一预设帧率进行采样，以获取步态图片；

对采样获取的每一帧所述步态图片用OpenPose工具提取人体25个关键点的坐标，以获得步态特征矩阵；

采用步态编码器对所述步态特征矩阵进行特征提取，以获取所述步态特征向量。

一实施例中，所述步态编码器包括图卷积网络、时间卷积网络和空间自注意力网络。

一实施例中，所述对采样获取的每一帧所述步态图片用OpenPose工具提取人体25个关键点的坐标，以获得步态特征矩阵，包括：

每个所述坐标有x，y，z三个分量，每一帧所述步态图片对应的特征向量矩阵维度为（m,n）；其中，m和n为自然数；

依据所述步态视频数据得到一个连续的时间序列数据，将所述时间序列数据转换为所述步态特征矩阵，所述步态特征矩阵的维度为（N，n，T，m）；其中，N为样本数，T为每个样本的帧数。

一实施例中，所述抑郁倾向测评数学模型的获取方法包括：

构建样本集，获取以评级的抑郁症患者和非抑郁症患者的面部视频数据、音频数据和步态视频数据；依据以评级的所述抑郁症患者和非抑郁症患者的面部视频数据、音频数据和步态视频数据获取所述多模态特征数据；以评级的所述抑郁症患者和非抑郁症患者是依据汉密顿抑郁量表进行抑郁值评分；

将所述面部特征向量、所述语音特征向量和所述步态特征向量进行融合，并通过回归获得对应所述汉密顿抑郁量表的抑郁值；所述抑郁倾向测评结果为对应所述汉密顿抑郁量表的抑郁值。

一实施例中，所述将所述面部特征向量、所述语音特征向量和所述步态特征向量进行融合，并通过回归获得对应所述汉密顿抑郁量表的抑郁值，包括：

对所述面部特征向量、所述语音特征向量和所述步态特征向量进行级联；

通过SVR回归网络获得对应所述汉密顿抑郁量表的抑郁值。

第二方面，一种实施例中提供一种基于多模态特征的抑郁倾向测评方法，包括：

采集原始数据，所述原始数据包含待测用户面部的视频数据、包含待测用户声音的音频数据和包含待测用户步态的视频数据；

从所述原始数据中提取待处理数据，所述待处理数据包括待测用户的面部视频数据、音频数据和步态视频数据；

依据所述待处理数据获取多模态特征数据，所述多模态特征数据包括面部特征数据、音频特征数据和步态特征数据；所述面部特征数据包括面部特征向量；所述音频特征数据包括语音特征向量；所述步态特征数据包括步态特征向量；

将所述多模态特征数据输入一抑郁倾向测评数学模型，以获取抑郁倾向测评结果。

第三方面，一种实施例中提供一种计算机可读存储介质，所述介质上存储有程序，所述程序能够被处理器执行以实现如第二方面所述的抑郁倾向测评方法。

依据上述实施例的基于多模态特征的抑郁倾向测评系统，包括原始数据采集装置、数据预处理装置、多模态特征提取装置和结果输出装置。原始数据采集装置用于采集原始数据，数据预处理装置用于从原始数据中提取待处理数据，多模态特征提取装置用于依据待处理数据获取多模态特征数据，结果输出装置用于将多模态特征数据输入一抑郁倾向测评数学模型，以获取抑郁倾向测评结果。由于多模态特征数据包括待测用户的面部特征数据、音频特征数据和步态特征数据，并将该多模态特征输入抑郁倾向测评数学模型以实现对待测用户的抑郁倾向测评，进而提高抑郁倾向测评的准确性。

附图说明

图1为一种实施例中抑郁倾向测评系统的结构示意图；

图2为一种实施例中eGeMAPs特征集和梅尔功率谱图特征提取的网络结构；

图3为一种实施例中步态编码器的网络结构示意图；

图4为一种实施例中抑郁倾向测评数学模型的总体框图；

图5为另一种实施例中抑郁倾向测评方法的流程示意图。

具体实施方式

下面通过具体实施方式结合附图对本发明作进一步详细说明。其中不同实施方式中类似元件采用了相关联的类似的元件标号。在以下的实施方式中，很多细节描述是为了使得本申请能被更好的理解。然而，本领域技术人员可以毫不费力的认识到，其中部分特征在不同情况下是可以省略的，或者可以由其他元件、材料、方法所替代。在某些情况下，本申请相关的一些操作并没有在说明书中显示或者描述，这是为了避免本申请的核心部分被过多的描述所淹没，而对于本领域技术人员而言，详细描述这些相关操作并不是必要的，他们根据说明书中的描述以及本领域的一般技术知识即可完整了解相关操作。

另外，说明书中所描述的特点、操作或者特征可以以任意适当的方式结合形成各种实施方式。同时，方法描述中的各步骤或者动作也可以按照本领域技术人员所能显而易见的方式进行顺序调换或调整。因此，说明书和附图中的各种顺序只是为了清楚描述某一个实施例，并不意味着是必须的顺序，除非另有说明其中某个顺序是必须遵循的。

本文中为部件所编序号本身，例如“第一”、“第二”等，仅用于区分所描述的对象，不具有任何顺序或技术含义。而本申请所说“连接”、“联接”，如无特别说明，均包括直接和间接连接（联接）。

抑郁倾向评估有助于对抑郁症患者的早期介入治疗，提高治疗效果和降低医疗伤害。在本发明实施例中，首先采集原始数据，其中，原始数据包含待测用户面部的视频数据、包含待测用户声音的音频数据和包含待测用户步态的视频数据；然后再从原始数据中提取待处理数据；再依据待处理数据获取多模态特征数据，其中，多模态特征数据包括面部特征数据、音频特征数据和步态特征数据；最后将多模态特征数据输入一抑郁倾向测评数学模型，以获取抑郁倾向测评结果。由于将多模态特征输入抑郁倾向测评数学模型来实现对待测用户的抑郁倾向测评，使得抑郁倾向测评的准确性更高。

实施例一

请参考图1，为一种实施例中抑郁倾向测评系统的结构示意图，该抑郁倾向测评系统包括原始数据采集装置1、数据预处理装置2、多模态特征提取装置3和结果输出装置4。原始数据采集装置1用于采集原始数据，原始数据包含待测用户面部的视频数据、包含待测用户声音的音频数据和包含待测用户步态的视频数据。一实施例中，原始数据采集装置1包括视频采集装置和音频获取装置，视频采集装置包括摄像机或摄像头，以用于获取待测用户的视频图像，音频获取装置包括拾音器，以用于采集待测用户的语音信息。数据预处理装置2用于从原始数据中提取待处理数据，待处理数据包括待测用户的面部视频数据、音频数据和步态视频数据。多模态特征提取装置3用于依据待处理数据获取多模态特征数据，多模态特征数据包括面部特征数据、音频特征数据和步态特征数据。其中，面部特征数据包括面部特征向量，音频特征数据包括语音特征向量，步态特征数据包括步态特征向量。结果输出装置4用于将多模态特征数据输入一抑郁倾向测评数学模型，以获取抑郁倾向测评结果。

一实施例中，面部特征向量的获取方法包括：

首先对面部视频数据按一预设帧率进行采样，以获取面部图片；

然后对采样获取的每一帧面部图片使用MTCNN网络进行人脸图像裁剪和对齐；

再采用面部编码器对裁剪后的面部图片进行特征提取，以获取面部特征向量。其中，面部编码器以ResNet-50作为主干网络。

下面举例说明面部特征向量的获取过程，包括：

（1）将面部视频数据以10FPS的帧率进行采样，对每一帧面部图片使用MTCNN网络（Multi-task Cascaded Convolutional Networks）进行人脸图像裁剪和对齐，将所有图片裁剪到3 ×224×224的尺寸，即3个颜色通道长款均为224。

（2）以ResNet-50作为主干网络，对裁剪后的图片进行特征提取，获得维度为1×2048的面部特征向量。

一实施例中，语音特征向量的获取方法包括：

首先对音频数据按一预设步长截取短期帧；

然后通过支持向量机模型对短期帧进行筛选，以裁减掉非语音段并保留语音段；

再对筛选后的短期帧进行拼接，以获取预设时间长度的音频片段；

提取音频片段的音频统计特性，并计算每个音频片段的梅尔功率谱图。其中，音频统计性包括频率特征、能量特征和/或谱特征；

应用卷积神经网络对音频统计特性梅尔功率谱图进行特征提取，以获取音频特性特征和梅尔功率谱图特征；

最后将音频特性特征和梅尔功率谱图特征进行中期融合，以获取语音特征向量。

下面举例说明面语音特征向量的获取过程，包括：

1）先对音频数据进行非语音段剔除，以保留有效语音段。再以固定步长的短期帧在原始文件上滑动，提取短期特征，并通过支持向量机（SVM）模型对所有短期帧进行筛选，裁减掉非语音段，保留语音段。经实验微调，确定短期帧步长为20毫秒，SVM平滑窗口为1秒，筛选非语音段的动态阈值为0.3。

2）将每个原始音频数据切分后的语音段拼接在一起，切割成4秒钟的片段。此操作的原因是因为抑郁症患者在讲话时具有停顿、缓慢的特点，故比一般的语音分析更需关注长时间的特征变换。由于不同样本访谈时间的相差范围很大，直接分析整个音频文件会出现额外的偏差，故遵获取实验数据的经验将文件分为4秒钟的片段。

3）对每个音频片段，用openSMILE工具包提取eGeMAPs特征集包含的88个高阶统计特征。这些特征由低阶的频率特征、能量特征、谱特征计算得到，蕴含音频的音质、韵律、频谱、时频等信息。提取过程中采取分帧方式，包括：

窗长64毫秒，每次向前滑动的步长为32毫秒，即每帧代表32毫秒时间长度的信息。一个4秒的片段共切分为4/0.032=125个音频段像素点。最终提取的特征向量维度为（N,125,88）.N代表4毫秒的音频片段数，88对应88个统计特征。

4）对每个音频片段，通过预加重、分帧、加窗、FFT变换、计算log功率谱、叠加滤波器组得到其梅尔功率谱图。其中，分帧时的帧长为32毫秒，一个4秒钟的音频片段分为4/0.032=125个像素点。共叠加128个滤波器对（0，8k）Hz的音频信号进行建模。最终获得特征向量的维度为（N,125,128）,N代表4毫秒音频段数。

一实施例中，对每个音频片段，计算其梅尔功率谱图的步骤包括：

首先，通过预加重改善信噪比，平滑图谱，并补偿发声中被抑制的高频信号，其滤波公式为：

y（t）= x（t）-a×x（t-1）；

其中，x（t）表示原始信号，a为滤波器系数。

然后，通过分帧将音频分割为短时平稳信号。

再对信号加汉明窗增加帧左端和右端之间的连续性，减少频谱变换过程中由于非平稳语音信号带来的频谱泄露现象。一实施例中，信号加汉明窗公式为：

W(m，b)=（1-b）-b×cos[2πn/（N-1）];

其中，0≤n≤N-1,N为窗口长度。

再对信号进行短时傅里叶变换（FFT变换），得到频率上的能量分布，FFT变换公式为：

；

其中，

，0≤k≤N-1，x（n）表示有限长的输入信号。

再计算log功率谱。log功率谱的计算公式为：

；

最后将语音频率变换为感知频率，以更好的模拟听觉过程，变换公式为：

f_mel=2595×log₁₀（1+f/700）；

其中，f_mel是以梅尔（mel）为单位衡量感知频率，f以赫兹为单位衡量实际频率。

将功率谱经过一组梅尔滤波器，以达到对低频关注更多，高频关注更少的效果。梅尔滤波器的响应公式如下：

；

将滤波器输出应用到功率谱得到梅尔功率谱图，公式如下：

；

其中，logP（k）表示log功率图谱中第k个能量，将对应频率范围内多个滤波器的频率响应权重累加，计算能量加权和。

5）用卷积神经网络（CNN）对eGeMAPs特征集进行特征提取，对维度为（N,125,88）的eGeMAPs特征集对应的特征矩阵，用一维卷积进行特征提取。共使用三个CNN卷积层，输出通道数分别为64,64,32，最后用一个Flatten层将其一维化，便于与梅尔功率谱图特征进行中期融合。

6）用卷积神经网络（CNN）对梅尔功率谱图进行特征提取，对维度为（N,125,128）的梅尔功率谱图特征矩阵，用一维卷积进行特征提取，所使用网络结构与步骤5）中所述的内容相同。最后得到一维的特征，便于与eGeMAPs特征集特征进行中期融合。请参考图2，为一种实施例中eGeMAPs特征集和梅尔功率谱图特征提取的网络结构，将从eGeMAPs特征集和梅尔功率谱图提取的特征进行中期融合。其中，用eGeMAPS特征集与梅尔功率谱图中期融合的原因是：

eGeMAPS特征集是手工简约特征集，由通过25个低阶特征计算得到的88个高阶统计特征组成，涵盖音质、韵律、频谱、时频信息，能够做到在较低的特征维度下实现情感的有效表征。25个低阶特征包括8个与频率相关特征、3个与能量和振幅相关特征及14个与谱相关特征。

声谱图是通过时频变化形成的二维声音特征，显示音频信号随时间变化的频率分量幅值，可直观图示出音频在时频域中的变化情况。在声谱图中，颜色越深，频谱值越大，从而形成的深浅纹理特征可以反应讲话者的话语信息。它很好地保留了音频的高水平细节特征，可以在抑郁识别任务中提供更有价值的情绪信息，与由低水平特征组成的eGeMAPS特征集互补。常见的声谱图有语谱图、梅尔功率谱和梅尔频率谱等。通过比较不同的声谱图，发现梅尔功率谱图中声音与噪声的纹路区分更明显，能更好地表征音频能量分布的情况。且由梅尔功率谱图提取的特征在噪音干扰下表现出更好地鲁棒性。本申请一实施例将eGeMAPS特征集与梅尔功率谱提取到的特征进行中期融合，最终得到语音特征向量，并在AVEC2013和2014数据集上通过实验证明了其比单一特征具有更好地表征能力。

最后将步骤5）和步骤6）中提取的特征沿维数相同的维度进行拼接，通过多层感知机进行中期融合，以获取语音特征向量。

一实施例中，步态特征向量的获取方法包括：

首先对步态视频数据按一预设帧率进行采样，以获取步态图片；

然后对采样获取的每一帧步态图片用OpenPose工具提取人体25个关键点的坐标，以获得步态特征矩阵。一实施例中，每个坐标有x，y，z三个分量，每一帧所述步态图片对应的特征向量矩阵维度为（m,n）。依据步态视频数据得到一个连续的时间序列数据，将时间序列数据转换为步态特征矩阵，步态特征矩阵的维度为（N，n，T，m）。其中， N为样本数，T为每个样本的帧数；N、T、m和n都为自然数；

最后采用步态编码器对步态特征矩阵进行特征提取，以获取步态特征向量。其中，步态编码器包括图卷积网络、时间卷积网络和空间自注意力网络。

步态特征向量的获取依据是：

心理学研究显示，由步态骨骼图提取出的一组手工特征能够表现样本的心情状态，对抑郁识别任务中有所帮助。结合由Openpose提取出的25个人体关节点坐标，我们提取出18维手工特征。主要由以下几部分组成：

a）在某关节处观测到的其他两个关节所成角度。

如两肩膀关节与脖子关节连线所成角度，若样本精神低落，则该角度较小。

b）两组关节对之间距离的比值。

如手关节与脖子关节距离和手关节与臀部根关节距离的比值，表示手臂的摆动情况。

c）两组三个关节围成面积的比值。

如两手肘关节与脖子关节围成面积和两手肘关节与臀部根关节围成面积的比值，表示手臂摆动和弯腰情况。

在步态特征提取过程中，可将步态编码器处理过后得到的1×32维向量与1×18维的特征向量拼接，作为步态的表征向量进行后续的处理。

下面举例说明步态特征向量的获取过程，包括：

Ⅰ.将步态视频以10FPS的帧率进行采样。对采样得到的每一帧图片，用OpenPose工具提取人体25个关键点的坐标。每个坐标有x，y，z三个分量，即每帧对应的的特征向量矩阵维度为（25,3）。对每一个步态视频，得到一个连续的时间序列数据，最终特征向量矩阵的维度为（N，3，T，25）。其中N为样本数，T为每个样本的帧数。

Ⅱ.将提取的特征向量矩阵输入步态编码器进行特征提取。请参考图3，为一种实施例中步态编码器的网络结构示意图，步态编码器网络结构由图卷积网络（GCN）、时间卷积网络（TCN）、空间自注意力网络（Spatial Self-Attention）构成。第一层ST-GCN网络单元由一层GCN叠加一层TCN组成，后两层SSA-TCN网络单元由一层Spatial Self-Attention叠加一层TCN构成。三个网络单元的输出通道数分别为64,64,32。

一实施例中，图卷积网络（GCN）包括：

在图G=｛ν，ξ｝中，有N个节点。图G对应的特征图H^o有N行，与N个节点相对应。GCN的表达式如下：

；

其中，

，

，

和

分别表示第l层GCN的输入和输出特征矩阵，A为图的邻接矩阵，l _n为对应维度的单位矩阵。

A+l _n表示图中节点之间的连接关系，其中引入了每个节点自身的信息。

为度数矩阵，其对角线上的每个元素代表每个节点的度。

将邻接矩阵进行对称标准化，避免因每个节点的信息尺度不同造成数值尺度不统一的问题。

W为可学习的权重矩阵，同时可对特征维度进行变换。本实施例中采用GCN的原因是：

传统的CNN主要针对分布在欧式空间的数据，这些数据具有规则的空间结构，例如图片是规则的2D或3D网格。人体骨骼图由若干关节点和它们之间的连线组成，具有不规则的图结构，节点的邻居节点数不确定，无法通过固定的卷积核适应整个图的不规则性。图卷积将卷积神经网络推广到任意图结构，适用于该种情况下的特征提取。它的核心思想是利用每个节点边的信息对节点信息进行聚合，从而生成新的节点表示。

一实施例中，时间卷积网络（TCN）包括：

TCN对时间轴上的同一关节点特征进行CNN计算。若特征向量尺度为（N，C，T，V），其中N为样本数，C为特征通道数，T为样本序列帧数，V为关节点数，则在(T，V)维度以K_t×1的卷积核进行卷积，K_t为感受野覆盖帧数的长度。

本实施例中采用TCN的原因是：

由于步态是连续的视频数据，有空间和时间两个维度上的信息。骨架步态时空图以固定的人体关节为点，包含时间边和空间边两种边。空间边为一帧内各关节点之间的物理连接，时间边为相邻时间步相同关节点之间的连接。ST-GCN网络层由一层GCN网络和一层TCN网络堆叠得到。GCN网络处理每一帧内的步态数据，TCN网络对时间轴上的同一关节点特征进行CNN计算。

一实施例中，空间自注意力网络（Spatial Self-Attention）包括：

对每一帧的骨架步态图，通过self-attention机制提取能够反应关节点之间关系的特征表示。

对t时间节点帧的每个关节点υ_ti，计算向量q_i ^t，k_i ^t，υ_i ^t。

对于每一对关节点对

，通过点积

求得分数

，代表两节点之间的相关性。利用分数

对节点υ_tj 的值υ_i ^t施加权重。表示节点υ_ti的新特征向量z_i ^t由如下加权求和得到：

；

其中，d_k为k_i ^t的通道数。

应用Multi-headed attention机制，通过不同的可学习参数对同一个节点进行self-attention的Nn次，得到一组特征向量（z_i1 ^t，…，z_in ^t），将concat（z_i1 ^t，…，z_in ^t）乘以学习得到的参数矩阵Wo ，得到最终的特征向量zit。

本实施例采用Attention的原因是：

在GCN 的运算中，对于每个节点，只利用了与它的邻域节点进行信息聚合，而在物理上没有连接的节点之间的相关性无法体现。为改善这一情况，考虑引入self-attention机制。

Attention机制最早应用在NLP任务中，它的作用是通过非局部的运算，基于单词之间的相关性，对每个单词的特征向量进行扩充。通过从周围的语境中收集线索，attention机制能够从每个单词中提取更好的特征表示，动态地在短语内部和短语之间建立关系。近年来，attention机制被应用在cv领域的多种任务中，且表现出了良好的性能。它能够对一定范围内的依赖关系进行建模的特点刚好可以改善GCN的缺陷。

在本一实施例中，对每一帧的骨架步态图，通过self-attention机制提取能够反应关节点之间关系的特征表示。

一实施例中，抑郁倾向测评数学模型的获取方法包括：

构建样本集，获取以评级的抑郁症患者和非抑郁症患者的面部视频数据、音频数据和步态视频数据。依据以评级的抑郁症患者和非抑郁症患者的面部视频数据、音频数据和步态视频数据获取多模态特征数据；以评级的抑郁症患者和非抑郁症患者是依据汉密顿抑郁量表进行抑郁值评分。

将面部特征向量、语音特征向量和步态特征向量进行融合，并通过回归获得对应所述汉密顿抑郁量表的抑郁值；抑郁倾向测评结果为对应汉密顿抑郁量表的抑郁值。即对面部特征向量、语音特征向量和步态特征向量进行级联，通过SVR回归网络获得对应汉密顿抑郁量表的抑郁值。

下面举例说明抑郁倾向测评数学模型的获取过程，请参考图4，为一种实施例中抑郁倾向测评数学模型的总体框图，抑郁倾向测评数学模型的获取过程包括：

步骤一：构建样本集，包含不同程度抑郁症患者和非抑郁症患者在访谈中的面部视频、音频和行走时的步态。

步骤二：用表情编码器对预处理之后的面部图片进行特征提取，获得能表征抑郁相关信息的面部特征向量。

步骤三：对预处理之后的原始音频进行切分，并得到其eGeMAPs特征集和梅尔功率谱图，进行特征提取和特征融合，获取能表征抑郁相关信息的语音特征向量。

步骤四：使用步态编码器，对预处理后的步态视频进行特征提取，获得能表征抑郁相关信息的步态特征向量。

步骤五：对上述三个模态得到的特征向量进行中期融合，并通过回归获得汉密顿抑郁量表（Hamilton Depression Scale，HAMD）的抑郁评分，反映被试者的抑郁状况。一实施例中，得到抑郁评分的过程为，将三个模态的特征向量进行级联，通过SVR回归输出一个分数值。对于1×2048维的面部特征向量，通过通道数逐层递减的全连接层降低其维度，四层全连接层的通道数分别为2048,1024,128和32。在这之后，用SVR对级联后三个模态的特征向量进行回归得出抑郁评分。

在本申请实施例中公开的抑郁倾向测评系统，结合面部、语音和步态的多模态融合进行抑郁症的检测。实施例中所提出的各个模态的算法均已经过算法验证。在AVEC 2013和2014数据集上，基于面部的抑郁症检测取得MAE为6.38和6.36，基于语音的抑郁症检测取得MAE分别为为7.66和7.21。抑郁步态数据集可不断的完善，在Emotion-Gait数据集上进行基于步态的情绪分类任务，分类准确度为87.50%。一实施例中，面部和语音样本数以达到68个样本，在这68个样本上进行基于面部和语音多模态融合的抑郁症检测，MAE为8.29。与现有技术相比，本申请公开的抑郁倾向测评系统在面部表情上，用编码器提取高维向量，充分表征面部蕴含的信息。在音频方面，将手工音频特征集eGeMAPs与梅尔功率谱图结合，优势互补，使得所提取特征不因参与者个体信息变化，具有较好的鲁棒性和有效表征意义。在步态方面，充分利用步态的时间、空间信息，提取步态特征向量，并加入到多模态的融合中，改善基于步态的抑郁症检测较为缺失的情况。通过多模态的融合，提高抑郁检测模型的预测精度和鲁棒性。

本申请公开的抑郁倾向测评系统包括原始数据采集装置、数据预处理装置、多模态特征提取装置和结果输出装置。原始数据采集装置用于采集原始数据，数据预处理装置用于从原始数据中提取待处理数据，多模态特征提取装置用于依据待处理数据获取多模态特征数据，结果输出装置用于将多模态特征数据输入一抑郁倾向测评数学模型，以获取抑郁倾向测评结果。由于多模态特征数据包括待测用户的面部特征数据、音频特征数据和步态特征数据，并将该多模态特征输入抑郁倾向测评数学模型以实现对待测用户的抑郁倾向测评，进而提高抑郁倾向测评的准确性。

实施例二

请参考图5，为另一种实施例中抑郁倾向测评方法的流程示意图，该抑郁倾向测评方法，包括：

步骤110，采集原始数据。

原始数据包含待测用户面部的视频数据、包含待测用户声音的音频数据和包含待测用户步态的视频数据；

步骤120，获取待处理数据。

从原始数据中提取待处理数据，待处理数据包括待测用户的面部视频数据、音频数据和步态视频数据。

步骤130，获取多模态特征数据。

依据待处理数据获取多模态特征数据，多模态特征数据包括面部特征数据、音频特征数据和步态特征数据。其中，面部特征数据包括面部特征向量，音频特征数据包括语音特征向量，步态特征数据包括步态特征向量。

步骤140，获取抑郁倾向测评结果。

将多模态特征数据输入一抑郁倾向测评数学模型，以获取抑郁倾向测评结果。

本领域技术人员可以理解，上述实施方式中各种方法的全部或部分功能可以通过硬件的方式实现，也可以通过计算机程序的方式实现。当上述实施方式中全部或部分功能通过计算机程序的方式实现时，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器、随机存储器、磁盘、光盘、硬盘等，通过计算机执行该程序以实现上述功能。例如，将程序存储在设备的存储器中，当通过处理器执行存储器中程序，即可实现上述全部或部分功能。另外，当上述实施方式中全部或部分功能通过计算机程序的方式实现时，该程序也可以存储在服务器、另一计算机、磁盘、光盘、闪存盘或移动硬盘等存储介质中，通过下载或复制保存到本地设备的存储器中，或对本地设备的系统进行版本更新，当通过处理器执行存储器中的程序时，即可实现上述实施方式中全部或部分功能。

以上应用了具体个例对本发明进行阐述，只是用于帮助理解本发明，并不用以限制本发明。对于本发明所属技术领域的技术人员，依据本发明的思想，还可以做出若干简单推演、变形或替换。

Claims

1.一种基于多模态特征的抑郁倾向测评系统，其特征在于，包括：

2.如权利要求1所述的抑郁倾向测评系统，其特征在于，所述依据所述待处理数据获取多模态特征数据，包括：

3.如权利要求1所述的抑郁倾向测评系统，其特征在于，所述依据所述待处理数据获取多模态特征数据，包括：

对所述音频数据按一预设步长截取短期帧；

计算每个所述音频片段的梅尔功率谱图；

4.如权利要求1所述的抑郁倾向测评系统，其特征在于，所述依据所述待处理数据获取多模态特征数据，包括：

5.如权利要求4所述的抑郁倾向测评系统，其特征在于，所述步态编码器包括图卷积网络、时间卷积网络和空间自注意力网络。

6.如权利要求5所述的抑郁倾向测评系统，其特征在于，所述对采样获取的每一帧所述步态图片用OpenPose工具提取人体25个关键点的坐标，以获得步态特征矩阵，包括：

7.如权利要求1所述的抑郁倾向测评系统，其特征在于，所述抑郁倾向测评数学模型的获取方法包括：

8.如权利要求7所述的抑郁倾向测评系统，其特征在于，所述将所述面部特征向量、所述语音特征向量和所述步态特征向量进行融合，并通过回归获得对应所述汉密顿抑郁量表的抑郁值，包括：

通过SVR回归网络获得对应所述汉密顿抑郁量表的抑郁值。

9.一种基于多模态特征的抑郁倾向测评方法，其特征在于，包括：

10.一种计算机可读存储介质，其特征在于，所述介质上存储有程序，所述程序能够被处理器执行以实现如权利要求9中所述的抑郁倾向测评方法。