CN112331337A

CN112331337A - 自动抑郁检测方法、装置、设备

Info

Publication number: CN112331337A
Application number: CN202110001070.9A
Authority: CN
Inventors: 陶建华; 牛明月; 刘斌; 李启飞
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2021-01-04
Filing date: 2021-01-04
Publication date: 2021-02-05
Anticipated expiration: 2041-01-04
Also published as: CN112331337B; US11266338B1

Abstract

本申请实施例涉及数据处理领域，具体涉及一种自动抑郁检测方法、装置、设备，旨在提高抑郁检测的准确率。所述方法包括：输入音视频文件，音视频文件中包含音频和视频这两种模态的原始数据，对音频文件和视频文件进行分段处理以及特征提取，得到多段音频段水平特征和视频段水平特征，利用特征进化池化目标函数将上述段水平特征分别聚合为音频水平特征和视频水平特征，对上述段水平特征进行注意力计算，得到视频注意力音频特征和音频注意力视频特征，将音频水平特征、视频水平特、征视频注意力音频特征和音频注意力视频特征进行拼接构成多模态时空表示，将多模态时空表示输入支持向量回归来预测输入音视频中个体的抑郁水平。

Description

自动抑郁检测方法、装置、设备

技术领域

本申请实施例涉及数据处理技术领域，具体而言，涉及一种自动抑郁检测方法、装置、设备。

背景技术

抑郁症是一种精神类疾病，严重影响着人们的身心健康。目前治疗精神类疾病的医生极为匮乏，很多病人无法得到及早的治疗，从而延误了病情。自动抑郁检测是当今人机交互和人工智能领域重点关注的研究方向，自动抑郁检测的目的是探索健康个体和抑郁病人在语音和面部的变化规律，并提出相应的模型和方法来建立起机器在捕获抑郁线索方面的能力，增强其诊断能力，提升诊断效率。现有技术中主要通过为个体录制音视频，提取音视频中能够刻画个体的多段特征，将多段特征聚合为整体特征，对特征进行分析，进行抑郁水平预测。

现有技术中存在的问题是现有的特征提取方法并不是针对抑郁检测任务的，因此在抑郁检测上准确率不高，另一个问题是在聚合多段特征时只是简单地拼接每一段的特征，并不能完整包含每一段特征中的信息，没有考虑各个特征之间的交互关系，因此在抑郁检测任务上准确率不高。

发明内容

本申请实施例提供一种自动抑郁检测方法、装置、设备，旨在提高自动抑郁检测的准确率。

本申请实施例第一方面提供一种自动抑郁检测方法，所述方法包括：

输入音视频文件，所述音视频文件中包含有长时音频文件和长时视频文件这两个模态的原始数据；

提取所述长时音频文件的傅里叶幅值谱，将所述傅里叶幅值谱切分成具有固定大小的多个谱段，同时，将所述长时视频文件切分成具有固定帧数的多个视频段；

将每一个谱段和视频段分别输入音频时空注意力网络和视频时空注意力网络，得到多个音频段水平特征和多个视频段水平特征；

对所述多个音频段水平特征和多个视频段水平特征，构造特征进化池化目标函数，并进行优化求解，得到结果矩阵；

利用所述结果矩阵将所述多个音频段水平特征和视频段水平特征分别聚合为音频水平特征和视频水平特征；

根据所述多个音频水平特征和视频水平特征，分别提取视频注意力音频特征和音频注意力视频特征；

将所述音频水平特征、视频水平特征、视频注意力音频特征和音频注意力视频特征拼接在一起构成多模态时空表示；

将所述多模态时空表示输入支持向量回归来预测所述输入音视频文件中的个体的抑郁水平。

可选地，提取所述长时音频文件的傅里叶幅值谱，将所述傅里叶幅值谱切分成具有固定大小的谱段，同时，将所述长时视频文件切分成具有固定帧数的视频段，包括：

从原始格式为MP4的长时音频文件中提取语音文件，并将所述语音文件以wav格式进行保存，得到wav文件；

利用快速傅里叶变换对所述wav文件进行处理得到傅里叶谱；

通过对所述傅里叶谱进行取幅值操作来获得傅里叶幅值谱；

以第一预设帧数作为窗口长度，第二预设帧数作为帧移来对傅里叶幅值谱进行切分，得到多个幅值谱段，所述多个幅值谱段的标签就是wav文件对应的标签；

将所述幅值谱段以mat格式进行保存；

提取所述长时视频文件中所有视频帧，将所述所有视频帧归一化到预设大小，得到视频帧序列；

以第三预设帧数作为窗口长度，以第四预设帧数作为帧移来切分所述视频帧序列，得到视频段，所述视频段的标签即为所述长时视频文件对应的标签。

可选地，将所述多个谱段和多个视频段输入时空注意力网络，得到多个音频段水平特征和视频段水平特征，包括：

预先将标注好的谱段和视频段作为训练集分别输入到音频时空注意力网络和视频时空注意力网络进行训练，得到训练好的音频时空注意力网络和训练好的视频时空注意力网络；

将所述多个谱段和所述多个视频段分别输入所述训练好的音频时空注意力网络和所述训练好的视频时空注意力网络，得到所述多个音频段水平特征和多个视频段水平特征。

可选地，对所述多个音频段水平特征和多个视频段水平特征，构造特征进化池化目标函数，并进行优化求解，得到结果矩阵，所述特征进化池化目标函数为：

其中，G为已知矩阵，

为矩阵G的转置矩阵，

为第I个视频段水平特征或音频段水平特征的转置，D为音频段水平特征或视频段水平特征的个数，

表示矩阵G为K阶矩阵，

为所述结果矩阵，

表示括号中式子达到最小值时的特征向量取值。

可选地，利用所述特征聚合进化的优化结果将所述多个音频段水平特征和视频段水平特征分别聚合为音频水平特征和视频水平特征，包括：

将所述多个音频段水平特征和多个视频段水平特征分别按照先后顺序排列成音频矩阵和视频矩阵；

将所述音频矩阵与水平矩阵分别与所述结果矩阵的第一列相乘，得到所述音频水平特征和视频水平特征。

可选地，根据所述多个音频水平特征和视频水平特征，分别提取视频注意力音频特征和音频注意力视频特征，包括：

使用注意力机制对所述多个音频段水平特征进行计算，得到视频注意力音频特征；

使用注意力机制对所述多个视频段水平特征进行计算，得到音频注意力视频特征。

可选地，使用注意力机制对所述多个音频段进行计算，得到视频注意力音频特征，计算方法为：

其中，VAAF是所述视频注意力音频特征，

是第j个音频段的特征，α是视频注意力权重，

中每一个元素的计算公式如下：

其中，

是视频水平特征，

是第j个音频段的特征，e是自然对数的底。

可选地，使用注意力机制对所述多个视频段进行计算，得到音频注意力视频特征，计算方法包括：

其中，AAVF是所述音频注意力视频特征，

是第j个视频段的特征，β是音频注意力权重，

中每一个元素的计算公式如下：

其中，

是音频水平特征，

是第j个视频段的特征，e是自然对数的底。

本申请实施例第二方面提供一种自动抑郁检测装置，所述装置包括：

音视频输入模块，用于输入音视频文件，所述音视频文件中包含有长时音频文件和长时视频文件这两个模态的原始数据；

音视频切分模块，用于提取所述长时音频文件的傅里叶幅值谱，将所述傅里叶幅值谱切分成具有固定大小的多个谱段，同时，将所述长时视频文件切分成具有固定帧数的多个视频段；

段水平特征提取模块，用于将每一个谱段和视频段分别输入音频时空注意力网络和视频时空注意力网络，得到多个音频段水平特征和多个视频段水平特征；

优化求解模块，用于对所述多个音频段水平特征和多个视频段水平特征，构造特征进化池化目标函数，并进行优化求解，得到结果矩阵；

特征聚合模块，用于利用所述结果矩阵将所述多个音频段水平特征和视频段水平特征分别聚合为音频水平特征和视频水平特征；

注意力特征提取模块，用于根据所述多个音频水平特征和视频水平特征，分别提取视频注意力音频特征和音频注意力视频特征；

多模态时空表示模块，用于将所述音频水平特征、视频水平特征、视频注意力音频特征和音频注意力视频特征拼接在一起构成多模态时空表示；

抑郁水平预测模块，用于将所述多模态时空表示输入支持向量回归来预测所述输入音视频文件中的个体的抑郁水平。

可选地，所述音视频切分模块包括：

语音文件提取子模块，用于从原始格式为MP4的长时音频文件中提取语音文件，并将所述语音文件以wav格式进行保存，得到wav文件；

快速傅里叶变换子模块，用于利用快速傅里叶变换对所述wav文件进行处理得到傅里叶谱；

幅值提取子模块，用于通过对所述傅里叶谱进行取幅值操作来获得傅里叶幅值谱；

幅值谱切分子模块，用于以第一预设帧数作为窗口长度，第二预设帧数作为帧移来对傅里叶幅值谱进行切分，得到多个幅值谱段，所述多个幅值谱段的标签就是wav文件对应的标签；

幅值谱段保存子模块，用于将所述幅值谱段以mat格式进行保存；

视频帧提取子模块，用于提取所述长时视频文件中所有视频帧，将所述所有视频帧归一化到预设大小，得到视频帧序列；

视频切分子模块，用于以第三预设帧数作为窗口长度，以第四预设帧数作为帧移来切分所述视频帧序列，得到视频段，所述视频段的标签即为所述长时视频文件对应的标签。

可选地，所述段水平特征提取模块包括：

网络训练子模块，用于预先将标注好的谱段和视频段作为训练集分别输入到音频时空注意力网络和视频时空注意力网络进行训练，得到训练好的音频时空注意力网络和训练好的视频时空注意力网络；

段水平特征提取模块，用于将所述多个谱段和所述多个视频段分别输入所述训练好的音频时空注意力网络和所述训练好的视频时空注意力网络，得到所述多个音频段水平特征和多个视频段水平特征。

其中，G为已知矩阵，

为矩阵G的转置矩阵，

表示矩阵G为K阶矩阵，

为所述结果矩阵，

表示括号中式子达到最小值时的特征向量取值。

可选地，所述特征聚合模块包括：

特征排列子模块，用于将所述多个音频段水平特征和多个视频段水平特征分别按照先后顺序排列成音频矩阵和视频矩阵；

特征计算子模块，用于将所述音频矩阵与水平矩阵分别与所述结果矩阵的第一列相乘，得到所述音频水平特征和视频水平特征。

可选地，所述注意力特征提取模块包括：

第一注意力特征提取子模块，用于使用注意力机制对所述多个音频段水平特征进行计算，得到视频注意力音频特征；

第二注意力特征提取子模块，用于使用注意力机制对所述多个视频段水平特征进行计算，得到音频注意力视频特征。

其中，VAAF是所述视频注意力音频特征，

是第j个音频段的特征，α是视频注意力权重，

中每一个元素的计算公式如下：

其中，

是视频水平特征，

是第j个音频段的特征，e是自然对数的底。

其中，AAVF是所述音频注意力视频特征，

是第j个视频段的特征，β是音频注意力权重，

中每一个元素的计算公式如下：

其中，

是音频水平特征，

是第j个视频段的特征，e是自然对数的底。

本申请实施例第四方面提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现本申请第一方面所述的方法的步骤。

采用本申请提供的自动抑郁检测方法，提取长时语音文件的傅里叶幅值谱，利用快速傅里叶赋值变换来获得傅里叶幅值谱，将长时傅里叶幅值谱切分成具有固定大小的谱段，将长时视频切分成具有固定帧数的视频段，将每一个谱段输入音频时空注意力网络来提取音频段水平特征，将每一个视频段输入视频时空注意力网络来提视频段水平特征，利用特征聚合进化池化函数将音频段水平特征和视频段水平特征分别聚合为音频水平特征和视频水平特征，对多个音频段水平特征进行计算，得到视频注意力音频特征，对多个视频段水平特征进行计算，得到音频注意力视频特征，将音频水平特征、视频水平特征、视频注意力音频特征和音频注意力视频特征拼接在一起构成多模态时空表示，将多模态时空表示输入支持向量回归来预测个体的抑郁水平。本申请中通过利用时空注意力网络来提取短时语音幅值谱和视频的段水平特征，相比现有技术更有助于提取出具有区分性的特征，通过利用特征进化池化有效的包含了所有短时音视特征中与抑郁相关的信息，从而聚合短时音视频特征到长时音视频特征，通过利用多模态注意力特征融合策略来融合音视频两种模态的特征，从而增强了抑郁检测的效果，有效的提高了自动抑郁检测的预测精度。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一实施例提出的自动抑郁检测方法的流程图；

图2是本申请一实施例提出的自动抑郁检测装置的示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

参考图1，图1是本申请一实施例提出的自动抑郁检测方法的流程图。如图1所示，该方法包括以下步骤：

S11：输入音视频文件，所述音视频文件中包含有长时音频文件和长时视频文件这两个模态的原始数据。

本实施例中，通过检测音视频文件中的个体的语音和动作神态等特征来对该个体进行抑郁检测，需要向抑郁检测网络中输入音视频文件，该音视频文件中需要包含被检测的个体。长时音频文件中包含了音频模态的原始数据，长时视频文件中包含了视频模态的原始数据。

S12：提取所述长时音频文件的傅里叶幅值谱，将所述傅里叶幅值谱切分成具有固定大小的多个谱段，同时，将所述长时视频文件切分成具有固定帧数的多个视频段。

本实施例中，长时音频文件的傅里叶幅值谱是通过对长时音频文件中的音频信息进行傅里叶变换得到的，可以反映出音频的特征，将傅里叶幅值谱切分成具有固定大小的多个谱段，将长时视频文件切分成具有固定帧数的多个视频段，都有利于更好的提取出音频和视频的特征。

本实施例中，提取所述长时音频文件的傅里叶幅值谱，将所述傅里叶幅值谱切分成具有固定大小的多个谱段，同时，将所述长时视频文件切分成具有固定帧数的多个视频段的具体步骤是：

S12-1：从原始格式为MP4的长时音频文件中提取语音文件，并将所述语音文件以wav格式进行保存，得到wav文件。

本实施例中，为了对音频文件进行傅里叶变换，需要从原始格式为MP4的长时音频文件中提取语音文件，将语音文件以wav格式进行保存，得到wav文件，wav格式的文件保存的声音波形真实，无压缩数据，数据量大。

S12-2：利用快速傅里叶变换对所述wav文件进行处理得到傅里叶谱。

本实施例中，快速傅里叶变换就是利用计算机对音频文件进行快速的离散傅里叶变换计算，可以高效快速的得到音频文件的傅里叶谱。

示例地，对音频文件进行快速傅里叶变换可以使用MATLAB等软件进行，本申请不做限制。

S12-3：通过对所述傅里叶谱进行取幅值操作来获得傅里叶幅值谱。

本实施例中，得到音频文件的傅里叶谱之后，读取傅里叶谱中的幅值，获取傅里叶幅值谱，傅里叶幅值谱可以表现出各个时刻音频变换的幅度，从中可以分析出人的情绪变化。

示例地，傅里叶幅值谱可通过MATLAB等软件求得。

S12-4：以第一预设帧数作为窗口长度，第二预设帧数作为帧移来对傅里叶幅值谱进行切分，得到多个幅值谱段，所述多个幅值谱段的标签就是wav文件对应的标签。

本实施例中，傅里叶幅值谱可以以帧为单位进行切分，通过窗口滑动来对傅里叶幅值谱进行切分，窗口长度代表了窗口内最多可以显示多少帧的幅值谱内容，帧移代表窗口一次移动多少帧的距离。每个幅值谱段的标签就是这段音频wav文件对应的标签。

示例地，可以以64帧作为窗口长，32帧作为帧移来对傅里叶幅值谱进行切分已得到幅值谱段。

S12-5：将所述幅值谱段以mat格式进行保存。

本实施例中，mat格式是MATLAB标准的数据存储格式，将幅值谱段以mat格式进行保存，便于后续的处理。

S12-6：提取所述长时视频文件中所有视频帧，将所述所有视频帧归一化到预设大小，得到视频帧序列。

本实施例中，将长时视频文件中所有的视频帧提取出来，就是将视频文件中每一帧的图像提取出来，对图像进行归一化，就是对图像经进行归一化计算，使每一帧的图像变为标准大小的图像，便于处理。

示例地，可以将所有图像归一化到128×128的大小。

S12-7：以第三预设帧数作为窗口长度，以第四预设帧数作为帧移来切分所述视频帧序列，得到视频段，所述视频段的标签即为所述长时视频文件对应的标签。

本实施例中，切分视频的方法也是通过滑动窗口进行，所有视频段的标签就是长时视频文件对应的标签。

示例地，可以以60帧作为窗口长，30帧为帧移来切分视频帧序列以得到视频段。

S13：将每一个谱段和视频段分别输入音频时空注意力网络和视频时空注意力网络，得到多个音频段水平特征和多个视频段水平特征。

本实施例中，将每一个谱段和视频段分别输入音频时空注意力网络和视频时空注意力网络，得到多个音频段水平特征和多个视频段水平特征的具体步骤是：

S13-1：预先将标注好的谱段和视频段作为训练集分别输入到音频时空注意力网络和视频时空注意力网络进行训练，得到训练好的音频时空注意力网络和训练好的视频时空注意力网络。

本实施例中，音频时空注意力网络和视频时空注意力网络可以从音频段和视频段中提取出音频段水平特征和视频段水平特征，训练集中可以将谱段和视频段中的个体的抑郁水平进行标注，将标注好的谱段输入音频时空注意力网络中，将标注好的视频段输入视频时空注意力网络中，音频时空注意力网络和视频时空注意力网络可以通过学些训练集中的的特征来不断调整自身的参数，得到训练好的音频时空注意力网络和训练好的视频时空注意力网络。

S13-2：将所述多个谱段和所述多个视频段分别输入所述训练好的音频时空注意力网络和所述训练好的视频时空注意力网络，得到所述多个音频段水平特征和多个视频段水平特征。

本实施例中，训练好的音频时空注意力网络会对输入的谱段进行特征提取，得到多个音频段水平特征，训练后阿德视频时空注意力网络会对输入的视频段进行特征提取，得到多个视频段水平特征。

示例地，音频时空注意力网络和视频时空注意力网络可以选择CNN、RNN等网络，在此不做限制。

S14：对所述多个音频段水平特征和多个视频段水平特征，构造特征进化池化目标函数，并进行优化求解，得到结果矩阵。

本实施例中，构造特征进化池化目标函数是为了将多个视频段特征和音频段特征分别进行融合，将所有视频段特征输入特征进化池化目标函数中进行优化，可以得到一个结果矩阵，用于将多个视频段特征进行融合；将所有音频段特征输入特征进化池化目标函数中进行优化，可以得到一个结果矩阵，用于将多个音频段特征进行融合。

本实施例中，特征进化池化目标函数为：

其中，G为已知矩阵，

为矩阵G的转置矩阵，

表示矩阵G为K阶矩阵，

为所述结果矩阵，

表示括号中式子达到最小值时的特征向量取值。

本实施例中，矩阵G中的元素是已知的，通过计算来优化矩阵G，最后得到的优化结果是

，即结果矩阵。

S15：利用所结果矩阵将所述多个音频段水平特征和视频段水平特征分别聚合为音频水平特征和视频水平特征。

本实施例中，在得到结果矩阵之后，可以通过结果矩阵将多个音频段水平特征和视频段水平特征进行融合，得到音频水平特征和视频水平特征，具体方法为：

S15-1：将所述多个音频段水平特征和多个视频段水平特征分别按照先后顺序排列成音频矩阵和视频矩阵。

本实施例中，将多个音频段水平特征排列成一个矩阵，按照每个音频段水平特征在傅里叶幅值谱中出现的顺序进行排列，其中每一行是一个特征向量；将多个视频段水平特征排列成一个矩阵，按照每个视频段水平特征对应的视频段在视频中出现的顺序进行排列，其中每一行是一个特征向量。

S15-2：将所述音频矩阵和视频矩阵分别与所述结果矩阵的第一列相乘，得到所述音频水平特征和视频水平特征。

本实施例中，通过使用音频矩阵乘以结果矩阵的第一列，将多个音频段特征聚合在一起，得到整体的特征即音频水平特征；通过使用视频矩阵乘以结果矩阵的第一列，将多个视频段特征聚合在一起，得到整体的特征即视频水平特征。

本实施例中，经过推导计算，得到音频矩阵或视频矩阵与音频矩阵或视频矩阵的转置的乘积的最大特征值对应的特征向量与音频矩阵或视频矩阵与结果矩阵的第一列相乘得到的矩阵的最大特征值对应的特征向量相同。故音频水平特征和视频水平特征还可以表示为：

计算

的特征值和特征向量，这里

，

是第j个音频或者视频段水平特征。

选择

的最大特征值对应的特征向量

，则

即为聚合的结果。

S16：根据所述多个音频水平特征和视频水平特征，分别提取视频注意力音频特征和音频注意力视频特征。

本实施例中，视频注力音频特征是通过对音频段特征的计算，得到视频段特征在音频段特征中占有的权重，即视频段特征对音频段特征的影响。音频注意力视频特征也是同理，代表了音频段特征对视频段特征的影响。其中同一帧的音频段特征和视频段特征是相对应的。

本实施例中，根据所述多个音频水平特征和视频水平特征，分别提取视频注意力音频特征和音频注意力视频特征的具体方法是：

S16-1：使用注意力机制对所述多个音频段水平特征进行计算，得到视频注意力音频特征。

本实施例中，使用注意力机制对所述多个音频段进行计算，得到视频注意力音频特征，计算方法为：

其中，VAAF是所述视频注意力音频特征，

是第j个音频段的特征，α是视频注意力权重，

中每一个元素的计算公式如下：

其中，

是视频水平特征，

是第j个音频段的特征，e是自然对数的底。

本实施例中，视频注意力音频特征是考虑了视频特征对音频特征的影响计算出来的，是考虑了视频特征影响的音频特征。

S16-2：使用注意力机制对所述多个视频段水平特征进行计算，得到音频注意力视频特征。

本实施例中，使用注意力机制对所述多个视频段进行计算，得到音频注意力视频特征，计算方法包括：

其中，AAVF是所述音频注意力视频特征，

是第j个视频段的特征，β是音频注意力权重，

中每一个元素的计算公式如下：

其中，

是音频水平特征，

是第j个视频段的特征，e是自然对数的底。

本实施例中，音频注意力视频特征是考虑了音频特征对视频特征的影响计算出来的，是考虑了音频特征影响的视频特征。

S17：将所述音频水平特征、视频水平特征、视频注意力音频特征和音频注意力视频特征拼接在一起构成多模态时空表示。

本实施例中，将音频水平特征、视频水平特征、视频注意力音频特征和音频注意力视频特征拼接在一起，构成了多模态时空表示，多模态时空表示就是将音频水平特征向量、视频水平特征向量、视频注意力音频特征向量和音频注意力视频特征向量拼接成一个向量，其中包含了视频和音频这两个模态的特征和这两个模态交互的特征。

示例地，将音频水平特征

、视频水平特征

、视频注意力音频特征VAAF和音频注意力视频特征AAVF拼接到一起得到向量

，即最终的多模态时空表示。

S18：将所述多模态时空表示输入支持向量回归来预测所述输入音视频文件中的个体的抑郁水平。

本实施例中，支持向量回归是一种分类模型，可以根据接收到的多模态时空表示来为输入音视频中的个体的抑郁水平进行打分。支持向量回归会根据之前训练时学习到的特征，来为当前输入的音视频中的个体的抑郁水平进行打分。

示例地，个体的抑郁水平使用BDI-II分数度量, BDI-II分数的区间段是0-63（0-13是无抑郁，14-19是轻微抑郁，20-28是中度抑郁，29-63是重度抑郁），最终的预测结果就是0-63之间的一个实数。

基于同一发明构思，本申请一实施例提供一种自动抑郁检测装置。参考图2，图2是本申请一实施例提出的自动抑郁检测装置200的示意图。如图2所示，该装置包括：

音视频输入模块201，用于输入音视频文件，所述音视频文件中包含有长时音频文件和长时视频文件这两个模态的原始数据；

音视频切分模块202，用于提取所述长时音频文件的傅里叶幅值谱，将所述傅里叶幅值谱切分成具有固定大小的多个谱段，同时，将所述长时视频文件切分成具有固定帧数的多个视频段；

段水平特征提取模块203，用于将每一个谱段和视频段分别输入音频时空注意力网络和视频时空注意力网络，得到多个音频段水平特征和多个视频段水平特征；

优化求解模块204，用于对所述多个音频段水平特征和多个视频段水平特征，构造特征进化池化目标函数，并进行优化求解，得到结果矩阵；

特征聚合模块205，用于利用所述结果矩阵将所述多个音频段水平特征和视频段水平特征分别聚合为音频水平特征和视频水平特征；

注意力特征提取模块206，用于根据所述多个音频水平特征和视频水平特征，分别提取视频注意力音频特征和音频注意力视频特征；

多模态时空表示模块207，用于将所述音频水平特征、视频水平特征、视频注意力音频特征和音频注意力视频特征拼接在一起构成多模态时空表示；

抑郁水平预测模块208，用于将所述多模态时空表示输入支持向量回归来预测所述输入音视频文件中的个体的抑郁水平。

可选地，所述音视频切分模块包括：

可选地，所述段水平特征提取模块包括：

其中，G为已知矩阵，

为矩阵G的转置矩阵，

表示矩阵G为K阶矩阵，

为所述结果矩阵，

表示括号中式子达到最小值时的特征向量取值。

可选地，所述特征聚合模块包括：

可选地，所述注意力特征提取模块包括：

其中，VAAF是所述视频注意力音频特征，

是第j个音频段的特征，α是视频注意力权重，

中每一个元素的计算公式如下：

其中，

是视频水平特征，

是第j个音频段的特征，e是自然对数的底。

其中，AAVF是所述音频注意力视频特征，

是第j个视频段的特征，β是音频注意力权重，

中每一个元素的计算公式如下：

其中，

是音频水平特征，

是第j个视频段的特征，e是自然对数的底。

基于同一发明构思，本申请另一实施例提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行时实现本申请上述任一实施例所述的自动抑郁检测方法方法中的步骤。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本申请实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本申请实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请实施例是参照根据本申请实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本申请所提供的一种自动抑郁装置方法、装置、设备，进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。