CN113782190B

CN113782190B - 基于多级时空特征和混合注意力网络的图像处理方法

Info

Publication number: CN113782190B
Application number: CN202111104505.9A
Authority: CN
Inventors: 师硕; 谷佳雨; 郝小可; 郭迎春; 朱叶; 刘依; 阎刚; 于洋; 吕华; 于明
Original assignee: Hebei University of Technology
Current assignee: Hebei University of Technology
Priority date: 2021-09-22
Filing date: 2021-09-22
Publication date: 2023-12-15
Anticipated expiration: 2041-09-22
Also published as: CN113782190A

Abstract

本发明为基于多级时空特征和混合注意力网络的抑郁症诊断方法，该方法包括以下内容：经过预处理的公开数据集变为成组的大小固定的图片，每个图片组对应一个视频序列，并对应一个抑郁分数；构建多级时空特征和混合注意力网络：以3D‑Resnet50网络相邻两层的输出作为输入，接入多级时空特征融合模块；所述多级时空特征融合模块包括时空特征调制子模块和特征融合子模块，时空特征调制子模块用于分别对相邻两层的输出都进行空间和时间调制；特征融合子模块用于对两个调制后的特征进行特征融合；多级时空特征经调整后连接一个混合注意力模块。该方法有效克服了单一网络深度在时间感受野和空间感受野局限的问题，实现针对抑郁患者的抑郁分数评估。

Description

基于多级时空特征和混合注意力网络的图像处理方法

技术领域

本发明的技术方案涉计算机视觉技术领域，具体地说是基于多级时空特征和混合注意力网络的抑郁症诊断方法。

背景技术

抑郁症是一种常见的情感性精神障碍疾病，世界各地总计超过3.5亿人患有不同程度的抑郁症，而且抑郁症病例的增长幅度仍在逐年递增，预计到2030年抑郁症将变成世界第一大疾病。长期的抑郁障碍不仅会显著增加患者罹患癌症或心血管疾病的几率，也会极大地增加患者自杀的风险。传统的抑郁症诊断方式主要依赖于患者的自我主观评估和临床访谈，但是这种方式易受客观水平和先验知识的影响，极易导致较高的误诊率，会对患者产生严重的误诊后果。因此，急需借助机器学习、深度学习等技术进行抑郁症自动检测，以提高抑郁诊断的准确率，推动智能医疗的发展。

当前，基于面部表情的抑郁症诊断方法主要分为基于手工特征和深度特征的方法。基于手工特征的方法主要根据物理方法设计捕获特征的算法，特征提取过程中缺乏完整性。文献“面部动态特征描述的抑郁症识别”中提出一种可以深层次挖掘面部宏观和微观结构信息的手工特征中值鲁棒局部二值模式—3D正交平面(median robust local binarypatterns from three orthogonal planes，MRELBP-TOP)，并采用稀疏编码抽象出紧凑的手工特征用于评估贝克抑郁量表(the Beck depression inventory-II，BDI-II)对应的分数，但该方法缺乏对面部空间的静态特征的学习。基于深度特征的方法将神经网络引入抑郁症诊断的研究中，文献“Automated Depression Diagnosis Based on Deep Networksto Encode Facial Appearance and Dynamics”中提出使用两个并行的神经网络分别从面部信息中学习面部的空间静态特征和时间动态特征，通过整合静态特征和动态特征进行抑郁分数评估，该方法忽略了面部空间特征和时间特征之间的相关性和依赖性。文献“Video-Based Depression Level Analysis by Encoding Deep Spatiotemporal Features”中将整体面部区域和对齐裁剪后的面部区域输入到C3D(convolutional 3D)网络中学习面部的空间特征和时间特征，并使用循环神经网络对时空特征序列进行建模以评估抑郁分数，该方法的诊断依赖于神经网络的最深层单一感受野的时空特征，忽略了面部中的抑郁信息在空间上和时间上多变的现实问题。CN112232191A公开了一种基于微表情分析的抑郁症识别系统，该方法采用分开提取时空特征的方式，并在时间特征流使用光流图这一手工特征作为输入，不能捕捉有效的时间特征和相互依赖的时空特征；CN110472564A公开了一种基于特征金字塔网络的双向LSTM微表情识别抑郁症方法，该方法使用特征金字塔网络多样化特征尺度并使用双向LSTM串联多尺度特征，只是单纯的调整特征尺度并未能捕获不同感受野的时空特征，不利于隐蔽的抑郁症情感特征的捕获。

发明内容

针对现有技术的不足，本发明所要解决的技术问题是：提供基于多级时空特征和混合注意力网络的抑郁症诊断方法。该方法首先对抑郁症患者的视频进行预处理，得到视频中的面部区域，再用3D-Resnet50网络提取视频序列中面部区域的时空特征，然后设计多级时空特征融合模块以调制和融合多级时空特征，得到包含丰富时空特征的多级时空特征，有效克服了单一网络深度在时间感受野和空间感受野局限的问题。此外，为了获得更加准确的抑郁评估效果，设计了以空间注意力、通道注意力和时间注意力为顺序组成的混合注意力模块，能够从多级时空特征中捕获不同维度的抑郁信息，从而实现针对抑郁患者的抑郁分数评估。

本发明解决该技术问题所采用的技术方案是：基于多级时空特征和混合注意力网络的抑郁症诊断方法，该方法包括以下内容：

对抑郁公开数据集进行预处理，预处理包括视频裁剪和人脸检测、对齐，经过预处理的公开数据集变为成组的大小固定的图片，每个图片组对应一个视频序列，并对应一个抑郁分数；

构建多级时空特征和混合注意力网络：以3D-Resnet50网络为基础，以3D-Resnet50网络相邻两层的输出作为输入，接入多级时空特征融合模块；所述多级时空特征融合模块包括时空特征调制子模块和特征融合子模块，时空特征调制子模块用于分别对相邻两层的输出都进行空间和时间调制，获得相应的调制后的特征；特征融合子模块用于对两个调制后的特征进行特征融合，获得多级时空特征；多级时空特征经调整后连接一个混合注意力模块；所述混合注意力模块包括空间注意力模块、通道注意力模块和时间注意力模块，用于捕获不同维度的抑郁信息；

将混合注意力模块的输出用于抑郁分数预测。

获得多级时空特征的具体过程是：以3D-Resnet50网络相邻两层的输出作为输入，这相邻的两层分别记为上层特征和下层特征，对输入的上层特征和下层特征均分别进行卷积、池化系列操作得到上层的时空调制和下层的时空调制特征；对上层的时空调制特征依次使用最大池化层、卷积层进行下采样得到上层的下采样特征，对下层的时空调制特征使用Upsample函数进行上采样得到下层的上采样特征；

将上层的时空调制特征和下层的上采样特征进行元素相加的结果与上层的时空调制特征进行通道连接得到上层部分融合特征，将下层的时空调制特征与上层的下采样特征进行元素相加的结果与下层的时空调制特征进行通道连接得到下层部分融合特征，最后利用通道拼接层拼接上层部分融合特征和下层部分融合特征，得到包含丰富语义信息的多级时空特征。

所述时空特征调制子模块的流程是，下层特征经过卷积核大小为1×3×3的卷积层、卷积核大小为3×1×1的卷积层、池化核大小为8×1×1的池化层获得下层的时空调制特征，

上层特征经过卷积核大小为3×1×1的卷积层、池化核大小为8×1×1的池化层获得上层的时空调制特征，

使用池化核1×2×2的最大池化层、卷积核大小为3×1×1的卷积层对上层的时空调制特征进行下采样操作，获得上层的下采样特征；

使用Upsample函数对下层的时空调制特征进行上采样，获得下层的上采样特征；

上层的下采样特征和下层的上采样特征即为时空特征调制子模块调制后的特征。

所述调整过程包括压缩、折叠和卷积核大小为1×1的卷积层。

所述的混合注意力模块由空间注意力模块、通道注意力模块和时间注意力模块构成，其中空间注意力模块包括卷积核大小为1×1的卷积层、全连接层、softmax层，通道注意力模块包括1×1的卷积层、全连接层、softmax层，时间注意力模块包括卷积核大小为1×1的卷积层、全连接层和线性整流激活函数，将经过混合注意力模块的特征输入到一个全连接层中，即能获得对应抑郁症患者的抑郁分数。

将从经过预处理的人脸图像输入到多级时空特征和混合注意力网络中，实现抑郁症患者的抑郁分数的评估。

基于多级时空特征和混合注意力网络的具体步骤如下：

第一步，视频数据预处理：

第1.1步，采用FFMPEG(fast forward moving picture expert group)工具将视频数据裁剪为图片数据，裁剪的时候保持图片的纵横比，并将图片的高度调整为240像素；

第1.2步，采用文献“Joint face detection and alignment using multitaskcascaded convolutional networks”提出的多任务级联卷积网络(Multi-Task CascadeConvolutional Network，MTCNN)对裁剪过的图片进行5点人脸检测，将检测到的包含人脸的图像进行人脸对齐并将其大小调整为224*224像素；

第1.3步，生成预处理后的数据；

经过预处理的公开数据集变为成组的大小固定的图片，每个图片组对应一个视频序列，并对应一个抑郁分数，获得每个视频对应的人脸图像序列；

第二步，提取基础特征即仅使用3D-Resnet50网络提取的特征：

第2.1步，将上述第1.3步得到的每个视频对应的人脸图像序列划分为具有相同持续时间的t段，然后从每个片段中连续抽取k帧作为本段的段片段，将取得的t个段片段输入到预训练过的3D-Resne50网络中编码面部特征；

第2.2步，从2.1步中取3D-Resnet50中第四层的特征记为上层特征F_up；

第2.3步，从2.1步中取3D-Resnet50中第五层的特征记为下层特征F_down；

这两个上层特征和下层特征均包含了时间和空间信息，二者的感受野范围不同，本申请这里取连续的片段，每段内的段片段具有连续性，获得视频的连续性质，再加上两层的感受野设置，使其能够有效捕捉微小的面部变化，更加有助于对抑郁症情况的捕捉。

第三步，提取多级时空特征：

第3.1步，使用卷积核大小为1×3×3的卷积层对F_down进行空间特征调制，得到输出的特征为下层空间特征如公式(1)所示：

其中：表示卷积核大小为1×3×3的卷积层；

第3.2步，使用卷积核大小为3×1×1的卷积层、池化核为8×1×1最大池化层(MaxPooling)对进行时间特征调制，得到的输出特征为第五层时空调制特征/>如公式(2)所示：

其中：表示池化核为8×1×1的最大池化层，/>表示卷积核大小为3×1×1的卷积层；

第3.3步，使用卷积核大小为3×1×1的卷积层、池化核为8×1×1三维最大池化层对上层特征Fup进行时间特征调制，得到的输出特征为第四层时空调制特征如公式(3)所示：

第3.4步，使用池化核1×2×2的最大池化层、卷积核大小为3×1×1的卷积层对上层的时空调制特征进行下采样操作，得到的输出特征为第四层下采样特征/>如公式(4)所示：

其中：表示池化核为1×2×2的最大池化层，/>表示卷积核大小为3×1×1的卷积层；

第3.5步，使用Upsample函数对下层的时空调制特征进行上采样，得到的输出特征为第五层上采样特征/>如公式(5)所示：

其中：Upsample表示Upsample函数；

第3.6步，将上层的时空调制特征与下层的上采样特征/>进行元素相加操作，得到输出特征/>如公式(6)所示：

其中：Sum表示元素相加；

第3.7步，将下层的时空调制特征与特征/>进行元素相加操作，得到输出特征/>如公式(7)所示：

其中：Sum表示元素相加；

第3.8步，将上层时空调制特征与特征/>进行通道拼接，得到上层部分融合特征为/>如公式(8)所示：

其中：Concat表示通道连接操作；

第3.9步，将下层时空调制特征与特征/>进行通道拼接，得到下层部分融合特征为/>如公式(9)所示：

其中：Concat表示通道连接操作；

第3.10步，使用卷积核为1×1×1卷积层对进行特征提取，得到输出的第四层融合特征F_td，如公式(10)所示：

其中：表示卷积核为1×1×1卷积层；

第3.11步，使用卷积核为1×1×1卷积层对进行特征提取，得到输出的第五层融合特征F_dt，如公式(11)所示：

其中：表示卷积核为1×1×1的卷积层；

第3.12步，将特征F_td与特征F_dt进行通道拼接，得到的多级时空特征为如公式(12)所示：

其中：Concat表示通道连接操作；

第四步，调整多级时空特征形状：

第4.1步，使用squeeze函数对进行操作，得到输出特征为/>如公式(13)所示：

其中：Suqeeze表示squeeze函数；

第4.2步，使用flatten函数对进行操作，得到输出特征为/>如公式(14)所示：

其中：Flatten表示flatten函数；

第4.3步，使用卷积核大小为1×1的卷积层对进行特征提取，得到输出特征为Ff，其中包括每段视频特征/>如公式(15)所示：

其中：表示卷积核大小为1×1的卷积层，t表示的是每个视频取的段数，i表示的是视频中的第i段，m＝h×w，h表示的是特征的高度，w表示的是特征的宽度；

第五步，使用混合注意力模块进行特征提取：

第5.1步，使用卷积核大小为1×1的卷积层、全连接层对进行特征提取，得到输出特征为/>如公式(16)所示：

其中：表示卷积核大小为1×1的卷积层，FC表示全连接层，i表示的是视频中的第i段；

第5.2步，使用softmax层对进行操作，得到空间特征分布权重为/>如公式(17)所示：

其中：t表示每个视频的段数，i表示的是视频中的第i段；

第5.3步，对每段视频特征与每段视频的特征空间特征分布权重为/>进行矩阵相乘，得到输出特征为/>此时整体特征为空间注意力特征F^fs，如公式(18)所示：

其中：表示矩阵相乘，i表示的是视频中的第i段；

第5.4步，对特征F^fs进行转至操作，得到输出特征为G，其中包括特征每段视频特征G_i∈R^c×m(i＝1，2，....，t)，如公式(19)所示：

G＝(F^fs)^T∈R^t×c×m (19)

其中：T表示矩阵的转置运算，t表示每个视频的段数，c表示特征的通道数，m＝h×w，h表示的是特征的高度，w表示的是特征的宽度；

第5.5步，使用卷积核大小为1×1的卷积层、全连接层对G_i进行特征提取，得到输出特征为如公式(20)所示：

第5.6步，使用softmax层对进行操作，得到通道特征分布权重为/>如公式(21)所示：

其中：t表示每个视频的段数，i表示的是视频中的第i段；

第5.7步，对每段视频特征G_i∈R^c×m(i＝1，2，....，t)与每段视频特征的通道特征分布权重为进行矩阵相乘，得到输出特征为/>此时整体特征为通道注意力特征G^C，如公式(22)所示：

其中：表示矩阵相乘，i表示的是视频中的第i段；

第5.8步，使用permute函数对G^C进行形状调整，输出特征为O∈R^t×c，其中包括每段视频的特征o_i∈R^c(i＝1，2，...，t)，如公式(23)：

O＝permute(G^C) (23)

其中：permute表示permute函数，i表示的是视频中的第i段；

第5.9步，使用卷积核大小为1×1的卷积层、全连接层对O进行特征提取，得到输出特征为H^T，如公式(24)所示：

其中：表示卷积核大小为1×1的卷积层，FC表示全连接层；

第5.10步，使用ReLU函数对H^T进行特征提取，得到输出特征为W^T，其中包括每段视频的特征如公式(25)所示：

W^T＝ReLU(H^T) (25)

其中：ReLU表示ReLU激活函数，i表示的是视频中的第i段；

第5.11步，对每段视频特征每段视频特征o_i∈Rc(i＝1，2，...，t)与每段视频特征的时间特征分布权重为进行矩阵相乘，得到输出特征为混合注意力特征F_final，如公式(26)所示：

其中：i表示的是视频中的第i段；

至此，由上述的第一步到第五步的操作完成了多级时空特征和混合注意力网络的构建，提取到了最后的可用于抑郁分数诊断的混合注意力特征F_final。

第六步，使用F_final特征进行抑郁分数预测，使用均方误差损失计算预测值与真实值之间的损失以衡量模型预测的好坏，并计算评价指标平均绝对误差(MAE)和均方根误差(RMSE)以评价本模型的抑郁分数预测效果：

第6.1步，使用全连接层对F_final进行操作，得到输出的结果为抑郁分数的预测值如公式(27)所示：

其中：FC表示全连接层；

第6.2步，对U个抑郁样本，使用均方误差损失函数计算其对应的预测值与真实值之间的误差，如公式(28)所示：

其中：MSELoss表示均方误差损失值，U表示的是样本的总个数，第个样本的预测值，y_u表示第u个样本的真实值；

第6.3步，对U个抑郁样本，使用平均绝对误差和均方根误差计算其对应的预测值与真实值之间的误差，如公式(29)、(30)所示：

其中：MAE表示平均绝对误差，RMSE表示均方根误差，U表示的是样本的总个数，第u个样本的预测值，y_u表示第u个样本的真实值；

选择损失和评价指标最低的模型即可得到训练好的整个网络模型，将待诊断的人脸视频序列经过上述的预处理后，输入到训练好的整个网络模型中，即可诊断出该对象的抑郁症诊断分数，至此，完成了基于多级时空特征和混合注意力网络的抑郁症诊断。

具体地，上述基于多级时空特征和混合注意力网络的抑郁症诊断方法，所述第一步中的FFMPEG，全称为fast forward moving picture expert group，中文名为快进运动图像专家组，为本技术领域公知的算法。

上述基于多级时空特征和混合注意力网络的抑郁症诊断方法，所述第二步中的3D-Resnet50，全称为3Dimension-Resnet 50，中文名为三维残差网络50，为本技术领域公知的算法。

上述基于多级时空特征和混合注意力网络的抑郁症诊断方法，所述第二步中的片段数t为12，段片段数(指每个片段取的有效的连续帧的个数)k为16。

本发明的有益效果是：与现有技术相比，本发明的突出的实质性特点和显著进步如下：

(1)本发明方法构建了多级时空特征模块，对输入的上层特征和下层特征分别进行时空调制，对两个特征依次进行卷积、池化操作得到时空调制的上层特征和下层特征；对时空调制的上层特征依次使用最大池化层、卷积层进行下采样得到上层的下采样特征，对时空调制的下层特征使用Upsample函数进行上采样得到下层的上采样特征；将上层的时空调制特征和下层的上采样特征进行元素相加的结果与上层时空调制特征通道连接得到上层部分融合特征，将下层的时空调制特征与上层的下采样特征进行元素相加的结果与下层时空调制特征通道连接得到下层部分融合特征，最后利用通道拼接层拼接上层部分融合特征和下层部分融合特征，得到包含丰富语义信息的多级时空特征，克服了抑郁症诊断中的时空特征感受野单一的问题。

(2)本发明方法构建的混合注意力模块，从空间、通道和时间三个维度对多级时空特征进行处理，采用卷积层、全连接层、softmax层得到空间权重系数，将空间权重系数与特征输入到乘积函数层，得到经过空间注意力的特征；将经过空间注意力的特征输入到卷积层、输入到全连接层、softmax层得到通道权重系数，将通道权重系数与经过空间注意力的特征输入到乘积函数层，得到经过通道注意力的特征；将经过通道注意力的特征分别输入到卷积层、全连接层、线性整流激活函数中得到时间权重系数，将时间权重系数与经过通道注意力的特征输入到乘积函数层，得到经过混合注意力的特征，增强了时空特征的区分度，提升抑郁诊断的准确性。

综上，本发明中上、下层特征包含着不同的感受野，采用时空调制(也就是时间和空间特征的调整)以实现融合获得多级时空特征，并将多级时空特征用于抑郁诊断，视频序列在制作时采用的是局部连续帧的图片，相邻帧间面部特征变化很小，能够更加有效地捕捉有用特征，再加上混合注意力模块的加入，能够从多维度上更加关注与抑郁相关的特征，实现更多维度对特征关键部分的提取。

附图说明

下面结合附图和实施例对本发明进一步说明。

图1是本发明基于多级时空特征和混合注意力网络的抑郁症诊断方法的整体流程图。

图2是本发明基于多级时空特征和混合注意力网络的抑郁症诊断方法的第三步提取多级时空特征模块图。

图3是本发明基于多级时空特征和混合注意力网络的抑郁症诊断方法的第五步混合注意力模块图。

图4是本发明基于多级时空特征和混合注意力网络的抑郁症诊断方法的第一步原始图与预处理的效果图。

图5是本发明基于多级时空特征和混合注意力网络的抑郁症诊断方法在公开数据集AVEC2013预测值和真实值的展示。

具体实施方式

图1所示实施例表明，本发明基于多级时空特征和混合注意力网络的抑郁症诊断方法的整体流程如下：

视频预处理→输入图像→提取特征→提取多级时空特征→调整多级时空形状→使用混合注意力网络进一步提取特征→计算损失→得到预测的抑郁分数值。

图2所示实施例表明，本发明基于多级时空特征和混合注意力网络的抑郁症诊断方法的提取多级时空特征的流程如下，其中第四层特征与第五层特征的时空调制是并行：

第四层特征时空调制：输入第四层特征→使用卷积核大小为3×1×1的卷积层、最大池化层得到第四层时空调制特征→使用最大池化层、卷积核大小为3×1×1的卷积层进行下采样得到第四层下采样特征；

第五层特征时空调制：输入第五层特征→使用卷积核大小为3×1×1的卷积层进行空间调制→使用卷积核大小为3×1×1的卷积层、最大池化层得到第五层时空调制特征→Upsample函数进行上采样，得到第五层上采样特征；

融合分支一：第四层时空调制特征与第五层上采样特征进行元素相加→与第四层时空特征进行通道拼接→使用卷积核大小为1×3×3的卷积层得到第四层融合特征；

融合分支二：第五层时空调制特征与第四层下采样特征进行元素相加→与第五层时空特征进行通道拼接→使用卷积核大小为1×3×3的卷积层得到第五层融合特征；

最后将第四层融合特征与第五层融合特征进行通道拼接，得到最终的多级时空特征。

图3所示实施例表明，本发明基于多级时空特征和混合注意力网络的抑郁症诊断方法的的混合注意力模块的流程如下：

输入特征→卷积核大小为1×1的卷积层→全连接层→softmax层得到空间特征分布权重→输入特征与空间特征分布权重相乘，得到空间注意力特征→卷积核大小为1×1的卷积层→全连接层→softmax层得到通道特征分布权重→空间注意力特征与通道特征分布权重相乘，得到通道注意力特征→卷积核大小为1×1的卷积层→全连接层→ReLU层得到时间特征分布权重→通道注意力特征与通道特征分布权重相乘，得到混合注意力特征特征。

图4所示实施例表明，本发明基于多级时空特征和混合注意力网络的抑郁症诊断方法的原始图与预处理后的效果展示，其中图(a)、图(c)表示的是原始图片，图(b)、图(d)是与其对应的与处理后的人脸图像。

图5所示实施例表明，本发明基于多级时空特征和混合注意力网络的抑郁症诊断方法在公开数据集AVEC2013预测值和真实值的展示，其中每一点代表数据集AVEC2013中的测试集的一个样本，每个点的横坐标表示数据集提供的抑郁水平的真值，纵坐标表示本模型对该样本的预测结果。

实施例1

本实施例的基于多级时空特征和混合注意力网络的抑郁症诊断方法，具体步骤如下：

第一步，视频数据预处理：

第1.2步，采用文献“Joint face detection and alignment using multitaskcascaded convolutional networks”提出的多任务级联卷积网络(Multi-Task CascadeConvolutional Network，MTCNN)对裁剪过的图片进行5点人脸检测和人脸对齐，将检测到的包含人脸的图像进行人脸对齐并将其大小调整为224*224像素；

第1.3步，生成预处理后的数据；

第二步，提取基础特征：

第2.1步，将上述第1.3步得到的每个视频对应的人脸图像序列划分为具有相同持续时间的t段，然后从每个片段中连续抽取k帧的段片段，将取得的t个段片段输入到预训练过的3D-Resne50网络中编码面部特征；

第2.2步，从2.1步中取3D-Resne50中第四层的特征记为F_up；

第2.3步，从2.1步中取3D-Resne50中第五层的特征记为F_down；

第三步，提取多级时空特征：

第3.1步，使用卷积核大小为1×3×3的卷积层对F_down进行空间特征调制，得到输出的特征为如公式(1)所示：

其中：表示卷积核大小为1×3×3的卷积层；

第3.3步，使用卷积核大小为3×1×1的卷积层、池化核为8×1×1三维最大池化层对F_up进行时间特征调制，得到的输出特征为第四层时空调制特征如公式(3)所示：

第3.4步，使用池化核1×2×2的最大池化层、卷积核大小为3×1×1的卷积层对进行下采样操作，得到的输出特征为第四层下采样特征/>如公式(4)所示：

第3.5步，使用Upsample函数对进行上采样，得到的输出特征为第五层上采样特征/>如公式(5)所示：

其中：Upsample表示Upsample函数；

第3.6步，将特征与特征/>进行元素相加操作，得到输出特征/>如公式(6)所示：

其中：Sum表示元素相加；

第3.7步，将特征与特征/>进行元素相加操作，得到输出特征/>如公式(7)所示：

其中：Sum表示元素相加；

第3.8步，将特征与特征/>进行通道拼接，得到特征为/>如公式(8)所示：

其中：Concat表示通道连接操作；

第3.9步，将特征与特征/>进行通道拼接，得到征为/>如公式(9)所示：

其中：Concat表示通道连接操作；

第3.10步，使用卷积核为1×1×1卷积层对进行特征提取，得到输出的第四层融合特征F_td，如公式(10)所示：/>

其中：表示卷积核为1×1×1卷积层；

其中：表示卷积核为1×1×1的卷积层；

其中：Concat表示通道连接操作；

第四步，调整多级时空特征形状：

其中：Suqeeze表示squeeze函数；

其中：Flatten表示flatten函数；

第4.3步，使用卷积核大小为1×1的卷积层对进行特征提取，得到输出特征为F^f，其中包括每段视频特征/>如公式(15)所示：

其中：表示卷积核大小为1×1的卷积层，t表示的是每个视频取的段数，i表示的是视频中的第i段，m＝h×w；

第五步，使用混合注意力模块进行特征提取：

其中：表示卷积核大小为1×1的卷积层，FC表示全连接层，i表示的是视频中的第i段；/>

其中：t表示每个视频的段数，i表示的是视频中的第i段；

其中：表示矩阵相乘，i表示的是视频中的第i段；

G＝(F^fs)^T∈R^t×c×m (19)

其中：T表示矩阵的转置运算，t表示每个视频的段数，c表示特征的通道数，m＝h×w；

其中：t表示每个视频的段数，i表示的是视频中的第i段；

第5.7步，对每段视频特征每段视频特征G_i∈R^c×m(i＝1，2，....，t)与每段视频特征的通道特征分布权重为进行矩阵相乘，得到输出特征为/>此时整体特征为通道注意力特征G^C，如公式(22)所示：

其中：表示矩阵相乘，i表示的是视频中的第i段；

O＝permute(G^C) (23)

其中：permute表示permute函数，i表示的是视频中的第i段；

其中：表示卷积核大小为1×1的卷积层，FC表示全连接层；

W^T＝ReLU(H^T) (25)

其中：ReLU表示ReLU激活函数，i表示的是视频中的第i段；

其中：i表示的是视频中的第i段；

至此，由上述的第一步到第五步的操作完成了多级时空特征模块和混合注意模块的构建，提取到了最后的可用于抑郁分数诊断的混合注意力特征F_final。

第六步，使用F_final特征进行抑郁分数诊断，使用均方误差损失计算预测值与真实值之间的损失，并计算评价指标平均绝对误差(MAE)和均方根误差(RMSE)：

第6.1步，使用全连接层层对F_final进行操作，得到输出的结果为抑郁分数的预测值如公式(27)所示：

其中：FC表示全连接层；

至此，完成了基于多级时空特征和混合注意力网络的抑郁症诊断。

上述基于多级时空特征和混合注意力网络的抑郁症诊断方法，所述第二步中的片段数t为12，段片段数为16。

本发明针对抑郁症程度诊断，设计的多级时空特征融合模块能够起到增加特征感受野的作用，实现各年龄段的患者进行抑郁症诊断；设计的混合注意力网络能够从空间、通道和时间三个维度对抑郁特征进行关注，能够实现对隐蔽抑郁信息的捕获，有助于提升抑郁症的诊断精度。

本发明未述及之处适用于现有技术。

Claims

1.一种基于多级时空特征和混合注意力网络的图像处理方法，该方法包括以下步骤：

第一步，视频数据预处理：

第1.1步，将视频数据裁剪为图片数据，裁剪的时候保持图片的纵横比，并将图片的高度调整为240像素；

第1.2步，采用多任务级联卷积网络对裁剪过的图片进行5点人脸检测，将检测到的包含人脸的图像进行人脸对齐并将其大小调整为224*224像素；

第1.3步，生成预处理后的数据；

第二步，提取基础特征：

第2.1步，将上述第1.3步得到的每个视频对应的人脸图像序列划分为具有相同持续时间的t段，然后从每个片段中连续抽取k帧作为本段的段片段，将取得的t个段片段输入到预训练过的3D-Resnet50网络中编码面部特征；

第三步，提取多级时空特征：

第3.1步，使用卷积核大小为1×3×3的卷积层对下层特征F_down进行空间特征调制，得到输出的特征为如公式(1)所示：

其中：表示卷积核大小为1×3×3的卷积层；

第3.2步，使用卷积核大小为3×1×1的卷积层、池化核为8×1×1池化层对进行时间特征调制，得到的输出特征为第五层时空调制特征，即下层的时空调制特征/>如公式(2)所示：

第3.3步，使用卷积核大小为3×1×1的卷积层、池化核为8×1×1的池化层对F_up进行时间特征调制，得到的输出特征为第四层时空调制特征，即上层的时空调制特征如公式(3)所示：

第3.4步，使用池化核1×2×2的最大池化层、卷积核大小为3×1×1的卷积层对进行下采样操作，得到的输出特征为第四层下采样特征，即上层的下采样特征/>如公式(4)所示：

第3.5步，使用Upsample函数对进行上采样，得到的输出特征为第五层上采样特征，即下层的上采样特征/>如公式(5)所示：

其中：Upsample表示Upsample函数；

其中：Sum表示元素相加；

第3.7步，将下层的时空调制特征与上层的下采样特征/>进行元素相加操作，得到输出特征/>如公式(7)所示：

其中：Sum表示元素相加；

第3.8步，将上层的时空调制特征与/>进行通道拼接，得到上层部分融合特征为如公式(8)所示：

其中：Concat表示通道连接操作；

第3.9步，将下层的时空调制特征与/>进行通道拼接，得到下层部分融合特征为/>如公式(9)所示：

其中：Concat表示通道连接操作；

第3.10步，使用卷积核为1×1×1卷积层对上层部分融合特征进行特征提取，得到输出的第四层融合特征F_td，如公式(10)所示：

其中：表示卷积核为1×1×1卷积层；

第3.11步，使用卷积核为1×1×1卷积层对下层部分融合特征进行特征提取，得到输出的第五层融合特征F_dt，如公式(11)所示：

其中：表示卷积核为1×1×1的卷积层；

其中：Concat表示通道连接操作；

第四步，调整多级时空特征形状：

第4.1步，使用squeeze函数对多级时空特征进行操作，得到输出特征为/>如公式(13)所示：

其中：Suqeeze表示squeeze函数；

其中：Flatten表示flatten函数；

其中：表示卷积核大小为1×1的卷积层，t表示的是每个视频取的段数，i表示的是视频中的第i段，m＝h×w，h表示的是特征的高度，w表示的是特征的宽度；R表示实数集，c表示特征的通道数；

第五步，使用混合注意力模块进行特征提取：

其中:表示卷积核大小为1×1的卷积层，FC表示全连接层；

其中：表示矩阵相乘；

第5.4步，对特征F^fs进行转至操作，得到输出特征为G，其中包括特征每段视频特征G_i∈R^c×m(i＝1,2,…,t)，如公式(19)所示：

G＝(F^fs)^T∈R^t×c×m (19)

其中:表示矩阵的转置运算，c表示特征的通道数；

其中:表示卷积核大小为1×1的卷积层，FC表示全连接层；

第5.7步，对每段视频特征G_i∈R^c×m(i＝1,2,....,t)与每段视频特征的通道特征分布权重为进行矩阵相乘，得到输出特征为/>此时整体特征为通道注意力特征G^C，如公式(22)所示：

第5.8步，使用permute函数对G^C进行形状调整，输出特征为O∈R^t×c，其中包括每段视频的特征o_i∈R^c(i＝1,2,…,t)，如公式(23)：

O＝permute(G^C) (23)

其中:permute表示permute函数；

其中:表示卷积核大小为1×1的卷积层，FC表示全连接层；

W^T＝ReLU(H^T) (25)

其中：ReLU表示ReLU激活函数；

第5.11步，对每段视频特征每段视频特征o_i∈R^c(i＝1,2,…,t)与每段视频特征的时间特征分布权重为进行矩阵相乘，得到输出特征为混合注意力特征F_final，如公式(26)所示：

至此，由上述的第一步到第五步的操作完成了多级时空特征和混合注意力网络的构建，提取到了最后的可用于抑郁分数诊断的混合注意力特征F_final；

第六步，使用F_final特征进行抑郁分数预测，使用均方误差损失计算预测值与真实值之间的损失以衡量模型预测的好坏，并计算评价指标平均绝对误差和均方根误差以评价本模型的抑郁分数预测效果：

其中:FC表示全连接层；

至此，完成了基于多级时空特征和混合注意力网络的图像处理方法。

2.根据权利要求1所述的基于多级时空特征和混合注意力网络的图像处理方法，其特征在于，所述第二步中的片段数t为12，段片段数k为16。

3.根据权利要求1所述的基于多级时空特征和混合注意力网络的图像处理方法，其特征在于，所述图像处理方法包括以下内容：

将混合注意力模块的输出用于抑郁分数预测。

4.根据权利要求3所述的基于多级时空特征和混合注意力网络的图像处理方法，其特征在于，获得多级时空特征的具体过程是：以3D-Resnet50网络相邻两层的输出作为输入，这相邻的两层分别记为上层特征和下层特征，对输入的上层特征和下层特征均分别进行卷积、池化系列操作得到上层的时空调制和下层的时空调制特征；对上层的时空调制特征依次使用最大池化层、卷积层进行下采样得到上层的下采样特征，对下层的时空调制特征使用Upsample函数进行上采样得到下层的上采样特征；

5.根据权利要求3所述的基于多级时空特征和混合注意力网络的图像处理方法，其特征在于，所述时空特征调制子模块的流程是，下层特征经过卷积核大小为1×3×3的卷积层、卷积核大小为3×1×1的卷积层、池化核大小为8×1×1的池化层获得下层的时空调制特征，

6.根据权利要求3所述的基于多级时空特征和混合注意力网络的图像处理方法，其特征在于，所述调整过程包括压缩、折叠和卷积核大小为1×1的卷积层。

7.根据权利要求3所述的基于多级时空特征和混合注意力网络的图像处理方法，其特征在于，所述的混合注意力模块由空间注意力模块、通道注意力模块和时间注意力模块构成，其中空间注意力模块包括卷积核大小为1×1的卷积层、全连接层、softmax层，通道注意力模块包括1×1的卷积层、全连接层、softmax层，时间注意力模块包括卷积核大小为1×1的卷积层、全连接层和线性整流激活函数，将经过混合注意力模块的特征输入到一个全连接层中，即能获得对应抑郁症患者的抑郁分数。