CN113782190B - 基于多级时空特征和混合注意力网络的图像处理方法 - Google Patents
基于多级时空特征和混合注意力网络的图像处理方法 Download PDFInfo
- Publication number
- CN113782190B CN113782190B CN202111104505.9A CN202111104505A CN113782190B CN 113782190 B CN113782190 B CN 113782190B CN 202111104505 A CN202111104505 A CN 202111104505A CN 113782190 B CN113782190 B CN 113782190B
- Authority
- CN
- China
- Prior art keywords
- layer
- feature
- characteristic
- convolution
- features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title claims description 9
- 238000000034 method Methods 0.000 claims abstract description 48
- 230000004927 fusion Effects 0.000 claims abstract description 46
- 238000003745 diagnosis Methods 0.000 claims abstract description 38
- 230000002123 temporal effect Effects 0.000 claims abstract description 11
- 230000000994 depressogenic effect Effects 0.000 claims abstract description 8
- 238000011156 evaluation Methods 0.000 claims abstract description 8
- 238000011176 pooling Methods 0.000 claims description 59
- 239000011159 matrix material Substances 0.000 claims description 17
- 238000007781 pre-processing Methods 0.000 claims description 11
- 230000001815 facial effect Effects 0.000 claims description 10
- 238000005070 sampling Methods 0.000 claims description 10
- 238000000605 extraction Methods 0.000 claims description 9
- 238000001514 detection method Methods 0.000 claims description 8
- 230000004913 activation Effects 0.000 claims description 6
- 230000000694 effects Effects 0.000 claims description 5
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 claims description 3
- 238000010276 construction Methods 0.000 claims description 3
- 230000007704 transition Effects 0.000 claims description 3
- IZUPBVBPLAPZRR-UHFFFAOYSA-N pentachlorophenol Chemical compound OC1=C(Cl)C(Cl)=C(Cl)C(Cl)=C1Cl IZUPBVBPLAPZRR-UHFFFAOYSA-N 0.000 claims 2
- 230000006835 compression Effects 0.000 claims 1
- 238000007906 compression Methods 0.000 claims 1
- 208000020401 Depressive disease Diseases 0.000 abstract description 32
- 230000006870 function Effects 0.000 description 31
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000012512 characterization method Methods 0.000 description 4
- 230000003068 static effect Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 239000012634 fragment Substances 0.000 description 2
- 208000017194 Affective disease Diseases 0.000 description 1
- 208000024172 Cardiovascular disease Diseases 0.000 description 1
- 206010010144 Completed suicide Diseases 0.000 description 1
- 208000019022 Mood disease Diseases 0.000 description 1
- 206010028980 Neoplasm Diseases 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 201000011510 cancer Diseases 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 208000035475 disorder Diseases 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000008921 facial expression Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000000053 physical method Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Medical Informatics (AREA)
- Public Health (AREA)
- Pathology (AREA)
- Primary Health Care (AREA)
- Epidemiology (AREA)
- Databases & Information Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明为基于多级时空特征和混合注意力网络的抑郁症诊断方法,该方法包括以下内容:经过预处理的公开数据集变为成组的大小固定的图片,每个图片组对应一个视频序列,并对应一个抑郁分数;构建多级时空特征和混合注意力网络:以3D‑Resnet50网络相邻两层的输出作为输入,接入多级时空特征融合模块;所述多级时空特征融合模块包括时空特征调制子模块和特征融合子模块,时空特征调制子模块用于分别对相邻两层的输出都进行空间和时间调制;特征融合子模块用于对两个调制后的特征进行特征融合;多级时空特征经调整后连接一个混合注意力模块。该方法有效克服了单一网络深度在时间感受野和空间感受野局限的问题,实现针对抑郁患者的抑郁分数评估。
Description
技术领域
本发明的技术方案涉计算机视觉技术领域,具体地说是基于多级时空特征和混合注意力网络的抑郁症诊断方法。
背景技术
抑郁症是一种常见的情感性精神障碍疾病,世界各地总计超过3.5亿人患有不同程度的抑郁症,而且抑郁症病例的增长幅度仍在逐年递增,预计到2030年抑郁症将变成世界第一大疾病。长期的抑郁障碍不仅会显著增加患者罹患癌症或心血管疾病的几率,也会极大地增加患者自杀的风险。传统的抑郁症诊断方式主要依赖于患者的自我主观评估和临床访谈,但是这种方式易受客观水平和先验知识的影响,极易导致较高的误诊率,会对患者产生严重的误诊后果。因此,急需借助机器学习、深度学习等技术进行抑郁症自动检测,以提高抑郁诊断的准确率,推动智能医疗的发展。
当前,基于面部表情的抑郁症诊断方法主要分为基于手工特征和深度特征的方法。基于手工特征的方法主要根据物理方法设计捕获特征的算法,特征提取过程中缺乏完整性。文献“面部动态特征描述的抑郁症识别”中提出一种可以深层次挖掘面部宏观和微观结构信息的手工特征中值鲁棒局部二值模式—3D正交平面(median robust local binarypatterns from three orthogonal planes,MRELBP-TOP),并采用稀疏编码抽象出紧凑的手工特征用于评估贝克抑郁量表(the Beck depression inventory-II,BDI-II)对应的分数,但该方法缺乏对面部空间的静态特征的学习。基于深度特征的方法将神经网络引入抑郁症诊断的研究中,文献“Automated Depression Diagnosis Based on Deep Networksto Encode Facial Appearance and Dynamics”中提出使用两个并行的神经网络分别从面部信息中学习面部的空间静态特征和时间动态特征,通过整合静态特征和动态特征进行抑郁分数评估,该方法忽略了面部空间特征和时间特征之间的相关性和依赖性。文献“Video-Based Depression Level Analysis by Encoding Deep Spatiotemporal Features”中将整体面部区域和对齐裁剪后的面部区域输入到C3D(convolutional 3D)网络中学习面部的空间特征和时间特征,并使用循环神经网络对时空特征序列进行建模以评估抑郁分数,该方法的诊断依赖于神经网络的最深层单一感受野的时空特征,忽略了面部中的抑郁信息在空间上和时间上多变的现实问题。CN112232191A公开了一种基于微表情分析的抑郁症识别系统,该方法采用分开提取时空特征的方式,并在时间特征流使用光流图这一手工特征作为输入,不能捕捉有效的时间特征和相互依赖的时空特征;CN110472564A公开了一种基于特征金字塔网络的双向LSTM微表情识别抑郁症方法,该方法使用特征金字塔网络多样化特征尺度并使用双向LSTM串联多尺度特征,只是单纯的调整特征尺度并未能捕获不同感受野的时空特征,不利于隐蔽的抑郁症情感特征的捕获。
发明内容
针对现有技术的不足,本发明所要解决的技术问题是:提供基于多级时空特征和混合注意力网络的抑郁症诊断方法。该方法首先对抑郁症患者的视频进行预处理,得到视频中的面部区域,再用3D-Resnet50网络提取视频序列中面部区域的时空特征,然后设计多级时空特征融合模块以调制和融合多级时空特征,得到包含丰富时空特征的多级时空特征,有效克服了单一网络深度在时间感受野和空间感受野局限的问题。此外,为了获得更加准确的抑郁评估效果,设计了以空间注意力、通道注意力和时间注意力为顺序组成的混合注意力模块,能够从多级时空特征中捕获不同维度的抑郁信息,从而实现针对抑郁患者的抑郁分数评估。
本发明解决该技术问题所采用的技术方案是:基于多级时空特征和混合注意力网络的抑郁症诊断方法,该方法包括以下内容:
对抑郁公开数据集进行预处理,预处理包括视频裁剪和人脸检测、对齐,经过预处理的公开数据集变为成组的大小固定的图片,每个图片组对应一个视频序列,并对应一个抑郁分数;
构建多级时空特征和混合注意力网络:以3D-Resnet50网络为基础,以3D-Resnet50网络相邻两层的输出作为输入,接入多级时空特征融合模块;所述多级时空特征融合模块包括时空特征调制子模块和特征融合子模块,时空特征调制子模块用于分别对相邻两层的输出都进行空间和时间调制,获得相应的调制后的特征;特征融合子模块用于对两个调制后的特征进行特征融合,获得多级时空特征;多级时空特征经调整后连接一个混合注意力模块;所述混合注意力模块包括空间注意力模块、通道注意力模块和时间注意力模块,用于捕获不同维度的抑郁信息;
将混合注意力模块的输出用于抑郁分数预测。
获得多级时空特征的具体过程是:以3D-Resnet50网络相邻两层的输出作为输入,这相邻的两层分别记为上层特征和下层特征,对输入的上层特征和下层特征均分别进行卷积、池化系列操作得到上层的时空调制和下层的时空调制特征;对上层的时空调制特征依次使用最大池化层、卷积层进行下采样得到上层的下采样特征,对下层的时空调制特征使用Upsample函数进行上采样得到下层的上采样特征;
将上层的时空调制特征和下层的上采样特征进行元素相加的结果与上层的时空调制特征进行通道连接得到上层部分融合特征,将下层的时空调制特征与上层的下采样特征进行元素相加的结果与下层的时空调制特征进行通道连接得到下层部分融合特征,最后利用通道拼接层拼接上层部分融合特征和下层部分融合特征,得到包含丰富语义信息的多级时空特征。
所述时空特征调制子模块的流程是,下层特征经过卷积核大小为1×3×3的卷积层、卷积核大小为3×1×1的卷积层、池化核大小为8×1×1的池化层获得下层的时空调制特征,
上层特征经过卷积核大小为3×1×1的卷积层、池化核大小为8×1×1的池化层获得上层的时空调制特征,
使用池化核1×2×2的最大池化层、卷积核大小为3×1×1的卷积层对上层的时空调制特征进行下采样操作,获得上层的下采样特征;
使用Upsample函数对下层的时空调制特征进行上采样,获得下层的上采样特征;
上层的下采样特征和下层的上采样特征即为时空特征调制子模块调制后的特征。
所述调整过程包括压缩、折叠和卷积核大小为1×1的卷积层。
所述的混合注意力模块由空间注意力模块、通道注意力模块和时间注意力模块构成,其中空间注意力模块包括卷积核大小为1×1的卷积层、全连接层、softmax层,通道注意力模块包括1×1的卷积层、全连接层、softmax层,时间注意力模块包括卷积核大小为1×1的卷积层、全连接层和线性整流激活函数,将经过混合注意力模块的特征输入到一个全连接层中,即能获得对应抑郁症患者的抑郁分数。
将从经过预处理的人脸图像输入到多级时空特征和混合注意力网络中,实现抑郁症患者的抑郁分数的评估。
基于多级时空特征和混合注意力网络的具体步骤如下:
第一步,视频数据预处理:
第1.1步,采用FFMPEG(fast forward moving picture expert group)工具将视频数据裁剪为图片数据,裁剪的时候保持图片的纵横比,并将图片的高度调整为240像素;
第1.2步,采用文献“Joint face detection and alignment using multitaskcascaded convolutional networks”提出的多任务级联卷积网络(Multi-Task CascadeConvolutional Network,MTCNN)对裁剪过的图片进行5点人脸检测,将检测到的包含人脸的图像进行人脸对齐并将其大小调整为224*224像素;
第1.3步,生成预处理后的数据;
经过预处理的公开数据集变为成组的大小固定的图片,每个图片组对应一个视频序列,并对应一个抑郁分数,获得每个视频对应的人脸图像序列;
第二步,提取基础特征即仅使用3D-Resnet50网络提取的特征:
第2.1步,将上述第1.3步得到的每个视频对应的人脸图像序列划分为具有相同持续时间的t段,然后从每个片段中连续抽取k帧作为本段的段片段,将取得的t个段片段输入到预训练过的3D-Resne50网络中编码面部特征;
第2.2步,从2.1步中取3D-Resnet50中第四层的特征记为上层特征Fup;
第2.3步,从2.1步中取3D-Resnet50中第五层的特征记为下层特征Fdown;
这两个上层特征和下层特征均包含了时间和空间信息,二者的感受野范围不同,本申请这里取连续的片段,每段内的段片段具有连续性,获得视频的连续性质,再加上两层的感受野设置,使其能够有效捕捉微小的面部变化,更加有助于对抑郁症情况的捕捉。
第三步,提取多级时空特征:
第3.1步,使用卷积核大小为1×3×3的卷积层对Fdown进行空间特征调制,得到输出的特征为下层空间特征如公式(1)所示:
其中:表示卷积核大小为1×3×3的卷积层;
第3.2步,使用卷积核大小为3×1×1的卷积层、池化核为8×1×1最大池化层(MaxPooling)对进行时间特征调制,得到的输出特征为第五层时空调制特征/>如公式(2)所示:
其中:表示池化核为8×1×1的最大池化层,/>表示卷积核大小为3×1×1的卷积层;
第3.3步,使用卷积核大小为3×1×1的卷积层、池化核为8×1×1三维最大池化层对上层特征Fup进行时间特征调制,得到的输出特征为第四层时空调制特征如公式(3)所示:
其中:表示池化核为8×1×1的最大池化层,/>表示卷积核大小为3×1×1的卷积层;
第3.4步,使用池化核1×2×2的最大池化层、卷积核大小为3×1×1的卷积层对上层的时空调制特征进行下采样操作,得到的输出特征为第四层下采样特征/>如公式(4)所示:
其中:表示池化核为1×2×2的最大池化层,/>表示卷积核大小为3×1×1的卷积层;
第3.5步,使用Upsample函数对下层的时空调制特征进行上采样,得到的输出特征为第五层上采样特征/>如公式(5)所示:
其中:Upsample表示Upsample函数;
第3.6步,将上层的时空调制特征与下层的上采样特征/>进行元素相加操作,得到输出特征/>如公式(6)所示:
其中:Sum表示元素相加;
第3.7步,将下层的时空调制特征与特征/>进行元素相加操作,得到输出特征/>如公式(7)所示:
其中:Sum表示元素相加;
第3.8步,将上层时空调制特征与特征/>进行通道拼接,得到上层部分融合特征为/>如公式(8)所示:
其中:Concat表示通道连接操作;
第3.9步,将下层时空调制特征与特征/>进行通道拼接,得到下层部分融合特征为/>如公式(9)所示:
其中:Concat表示通道连接操作;
第3.10步,使用卷积核为1×1×1卷积层对进行特征提取,得到输出的第四层融合特征Ftd,如公式(10)所示:
其中:表示卷积核为1×1×1卷积层;
第3.11步,使用卷积核为1×1×1卷积层对进行特征提取,得到输出的第五层融合特征Fdt,如公式(11)所示:
其中:表示卷积核为1×1×1的卷积层;
第3.12步,将特征Ftd与特征Fdt进行通道拼接,得到的多级时空特征为如公式(12)所示:
其中:Concat表示通道连接操作;
第四步,调整多级时空特征形状:
第4.1步,使用squeeze函数对进行操作,得到输出特征为/>如公式(13)所示:
其中:Suqeeze表示squeeze函数;
第4.2步,使用flatten函数对进行操作,得到输出特征为/>如公式(14)所示:
其中:Flatten表示flatten函数;
第4.3步,使用卷积核大小为1×1的卷积层对进行特征提取,得到输出特征为Ff,其中包括每段视频特征/>如公式(15)所示:
其中:表示卷积核大小为1×1的卷积层,t表示的是每个视频取的段数,i表示的是视频中的第i段,m=h×w,h表示的是特征的高度,w表示的是特征的宽度;
第五步,使用混合注意力模块进行特征提取:
第5.1步,使用卷积核大小为1×1的卷积层、全连接层对进行特征提取,得到输出特征为/>如公式(16)所示:
其中:表示卷积核大小为1×1的卷积层,FC表示全连接层,i表示的是视频中的第i段;
第5.2步,使用softmax层对进行操作,得到空间特征分布权重为/>如公式(17)所示:
其中:t表示每个视频的段数,i表示的是视频中的第i段;
第5.3步,对每段视频特征与每段视频的特征空间特征分布权重为/>进行矩阵相乘,得到输出特征为/>此时整体特征为空间注意力特征Ffs,如公式(18)所示:
其中:表示矩阵相乘,i表示的是视频中的第i段;
第5.4步,对特征Ffs进行转至操作,得到输出特征为G,其中包括特征每段视频特征Gi∈Rc×m(i=1,2,....,t),如公式(19)所示:
G=(Ffs)T∈Rt×c×m (19)
其中:T表示矩阵的转置运算,t表示每个视频的段数,c表示特征的通道数,m=h×w,h表示的是特征的高度,w表示的是特征的宽度;
第5.5步,使用卷积核大小为1×1的卷积层、全连接层对Gi进行特征提取,得到输出特征为如公式(20)所示:
其中:表示卷积核大小为1×1的卷积层,FC表示全连接层,i表示的是视频中的第i段;
第5.6步,使用softmax层对进行操作,得到通道特征分布权重为/>如公式(21)所示:
其中:t表示每个视频的段数,i表示的是视频中的第i段;
第5.7步,对每段视频特征Gi∈Rc×m(i=1,2,....,t)与每段视频特征的通道特征分布权重为进行矩阵相乘,得到输出特征为/>此时整体特征为通道注意力特征GC,如公式(22)所示:
其中:表示矩阵相乘,i表示的是视频中的第i段;
第5.8步,使用permute函数对GC进行形状调整,输出特征为O∈Rt×c,其中包括每段视频的特征oi∈Rc(i=1,2,...,t),如公式(23):
O=permute(GC) (23)
其中:permute表示permute函数,i表示的是视频中的第i段;
第5.9步,使用卷积核大小为1×1的卷积层、全连接层对O进行特征提取,得到输出特征为HT,如公式(24)所示:
其中:表示卷积核大小为1×1的卷积层,FC表示全连接层;
第5.10步,使用ReLU函数对HT进行特征提取,得到输出特征为WT,其中包括每段视频的特征如公式(25)所示:
WT=ReLU(HT) (25)
其中:ReLU表示ReLU激活函数,i表示的是视频中的第i段;
第5.11步,对每段视频特征每段视频特征oi∈Rc(i=1,2,...,t)与每段视频特征的时间特征分布权重为进行矩阵相乘,得到输出特征为混合注意力特征Ffinal,如公式(26)所示:
其中:i表示的是视频中的第i段;
至此,由上述的第一步到第五步的操作完成了多级时空特征和混合注意力网络的构建,提取到了最后的可用于抑郁分数诊断的混合注意力特征Ffinal。
第六步,使用Ffinal特征进行抑郁分数预测,使用均方误差损失计算预测值与真实值之间的损失以衡量模型预测的好坏,并计算评价指标平均绝对误差(MAE)和均方根误差(RMSE)以评价本模型的抑郁分数预测效果:
第6.1步,使用全连接层对Ffinal进行操作,得到输出的结果为抑郁分数的预测值如公式(27)所示:
其中:FC表示全连接层;
第6.2步,对U个抑郁样本,使用均方误差损失函数计算其对应的预测值与真实值之间的误差,如公式(28)所示:
其中:MSELoss表示均方误差损失值,U表示的是样本的总个数,第个样本的预测值,yu表示第u个样本的真实值;
第6.3步,对U个抑郁样本,使用平均绝对误差和均方根误差计算其对应的预测值与真实值之间的误差,如公式(29)、(30)所示:
其中:MAE表示平均绝对误差,RMSE表示均方根误差,U表示的是样本的总个数,第u个样本的预测值,yu表示第u个样本的真实值;
选择损失和评价指标最低的模型即可得到训练好的整个网络模型,将待诊断的人脸视频序列经过上述的预处理后,输入到训练好的整个网络模型中,即可诊断出该对象的抑郁症诊断分数,至此,完成了基于多级时空特征和混合注意力网络的抑郁症诊断。
具体地,上述基于多级时空特征和混合注意力网络的抑郁症诊断方法,所述第一步中的FFMPEG,全称为fast forward moving picture expert group,中文名为快进运动图像专家组,为本技术领域公知的算法。
上述基于多级时空特征和混合注意力网络的抑郁症诊断方法,所述第二步中的3D-Resnet50,全称为3Dimension-Resnet 50,中文名为三维残差网络50,为本技术领域公知的算法。
上述基于多级时空特征和混合注意力网络的抑郁症诊断方法,所述第二步中的片段数t为12,段片段数(指每个片段取的有效的连续帧的个数)k为16。
本发明的有益效果是:与现有技术相比,本发明的突出的实质性特点和显著进步如下:
(1)本发明方法构建了多级时空特征模块,对输入的上层特征和下层特征分别进行时空调制,对两个特征依次进行卷积、池化操作得到时空调制的上层特征和下层特征;对时空调制的上层特征依次使用最大池化层、卷积层进行下采样得到上层的下采样特征,对时空调制的下层特征使用Upsample函数进行上采样得到下层的上采样特征;将上层的时空调制特征和下层的上采样特征进行元素相加的结果与上层时空调制特征通道连接得到上层部分融合特征,将下层的时空调制特征与上层的下采样特征进行元素相加的结果与下层时空调制特征通道连接得到下层部分融合特征,最后利用通道拼接层拼接上层部分融合特征和下层部分融合特征,得到包含丰富语义信息的多级时空特征,克服了抑郁症诊断中的时空特征感受野单一的问题。
(2)本发明方法构建的混合注意力模块,从空间、通道和时间三个维度对多级时空特征进行处理,采用卷积层、全连接层、softmax层得到空间权重系数,将空间权重系数与特征输入到乘积函数层,得到经过空间注意力的特征;将经过空间注意力的特征输入到卷积层、输入到全连接层、softmax层得到通道权重系数,将通道权重系数与经过空间注意力的特征输入到乘积函数层,得到经过通道注意力的特征;将经过通道注意力的特征分别输入到卷积层、全连接层、线性整流激活函数中得到时间权重系数,将时间权重系数与经过通道注意力的特征输入到乘积函数层,得到经过混合注意力的特征,增强了时空特征的区分度,提升抑郁诊断的准确性。
综上,本发明中上、下层特征包含着不同的感受野,采用时空调制(也就是时间和空间特征的调整)以实现融合获得多级时空特征,并将多级时空特征用于抑郁诊断,视频序列在制作时采用的是局部连续帧的图片,相邻帧间面部特征变化很小,能够更加有效地捕捉有用特征,再加上混合注意力模块的加入,能够从多维度上更加关注与抑郁相关的特征,实现更多维度对特征关键部分的提取。
附图说明
下面结合附图和实施例对本发明进一步说明。
图1是本发明基于多级时空特征和混合注意力网络的抑郁症诊断方法的整体流程图。
图2是本发明基于多级时空特征和混合注意力网络的抑郁症诊断方法的第三步提取多级时空特征模块图。
图3是本发明基于多级时空特征和混合注意力网络的抑郁症诊断方法的第五步混合注意力模块图。
图4是本发明基于多级时空特征和混合注意力网络的抑郁症诊断方法的第一步原始图与预处理的效果图。
图5是本发明基于多级时空特征和混合注意力网络的抑郁症诊断方法在公开数据集AVEC2013预测值和真实值的展示。
具体实施方式
图1所示实施例表明,本发明基于多级时空特征和混合注意力网络的抑郁症诊断方法的整体流程如下:
视频预处理→输入图像→提取特征→提取多级时空特征→调整多级时空形状→使用混合注意力网络进一步提取特征→计算损失→得到预测的抑郁分数值。
图2所示实施例表明,本发明基于多级时空特征和混合注意力网络的抑郁症诊断方法的提取多级时空特征的流程如下,其中第四层特征与第五层特征的时空调制是并行:
第四层特征时空调制:输入第四层特征→使用卷积核大小为3×1×1的卷积层、最大池化层得到第四层时空调制特征→使用最大池化层、卷积核大小为3×1×1的卷积层进行下采样得到第四层下采样特征;
第五层特征时空调制:输入第五层特征→使用卷积核大小为3×1×1的卷积层进行空间调制→使用卷积核大小为3×1×1的卷积层、最大池化层得到第五层时空调制特征→Upsample函数进行上采样,得到第五层上采样特征;
融合分支一:第四层时空调制特征与第五层上采样特征进行元素相加→与第四层时空特征进行通道拼接→使用卷积核大小为1×3×3的卷积层得到第四层融合特征;
融合分支二:第五层时空调制特征与第四层下采样特征进行元素相加→与第五层时空特征进行通道拼接→使用卷积核大小为1×3×3的卷积层得到第五层融合特征;
最后将第四层融合特征与第五层融合特征进行通道拼接,得到最终的多级时空特征。
图3所示实施例表明,本发明基于多级时空特征和混合注意力网络的抑郁症诊断方法的的混合注意力模块的流程如下:
输入特征→卷积核大小为1×1的卷积层→全连接层→softmax层得到空间特征分布权重→输入特征与空间特征分布权重相乘,得到空间注意力特征→卷积核大小为1×1的卷积层→全连接层→softmax层得到通道特征分布权重→空间注意力特征与通道特征分布权重相乘,得到通道注意力特征→卷积核大小为1×1的卷积层→全连接层→ReLU层得到时间特征分布权重→通道注意力特征与通道特征分布权重相乘,得到混合注意力特征特征。
图4所示实施例表明,本发明基于多级时空特征和混合注意力网络的抑郁症诊断方法的原始图与预处理后的效果展示,其中图(a)、图(c)表示的是原始图片,图(b)、图(d)是与其对应的与处理后的人脸图像。
图5所示实施例表明,本发明基于多级时空特征和混合注意力网络的抑郁症诊断方法在公开数据集AVEC2013预测值和真实值的展示,其中每一点代表数据集AVEC2013中的测试集的一个样本,每个点的横坐标表示数据集提供的抑郁水平的真值,纵坐标表示本模型对该样本的预测结果。
实施例1
本实施例的基于多级时空特征和混合注意力网络的抑郁症诊断方法,具体步骤如下:
第一步,视频数据预处理:
第1.1步,采用FFMPEG(fast forward moving picture expert group)工具将视频数据裁剪为图片数据,裁剪的时候保持图片的纵横比,并将图片的高度调整为240像素;
第1.2步,采用文献“Joint face detection and alignment using multitaskcascaded convolutional networks”提出的多任务级联卷积网络(Multi-Task CascadeConvolutional Network,MTCNN)对裁剪过的图片进行5点人脸检测和人脸对齐,将检测到的包含人脸的图像进行人脸对齐并将其大小调整为224*224像素;
第1.3步,生成预处理后的数据;
第二步,提取基础特征:
第2.1步,将上述第1.3步得到的每个视频对应的人脸图像序列划分为具有相同持续时间的t段,然后从每个片段中连续抽取k帧的段片段,将取得的t个段片段输入到预训练过的3D-Resne50网络中编码面部特征;
第2.2步,从2.1步中取3D-Resne50中第四层的特征记为Fup;
第2.3步,从2.1步中取3D-Resne50中第五层的特征记为Fdown;
第三步,提取多级时空特征:
第3.1步,使用卷积核大小为1×3×3的卷积层对Fdown进行空间特征调制,得到输出的特征为如公式(1)所示:
其中:表示卷积核大小为1×3×3的卷积层;
第3.2步,使用卷积核大小为3×1×1的卷积层、池化核为8×1×1最大池化层(MaxPooling)对进行时间特征调制,得到的输出特征为第五层时空调制特征/>如公式(2)所示:
其中:表示池化核为8×1×1的最大池化层,/>表示卷积核大小为3×1×1的卷积层;
第3.3步,使用卷积核大小为3×1×1的卷积层、池化核为8×1×1三维最大池化层对Fup进行时间特征调制,得到的输出特征为第四层时空调制特征如公式(3)所示:
其中:表示池化核为8×1×1的最大池化层,/>表示卷积核大小为3×1×1的卷积层;
第3.4步,使用池化核1×2×2的最大池化层、卷积核大小为3×1×1的卷积层对进行下采样操作,得到的输出特征为第四层下采样特征/>如公式(4)所示:
其中:表示池化核为1×2×2的最大池化层,/>表示卷积核大小为3×1×1的卷积层;
第3.5步,使用Upsample函数对进行上采样,得到的输出特征为第五层上采样特征/>如公式(5)所示:
其中:Upsample表示Upsample函数;
第3.6步,将特征与特征/>进行元素相加操作,得到输出特征/>如公式(6)所示:
其中:Sum表示元素相加;
第3.7步,将特征与特征/>进行元素相加操作,得到输出特征/>如公式(7)所示:
其中:Sum表示元素相加;
第3.8步,将特征与特征/>进行通道拼接,得到特征为/>如公式(8)所示:
其中:Concat表示通道连接操作;
第3.9步,将特征与特征/>进行通道拼接,得到征为/>如公式(9)所示:
其中:Concat表示通道连接操作;
第3.10步,使用卷积核为1×1×1卷积层对进行特征提取,得到输出的第四层融合特征Ftd,如公式(10)所示:/>
其中:表示卷积核为1×1×1卷积层;
第3.11步,使用卷积核为1×1×1卷积层对进行特征提取,得到输出的第五层融合特征Fdt,如公式(11)所示:
其中:表示卷积核为1×1×1的卷积层;
第3.12步,将特征Ftd与特征Fdt进行通道拼接,得到的多级时空特征为如公式(12)所示:
其中:Concat表示通道连接操作;
第四步,调整多级时空特征形状:
第4.1步,使用squeeze函数对进行操作,得到输出特征为/>如公式(13)所示:
其中:Suqeeze表示squeeze函数;
第4.2步,使用flatten函数对进行操作,得到输出特征为/>如公式(14)所示:
其中:Flatten表示flatten函数;
第4.3步,使用卷积核大小为1×1的卷积层对进行特征提取,得到输出特征为Ff,其中包括每段视频特征/>如公式(15)所示:
其中:表示卷积核大小为1×1的卷积层,t表示的是每个视频取的段数,i表示的是视频中的第i段,m=h×w;
第五步,使用混合注意力模块进行特征提取:
第5.1步,使用卷积核大小为1×1的卷积层、全连接层对进行特征提取,得到输出特征为/>如公式(16)所示:
其中:表示卷积核大小为1×1的卷积层,FC表示全连接层,i表示的是视频中的第i段;/>
第5.2步,使用softmax层对进行操作,得到空间特征分布权重为/>如公式(17)所示:
其中:t表示每个视频的段数,i表示的是视频中的第i段;
第5.3步,对每段视频特征与每段视频的特征空间特征分布权重为/>进行矩阵相乘,得到输出特征为/>此时整体特征为空间注意力特征Ffs,如公式(18)所示:
其中:表示矩阵相乘,i表示的是视频中的第i段;
第5.4步,对特征Ffs进行转至操作,得到输出特征为G,其中包括特征每段视频特征Gi∈Rc×m(i=1,2,....,t),如公式(19)所示:
G=(Ffs)T∈Rt×c×m (19)
其中:T表示矩阵的转置运算,t表示每个视频的段数,c表示特征的通道数,m=h×w;
第5.5步,使用卷积核大小为1×1的卷积层、全连接层对Gi进行特征提取,得到输出特征为如公式(20)所示:
其中:表示卷积核大小为1×1的卷积层,FC表示全连接层,i表示的是视频中的第i段;
第5.6步,使用softmax层对进行操作,得到通道特征分布权重为/>如公式(21)所示:
其中:t表示每个视频的段数,i表示的是视频中的第i段;
第5.7步,对每段视频特征每段视频特征Gi∈Rc×m(i=1,2,....,t)与每段视频特征的通道特征分布权重为进行矩阵相乘,得到输出特征为/>此时整体特征为通道注意力特征GC,如公式(22)所示:
其中:表示矩阵相乘,i表示的是视频中的第i段;
第5.8步,使用permute函数对GC进行形状调整,输出特征为O∈Rt×c,其中包括每段视频的特征oi∈Rc(i=1,2,...,t),如公式(23):
O=permute(GC) (23)
其中:permute表示permute函数,i表示的是视频中的第i段;
第5.9步,使用卷积核大小为1×1的卷积层、全连接层对O进行特征提取,得到输出特征为HT,如公式(24)所示:
其中:表示卷积核大小为1×1的卷积层,FC表示全连接层;
第5.10步,使用ReLU函数对HT进行特征提取,得到输出特征为WT,其中包括每段视频的特征如公式(25)所示:
WT=ReLU(HT) (25)
其中:ReLU表示ReLU激活函数,i表示的是视频中的第i段;
第5.11步,对每段视频特征每段视频特征oi∈Rc(i=1,2,...,t)与每段视频特征的时间特征分布权重为进行矩阵相乘,得到输出特征为混合注意力特征Ffinal,如公式(26)所示:
其中:i表示的是视频中的第i段;
至此,由上述的第一步到第五步的操作完成了多级时空特征模块和混合注意模块的构建,提取到了最后的可用于抑郁分数诊断的混合注意力特征Ffinal。
第六步,使用Ffinal特征进行抑郁分数诊断,使用均方误差损失计算预测值与真实值之间的损失,并计算评价指标平均绝对误差(MAE)和均方根误差(RMSE):
第6.1步,使用全连接层层对Ffinal进行操作,得到输出的结果为抑郁分数的预测值如公式(27)所示:
其中:FC表示全连接层;
第6.2步,对U个抑郁样本,使用均方误差损失函数计算其对应的预测值与真实值之间的误差,如公式(28)所示:
其中:MSELoss表示均方误差损失值,U表示的是样本的总个数,第个样本的预测值,yu表示第u个样本的真实值;
第6.3步,对U个抑郁样本,使用平均绝对误差和均方根误差计算其对应的预测值与真实值之间的误差,如公式(29)、(30)所示:
其中:MAE表示平均绝对误差,RMSE表示均方根误差,U表示的是样本的总个数,第u个样本的预测值,yu表示第u个样本的真实值;
至此,完成了基于多级时空特征和混合注意力网络的抑郁症诊断。
具体地,上述基于多级时空特征和混合注意力网络的抑郁症诊断方法,所述第一步中的FFMPEG,全称为fast forward moving picture expert group,中文名为快进运动图像专家组,为本技术领域公知的算法。
上述基于多级时空特征和混合注意力网络的抑郁症诊断方法,所述第二步中的3D-Resnet50,全称为3Dimension-Resnet 50,中文名为三维残差网络50,为本技术领域公知的算法。
上述基于多级时空特征和混合注意力网络的抑郁症诊断方法,所述第二步中的片段数t为12,段片段数为16。
本发明针对抑郁症程度诊断,设计的多级时空特征融合模块能够起到增加特征感受野的作用,实现各年龄段的患者进行抑郁症诊断;设计的混合注意力网络能够从空间、通道和时间三个维度对抑郁特征进行关注,能够实现对隐蔽抑郁信息的捕获,有助于提升抑郁症的诊断精度。
本发明未述及之处适用于现有技术。
Claims (7)
1.一种基于多级时空特征和混合注意力网络的图像处理方法,该方法包括以下步骤:
第一步,视频数据预处理:
第1.1步,将视频数据裁剪为图片数据,裁剪的时候保持图片的纵横比,并将图片的高度调整为240像素;
第1.2步,采用多任务级联卷积网络对裁剪过的图片进行5点人脸检测,将检测到的包含人脸的图像进行人脸对齐并将其大小调整为224*224像素;
第1.3步,生成预处理后的数据;
经过预处理的公开数据集变为成组的大小固定的图片,每个图片组对应一个视频序列,并对应一个抑郁分数,获得每个视频对应的人脸图像序列;
第二步,提取基础特征:
第2.1步,将上述第1.3步得到的每个视频对应的人脸图像序列划分为具有相同持续时间的t段,然后从每个片段中连续抽取k帧作为本段的段片段,将取得的t个段片段输入到预训练过的3D-Resnet50网络中编码面部特征;
第2.2步,从2.1步中取3D-Resnet50中第四层的特征记为上层特征Fup;
第2.3步,从2.1步中取3D-Resnet50中第五层的特征记为下层特征Fdown;
第三步,提取多级时空特征:
第3.1步,使用卷积核大小为1×3×3的卷积层对下层特征Fdown进行空间特征调制,得到输出的特征为如公式(1)所示:
其中:表示卷积核大小为1×3×3的卷积层;
第3.2步,使用卷积核大小为3×1×1的卷积层、池化核为8×1×1池化层对进行时间特征调制,得到的输出特征为第五层时空调制特征,即下层的时空调制特征/>如公式(2)所示:
其中:表示池化核为8×1×1的最大池化层,/>表示卷积核大小为3×1×1的卷积层;
第3.3步,使用卷积核大小为3×1×1的卷积层、池化核为8×1×1的池化层对Fup进行时间特征调制,得到的输出特征为第四层时空调制特征,即上层的时空调制特征如公式(3)所示:
其中:表示池化核为8×1×1的最大池化层,/>表示卷积核大小为3×1×1的卷积层;
第3.4步,使用池化核1×2×2的最大池化层、卷积核大小为3×1×1的卷积层对进行下采样操作,得到的输出特征为第四层下采样特征,即上层的下采样特征/>如公式(4)所示:
其中:表示池化核为1×2×2的最大池化层,/>表示卷积核大小为3×1×1的卷积层;
第3.5步,使用Upsample函数对进行上采样,得到的输出特征为第五层上采样特征,即下层的上采样特征/>如公式(5)所示:
其中:Upsample表示Upsample函数;
第3.6步,将上层的时空调制特征与下层的上采样特征/>进行元素相加操作,得到输出特征/>如公式(6)所示:
其中:Sum表示元素相加;
第3.7步,将下层的时空调制特征与上层的下采样特征/>进行元素相加操作,得到输出特征/>如公式(7)所示:
其中:Sum表示元素相加;
第3.8步,将上层的时空调制特征与/>进行通道拼接,得到上层部分融合特征为如公式(8)所示:
其中:Concat表示通道连接操作;
第3.9步,将下层的时空调制特征与/>进行通道拼接,得到下层部分融合特征为/>如公式(9)所示:
其中:Concat表示通道连接操作;
第3.10步,使用卷积核为1×1×1卷积层对上层部分融合特征进行特征提取,得到输出的第四层融合特征Ftd,如公式(10)所示:
其中:表示卷积核为1×1×1卷积层;
第3.11步,使用卷积核为1×1×1卷积层对下层部分融合特征进行特征提取,得到输出的第五层融合特征Fdt,如公式(11)所示:
其中:表示卷积核为1×1×1的卷积层;
第3.12步,将特征Ftd与特征Fdt进行通道拼接,得到的多级时空特征为如公式(12)所示:
其中:Concat表示通道连接操作;
第四步,调整多级时空特征形状:
第4.1步,使用squeeze函数对多级时空特征进行操作,得到输出特征为/>如公式(13)所示:
其中:Suqeeze表示squeeze函数;
第4.2步,使用flatten函数对进行操作,得到输出特征为/>如公式(14)所示:
其中:Flatten表示flatten函数;
第4.3步,使用卷积核大小为1×1的卷积层对进行特征提取,得到输出特征为Ff,其中包括每段视频特征/>如公式(15)所示:
其中:表示卷积核大小为1×1的卷积层,t表示的是每个视频取的段数,i表示的是视频中的第i段,m=h×w,h表示的是特征的高度,w表示的是特征的宽度;R表示实数集,c表示特征的通道数;
第五步,使用混合注意力模块进行特征提取:
第5.1步,使用卷积核大小为1×1的卷积层、全连接层对进行特征提取,得到输出特征为/>如公式(16)所示:
其中:表示卷积核大小为1×1的卷积层,FC表示全连接层;
第5.2步,使用softmax层对进行操作,得到空间特征分布权重为/>如公式(17)所示:
第5.3步,对每段视频特征与每段视频的特征空间特征分布权重为/>进行矩阵相乘,得到输出特征为/>此时整体特征为空间注意力特征Ffs,如公式(18)所示:
其中:表示矩阵相乘;
第5.4步,对特征Ffs进行转至操作,得到输出特征为G,其中包括特征每段视频特征Gi∈Rc×m(i=1,2,…,t),如公式(19)所示:
G=(Ffs)T∈Rt×c×m (19)
其中:表示矩阵的转置运算,c表示特征的通道数;
第5.5步,使用卷积核大小为1×1的卷积层、全连接层对Gi进行特征提取,得到输出特征为如公式(20)所示:
其中:表示卷积核大小为1×1的卷积层,FC表示全连接层;
第5.6步,使用softmax层对进行操作,得到通道特征分布权重为/>如公式(21)所示:
第5.7步,对每段视频特征Gi∈Rc×m(i=1,2,....,t)与每段视频特征的通道特征分布权重为进行矩阵相乘,得到输出特征为/>此时整体特征为通道注意力特征GC,如公式(22)所示:
第5.8步,使用permute函数对GC进行形状调整,输出特征为O∈Rt×c,其中包括每段视频的特征oi∈Rc(i=1,2,…,t),如公式(23):
O=permute(GC) (23)
其中:permute表示permute函数;
第5.9步,使用卷积核大小为1×1的卷积层、全连接层对O进行特征提取,得到输出特征为HT,如公式(24)所示:
其中:表示卷积核大小为1×1的卷积层,FC表示全连接层;
第5.10步,使用ReLU函数对HT进行特征提取,得到输出特征为WT,其中包括每段视频的特征如公式(25)所示:
WT=ReLU(HT) (25)
其中:ReLU表示ReLU激活函数;
第5.11步,对每段视频特征每段视频特征oi∈Rc(i=1,2,…,t)与每段视频特征的时间特征分布权重为进行矩阵相乘,得到输出特征为混合注意力特征Ffinal,如公式(26)所示:
至此,由上述的第一步到第五步的操作完成了多级时空特征和混合注意力网络的构建,提取到了最后的可用于抑郁分数诊断的混合注意力特征Ffinal;
第六步,使用Ffinal特征进行抑郁分数预测,使用均方误差损失计算预测值与真实值之间的损失以衡量模型预测的好坏,并计算评价指标平均绝对误差和均方根误差以评价本模型的抑郁分数预测效果:
第6.1步,使用全连接层对Ffinal进行操作,得到输出的结果为抑郁分数的预测值如公式(27)所示:
其中:FC表示全连接层;
第6.2步,对U个抑郁样本,使用均方误差损失函数计算其对应的预测值与真实值之间的误差,如公式(28)所示:
其中:MSELoss表示均方误差损失值,U表示的是样本的总个数,第个样本的预测值,yu表示第u个样本的真实值;
第6.3步,对U个抑郁样本,使用平均绝对误差和均方根误差计算其对应的预测值与真实值之间的误差,如公式(29)、(30)所示:
其中:MAE表示平均绝对误差,RMSE表示均方根误差,U表示的是样本的总个数,第u个样本的预测值,yu表示第u个样本的真实值;
至此,完成了基于多级时空特征和混合注意力网络的图像处理方法。
2.根据权利要求1所述的基于多级时空特征和混合注意力网络的图像处理方法,其特征在于,所述第二步中的片段数t为12,段片段数k为16。
3.根据权利要求1所述的基于多级时空特征和混合注意力网络的图像处理方法,其特征在于,所述图像处理方法包括以下内容:
对抑郁公开数据集进行预处理,预处理包括视频裁剪和人脸检测、对齐,经过预处理的公开数据集变为成组的大小固定的图片,每个图片组对应一个视频序列,并对应一个抑郁分数;
构建多级时空特征和混合注意力网络:以3D-Resnet50网络为基础,以3D-Resnet50网络相邻两层的输出作为输入,接入多级时空特征融合模块;所述多级时空特征融合模块包括时空特征调制子模块和特征融合子模块,时空特征调制子模块用于分别对相邻两层的输出都进行空间和时间调制,获得相应的调制后的特征;特征融合子模块用于对两个调制后的特征进行特征融合,获得多级时空特征;多级时空特征经调整后连接一个混合注意力模块;所述混合注意力模块包括空间注意力模块、通道注意力模块和时间注意力模块,用于捕获不同维度的抑郁信息;
将混合注意力模块的输出用于抑郁分数预测。
4.根据权利要求3所述的基于多级时空特征和混合注意力网络的图像处理方法,其特征在于,获得多级时空特征的具体过程是:以3D-Resnet50网络相邻两层的输出作为输入,这相邻的两层分别记为上层特征和下层特征,对输入的上层特征和下层特征均分别进行卷积、池化系列操作得到上层的时空调制和下层的时空调制特征;对上层的时空调制特征依次使用最大池化层、卷积层进行下采样得到上层的下采样特征,对下层的时空调制特征使用Upsample函数进行上采样得到下层的上采样特征;
将上层的时空调制特征和下层的上采样特征进行元素相加的结果与上层的时空调制特征进行通道连接得到上层部分融合特征,将下层的时空调制特征与上层的下采样特征进行元素相加的结果与下层的时空调制特征进行通道连接得到下层部分融合特征,最后利用通道拼接层拼接上层部分融合特征和下层部分融合特征,得到包含丰富语义信息的多级时空特征。
5.根据权利要求3所述的基于多级时空特征和混合注意力网络的图像处理方法,其特征在于,所述时空特征调制子模块的流程是,下层特征经过卷积核大小为1×3×3的卷积层、卷积核大小为3×1×1的卷积层、池化核大小为8×1×1的池化层获得下层的时空调制特征,
上层特征经过卷积核大小为3×1×1的卷积层、池化核大小为8×1×1的池化层获得上层的时空调制特征,
使用池化核1×2×2的最大池化层、卷积核大小为3×1×1的卷积层对上层的时空调制特征进行下采样操作,获得上层的下采样特征;
使用Upsample函数对下层的时空调制特征进行上采样,获得下层的上采样特征;
上层的下采样特征和下层的上采样特征即为时空特征调制子模块调制后的特征。
6.根据权利要求3所述的基于多级时空特征和混合注意力网络的图像处理方法,其特征在于,所述调整过程包括压缩、折叠和卷积核大小为1×1的卷积层。
7.根据权利要求3所述的基于多级时空特征和混合注意力网络的图像处理方法,其特征在于,所述的混合注意力模块由空间注意力模块、通道注意力模块和时间注意力模块构成,其中空间注意力模块包括卷积核大小为1×1的卷积层、全连接层、softmax层,通道注意力模块包括1×1的卷积层、全连接层、softmax层,时间注意力模块包括卷积核大小为1×1的卷积层、全连接层和线性整流激活函数,将经过混合注意力模块的特征输入到一个全连接层中,即能获得对应抑郁症患者的抑郁分数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111104505.9A CN113782190B (zh) | 2021-09-22 | 2021-09-22 | 基于多级时空特征和混合注意力网络的图像处理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111104505.9A CN113782190B (zh) | 2021-09-22 | 2021-09-22 | 基于多级时空特征和混合注意力网络的图像处理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113782190A CN113782190A (zh) | 2021-12-10 |
CN113782190B true CN113782190B (zh) | 2023-12-15 |
Family
ID=78852398
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111104505.9A Active CN113782190B (zh) | 2021-09-22 | 2021-09-22 | 基于多级时空特征和混合注意力网络的图像处理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113782190B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114092477A (zh) * | 2022-01-21 | 2022-02-25 | 浪潮云信息技术股份公司 | 一种图像篡改检测方法、装置及设备 |
CN114255433B (zh) * | 2022-02-24 | 2022-05-31 | 首都师范大学 | 一种基于面部视频的抑郁识别方法、装置及存储介质 |
CN115831352B (zh) * | 2022-12-05 | 2023-08-08 | 湖南工商大学 | 一种基于动态纹理特征和时间分片权重网络的检测方法 |
CN117095811B (zh) * | 2023-08-04 | 2024-04-19 | 牛津大学(苏州)科技有限公司 | 基于电子医疗病例数据的预测方法、装置及存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112232191A (zh) * | 2020-10-15 | 2021-01-15 | 南京邮电大学 | 基于微表情分析的抑郁症识别系统 |
CN112307958A (zh) * | 2020-10-30 | 2021-02-02 | 河北工业大学 | 基于时空外观运动注意力网络的微表情识别方法 |
CN112560810A (zh) * | 2021-02-19 | 2021-03-26 | 中国科学院自动化研究所 | 基于多尺度时空特征神经网络的微表情识别方法 |
CN112766172A (zh) * | 2021-01-21 | 2021-05-07 | 北京师范大学 | 一种基于时序注意力机制的人脸连续表情识别方法 |
KR20210066697A (ko) * | 2019-11-28 | 2021-06-07 | 경희대학교 산학협력단 | 비디오 프레임의 공간 정보와 동적 정보를 다층 bi-lstm을 통해 분석하여 인간 우울증 수준을 예측하는 장치 및 방법 |
CN113128369A (zh) * | 2021-04-01 | 2021-07-16 | 重庆邮电大学 | 一种融合均衡损失的轻量级网络人脸表情识别方法 |
CN113221639A (zh) * | 2021-04-01 | 2021-08-06 | 山东大学 | 一种基于多任务学习的代表性au区域提取的微表情识别方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6371366B2 (ja) * | 2016-12-12 | 2018-08-08 | ダイキン工業株式会社 | 精神疾患判定装置 |
-
2021
- 2021-09-22 CN CN202111104505.9A patent/CN113782190B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20210066697A (ko) * | 2019-11-28 | 2021-06-07 | 경희대학교 산학협력단 | 비디오 프레임의 공간 정보와 동적 정보를 다층 bi-lstm을 통해 분석하여 인간 우울증 수준을 예측하는 장치 및 방법 |
CN112232191A (zh) * | 2020-10-15 | 2021-01-15 | 南京邮电大学 | 基于微表情分析的抑郁症识别系统 |
CN112307958A (zh) * | 2020-10-30 | 2021-02-02 | 河北工业大学 | 基于时空外观运动注意力网络的微表情识别方法 |
CN112766172A (zh) * | 2021-01-21 | 2021-05-07 | 北京师范大学 | 一种基于时序注意力机制的人脸连续表情识别方法 |
CN112560810A (zh) * | 2021-02-19 | 2021-03-26 | 中国科学院自动化研究所 | 基于多尺度时空特征神经网络的微表情识别方法 |
CN113128369A (zh) * | 2021-04-01 | 2021-07-16 | 重庆邮电大学 | 一种融合均衡损失的轻量级网络人脸表情识别方法 |
CN113221639A (zh) * | 2021-04-01 | 2021-08-06 | 山东大学 | 一种基于多任务学习的代表性au区域提取的微表情识别方法 |
Non-Patent Citations (1)
Title |
---|
"基于面部深度空时特征的抑郁症识别算法";于明, 徐心怡等;《电视技术》;第第44卷卷(第第11期期);第12-18页 * |
Also Published As
Publication number | Publication date |
---|---|
CN113782190A (zh) | 2021-12-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113782190B (zh) | 基于多级时空特征和混合注意力网络的图像处理方法 | |
CN109615582B (zh) | 一种基于属性描述生成对抗网络的人脸图像超分辨率重建方法 | |
CN107766447B (zh) | 一种使用多层注意力网络机制解决视频问答的方法 | |
CN111210435A (zh) | 一种基于局部和全局特征增强模块的图像语义分割方法 | |
CN107977932A (zh) | 一种基于可鉴别属性约束生成对抗网络的人脸图像超分辨率重建方法 | |
CN110399821B (zh) | 基于人脸表情识别的顾客满意度获取方法 | |
CN102422324B (zh) | 年龄估计设备和方法 | |
CN113011504B (zh) | 基于视角权重和特征融合的虚拟现实场景情感识别方法 | |
CN108389189B (zh) | 基于字典学习的立体图像质量评价方法 | |
CN110046550A (zh) | 基于多层特征学习的行人属性识别系统及方法 | |
US11227161B1 (en) | Physiological signal prediction method | |
CN116311483B (zh) | 基于局部面部区域重构和记忆对比学习的微表情识别方法 | |
CN111666852A (zh) | 一种基于卷积神经网络的微表情双流网络识别方法 | |
Ming et al. | 3D-TDC: A 3D temporal dilation convolution framework for video action recognition | |
KR20200010672A (ko) | 딥러닝을 이용한 스마트 상품 검색 방법 및 시스템 | |
CN114549470A (zh) | 基于卷积神经网络和多粒度注意力的手骨关键性区域获取方法 | |
CN112633416A (zh) | 一种融合多尺度超像素的脑ct图像分类方法 | |
CN113810683A (zh) | 一种客观评估水下视频质量的无参考评价方法 | |
CN112927236A (zh) | 一种基于通道注意力和自监督约束的服装解析方法及系统 | |
CN116486156A (zh) | 融合多尺度特征上下文的全视野数字切片图像分类方法 | |
Kaplan et al. | Evaluation of unconditioned deep generative synthesis of retinal images | |
CN113743188B (zh) | 一种基于特征融合的互联网视频低俗行为检测方法 | |
CN116091763A (zh) | 苹果叶部病害图像语义分割系统及分割方法、设备和介质 | |
CN114944002A (zh) | 文本描述辅助的姿势感知的人脸表情识别方法 | |
CN114429659A (zh) | 一种基于自注意力的卒中患者表情识别方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |