CN114462554B - 一种基于多模态宽度学习的潜在抑郁评估系统 - Google Patents
一种基于多模态宽度学习的潜在抑郁评估系统 Download PDFInfo
- Publication number
- CN114462554B CN114462554B CN202210381225.0A CN202210381225A CN114462554B CN 114462554 B CN114462554 B CN 114462554B CN 202210381225 A CN202210381225 A CN 202210381225A CN 114462554 B CN114462554 B CN 114462554B
- Authority
- CN
- China
- Prior art keywords
- layer
- data
- encoder
- feature
- representing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 239000013598 vector Substances 0.000 claims abstract description 54
- 230000006870 function Effects 0.000 claims abstract description 33
- 238000000605 extraction Methods 0.000 claims abstract description 12
- 238000007781 pre-processing Methods 0.000 claims abstract description 10
- 238000011156 evaluation Methods 0.000 claims abstract description 7
- 230000004927 fusion Effects 0.000 claims abstract description 6
- 239000011159 matrix material Substances 0.000 claims description 35
- 230000008451 emotion Effects 0.000 claims description 17
- 238000000034 method Methods 0.000 claims description 14
- 238000013528 artificial neural network Methods 0.000 claims description 13
- 238000010606 normalization Methods 0.000 claims description 13
- 238000012549 training Methods 0.000 claims description 11
- 230000015654 memory Effects 0.000 claims description 10
- 230000007787 long-term memory Effects 0.000 claims description 9
- 230000006403 short-term memory Effects 0.000 claims description 9
- 230000004913 activation Effects 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 8
- 230000008921 facial expression Effects 0.000 claims description 8
- 238000011176 pooling Methods 0.000 claims description 8
- 238000005457 optimization Methods 0.000 claims description 5
- 230000004931 aggregating effect Effects 0.000 claims description 4
- 230000002779 inactivation Effects 0.000 claims description 4
- 230000008569 process Effects 0.000 claims description 4
- 230000008859 change Effects 0.000 claims description 3
- 210000001072 colon Anatomy 0.000 claims description 3
- 238000003745 diagnosis Methods 0.000 abstract description 9
- 238000001514 detection method Methods 0.000 abstract description 6
- 230000002596 correlated effect Effects 0.000 abstract description 3
- 230000002776 aggregation Effects 0.000 abstract 1
- 238000004220 aggregation Methods 0.000 abstract 1
- 238000013527 convolutional neural network Methods 0.000 description 11
- 230000002996 emotional effect Effects 0.000 description 6
- 206010012374 Depressed mood Diseases 0.000 description 5
- 230000009286 beneficial effect Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 230000000875 corresponding effect Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000012216 screening Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 208000020401 Depressive disease Diseases 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 230000009849 deactivation Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000000994 depressogenic effect Effects 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000003340 mental effect Effects 0.000 description 1
- 230000004630 mental health Effects 0.000 description 1
- 208000020016 psychiatric disease Diseases 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000000638 stimulation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/16—Devices for psychotechnics; Testing reaction times ; Devices for evaluating the psychological state
- A61B5/165—Evaluating the state of mind, e.g. depression, anxiety
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
- G06F18/2155—Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/30—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Medical Informatics (AREA)
- Public Health (AREA)
- Psychiatry (AREA)
- Pathology (AREA)
- Primary Health Care (AREA)
- Psychology (AREA)
- Databases & Information Systems (AREA)
- Child & Adolescent Psychology (AREA)
- Developmental Disabilities (AREA)
- Educational Technology (AREA)
- Hospice & Palliative Care (AREA)
- Epidemiology (AREA)
- Social Psychology (AREA)
- Heart & Thoracic Surgery (AREA)
- Surgery (AREA)
- Animal Behavior & Ethology (AREA)
- Veterinary Medicine (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了一种基于多模态宽度学习的潜在抑郁评估系统,包括信号采集模块、预处理模块、编码器、解码器、特征层融合模块和宽度学习系统;信号采集模块用于采集生理信号数据;编码器用于特征提取;解码器用于数据重构;特征层融合模块用于特征向量聚合;宽度学习系统用于进行计算,得出抑郁风险等级的评估结果;在各个解码器与编码器之间通过自编码器重构损失函数进行关联;各个编码器输出通过特征关联性损失函数进行关联。该系统可对个体抑郁风险等级进行评估,提高抑郁症检测与诊断的便捷程度,提升诊断效率;综合采用多模态生理信号数据,通过特征关联性损失函数将不同模态的特征向量进行关联,可全面、客观地对潜在抑郁风险进行评估。
Description
技术领域
本发明涉及抑郁症诊断技术领域,更具体地说,涉及一种基于多模态宽度学习的潜在抑郁评估系统。
背景技术
抑郁症是一类严重影响患者身心健康以及正常生活的精神类疾病。然而,医疗体系中专业的精神科医生占比低、难以在人群中进行一定规模下的抑郁症患者筛查等原因,不仅会增加人群中潜在抑郁患者的精神压力,甚至会让患者对自身病情一无所知,导致病情的加重。其中,“潜在抑郁患者”的定义为:相对于已经确诊的抑郁症患者而言,指人群中已经患有抑郁症,或是受到外界环境刺激使得抑郁情绪严重导致患有抑郁症,但由于其自身并不知病情等原因而尚未被确诊的个体。
现有技术主要通过对个体录制的音视频进行分析,提取视听信号中能描述个体信息的情感特征,将多段特征聚合为整体进行分析,根据分析结果对抑郁水平进行检测。现有技术方案的不足其一是没有考虑个体的多模态生理信号特征,而是限于对视听信号的分析,特征种类过少,导致对个体特征刻画得不全面,对抑郁水平的检测并不准确,误差较大;其二是没有考虑多模态特征数据之间的内在联系,仅将各段特征进行简单的拼接,而对特征数据的直接拼接导致检测的准确率不高;其三是现有技术或系统的空间复杂度和计算复杂度过高,导致所需计算资源门槛高,不利于推广应用。
发明内容
为克服现有技术中的缺点与不足,本发明的目的在于提供一种基于多模态宽度学习的潜在抑郁评估系统;该系统可对个体抑郁风险等级进行评估,可提高抑郁症检测与诊断的便捷程度,减轻筛查抑郁症患者的工作量,及时反映患者病情,作为医院的有益辅助,提升诊断的效率;综合采用多模态生理信号数据,通过特征关联性损失函数将不同模态的情感特征向量进行关联,可全面、客观地对潜在抑郁风险进行评估;为了衡量单模态数据的重构效果,构造自编码器重构损失函数,保证根据单模态数据提取出的特征向量具有更强的表示性。
为了达到上述目的,本发明通过下述技术方案予以实现:一种基于多模态宽度学习的潜在抑郁评估系统,包括:
信号采集模块,用于采集被试者的生理信号数据,从生理信号数据中独立提取出作为抑郁症评估依据的n个模态数据,将n个模态数据划分为图像信号数据和序列信号数据两个类别;
预处理模块,用于对各个模态数据分别进行预处理;
编码器,用于对预处理后的各个模态数据分别进行特征提取得到单模态情感特征向量;
解码器,用于分别根据各个单模态情感特征向量进行数据重构;
特征层融合模块,用于各个单模态情感特征向量聚合成多模态特征向量层Z;
以及宽度学习系统,用于将多模态特征向量层Z和增强节点层H合并后构成特征层输入A=[Z|H],对特征层输入A进行计算,得到分类输出,从而得出抑郁风险等级的评估结果;
在各个解码器与编码器之间通过自编码器重构损失函数S rec 进行关联,自编码器重构损失函数S rec 为:
其中,x i 表示第i(i=1,2,...,n)模态数据的真实值;x' i 表示第i个模态数据经过编码器提取特征、之后输入解码器进行特征重构后得到的重构值;E[]表示对所有模态数据真实值与重构值之间的均方误差求期望;
各个编码器输出的单模态情感特征向量通过特征关联性损失函数S corr 进行关联,特征关联性损失函数S corr 为:
其中,x i 、x j 分别表示第i、j(i≠j;i=1,2,...,n;j=1,2,...,n)个模态数据的真实值;f i 、f j 分别表示第i、j个编码器;f i T 表示第i个编码器的转置;tr()表示成对内积计算;cov()表示方差无偏估计;
所述自编码器重构损失函数S rec 和特征关联性损失函数S corr 通过多模态特征提取损失函数S total 进行优化求解,所述多模态特征提取损失函数S total 为:
S total = argmin(αS corr +βS rec )
其中,α,β分别为衡量自编码器重构损失函数S rec 和特征关联性损失函数S corr 相对重要程度的权重值;argmin()表示括号中式子达到最小值时自编码器重构损失函数S rec 和特征关联性损失函数S corr 的取值。
优选地,所述编码器包括用于对图像信号数据进行编码的图像信号编码器,以及用于对序列信号数据进行编码的序列信号编码器;
所述图像信号编码器的网络结构包括:若干组依次连接的卷积神经网络层一,以及连接在最后一组卷积神经网络层一之后的扁平化层和全连接层一;
所述序列信号编码器的网络结构包括:若干组依次连接的卷积神经网络层二,以及连接在最后一组卷积神经网络层二之后的长短期记忆网络层、随机失活层和全连接层二。
优选地,所述解码器结构与编码器结构相反。
优选地,各个卷积神经网络层一和卷积神经网络层二均是由依次连接的卷积层、批归一化层和最大池化层组成;
所述卷积层为:
C = σ c (W 3 ·(σ c (W 2 ·(σ c (W 1 ·xc+b 1 ))+ b 2 ))+ b 3 )
其中,xc表示卷积层的输入向量;W 1 、W 2 、W 3 分别表示卷积层中第1、2、3个卷积核值;b 1 、b 2 、b 3 分别表示卷积层中第1、2、3个偏置值,σ c 表示激活函数,C表示输出向量;
所述批归一化层为:
其中,q表示批归一化层输入向量的总数,C k 表示第k(k=0,1,2,...,q)个输入向量,μ β 表示输入向量的平均值,δ β 2 表示输入向量的方差,C' k 表示第k个经过归一化后的向量,ε表示无穷小量。
优选地,所述序列信号编码器中,长短期记忆网络层为:
I t = σ(W rI xm t + b rI + W hI h t-1 +b hI )
F t = σ(W rF xm t + b rF + W hF h t-1 +b hF )
o t = σ(W ro xm t + b ro + W ho h t-1 +b ho )
g t = tanh(W rg xm t + b rg + W hg h t-1 +b hg )
c t = F t *c t -1 + I t * g t
h t = o t * tanh(c t )
其中,I t 表示输入门;F t 表示遗忘门;o t 表示输出门;g t 表示当前时刻输入的单元状态;xm t 表示长短期记忆网络层的输入向量;h t 表示当前时刻长短期记忆网络层输出值;h t-1 表示上一时刻的长短期记忆网络层输出值;c t 表示当前时刻的单元状态;c t-1 表示上一时刻的单元状态;W rI 、W hI 、W rF 、W hF 、W ro 、W ho 、W rg 、W hg 分别表示权重矩阵;b rI 、b hI 、b rF 、b hF 、b ro 、b ho 、 b rg 、b hg 分别表示偏置量;σ表示激活函数。
优选地,所述宽度学习系统中,得到分类输出的方法是:
O = W BLS ·A
其中,O为分类输出结果;W BLS 为已训练完毕的权重矩阵。
优选地,所述权重矩阵W BLS 的求解过程如下:
在初始训练时,A train 表示训练数据的特征层输入,且训练数据的真实分类结果矩阵O train 已知,则计算权重矩阵的方法为:
W BLS =A train -1 ·O train
运用岭回归进行权重矩阵的优化计算:
其中,λ表示对权重矩阵W BLS 的约束系数;argmin WBLS 表示冒号后的式子取最小值时,对应权重矩阵W BLS 的取值;
求解得:
W BLS =(λI +A train ·A train T )-1 A train T ·O train
其中,A train T 表示特征层输入矩阵A train 的转置矩阵;I表示单位矩阵;
当λ趋近于0时,求解权重矩阵W BLS 的问题则转换为普通的求解最小二乘法问题,则:
优选地,所述图像信号数据包括面部表情数据和手势变化数据中的任一种或两种;序列信号数据包括语音数据和心率数据中的任一种或两种。
与现有技术相比,本发明具有如下优点与有益效果:
1、本发明综合采用多模态生理信号数据,不限于仅对视听信号进行分析;同时还考虑了各模态特征向量之间的内在联系,通过特征关联性损失函数将不同模态的特征向量进行关联,相较于现有技术,能更加全面、客观地对潜在抑郁风险进行评估;
2、本发明将深度学习与宽度学习进行良好结合,不仅能够利用深度表征模型模型到具有可解释性、可重构的共性情感特征空间;也能够在横向特征空间中利用宽度学习系统,融合高维情感语义特征,并提高潜在抑郁评估的效率,利于推广应用;
3、本发明可对个体抑郁风险等级进行评估,可提高抑郁症检测与诊断的便捷程度,减轻筛查抑郁症患者的工作量,及时反映患者病情,作为医院的有益辅助,提升诊断的效率。
附图说明
图1是本发明基于多模态宽度学习的潜在抑郁评估系统的结构示意图;
图2是本发明基于多模态宽度学习的潜在抑郁评估系统的工作流程图;
图3是本发明基于多模态宽度学习的潜在抑郁评估系统中的图像信号编码器的结构示意图;
图4是本发明基于多模态宽度学习的潜在抑郁评估系统中的序列信号编码器的结构示意图。
具体实施方式
下面结合附图与具体实施方式对本发明作进一步详细的描述。
实施例
本实施例一种基于多模态宽度学习的潜在抑郁评估系统,其结构如图1所示,工作流程如图2所示;系统包括:
信号采集模块,用于采集被试者的生理信号数据,从生理信号数据中独立提取出作为抑郁症评估依据的n个模态数据,将n个模态数据划分为图像信号数据和序列信号数据两个类别;
预处理模块,用于对各个模态数据分别进行预处理;
编码器,用于对预处理后的各个模态数据分别进行特征提取得到单模态情感特征向量;
解码器,用于分别根据各个单模态情感特征向量进行数据重构;
特征层融合模块,用于各个单模态情感特征向量聚合成多模态特征向量层Z;
以及宽度学习系统,用于将多模态特征向量层Z和增强节点层H合并后构成特征层输入A=[Z|H],对特征层输入A进行计算,得到分类输出,从而得出抑郁风险等级的评估结果。
具体地说,图像信号数据包括面部表情数据和手势变化数据中的任一种或两种;序列信号数据包括语音数据和心率数据中的任一种或两种。例如,通过对被试者录制视频采集到被试者的生理信号数据;提取面部表情视频文件及语音音频文件,并进行预处理,得到图像信号数据和序列信号数据。
编码器包括用于对图像信号数据进行编码的图像信号编码器,以及用于对序列信号数据进行编码的序列信号编码器。
如图3所示,图像信号编码器的网络结构包括:若干组依次连接的卷积神经网络层一,以及连接在最后一组卷积神经网络层一之后的扁平化层和全连接层一。卷积神经网络层一是由依次连接的卷积层、批归一化层和最大池化层组成。
例如,图像信号编码器包括4个3×3的卷积神经网络层一和1个具有256个线性整流函数单元的全连接层一。每个卷积神经网络层一的结构为:32、64、64个卷积核构成卷积层,1个批归一化层和1个2×2的最大池化层。最后一个卷积神经网络层一的输出被扁平化后,输入至全连接层一。全连接层一输出的数据即为图像信号数据的情感特征。
卷积层为:
C = σ c (W 3 ·(σ c (W 2 ·(σ c (W 1 ·xc+b 1 ))+ b 2 ))+ b 3 )
其中,xc表示卷积层的输入向量;W 1 、W 2 、W 3 分别表示卷积层中第1、2、3个卷积核值;b 1 、b 2 、b 3 分别表示卷积层中第1、2、3个偏置值,σ c 表示激活函数,C表示输出向量;
批归一化层为:
其中,q表示批归一化层输入向量的总数,C k 表示第k(k=0,1,2,...,q)个输入向量,μ β 表示输入向量的平均值,δ β 2 表示输入向量的方差,C' k 表示第k个经过归一化后的向量,ε表示无穷小量以避免分母为零。批归一化可以有效缓解梯度消失地问题,使网络学习变得更加稳定。
激活函数可使用线性整流函数单元:
RELU(R)=max(0,R);
其中,R表示激活函数的输入向量。
如图4所示,序列信号编码器的网络结构包括:若干组依次连接的卷积神经网络层二,以及连接在最后一组卷积神经网络层二之后的长短期记忆网络层、随机失活层和全连接层二。卷积神经网络层二结构是由依次连接的卷积层、批归一化层和最大池化层组成。
例如,序列信号编码器包括3个卷积神经网络层二、1个具有256个单元的长短期记忆网络层和1个具有512个线性整流函数单元的全连接层二。每个卷积神经网络层二的结构为:64、128、256个卷积核构成卷积层,1个批归一化层和1个最大池化层。三层卷积核的大小分别为8、6、6,相应的最大池化大小分别设置为10、5、3。在长短期记忆网络层之后,增加随机失活层防止过拟合现象的产生;本发明中设置随机失活的概率为0.4。全连接层二输出即为序列信号数据的情感特征。
长短期记忆网络层为:
I t = σ(W rI xm t + b rI + W hI h t-1 +b hI )
F t = σ(W rF xm t + b rF + W hF h t-1 +b hF )
o t = σ(W ro xm t + b ro + W ho h t-1 +b ho )
g t = tanh(W rg xm t + b rg + W hg h t-1 +b hg )
c t = F t *c t -1 + I t * g t
h t = o t * tanh(c t )
其中,I t 表示输入门;F t 表示遗忘门;o t 表示输出门;g t 表示当前时刻输入的单元状态;xm t 表示长短期记忆网络层的输入向量;h t 表示当前时刻长短期记忆网络层输出值;h t-1 表示上一时刻的长短期记忆网络层输出值;c t 表示当前时刻的单元状态;c t-1 表示上一时刻的单元状态;W rI 、W hI 、W rF 、W hF 、W ro 、W ho 、W rg 、W hg 分别表示权重矩阵;b rI 、b hI 、b rF 、b hF 、b ro 、b ho 、 b rg 、b hg 分别表示偏置量;σ表示激活函数。长短期记忆网络层中有3个门控开关函数,其中I t 是输入门,决定了当前时刻网络的输入特征xm t 到单元状态c t 的保存量;F t 是遗忘门,决定了上一时刻的单元状态c t-1 到当前时刻单元状态c t 中的保留量;o t 是输出门,控制当前时刻单元状态c t 到长短期记忆网络的当前输出值h t 的输出量。
解码器结构与编码器结构相反,但所有网络层次相同。唯一不同的地方是卷积神经网络层中,最大池化层更改为上采样层,层大小保持不变。
为了保证提取出的高维语义空间特征在维度较多时能稳定地进行特征层融合,且保证提取出的不同模态的特征之间存在较强的关联性,本发明对不同模态间的数据特征进行衡量,构造特征关联性损失函数S corr ,学习不同模态数据的高度非线性特征之间的关联性。
具体地说,各个编码器输出的单模态情感特征向量通过特征关联性损失函数S corr 进行关联,特征关联性损失函数S corr 为:
其中,x i 、x j 分别表示第i、j(i≠j;i=1,2,...,n;j=1,2,...,n)个模态数据的真实值;f i 、f j 分别表示第i、j个编码器;f i T 表示第i个编码器的转置;tr()表示成对内积计算;cov()表示方差无偏估计。
由于仅考虑不同模态间特征的关联性,而忽略单一模态特征本身蕴含的信息,将对最终评估的准确率产生影响,且为了保证根据单一模态数据提取出的特征具有较强的可靠性,本发明对单一模态数据的重构效果进行衡量。
具体地说,在各个解码器与编码器之间通过自编码器重构损失函数S rec 进行关联,自编码器重构损失函数S rec 为:
其中,x i 表示第i(i=1,2,...,n)模态数据的真实值;x' i 表示第i个模态数据经过编码器提取特征、之后输入解码器进行特征重构后得到的重构值;E[]表示对所有模态数据真实值与重构值之间的均方误差求期望。
所述自编码器重构损失函数S rec 和特征关联性损失函数S corr 通过多模态特征提取损失函数S total 进行优化求解,所述多模态特征提取损失函数S total 为:
S total = argmin(αS corr +βS rec )
其中,α,β分别为衡量自编码器重构损失函数S rec 和特征关联性损失函数S corr 相对重要程度的权重值;argmin()表示括号中式子达到最小值时自编码器重构损失函数S rec 和特征关联性损失函数S corr 的取值。
宽度学习系统中,得到分类输出的方法是:
O = W BLS ·A
其中,O为分类输出结果;W BLS 为已训练完毕的权重矩阵。
权重矩阵W BLS 的求解过程如下:
在初始训练时,A train 表示训练数据的特征层输入,且训练数据的真实分类结果矩阵O train 已知,则计算权重矩阵的方法为:
W BLS =A train -1 ·O train
运用岭回归进行权重矩阵的优化计算:
其中,λ表示对权重矩阵W BLS 的约束系数;argmin WBLS 表示冒号后的式子取最小值时,对应权重矩阵W BLS 的取值;
求解得:
W BLS =(λI +A train ·A train T )-1 A train T ·O train
其中,A train T 表示特征层输入矩阵A train 的转置矩阵;I表示单位矩阵;
当λ趋近于0时,求解权重矩阵W BLS 的问题则转换为普通的求解最小二乘法问题,则:
本发明设计并提出一种潜在抑郁评估系统,并创新地提出多模态宽度学习算法,通过对多模态生理信号中个体的多种生理信号规律分别进行分析,再将所有特征向量进行特征层融合后,使用宽度学习系统对个体抑郁风险等级进行评估,可提高抑郁症检测与诊断的便捷程度,减轻筛查抑郁症患者的工作量,及时反映患者病情,提升诊断的效率。
下面以一个具体例子进行说明。
首先,信号采集模块采集被试者的生理信号数据:
提供给被试者一段带有情感的文本,被试者根据文本中描述的情景进行反应和互动,将这一过程录制下来作为原始视频;
从原始视频中独立提取出语音音频文件及面部表情视频文件;对所属音视频文件进行数据预处理:将视频分成1秒时长的片段,通过裁剪等方式调整每个片段关键帧的尺寸;将音频分割成1秒时长的音段,调整每个音段的频率;
将原始视频归类成图像信号数据与序列信号数据,此处图像信号数据为每一秒钟的关键帧,以png文件格式保存;序列信号数据为每一秒钟的音频,以wav文件格式保存;将面部表情关键帧通过重新调整尺寸的方式,调整至视觉模块设置的输入尺寸大小;将语音音频根据音频的频率编码成one-hot向量;图像信号数据与序列信号数据均预处理完毕。
然后,图像信号数据输入到图像信号编码器,序列信号数据输入到序列信号编码器进行特征提取得到单模态情感特征向量;之后通过解码器进行数据重构。
之后,对单一模态数据重构效果的衡量,构造自编码器重构损失函数S rec ;将面部表情情感特征与语音情感特征进行特征层融合,并构造特征关联性损失函数S corr ;根据上述两个损失函数构造多模态特征提取损失函数S total ,并进行优化求解,得到目标函数的最小损失值。
将从图像信号编码器和序列信号编码器中得到的单模态情感特征向量聚合成多模态特征向量层Z =[Z 1 | Z 2 ],同时随机初始化生成增强节点层H,二者合并后构成特征层输入A=[Z|H]。在横向特征空间中利用宽度学习系统对特征层输入A进行计算,得到分类输出,从而得出抑郁风险等级的评估结果。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (8)
1.一种基于多模态宽度学习的潜在抑郁评估系统,其特征在于:包括:
信号采集模块,用于采集被试者的生理信号数据,从生理信号数据中独立提取出作为抑郁症评估依据的n个模态数据,将n个模态数据划分为图像信号数据和序列信号数据两个类别;
预处理模块,用于对各个模态数据分别进行预处理;
编码器,用于对预处理后的各个模态数据分别进行特征提取得到单模态情感特征向量;
解码器,用于分别根据各个单模态情感特征向量进行数据重构;
特征层融合模块,用于各个单模态情感特征向量聚合成多模态特征向量层Z;
以及宽度学习系统,用于将多模态特征向量层Z和增强节点层H合并后构成特征层输入A=[Z|H],对特征层输入A进行计算,得到分类输出,从而得出抑郁风险等级的评估结果;
在各个解码器与编码器之间通过自编码器重构损失函数S rec 进行关联,自编码器重构损失函数S rec 为:
其中,x i 表示第i(i=1,2,...,n)模态数据的真实值;x' i 表示第i个模态数据经过编码器提取特征、之后输入解码器进行特征重构后得到的重构值;E[]表示对所有模态数据真实值与重构值之间的均方误差求期望;
各个编码器输出的单模态情感特征向量通过特征关联性损失函数S corr 进行关联,特征关联性损失函数S corr 为:
其中,x i 、x j 分别表示第i、j(i≠j;i=1,2,...,n;j=1,2,...,n)个模态数据的真实值;f i 、f j 分别表示第i、j个编码器;f i T 表示第i个编码器的转置;tr()表示成对内积计算;cov()表示方差无偏估计;
所述自编码器重构损失函数S rec 和特征关联性损失函数S corr 通过多模态特征提取损失函数S total 进行优化求解,所述多模态特征提取损失函数S total 为:
S total = argmin(αS corr +βS rec )
其中,α,β分别为衡量自编码器重构损失函数S rec 和特征关联性损失函数S corr 相对重要程度的权重值;argmin()表示括号中式子达到最小值时自编码器重构损失函数S rec 和特征关联性损失函数S corr 的取值。
2.根据权利要求1所述的基于多模态宽度学习的潜在抑郁评估系统,其特征在于:所述编码器包括用于对图像信号数据进行编码的图像信号编码器,以及用于对序列信号数据进行编码的序列信号编码器;
所述图像信号编码器的网络结构包括:若干组依次连接的卷积神经网络层一,以及连接在最后一组卷积神经网络层一之后的扁平化层和全连接层一;
所述序列信号编码器的网络结构包括:若干组依次连接的卷积神经网络层二,以及连接在最后一组卷积神经网络层二之后的长短期记忆网络层、随机失活层和全连接层二。
3.根据权利要求2所述的基于多模态宽度学习的潜在抑郁评估系统,其特征在于:所述解码器结构与编码器结构相反。
4.根据权利要求2所述的基于多模态宽度学习的潜在抑郁评估系统,其特征在于:各个卷积神经网络层一和卷积神经网络层二均是由依次连接的卷积层、批归一化层和最大池化层组成;
所述卷积层为:
C = σ c (W 3 ·(σ c (W 2 ·(σ c (W 1 ·xc+b 1 ))+ b 2 ))+ b 3 )
其中,xc表示卷积层的输入向量;W 1 、W 2 、W 3 分别表示卷积层中第1、2、3个卷积核值;b 1 、b 2 、b 3 分别表示卷积层中第1、2、3个偏置值,σ c 表示激活函数,C表示输出向量;
所述批归一化层为:
其中,q表示批归一化层输入向量的总数,C k 表示第k(k=0,1,2,...,q)个输入向量,μ β 表示输入向量的平均值,δ β 2 表示输入向量的方差,C' k 表示第k个经过归一化后的向量,ε表示无穷小量。
5.根据权利要求2所述的基于多模态宽度学习的潜在抑郁评估系统,其特征在于:所述序列信号编码器中,长短期记忆网络层为:
I t = σ(W rI xm t + b rI + W hI h t-1 +b hI )
F t = σ(W rF xm t + b rF + W hF h t-1 +b hF )
o t = σ(W ro xm t + b ro + W ho h t-1 +b ho )
g t = tanh(W rg xm t + b rg + W hg h t-1 +b hg )
c t = F t *c t -1 + I t * g t
h t = o t * tanh(c t )
其中,I t 表示输入门;F t 表示遗忘门;o t 表示输出门;g t 表示当前时刻输入的单元状态;xm t 表示长短期记忆网络层的输入向量;h t 表示当前时刻长短期记忆网络层输出值;h t-1 表示上一时刻的长短期记忆网络层输出值;c t 表示当前时刻的单元状态;c t-1 表示上一时刻的单元状态;W rI 、W hI 、W rF 、W hF 、W ro 、W ho 、W rg 、W hg 分别表示权重矩阵;b rI 、b hI 、b rF 、b hF 、b ro 、b ho 、b rg 、b hg 分别表示偏置量;σ表示激活函数。
6.根据权利要求1所述的基于多模态宽度学习的潜在抑郁评估系统,其特征在于:所述宽度学习系统中,得到分类输出的方法是:
O = W BLS ·A
其中,O为分类输出结果;W BLS 为已训练完毕的权重矩阵。
7.根据权利要求6所述的基于多模态宽度学习的潜在抑郁评估系统,其特征在于:所述权重矩阵W BLS 的求解过程如下:
在初始训练时,A train 表示训练数据的特征层输入,且训练数据的真实分类结果矩阵O train 已知,则计算权重矩阵的方法为:
W BLS =A train -1 ·O train
运用岭回归进行权重矩阵的优化计算:
其中,λ表示对权重矩阵W BLS 的约束系数;argmin WBLS 表示冒号后的式子取最小值时,对应权重矩阵W BLS 的取值;
求解得:
W BLS =(λI +A train ·A train T )-1 A train T ·O train
其中,A train T 表示特征层输入矩阵A train 的转置矩阵;I表示单位矩阵;
当λ趋近于0时,求解权重矩阵W BLS 的问题则转换为普通的求解最小二乘法问题,则:
8.根据权利要求1所述的基于多模态宽度学习的潜在抑郁评估系统,其特征在于:所述图像信号数据包括面部表情数据和手势变化数据中的任一种或两种;序列信号数据包括语音数据和心率数据中的任一种或两种。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210381225.0A CN114462554B (zh) | 2022-04-13 | 2022-04-13 | 一种基于多模态宽度学习的潜在抑郁评估系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210381225.0A CN114462554B (zh) | 2022-04-13 | 2022-04-13 | 一种基于多模态宽度学习的潜在抑郁评估系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114462554A CN114462554A (zh) | 2022-05-10 |
CN114462554B true CN114462554B (zh) | 2022-07-05 |
Family
ID=81418589
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210381225.0A Active CN114462554B (zh) | 2022-04-13 | 2022-04-13 | 一种基于多模态宽度学习的潜在抑郁评估系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114462554B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115148361B (zh) * | 2022-07-15 | 2023-10-10 | 深圳大学 | 疾病亚型确定系统及方法 |
CN115495572B (zh) * | 2022-08-01 | 2023-05-26 | 广州大学 | 一种基于复合情绪分析的抑郁情绪辅助管理方法 |
CN115826767B (zh) * | 2023-02-24 | 2023-06-30 | 长春理工大学 | 多模态跨被试上肢动作识别模型及其构建方法和应用方法 |
CN116738354B (zh) * | 2023-08-15 | 2023-12-08 | 国网江西省电力有限公司信息通信分公司 | 一种电力物联网终端行为异常检测方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111461176A (zh) * | 2020-03-09 | 2020-07-28 | 华南理工大学 | 基于归一化互信息的多模态融合方法、装置、介质及设备 |
WO2020210673A1 (en) * | 2019-04-10 | 2020-10-15 | Cornell University | Neuromorphic algorithm for rapid online learning and signal restoration |
CN113094534A (zh) * | 2021-04-09 | 2021-07-09 | 陕西师范大学 | 一种基于深度学习的多模态图文推荐方法及设备 |
CN113361559A (zh) * | 2021-03-12 | 2021-09-07 | 华南理工大学 | 基于深宽度联合神经网络的多模态数据知识信息提取方法 |
-
2022
- 2022-04-13 CN CN202210381225.0A patent/CN114462554B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020210673A1 (en) * | 2019-04-10 | 2020-10-15 | Cornell University | Neuromorphic algorithm for rapid online learning and signal restoration |
CN111461176A (zh) * | 2020-03-09 | 2020-07-28 | 华南理工大学 | 基于归一化互信息的多模态融合方法、装置、介质及设备 |
CN113361559A (zh) * | 2021-03-12 | 2021-09-07 | 华南理工大学 | 基于深宽度联合神经网络的多模态数据知识信息提取方法 |
CN113094534A (zh) * | 2021-04-09 | 2021-07-09 | 陕西师范大学 | 一种基于深度学习的多模态图文推荐方法及设备 |
Non-Patent Citations (3)
Title |
---|
Emotion Recognition From Multimodal Physiological Signals Using a Regularized Deep Fusion of Kernel Machine;Tong Zhang et.al;《IEEE Transactions on Cybernetics 》;20200314;第51卷(第9期);第1-2页 * |
Multi-Channel EEG Based Emotion Recognition Using Temporal Convolutional Network and Broad Learning System;Tong Zhang et.al;《2020 IEEE International Conference on Systems, Man, and Cybernetics (SMC)》;20201214;第1-2页 * |
Residual GCB-Net: Residual Graph Convolutional Broad Network on Emotion Recognition;Tong Zhang et.al;《IEEE Transactions on Cognitive and Developmental Systems 》;20220131;第1-2页 * |
Also Published As
Publication number | Publication date |
---|---|
CN114462554A (zh) | 2022-05-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114462554B (zh) | 一种基于多模态宽度学习的潜在抑郁评估系统 | |
CN111461176B (zh) | 基于归一化互信息的多模态融合方法、装置、介质及设备 | |
Rejaibi et al. | MFCC-based recurrent neural network for automatic clinical depression recognition and assessment from speech | |
Kumaran et al. | Fusion of mel and gammatone frequency cepstral coefficients for speech emotion recognition using deep C-RNN | |
Jiang et al. | Investigation of different speech types and emotions for detecting depression using different classifiers | |
Latinus et al. | Norm-based coding of voice identity in human auditory cortex | |
Saenz-Lechon et al. | Methodological issues in the development of automatic systems for voice pathology detection | |
Karan et al. | Non-negative matrix factorization-based time-frequency feature extraction of voice signal for Parkinson's disease prediction | |
Travieso et al. | Detection of different voice diseases based on the nonlinear characterization of speech signals | |
Świetlicka et al. | Hierarchical ANN system for stuttering identification | |
JP2023538287A (ja) | 呼吸器症候群を検出するためのアンサンブル機械学習モデル | |
Wang et al. | Automatic assessment of pathological voice quality using multidimensional acoustic analysis based on the GRBAS scale | |
WO2022257630A1 (zh) | 基于多模态隐匿信息测试的风险检测方法及装置 | |
Lu et al. | Speech depression recognition based on attentional residual network | |
CN111161883A (zh) | 基于变分自编码器的疾病预测系统及其电子设备 | |
Pravin et al. | Regularized deep LSTM autoencoder for phonological deviation assessment | |
Hantke et al. | EAT- The ICMI 2018 Eating Analysis and Tracking Challenge | |
Shen et al. | A high-precision feature extraction network of fatigue speech from air traffic controller radiotelephony based on improved deep learning | |
CN116110578A (zh) | 一种计算机辅助抑郁症状诊断的筛查装置 | |
Karan et al. | An investigation about the relationship between dysarthria level of speech and the neurological state of Parkinson’s patients | |
CN115089123A (zh) | 基于注意力和Transformer的OSA检测方法 | |
Makiuchi et al. | Speech paralinguistic approach for detecting dementia using gated convolutional neural network | |
CN111047590A (zh) | 基于眼底图像的高血压分类方法及设备 | |
CN113241178B (zh) | 一种确定被测者的抑郁症严重程度的装置 | |
Prabhudesai et al. | Depression detection and analysis using deep learning: study and comparative analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |