CN114462554B - 一种基于多模态宽度学习的潜在抑郁评估系统 - Google Patents

一种基于多模态宽度学习的潜在抑郁评估系统 Download PDF

Info

Publication number
CN114462554B
CN114462554B CN202210381225.0A CN202210381225A CN114462554B CN 114462554 B CN114462554 B CN 114462554B CN 202210381225 A CN202210381225 A CN 202210381225A CN 114462554 B CN114462554 B CN 114462554B
Authority
CN
China
Prior art keywords
layer
data
encoder
feature
representing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210381225.0A
Other languages
English (en)
Other versions
CN114462554A (zh
Inventor
蔡明宸
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN202210381225.0A priority Critical patent/CN114462554B/zh
Publication of CN114462554A publication Critical patent/CN114462554A/zh
Application granted granted Critical
Publication of CN114462554B publication Critical patent/CN114462554B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/16Devices for psychotechnics; Testing reaction times ; Devices for evaluating the psychological state
    • A61B5/165Evaluating the state of mind, e.g. depression, anxiety
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2155Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • Psychiatry (AREA)
  • Pathology (AREA)
  • Primary Health Care (AREA)
  • Psychology (AREA)
  • Databases & Information Systems (AREA)
  • Child & Adolescent Psychology (AREA)
  • Developmental Disabilities (AREA)
  • Educational Technology (AREA)
  • Hospice & Palliative Care (AREA)
  • Epidemiology (AREA)
  • Social Psychology (AREA)
  • Heart & Thoracic Surgery (AREA)
  • Surgery (AREA)
  • Animal Behavior & Ethology (AREA)
  • Veterinary Medicine (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种基于多模态宽度学习的潜在抑郁评估系统,包括信号采集模块、预处理模块、编码器、解码器、特征层融合模块和宽度学习系统;信号采集模块用于采集生理信号数据;编码器用于特征提取;解码器用于数据重构;特征层融合模块用于特征向量聚合;宽度学习系统用于进行计算,得出抑郁风险等级的评估结果;在各个解码器与编码器之间通过自编码器重构损失函数进行关联;各个编码器输出通过特征关联性损失函数进行关联。该系统可对个体抑郁风险等级进行评估,提高抑郁症检测与诊断的便捷程度,提升诊断效率;综合采用多模态生理信号数据,通过特征关联性损失函数将不同模态的特征向量进行关联,可全面、客观地对潜在抑郁风险进行评估。

Description

一种基于多模态宽度学习的潜在抑郁评估系统
技术领域
本发明涉及抑郁症诊断技术领域,更具体地说,涉及一种基于多模态宽度学习的潜在抑郁评估系统。
背景技术
抑郁症是一类严重影响患者身心健康以及正常生活的精神类疾病。然而,医疗体系中专业的精神科医生占比低、难以在人群中进行一定规模下的抑郁症患者筛查等原因,不仅会增加人群中潜在抑郁患者的精神压力,甚至会让患者对自身病情一无所知,导致病情的加重。其中,“潜在抑郁患者”的定义为:相对于已经确诊的抑郁症患者而言,指人群中已经患有抑郁症,或是受到外界环境刺激使得抑郁情绪严重导致患有抑郁症,但由于其自身并不知病情等原因而尚未被确诊的个体。
现有技术主要通过对个体录制的音视频进行分析,提取视听信号中能描述个体信息的情感特征,将多段特征聚合为整体进行分析,根据分析结果对抑郁水平进行检测。现有技术方案的不足其一是没有考虑个体的多模态生理信号特征,而是限于对视听信号的分析,特征种类过少,导致对个体特征刻画得不全面,对抑郁水平的检测并不准确,误差较大;其二是没有考虑多模态特征数据之间的内在联系,仅将各段特征进行简单的拼接,而对特征数据的直接拼接导致检测的准确率不高;其三是现有技术或系统的空间复杂度和计算复杂度过高,导致所需计算资源门槛高,不利于推广应用。
发明内容
为克服现有技术中的缺点与不足,本发明的目的在于提供一种基于多模态宽度学习的潜在抑郁评估系统;该系统可对个体抑郁风险等级进行评估,可提高抑郁症检测与诊断的便捷程度,减轻筛查抑郁症患者的工作量,及时反映患者病情,作为医院的有益辅助,提升诊断的效率;综合采用多模态生理信号数据,通过特征关联性损失函数将不同模态的情感特征向量进行关联,可全面、客观地对潜在抑郁风险进行评估;为了衡量单模态数据的重构效果,构造自编码器重构损失函数,保证根据单模态数据提取出的特征向量具有更强的表示性。
为了达到上述目的,本发明通过下述技术方案予以实现:一种基于多模态宽度学习的潜在抑郁评估系统,包括:
信号采集模块,用于采集被试者的生理信号数据,从生理信号数据中独立提取出作为抑郁症评估依据的n个模态数据,将n个模态数据划分为图像信号数据和序列信号数据两个类别;
预处理模块,用于对各个模态数据分别进行预处理;
编码器,用于对预处理后的各个模态数据分别进行特征提取得到单模态情感特征向量;
解码器,用于分别根据各个单模态情感特征向量进行数据重构;
特征层融合模块,用于各个单模态情感特征向量聚合成多模态特征向量层Z
以及宽度学习系统,用于将多模态特征向量层Z和增强节点层H合并后构成特征层输入A=[Z|H],对特征层输入A进行计算,得到分类输出,从而得出抑郁风险等级的评估结果;
在各个解码器与编码器之间通过自编码器重构损失函数S rec 进行关联,自编码器重构损失函数S rec 为:
Figure 439999DEST_PATH_IMAGE001
其中,x i 表示第i(i=1,2,...,n)模态数据的真实值;x' i 表示第i个模态数据经过编码器提取特征、之后输入解码器进行特征重构后得到的重构值;E[]表示对所有模态数据真实值与重构值之间的均方误差求期望;
各个编码器输出的单模态情感特征向量通过特征关联性损失函数S corr 进行关联,特征关联性损失函数S corr 为:
Figure 883750DEST_PATH_IMAGE002
其中,x i x j 分别表示第i、ji≠j;i=1,2,...,n;j=1,2,...,n)个模态数据的真实值;f i f j 分别表示第i、j个编码器;f i T 表示第i个编码器的转置;tr()表示成对内积计算;cov()表示方差无偏估计;
所述自编码器重构损失函数S rec 和特征关联性损失函数S corr 通过多模态特征提取损失函数S total 进行优化求解,所述多模态特征提取损失函数S total 为:
S total = argmin(αS corr S rec )
其中,α,β分别为衡量自编码器重构损失函数S rec 和特征关联性损失函数S corr 相对重要程度的权重值;argmin()表示括号中式子达到最小值时自编码器重构损失函数S rec 和特征关联性损失函数S corr 的取值。
优选地,所述编码器包括用于对图像信号数据进行编码的图像信号编码器,以及用于对序列信号数据进行编码的序列信号编码器;
所述图像信号编码器的网络结构包括:若干组依次连接的卷积神经网络层一,以及连接在最后一组卷积神经网络层一之后的扁平化层和全连接层一;
所述序列信号编码器的网络结构包括:若干组依次连接的卷积神经网络层二,以及连接在最后一组卷积神经网络层二之后的长短期记忆网络层、随机失活层和全连接层二。
优选地,所述解码器结构与编码器结构相反。
优选地,各个卷积神经网络层一和卷积神经网络层二均是由依次连接的卷积层、批归一化层和最大池化层组成;
所述卷积层为:
C = σ c (W 3 ·(σ c (W 2 ·(σ c (W 1 ·xc+b 1 ))+ b 2 ))+ b 3 )
其中,xc表示卷积层的输入向量;W 1 W 2 W 3 分别表示卷积层中第1、2、3个卷积核值;b 1 b 2 b 3 分别表示卷积层中第1、2、3个偏置值,σ c 表示激活函数,C表示输出向量;
所述批归一化层为:
Figure 411552DEST_PATH_IMAGE003
Figure 700582DEST_PATH_IMAGE004
Figure 849804DEST_PATH_IMAGE005
其中,q表示批归一化层输入向量的总数,C k 表示第k(k=0,1,2,...,q)个输入向量,μ β 表示输入向量的平均值,δ β 2 表示输入向量的方差,C' k 表示第k个经过归一化后的向量,ε表示无穷小量。
优选地,所述序列信号编码器中,长短期记忆网络层为:
I t = σ(W rI xm t + b rI + W hI h t-1 +b hI )
F t = σ(W rF xm t + b rF + W hF h t-1 +b hF )
o t = σ(W ro xm t + b ro + W ho h t-1 +b ho )
g t = tanh(W rg xm t + b rg + W hg h t-1 +b hg )
c t = F t *c t -1 + I t * g t
h t = o t * tanh(c t )
其中,I t 表示输入门;F t 表示遗忘门;o t 表示输出门;g t 表示当前时刻输入的单元状态;xm t 表示长短期记忆网络层的输入向量;h t 表示当前时刻长短期记忆网络层输出值;h t-1 表示上一时刻的长短期记忆网络层输出值;c t 表示当前时刻的单元状态;c t-1 表示上一时刻的单元状态;W rI 、W hI 、W rF 、W hF 、W ro 、W ho 、W rg 、W hg 分别表示权重矩阵;b rI 、b hI 、b rF 、b hF 、b ro 、b ho b rg 、b hg 分别表示偏置量;σ表示激活函数。
优选地,所述宽度学习系统中,得到分类输出的方法是:
O = W BLS ·A
其中,O为分类输出结果;W BLS 为已训练完毕的权重矩阵。
优选地,所述权重矩阵W BLS 的求解过程如下:
在初始训练时,A train 表示训练数据的特征层输入,且训练数据的真实分类结果矩阵O train 已知,则计算权重矩阵的方法为:
W BLS =A train -1 ·O train
运用岭回归进行权重矩阵的优化计算:
Figure 451074DEST_PATH_IMAGE006
其中,λ表示对权重矩阵W BLS 的约束系数;argmin WBLS 表示冒号后的式子取最小值时,对应权重矩阵W BLS 的取值;
求解得:
W BLS =(λI +A train ·A train T )-1 A train T ·O train
其中,A train T 表示特征层输入矩阵A train 的转置矩阵;I表示单位矩阵;
λ趋近于0时,求解权重矩阵W BLS 的问题则转换为普通的求解最小二乘法问题,则:
Figure 561112DEST_PATH_IMAGE007
优选地,所述图像信号数据包括面部表情数据和手势变化数据中的任一种或两种;序列信号数据包括语音数据和心率数据中的任一种或两种。
与现有技术相比,本发明具有如下优点与有益效果:
1、本发明综合采用多模态生理信号数据,不限于仅对视听信号进行分析;同时还考虑了各模态特征向量之间的内在联系,通过特征关联性损失函数将不同模态的特征向量进行关联,相较于现有技术,能更加全面、客观地对潜在抑郁风险进行评估;
2、本发明将深度学习与宽度学习进行良好结合,不仅能够利用深度表征模型模型到具有可解释性、可重构的共性情感特征空间;也能够在横向特征空间中利用宽度学习系统,融合高维情感语义特征,并提高潜在抑郁评估的效率,利于推广应用;
3、本发明可对个体抑郁风险等级进行评估,可提高抑郁症检测与诊断的便捷程度,减轻筛查抑郁症患者的工作量,及时反映患者病情,作为医院的有益辅助,提升诊断的效率。
附图说明
图1是本发明基于多模态宽度学习的潜在抑郁评估系统的结构示意图;
图2是本发明基于多模态宽度学习的潜在抑郁评估系统的工作流程图;
图3是本发明基于多模态宽度学习的潜在抑郁评估系统中的图像信号编码器的结构示意图;
图4是本发明基于多模态宽度学习的潜在抑郁评估系统中的序列信号编码器的结构示意图。
具体实施方式
下面结合附图与具体实施方式对本发明作进一步详细的描述。
实施例
本实施例一种基于多模态宽度学习的潜在抑郁评估系统,其结构如图1所示,工作流程如图2所示;系统包括:
信号采集模块,用于采集被试者的生理信号数据,从生理信号数据中独立提取出作为抑郁症评估依据的n个模态数据,将n个模态数据划分为图像信号数据和序列信号数据两个类别;
预处理模块,用于对各个模态数据分别进行预处理;
编码器,用于对预处理后的各个模态数据分别进行特征提取得到单模态情感特征向量;
解码器,用于分别根据各个单模态情感特征向量进行数据重构;
特征层融合模块,用于各个单模态情感特征向量聚合成多模态特征向量层Z
以及宽度学习系统,用于将多模态特征向量层Z和增强节点层H合并后构成特征层输入A=[Z|H],对特征层输入A进行计算,得到分类输出,从而得出抑郁风险等级的评估结果。
具体地说,图像信号数据包括面部表情数据和手势变化数据中的任一种或两种;序列信号数据包括语音数据和心率数据中的任一种或两种。例如,通过对被试者录制视频采集到被试者的生理信号数据;提取面部表情视频文件及语音音频文件,并进行预处理,得到图像信号数据和序列信号数据。
编码器包括用于对图像信号数据进行编码的图像信号编码器,以及用于对序列信号数据进行编码的序列信号编码器。
如图3所示,图像信号编码器的网络结构包括:若干组依次连接的卷积神经网络层一,以及连接在最后一组卷积神经网络层一之后的扁平化层和全连接层一。卷积神经网络层一是由依次连接的卷积层、批归一化层和最大池化层组成。
例如,图像信号编码器包括4个3×3的卷积神经网络层一和1个具有256个线性整流函数单元的全连接层一。每个卷积神经网络层一的结构为:32、64、64个卷积核构成卷积层,1个批归一化层和1个2×2的最大池化层。最后一个卷积神经网络层一的输出被扁平化后,输入至全连接层一。全连接层一输出的数据即为图像信号数据的情感特征。
卷积层为:
C = σ c (W 3 ·(σ c (W 2 ·(σ c (W 1 ·xc+b 1 ))+ b 2 ))+ b 3 )
其中,xc表示卷积层的输入向量;W 1 W 2 W 3 分别表示卷积层中第1、2、3个卷积核值;b 1 b 2 b 3 分别表示卷积层中第1、2、3个偏置值,σ c 表示激活函数,C表示输出向量;
批归一化层为:
Figure 512888DEST_PATH_IMAGE003
Figure 906829DEST_PATH_IMAGE004
Figure 692382DEST_PATH_IMAGE005
其中,q表示批归一化层输入向量的总数,C k 表示第k(k=0,1,2,...,q)个输入向量,μ β 表示输入向量的平均值,δ β 2 表示输入向量的方差,C' k 表示第k个经过归一化后的向量,ε表示无穷小量以避免分母为零。批归一化可以有效缓解梯度消失地问题,使网络学习变得更加稳定。
激活函数可使用线性整流函数单元:
RELUR=max0,R);
其中,R表示激活函数的输入向量。
如图4所示,序列信号编码器的网络结构包括:若干组依次连接的卷积神经网络层二,以及连接在最后一组卷积神经网络层二之后的长短期记忆网络层、随机失活层和全连接层二。卷积神经网络层二结构是由依次连接的卷积层、批归一化层和最大池化层组成。
例如,序列信号编码器包括3个卷积神经网络层二、1个具有256个单元的长短期记忆网络层和1个具有512个线性整流函数单元的全连接层二。每个卷积神经网络层二的结构为:64、128、256个卷积核构成卷积层,1个批归一化层和1个最大池化层。三层卷积核的大小分别为8、6、6,相应的最大池化大小分别设置为10、5、3。在长短期记忆网络层之后,增加随机失活层防止过拟合现象的产生;本发明中设置随机失活的概率为0.4。全连接层二输出即为序列信号数据的情感特征。
长短期记忆网络层为:
I t = σ(W rI xm t + b rI + W hI h t-1 +b hI )
F t = σ(W rF xm t + b rF + W hF h t-1 +b hF )
o t = σ(W ro xm t + b ro + W ho h t-1 +b ho )
g t = tanh(W rg xm t + b rg + W hg h t-1 +b hg )
c t = F t *c t -1 + I t * g t
h t = o t * tanh(c t )
其中,I t 表示输入门;F t 表示遗忘门;o t 表示输出门;g t 表示当前时刻输入的单元状态;xm t 表示长短期记忆网络层的输入向量;h t 表示当前时刻长短期记忆网络层输出值;h t-1 表示上一时刻的长短期记忆网络层输出值;c t 表示当前时刻的单元状态;c t-1 表示上一时刻的单元状态;W rI 、W hI 、W rF 、W hF 、W ro 、W ho 、W rg 、W hg 分别表示权重矩阵;b rI 、b hI 、b rF 、b hF 、b ro 、b ho b rg 、b hg 分别表示偏置量;σ表示激活函数。长短期记忆网络层中有3个门控开关函数,其中I t 是输入门,决定了当前时刻网络的输入特征xm t 到单元状态c t 的保存量;F t 是遗忘门,决定了上一时刻的单元状态c t-1 到当前时刻单元状态c t 中的保留量;o t 是输出门,控制当前时刻单元状态c t 到长短期记忆网络的当前输出值h t 的输出量。
解码器结构与编码器结构相反,但所有网络层次相同。唯一不同的地方是卷积神经网络层中,最大池化层更改为上采样层,层大小保持不变。
为了保证提取出的高维语义空间特征在维度较多时能稳定地进行特征层融合,且保证提取出的不同模态的特征之间存在较强的关联性,本发明对不同模态间的数据特征进行衡量,构造特征关联性损失函数S corr ,学习不同模态数据的高度非线性特征之间的关联性。
具体地说,各个编码器输出的单模态情感特征向量通过特征关联性损失函数S corr 进行关联,特征关联性损失函数S corr 为:
Figure 148771DEST_PATH_IMAGE002
其中,x i x j 分别表示第i、ji≠j;i=1,2,...,n;j=1,2,...,n)个模态数据的真实值;f i f j 分别表示第i、j个编码器;f i T 表示第i个编码器的转置;tr()表示成对内积计算;cov()表示方差无偏估计。
由于仅考虑不同模态间特征的关联性,而忽略单一模态特征本身蕴含的信息,将对最终评估的准确率产生影响,且为了保证根据单一模态数据提取出的特征具有较强的可靠性,本发明对单一模态数据的重构效果进行衡量。
具体地说,在各个解码器与编码器之间通过自编码器重构损失函数S rec 进行关联,自编码器重构损失函数S rec 为:
Figure 28872DEST_PATH_IMAGE001
其中,x i 表示第i(i=1,2,...,n)模态数据的真实值;x' i 表示第i个模态数据经过编码器提取特征、之后输入解码器进行特征重构后得到的重构值;E[]表示对所有模态数据真实值与重构值之间的均方误差求期望。
所述自编码器重构损失函数S rec 和特征关联性损失函数S corr 通过多模态特征提取损失函数S total 进行优化求解,所述多模态特征提取损失函数S total 为:
S total = argmin(αS corr S rec )
其中,α,β分别为衡量自编码器重构损失函数S rec 和特征关联性损失函数S corr 相对重要程度的权重值;argmin()表示括号中式子达到最小值时自编码器重构损失函数S rec 和特征关联性损失函数S corr 的取值。
宽度学习系统中,得到分类输出的方法是:
O = W BLS ·A
其中,O为分类输出结果;W BLS 为已训练完毕的权重矩阵。
权重矩阵W BLS 的求解过程如下:
在初始训练时,A train 表示训练数据的特征层输入,且训练数据的真实分类结果矩阵O train 已知,则计算权重矩阵的方法为:
W BLS =A train -1 ·O train
运用岭回归进行权重矩阵的优化计算:
Figure 887106DEST_PATH_IMAGE006
其中,λ表示对权重矩阵W BLS 的约束系数;argmin WBLS 表示冒号后的式子取最小值时,对应权重矩阵W BLS 的取值;
求解得:
W BLS =(λI +A train ·A train T )-1 A train T ·O train
其中,A train T 表示特征层输入矩阵A train 的转置矩阵;I表示单位矩阵;
λ趋近于0时,求解权重矩阵W BLS 的问题则转换为普通的求解最小二乘法问题,则:
Figure 843561DEST_PATH_IMAGE007
本发明设计并提出一种潜在抑郁评估系统,并创新地提出多模态宽度学习算法,通过对多模态生理信号中个体的多种生理信号规律分别进行分析,再将所有特征向量进行特征层融合后,使用宽度学习系统对个体抑郁风险等级进行评估,可提高抑郁症检测与诊断的便捷程度,减轻筛查抑郁症患者的工作量,及时反映患者病情,提升诊断的效率。
下面以一个具体例子进行说明。
首先,信号采集模块采集被试者的生理信号数据:
提供给被试者一段带有情感的文本,被试者根据文本中描述的情景进行反应和互动,将这一过程录制下来作为原始视频;
从原始视频中独立提取出语音音频文件及面部表情视频文件;对所属音视频文件进行数据预处理:将视频分成1秒时长的片段,通过裁剪等方式调整每个片段关键帧的尺寸;将音频分割成1秒时长的音段,调整每个音段的频率;
将原始视频归类成图像信号数据与序列信号数据,此处图像信号数据为每一秒钟的关键帧,以png文件格式保存;序列信号数据为每一秒钟的音频,以wav文件格式保存;将面部表情关键帧通过重新调整尺寸的方式,调整至视觉模块设置的输入尺寸大小;将语音音频根据音频的频率编码成one-hot向量;图像信号数据与序列信号数据均预处理完毕。
然后,图像信号数据输入到图像信号编码器,序列信号数据输入到序列信号编码器进行特征提取得到单模态情感特征向量;之后通过解码器进行数据重构。
之后,对单一模态数据重构效果的衡量,构造自编码器重构损失函数S rec ;将面部表情情感特征与语音情感特征进行特征层融合,并构造特征关联性损失函数S corr ;根据上述两个损失函数构造多模态特征提取损失函数S total ,并进行优化求解,得到目标函数的最小损失值。
将从图像信号编码器和序列信号编码器中得到的单模态情感特征向量聚合成多模态特征向量层Z =[Z 1 | Z 2 ],同时随机初始化生成增强节点层H,二者合并后构成特征层输入A=[Z|H]。在横向特征空间中利用宽度学习系统对特征层输入A进行计算,得到分类输出,从而得出抑郁风险等级的评估结果。
从高到底共设置5个抑郁风险等级:等级
Figure 911880DEST_PATH_IMAGE008
为正常、等级
Figure 736616DEST_PATH_IMAGE009
为存在轻度抑郁情绪、等级
Figure 324724DEST_PATH_IMAGE010
为抑郁情绪明显、等级
Figure 438698DEST_PATH_IMAGE011
为具有重度抑郁情绪、等级
Figure 135258DEST_PATH_IMAGE012
为抑郁情绪严重;将输出至系统用户可视化界面上。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (8)

1.一种基于多模态宽度学习的潜在抑郁评估系统,其特征在于:包括:
信号采集模块,用于采集被试者的生理信号数据,从生理信号数据中独立提取出作为抑郁症评估依据的n个模态数据,将n个模态数据划分为图像信号数据和序列信号数据两个类别;
预处理模块,用于对各个模态数据分别进行预处理;
编码器,用于对预处理后的各个模态数据分别进行特征提取得到单模态情感特征向量;
解码器,用于分别根据各个单模态情感特征向量进行数据重构;
特征层融合模块,用于各个单模态情感特征向量聚合成多模态特征向量层Z
以及宽度学习系统,用于将多模态特征向量层Z和增强节点层H合并后构成特征层输入A=[Z|H],对特征层输入A进行计算,得到分类输出,从而得出抑郁风险等级的评估结果;
在各个解码器与编码器之间通过自编码器重构损失函数S rec 进行关联,自编码器重构损失函数S rec 为:
Figure 948849DEST_PATH_IMAGE002
其中,x i 表示第i(i=1,2,...,n)模态数据的真实值;x' i 表示第i个模态数据经过编码器提取特征、之后输入解码器进行特征重构后得到的重构值;E[]表示对所有模态数据真实值与重构值之间的均方误差求期望;
各个编码器输出的单模态情感特征向量通过特征关联性损失函数S corr 进行关联,特征关联性损失函数S corr 为:
Figure 931236DEST_PATH_IMAGE004
其中,x i x j 分别表示第i、ji≠j;i=1,2,...,n;j=1,2,...,n)个模态数据的真实值;f i f j 分别表示第i、j个编码器;f i T 表示第i个编码器的转置;tr()表示成对内积计算;cov()表示方差无偏估计;
所述自编码器重构损失函数S rec 和特征关联性损失函数S corr 通过多模态特征提取损失函数S total 进行优化求解,所述多模态特征提取损失函数S total 为:
S total = argmin(αS corr S rec )
其中,α,β分别为衡量自编码器重构损失函数S rec 和特征关联性损失函数S corr 相对重要程度的权重值;argmin()表示括号中式子达到最小值时自编码器重构损失函数S rec 和特征关联性损失函数S corr 的取值。
2.根据权利要求1所述的基于多模态宽度学习的潜在抑郁评估系统,其特征在于:所述编码器包括用于对图像信号数据进行编码的图像信号编码器,以及用于对序列信号数据进行编码的序列信号编码器;
所述图像信号编码器的网络结构包括:若干组依次连接的卷积神经网络层一,以及连接在最后一组卷积神经网络层一之后的扁平化层和全连接层一;
所述序列信号编码器的网络结构包括:若干组依次连接的卷积神经网络层二,以及连接在最后一组卷积神经网络层二之后的长短期记忆网络层、随机失活层和全连接层二。
3.根据权利要求2所述的基于多模态宽度学习的潜在抑郁评估系统,其特征在于:所述解码器结构与编码器结构相反。
4.根据权利要求2所述的基于多模态宽度学习的潜在抑郁评估系统,其特征在于:各个卷积神经网络层一和卷积神经网络层二均是由依次连接的卷积层、批归一化层和最大池化层组成;
所述卷积层为:
C = σ c (W 3 ·(σ c (W 2 ·(σ c (W 1 ·xc+b 1 ))+ b 2 ))+ b 3 )
其中,xc表示卷积层的输入向量;W 1 W 2 W 3 分别表示卷积层中第1、2、3个卷积核值;b 1 b 2 b 3 分别表示卷积层中第1、2、3个偏置值,σ c 表示激活函数,C表示输出向量;
所述批归一化层为:
Figure 304448DEST_PATH_IMAGE006
Figure 168499DEST_PATH_IMAGE008
Figure 310768DEST_PATH_IMAGE010
其中,q表示批归一化层输入向量的总数,C k 表示第k(k=0,1,2,...,q)个输入向量,μ β 表示输入向量的平均值,δ β 2 表示输入向量的方差,C' k 表示第k个经过归一化后的向量,ε表示无穷小量。
5.根据权利要求2所述的基于多模态宽度学习的潜在抑郁评估系统,其特征在于:所述序列信号编码器中,长短期记忆网络层为:
I t = σ(W rI xm t + b rI + W hI h t-1 +b hI )
F t = σ(W rF xm t + b rF + W hF h t-1 +b hF )
o t = σ(W ro xm t + b ro + W ho h t-1 +b ho )
g t = tanh(W rg xm t + b rg + W hg h t-1 +b hg )
c t = F t *c t -1 + I t * g t
h t = o t * tanh(c t )
其中,I t 表示输入门;F t 表示遗忘门;o t 表示输出门;g t 表示当前时刻输入的单元状态;xm t 表示长短期记忆网络层的输入向量;h t 表示当前时刻长短期记忆网络层输出值;h t-1 表示上一时刻的长短期记忆网络层输出值;c t 表示当前时刻的单元状态;c t-1 表示上一时刻的单元状态;W rI 、W hI 、W rF 、W hF 、W ro 、W ho 、W rg 、W hg 分别表示权重矩阵;b rI 、b hI 、b rF 、b hF 、b ro 、b ho 、b rg 、b hg 分别表示偏置量;σ表示激活函数。
6.根据权利要求1所述的基于多模态宽度学习的潜在抑郁评估系统,其特征在于:所述宽度学习系统中,得到分类输出的方法是:
O = W BLS ·A
其中,O为分类输出结果;W BLS 为已训练完毕的权重矩阵。
7.根据权利要求6所述的基于多模态宽度学习的潜在抑郁评估系统,其特征在于:所述权重矩阵W BLS 的求解过程如下:
在初始训练时,A train 表示训练数据的特征层输入,且训练数据的真实分类结果矩阵O train 已知,则计算权重矩阵的方法为:
W BLS =A train -1 ·O train
运用岭回归进行权重矩阵的优化计算:
Figure 195547DEST_PATH_IMAGE012
其中,λ表示对权重矩阵W BLS 的约束系数;argmin WBLS 表示冒号后的式子取最小值时,对应权重矩阵W BLS 的取值;
求解得:
W BLS =(λI +A train ·A train T )-1 A train T ·O train
其中,A train T 表示特征层输入矩阵A train 的转置矩阵;I表示单位矩阵;
λ趋近于0时,求解权重矩阵W BLS 的问题则转换为普通的求解最小二乘法问题,则:
Figure 790476DEST_PATH_IMAGE014
8.根据权利要求1所述的基于多模态宽度学习的潜在抑郁评估系统,其特征在于:所述图像信号数据包括面部表情数据和手势变化数据中的任一种或两种;序列信号数据包括语音数据和心率数据中的任一种或两种。
CN202210381225.0A 2022-04-13 2022-04-13 一种基于多模态宽度学习的潜在抑郁评估系统 Active CN114462554B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210381225.0A CN114462554B (zh) 2022-04-13 2022-04-13 一种基于多模态宽度学习的潜在抑郁评估系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210381225.0A CN114462554B (zh) 2022-04-13 2022-04-13 一种基于多模态宽度学习的潜在抑郁评估系统

Publications (2)

Publication Number Publication Date
CN114462554A CN114462554A (zh) 2022-05-10
CN114462554B true CN114462554B (zh) 2022-07-05

Family

ID=81418589

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210381225.0A Active CN114462554B (zh) 2022-04-13 2022-04-13 一种基于多模态宽度学习的潜在抑郁评估系统

Country Status (1)

Country Link
CN (1) CN114462554B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115148361B (zh) * 2022-07-15 2023-10-10 深圳大学 疾病亚型确定系统及方法
CN115495572B (zh) * 2022-08-01 2023-05-26 广州大学 一种基于复合情绪分析的抑郁情绪辅助管理方法
CN115826767B (zh) * 2023-02-24 2023-06-30 长春理工大学 多模态跨被试上肢动作识别模型及其构建方法和应用方法
CN116738354B (zh) * 2023-08-15 2023-12-08 国网江西省电力有限公司信息通信分公司 一种电力物联网终端行为异常检测方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111461176A (zh) * 2020-03-09 2020-07-28 华南理工大学 基于归一化互信息的多模态融合方法、装置、介质及设备
WO2020210673A1 (en) * 2019-04-10 2020-10-15 Cornell University Neuromorphic algorithm for rapid online learning and signal restoration
CN113094534A (zh) * 2021-04-09 2021-07-09 陕西师范大学 一种基于深度学习的多模态图文推荐方法及设备
CN113361559A (zh) * 2021-03-12 2021-09-07 华南理工大学 基于深宽度联合神经网络的多模态数据知识信息提取方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020210673A1 (en) * 2019-04-10 2020-10-15 Cornell University Neuromorphic algorithm for rapid online learning and signal restoration
CN111461176A (zh) * 2020-03-09 2020-07-28 华南理工大学 基于归一化互信息的多模态融合方法、装置、介质及设备
CN113361559A (zh) * 2021-03-12 2021-09-07 华南理工大学 基于深宽度联合神经网络的多模态数据知识信息提取方法
CN113094534A (zh) * 2021-04-09 2021-07-09 陕西师范大学 一种基于深度学习的多模态图文推荐方法及设备

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Emotion Recognition From Multimodal Physiological Signals Using a Regularized Deep Fusion of Kernel Machine;Tong Zhang et.al;《IEEE Transactions on Cybernetics 》;20200314;第51卷(第9期);第1-2页 *
Multi-Channel EEG Based Emotion Recognition Using Temporal Convolutional Network and Broad Learning System;Tong Zhang et.al;《2020 IEEE International Conference on Systems, Man, and Cybernetics (SMC)》;20201214;第1-2页 *
Residual GCB-Net: Residual Graph Convolutional Broad Network on Emotion Recognition;Tong Zhang et.al;《IEEE Transactions on Cognitive and Developmental Systems 》;20220131;第1-2页 *

Also Published As

Publication number Publication date
CN114462554A (zh) 2022-05-10

Similar Documents

Publication Publication Date Title
CN114462554B (zh) 一种基于多模态宽度学习的潜在抑郁评估系统
CN111461176B (zh) 基于归一化互信息的多模态融合方法、装置、介质及设备
Rejaibi et al. MFCC-based recurrent neural network for automatic clinical depression recognition and assessment from speech
Kumaran et al. Fusion of mel and gammatone frequency cepstral coefficients for speech emotion recognition using deep C-RNN
Jiang et al. Investigation of different speech types and emotions for detecting depression using different classifiers
Latinus et al. Norm-based coding of voice identity in human auditory cortex
Saenz-Lechon et al. Methodological issues in the development of automatic systems for voice pathology detection
Karan et al. Non-negative matrix factorization-based time-frequency feature extraction of voice signal for Parkinson's disease prediction
Travieso et al. Detection of different voice diseases based on the nonlinear characterization of speech signals
Świetlicka et al. Hierarchical ANN system for stuttering identification
JP2023538287A (ja) 呼吸器症候群を検出するためのアンサンブル機械学習モデル
Wang et al. Automatic assessment of pathological voice quality using multidimensional acoustic analysis based on the GRBAS scale
WO2022257630A1 (zh) 基于多模态隐匿信息测试的风险检测方法及装置
Lu et al. Speech depression recognition based on attentional residual network
CN111161883A (zh) 基于变分自编码器的疾病预测系统及其电子设备
Pravin et al. Regularized deep LSTM autoencoder for phonological deviation assessment
Hantke et al. EAT- The ICMI 2018 Eating Analysis and Tracking Challenge
Shen et al. A high-precision feature extraction network of fatigue speech from air traffic controller radiotelephony based on improved deep learning
CN116110578A (zh) 一种计算机辅助抑郁症状诊断的筛查装置
Karan et al. An investigation about the relationship between dysarthria level of speech and the neurological state of Parkinson’s patients
CN115089123A (zh) 基于注意力和Transformer的OSA检测方法
Makiuchi et al. Speech paralinguistic approach for detecting dementia using gated convolutional neural network
CN111047590A (zh) 基于眼底图像的高血压分类方法及设备
CN113241178B (zh) 一种确定被测者的抑郁症严重程度的装置
Prabhudesai et al. Depression detection and analysis using deep learning: study and comparative analysis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant