CN112818892A - 基于时间卷积神经网络的多模态抑郁症检测方法及系统 - Google Patents

基于时间卷积神经网络的多模态抑郁症检测方法及系统 Download PDF

Info

Publication number
CN112818892A
CN112818892A CN202110184432.2A CN202110184432A CN112818892A CN 112818892 A CN112818892 A CN 112818892A CN 202110184432 A CN202110184432 A CN 202110184432A CN 112818892 A CN112818892 A CN 112818892A
Authority
CN
China
Prior art keywords
depression
features
neural network
text
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110184432.2A
Other languages
English (en)
Other versions
CN112818892B (zh
Inventor
杨忠丽
李明定
张光华
武海荣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Yidian Intelligent Technology Co ltd
Original Assignee
Hangzhou Yidian Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Yidian Intelligent Technology Co ltd filed Critical Hangzhou Yidian Intelligent Technology Co ltd
Priority to CN202110184432.2A priority Critical patent/CN112818892B/zh
Publication of CN112818892A publication Critical patent/CN112818892A/zh
Application granted granted Critical
Publication of CN112818892B publication Critical patent/CN112818892B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种基于时间卷积神经网络的多模态抑郁症检测方法及系统。其检测方法具体包括:构建训练样本集,其包含抑郁症和非抑郁症患者的音频、3D面部表情和对应的文本信息;对训练样本集进行3D面部表情特征提取,获得具备情境感知的3D面部表情特征向量;结合梅尔倒谱系数,用于对所述训练样本集的音频信号进行声学特征提取,获得具备情境感知的语音向量特征;使用Transformer模型,对训练样本集词嵌入进行处理,获得具备情境感知的文本特征;对3D面部表情特征、语音向量特征和文本特征进行融合,获得用于进行抑郁症分类的信息;将用于进行抑郁症分类的信息带入时间卷积神经网络,获得抑郁症分类信息。本发明能够提高了抑郁症检测的准确性。

Description

基于时间卷积神经网络的多模态抑郁症检测方法及系统
技术领域
本发明属于大数据技术领域,具体涉及一种基于时间卷积神经网络的多模态抑郁症检测方法及系统。
背景技术
世界上每年因为抑郁症而自杀的患者有近80万人,与其他身体疾病相比,精神障碍更难发现。早期的临床实践中,医生通过在个人访谈中通过诊断抑郁症状的严重程度来确定患者是否患有抑郁症。后来,科研人员通过对语音信号的时域特征,例如停顿时间、录音时间、对问题的反馈时间、语速等进行定量分析,帮助医生对抑郁症患者进行辅助诊断。但是,人们发现单一的特征对辅助临床诊断的辨识度较低。近年来,随着语音检测技术的深入发展,研究者尝试选取特定的语音特征,例如音高(pitch)、能量(energy)、语速(speaking rate)、共振峰(formant)、梅尔倒谱系数(MFCC)等,将其组合,构建出检测抑郁症的分类模型。文本信息是另外一种与抑郁症相关的及其重要的信息。研究表明,抑郁症患者使用消极情感词和愤怒词明显较正常人多,因此人们通常对词频统计作为文本特征表示。在临床实验中,大部分抑郁症患者会将消极或烦躁的情绪通过面部表情的方式展现出来。因此,研究人员将面部特征也作为一种模态融合至抑郁症检测中。
在现有技术中,通常采用基于生化试剂和基于脑电的检测手段,而在基于语音、文本或图像的技术方案中,多以语音数据为依托,在临床面试过程中,患者可能口吃且经常在单词之间停顿,导致音频、视频记录比非抑郁症患者更长。简言之,现有技术主要存在以下几方面的问题:训练数据量方面,现有的基于语音、文本或图像的多模态抑郁症检测系统大部分由有限抑郁症数据训练得到,因此性能低下;特征提取方面,现有特征提取方法缺少受试者在回答不同问题时的面部表情特征,在抑郁症检测领域表现力不足,限制了最终抑郁症检测系统的性能;抑郁症分类建模方面,现有技术没有考虑语音、文本特征与抑郁症诊断的长时间依赖关系;多模态融合方面,不同模态数据之间的特征分布差异大,现有技术简单地把不同模态或通道下所得的子系统输出串联在一起,由于模态之间的特征差异导致特征融合过程中易出现信息损失,因此性能收到限制;在模型选择方面,传统方法多用基于递归神经网络的抑郁症检测方法,对音频、视频的长度进行了限制。
发明内容
本发明的目的是基于上述技术现状,提供一种基于时间卷积神经网络的多模态抑郁症检测方法及系统。
一种基于时间卷积神经网络的多模态抑郁症检测方法,包括如下步骤:
步骤1:构建训练样本集,所述训练样本集包含抑郁症和非抑郁症患者的音频、3D面部表情和对应的文本信息;
步骤2:对所述训练样本集的3D面部表情进行面部表情特征提取,获得具备情境感知的3D面部表情特征向量;
步骤3:使用音频信号分帧加窗算法,结合短时傅里叶变换,绘制所述训练样本集的音频信号的语谱图;再使用三角滤波器,结合梅尔倒谱系数(MFCC),对所述训练样本集的语谱图进行特征增强,获得具备情景感知的语音向量特征;
步骤4:使用Transformer模型,对所述训练样本集的患者测试文本进行句子级嵌入处理,获得具备情景感知的文本特征;
步骤5:使用图卷积神经网络(GCN),对所述3D面部表情特征向量、所述语音向量特征和所述文本特征进行融合,获得用于进行抑郁症分类的信息;
步骤6:将所述用于进行抑郁症分类的信息带入时间卷积神经网络,获得抑郁症分类信息。
进一步,所述步骤3获得具备情景感知的语音向量特征的具体过程为:
(1)将采集到的音频信号经过预加重滤波、分帧加汉宁窗及分帧补零后,对每帧信号进行傅里叶变换得到频谱,并对语音信号的频谱取模平方得到功率谱;
(2)再将频谱及功率谱的纵坐标频率转换为梅尔频率,应用40个在转换后的梅尔谱上均匀分布且每两个滤波器间有50%重叠部分的三角滤波器,计算转换后的频谱及功率谱在这40个滤波器的梅尔频率分布,随后将梅尔频率通过以下公式转换成实际频率:
Figure BDA0002942440970000031
(3)对三角窗滤波器组的输出求对数,得到对数能量梅尔谱;
(4)对对数能量梅尔谱进行离散余弦变换(DCT)变换,取前13维输出,得到语音向量特征。
进一步,所述步骤4获得具备情景感知的文本特征的具体过程为:
构建Transformer模型,以词嵌入作为Transformer模型的输入,该Transformer模型包括多个含有自注意力的编码器和解码器以及位于最后一层的softmax层;
利用已有的文本语料,使用无监督训练方法与训练Transformer模型参数,然后采用迁移学习,在采集得到的抑郁症文本数据进行自适应训练;
在训练完成后,将softmax层去除,以Transformer模型的输出作为所述情景感知的文本特征。
进一步,所述步骤5具体包括:
每个患者样本的多模态特征表示为:
Figure BDA0002942440970000041
其中,
Figure BDA0002942440970000044
为时序t下的第i种模态的特征,T代表时序总长度,Nm代表模态特征的总数目;
该特征序列的多模态时序图结构表示为A,特征融合网络利用图卷积神经网络,每个特征在第k次迭代表示如下:
Figure BDA0002942440970000042
其中,D是A的对角矩阵,W(k+1)是本次迭代过程中可训练的网络参数,
Figure BDA0002942440970000043
是非线性激活函数;
由上述图卷积神经网络,最终输出模态无关性的融合特征表示为XK,K代表图卷积总层数。
进一步,所述步骤6具体包括:采用迁移学习机制,调整所述3D面部表情特征、声学通道特征和文本通道特征的权重,带入时间卷积神经网络中,使得最终抑郁症分类预测结果和反馈信息之间的差异最小化;融合所述时间卷积神经网络的输出,获得抑郁症的分类结果。
进一步,所述声学通道特征、所述文本通道特征和所述3D面部表情特征基于TCN网络建立,网络的输入为经特征融合后,声学特征的语音向量、文本特征的文本编码和经3D面部扫描的3D面部表情向量,输出为抑郁症分类标签。
进一步,所述TCN网络包括输入层、带因果卷积(Causal Convolutions)的一维全卷积神经网络层(1-D FCN)、全连接层和输出层。
进一步,采用基于KL散度约束的迁移学习方法引入抑郁症检测公开数据集作为源域进行知识迁移,并构建如下损失函数:
LKL=∑[q(Xs)logq(Xs)]p(Xt)logp(Xt)
其中,Xs和Xt分别代表源域和目标域数据样本,
Figure BDA0002942440970000051
代表由本方法对于源域数据预测得到的概率分布;
使用迁移学习机制,得到带预训练权重的TCN网络模型;
将融合后的时序特征信号XK作为输入,送入TCN网络中,经全连接层输出获得每个样本不同患病程度的概率分布p(X)。
一种基于时间卷积神经网络的多模态抑郁症检测系统,该系统包括:
训练样本的构建单元:用于构建训练样本集,所述训练样本集包含抑郁症和非抑郁症患者的音频、3D面部表情和对应的文本信息;
面部表情特征提取单元:用于对所述训练样本集进行3D面部表情特征提取,获得具备情境感知的3D面部表情特征向量;
声学特征提取单元:结合梅尔倒谱系数,用于对所述训练样本集的音频信号进行声学特征提取,获得具备情境感知的语音向量特征;
文本特征提取单元:用于利用所述训练样本集,使用Transformer模型对词嵌入进行处理,获得具备情境感知的文本特征;
特征融合单元:用于对所述3D面部表情特征、所述语音向量特征和所述文本特征进行融合,获得用于抑郁症检测分类的训练数据集;
分类预测单元:用于对所述抑郁症检测分类的训练数据集建立识别抑郁症患病程度的检测系统。
与现有技术相比,本发明的有益效果如下:
利用3D面部表情特征扫描的方法,根据医生与患者自由交谈时,获取患者对回答不同问题时面部表情的变化,扩展抑郁症训练数据,并利用该数据进行模型训练。利用数据增强的方法,根据医生与抑郁症患者自由交谈内容中的语音、语调信息,利用梅尔倒谱系数,增强抑郁症声学特征训练数据,获取与抑郁症检测相关的言语信息,包括获取与说话人无关、与抑郁症高度相关、具备情境感知的声学特征,以及获取与抑郁症高度相关、具备情境感知的文本特征。使用模态融合方法,考虑医生与抑郁症患者交谈时的面部表情、语音语调及文本信息三种模态信息进行模态特征融合,以实现全方位特征融合学习。
本发明设计了一个基于多模态融合网络,对样本的多模态特征构建多模态时序图结构进行图卷积神经网络,挖掘不同模态特征在不同时序之间的相互关联,减小不同模态特征之间的差异,使融合后的特征具备模态无关性;引入了时序卷积网络,对具备模态关联信息的多模态融合特征,结合已有的时序信息,输入至时序卷积网络,其主要利用了扩展卷积和1*1卷积,可以提取更丰富的时序信息,由此得到患者的多模态数据的特征表示,输出给分类器进行患者抑郁症诊断;
通常,源领域和目标领域数据分布存在内在偏移,需对迁移模型通过大量调整,才能进行有效的迁移学习。本发明采用基于KL散度的迁移学习训练策略,利用网络公开的数据集作为源域,为本发明所需的目标数据进行知识迁移。首先将源域和目标域数据输入到基于多模态特征融合的时序卷积网络中得到个样本对不同抑郁症级别的预测概率,然后利用KL散度约束将数据预测的概率分布向目标数据的概率分布进行迁移,可使源领域与目标领域最大程度的保持内部一致性,优化迁移学习的性能,提高患者抑郁分级准确性。
附图说明
图1为基于时间卷积神经网络的多模态抑郁症检测方法示意图;
图2为多模态特征融合网络示意图;
图3为基于时间卷积神经网络的融合特征提取过程的示意图。
具体实施方式
下面结合具体实施例对本发明作进一步详细描述。这些实施例以本发明技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于以下实施例。
如图1所示为一种基于时间卷积神经网络的多模态抑郁症检测方法示意图,其具体包括如下步骤:
步骤1:构建训练样本集,所述训练样本集包含抑郁症和非抑郁症患者的音频、3D面部表情和对应的文本信息;
步骤2:对所述训练样本集的3D面部表情进行面部表情特征提取,获得具备情境感知的3D面部表情特征向量;
步骤3:使用音频信号分帧加窗算法,结合短时傅里叶变换,绘制所述训练样本集的音频信号的语谱图;再使用三角滤波器,结合梅尔倒谱系数(MFCC),对所述训练样本集的语谱图进行特征增强,获得具备情景感知的语音向量特征;
步骤4:使用Transformer模型,对所述训练样本集的患者测试文本进行句子级嵌入处理,获得具备情景感知的文本特征;
步骤5:如图2所示,使用图卷积神经网络(GCN),对所述3D面部表情特征向量、所述语音向量特征和所述文本特征进行融合,获得用于进行抑郁症分类的信息;
步骤6:将所述用于进行抑郁症分类的信息带入时间卷积神经网络,时序卷积神经网络结构如图3所示,获得抑郁症分类信息。
在步骤3中,获得具备情景感知的语音向量特征的具体过程为:
(1)将采集到的音频信号经过预加重滤波、分帧加汉宁窗及分帧补零后,对每帧信号进行傅里叶变换得到频谱,并对语音信号的频谱取模平方得到功率谱;
(2)再将频谱及功率谱的纵坐标频率转换为梅尔频率,应用40个在转换后的梅尔谱上均匀分布且每两个滤波器间有50%重叠部分的三角滤波器,计算转换后的频谱及功率谱在这40个滤波器的梅尔频率分布,随后将梅尔频率通过以下公式转换成实际频率:
Figure BDA0002942440970000081
(3)对三角窗滤波器组的输出求对数,得到对数能量梅尔谱;
(4)对对数能量梅尔谱进行离散余弦变换(DCT)变换,取前13维输出,得到语音向量特征。
在步骤4中,获得具备情景感知的文本特征的具体过程为:
构建Transformer模型,以词嵌入作为Transformer模型的输入,该Transformer模型包括多个含有自注意力的编码器和解码器以及位于最后一层的softmax层;
利用已有的文本语料,使用无监督训练方法与训练Transformer模型参数,然后采用迁移学习,在采集得到的抑郁症文本数据进行自适应训练;
在训练完成后,将softmax层去除,以Transformer模型的输出作为所述情景感知的文本特征。
具体地,步骤5包括:
每个患者样本的多模态特征表示为:
Figure BDA0002942440970000082
其中,
Figure BDA0002942440970000083
为时序t下的第i种模态的特征,T代表时序总长度,Nm代表模态特征的总数目;
该特征序列的多模态时序图结构表示为A,特征融合网络利用图卷积神经网络,每个特征在第k次迭代表示如下:
Figure BDA0002942440970000091
其中,D是A的对角矩阵,W(k+1)是本次迭代过程中可训练的网络参数,
Figure BDA0002942440970000092
是非线性激活函数;
由上述图卷积神经网络,最终输出模态无关性的融合特征表示为XK,K代表图卷积总层数。
具体地,步骤6包括:采用迁移学习机制,调整所述3D面部表情特征、声学通道特征和文本通道特征的权重,带入时间卷积神经网络中,使得最终抑郁症分类预测结果和反馈信息之间的差异最小化;融合所述时间卷积神经网络的输出,获得抑郁症的分类结果。
所述声学通道特征、所述文本通道特征和所述3D面部表情特征基于TCN网络建立,网络的输入为经特征融合后,声学特征的语音向量、文本特征的文本编码和经3D面部扫描的3D面部表情向量,输出为抑郁症分类标签。
所述TCN网络包括输入层、带因果卷积(Causal Convolutions)的一维全卷积神经网络层(1-D FCN)、全连接层和输出层。
本实施例中采用基于KL散度约束的迁移学习方法引入抑郁症检测公开数据集作为源域进行知识迁移,并构建如下损失函数:
LKL=∑[q(Xs)logq(Xs)]p(Xt)logp(Xt)
其中,Xs和Xt分别代表源域和目标域数据样本,
Figure BDA0002942440970000093
代表由本方法对于源域数据预测得到的概率分布;
使用迁移学习机制,得到带预训练权重的TCN网络模型;
将融合后的时序特征信号XK作为输入,送入TCN网络中,经全连接层输出获得每个样本不同患病程度的概率分布p(X)。
本实施例还提供了一种基于时间卷积神经网络的多模态抑郁症检测系统,该系统包括:
训练样本的构建单元:用于构建训练样本集,所述训练样本集包含抑郁症和非抑郁症患者的音频、3D面部表情和对应的文本信息;
面部表情特征提取单元:用于对所述训练样本集进行3D面部表情特征提取,获得具备情境感知的3D面部表情特征向量;
声学特征提取单元:结合梅尔倒谱系数,用于对所述训练样本集的音频信号进行声学特征提取,获得具备情境感知的语音向量特征;
文本特征提取单元:用于利用所述训练样本集,使用Transformer模型对词嵌入进行处理,获得具备情境感知的文本特征;
特征融合单元:用于对所述3D面部表情特征、所述语音向量特征和所述文本特征进行融合,获得用于抑郁症检测分类的训练数据集;
分类预测单元:用于对所述抑郁症检测分类的训练数据集建立识别抑郁症患病程度的检测系统。
通过具体实施方式的说明,应当可对本发明为达成预定目的所采取的技术手段及功效得以更加深入且具体的了解,然而所附图示用于提供参考与说明,并非用来对本发明加以限制。

Claims (9)

1.一种基于时间卷积神经网络的多模态抑郁症检测方法,其特征在于,包括如下步骤:
步骤1:构建训练样本集,所述训练样本集包含抑郁症和非抑郁症患者的音频、3D面部表情和对应的文本信息;
步骤2:对所述训练样本集的3D面部表情进行面部表情特征提取,获得具备情境感知的3D面部表情特征向量;
步骤3:使用音频信号分帧加窗算法,结合短时傅里叶变换,绘制所述训练样本集的音频信号的语谱图;再使用三角滤波器,结合梅尔倒谱系数(MFCC),对所述训练样本集的语谱图进行特征增强,获得具备情景感知的语音向量特征;
步骤4:使用Transformer模型,对所述训练样本集的患者测试文本进行句子级嵌入处理,获得具备情景感知的文本特征;
步骤5:使用图卷积神经网络(GCN),对所述3D面部表情特征向量、所述语音向量特征和所述文本特征进行融合,获得用于进行抑郁症分类的信息;
步骤6:将所述用于进行抑郁症分类的信息带入时间卷积神经网络,获得抑郁症分类信息。
2.根据权利要求1所述的一种基于时间卷积神经网络的多模态抑郁症检测方法,其特征在于,所述步骤3获得具备情景感知的语音向量特征的具体过程为:
(1)将采集到的音频信号经过预加重滤波、分帧加汉宁窗及分帧补零后,对每帧信号进行傅里叶变换得到频谱,并对语音信号的频谱取模平方得到功率谱;
(2)再将频谱及功率谱的纵坐标频率转换为梅尔频率,应用40个在转换后的梅尔谱上均匀分布且每两个滤波器间有50%重叠部分的三角滤波器,计算转换后的频谱及功率谱在这40个滤波器的梅尔频率分布,随后将梅尔频率通过以下公式转换成实际频率:
Figure FDA0002942440960000021
(3)对三角窗滤波器组的输出求对数,得到对数能量梅尔谱;
(4)对对数能量梅尔谱进行离散余弦变换(DCT)变换,取前13维输出,得到语音向量特征。
3.根据权利要求1所述的一种基于时间卷积神经网络的多模态抑郁症检测方法,其特征在于,所述步骤4获得具备情景感知的文本特征的具体过程为:
构建Transformer模型,以词嵌入作为Transformer模型的输入,该Transformer模型包括多个含有自注意力的编码器和解码器以及位于最后一层的softmax层;
利用已有的文本语料,使用无监督训练方法与训练Transformer模型参数,然后采用迁移学习,在采集得到的抑郁症文本数据进行自适应训练;
在训练完成后,将softmax层去除,以Transformer模型的输出作为所述情景感知的文本特征。
4.根据权利要求1所述的一种基于时间卷积神经网络的多模态抑郁症检测方法,其特征在于,所述步骤5具体包括:
每个患者样本的多模态特征表示为:
Figure FDA0002942440960000022
其中,
Figure FDA0002942440960000023
为时序t下的第i种模态的特征,T代表时序总长度,Nm代表模态特征的总数目;
该特征序列的多模态时序图结构表示为A,特征融合网络利用图卷积神经网络,每个特征在第k次迭代表示如下:
Figure FDA0002942440960000031
其中,D是A的对角矩阵,W(k+1)是本次迭代过程中可训练的网络参数,
Figure FDA0002942440960000032
是非线性激活函数;
由上述图卷积神经网络,最终输出模态无关性的融合特征表示为XK,K代表图卷积总层数。
5.根据权利要求1所述的一种基于时间卷积神经网络的多模态抑郁症检测方法,其特征在于,所述步骤6具体包括:
采用迁移学习机制,调整所述3D面部表情特征、声学通道特征和文本通道特征的权重,带入时间卷积神经网络中,使得最终抑郁症分类预测结果和反馈信息之间的差异最小化;
融合所述时间卷积神经网络的输出,获得抑郁症的分类结果。
6.根据权利要求5所述的一种基于时间卷积神经网络的多模态抑郁症检测方法,其特征在于,所述声学通道特征、所述文本通道特征和所述3D面部表情特征基于TCN网络建立,网络的输入为经特征融合后,声学特征的语音向量、文本特征的文本编码和经3D面部扫描的3D面部表情向量,输出为抑郁症分类标签。
7.根据权利要求6所述的一种基于时间卷积神经网络的多模态抑郁症检测方法,其特征在于,所述TCN网络包括输入层、带因果卷积(Causal Convolutions)的一维全卷积神经网络层(1-D FCN)、全连接层和输出层。
8.根据权利要求6所述的一种基于时间卷积神经网络的多模态抑郁症检测方法,其特征在于,采用基于KL散度约束的迁移学习方法引入抑郁症检测公开数据集作为源域进行知识迁移,并构建如下损失函数:
LKL=∑[q(Xs)logq(Xs)]p(Xt)logp(Xt)
其中,Xs和Xt分别代表源域和目标域数据样本,
Figure FDA0002942440960000041
代表由本方法对于源域数据预测得到的概率分布;
使用迁移学习机制,得到带预训练权重的TCN网络模型;
将融合后的时序特征信号XK作为输入,送入TCN网络中,经全连接层输出获得每个样本不同患病程度的概率分布p(X)。
9.一种基于时间卷积神经网络的多模态抑郁症检测系统,其特征在于,包括:
训练样本的构建单元:用于构建训练样本集,所述训练样本集包含抑郁症和非抑郁症患者的音频、3D面部表情和对应的文本信息;
面部表情特征提取单元:用于对所述训练样本集进行3D面部表情特征提取,获得具备情境感知的3D面部表情特征向量;
声学特征提取单元:结合梅尔倒谱系数,用于对所述训练样本集的音频信号进行声学特征提取,获得具备情境感知的语音向量特征;
文本特征提取单元:用于利用所述训练样本集,使用Transformer模型对词嵌入进行处理,获得具备情境感知的文本特征;
特征融合单元:用于对所述3D面部表情特征、所述语音向量特征和所述文本特征进行融合,获得用于抑郁症检测分类的训练数据集;
分类预测单元:用于对所述抑郁症检测分类的训练数据集建立识别抑郁症患病程度的检测系统。
CN202110184432.2A 2021-02-10 2021-02-10 基于时间卷积神经网络的多模态抑郁症检测方法及系统 Active CN112818892B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110184432.2A CN112818892B (zh) 2021-02-10 2021-02-10 基于时间卷积神经网络的多模态抑郁症检测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110184432.2A CN112818892B (zh) 2021-02-10 2021-02-10 基于时间卷积神经网络的多模态抑郁症检测方法及系统

Publications (2)

Publication Number Publication Date
CN112818892A true CN112818892A (zh) 2021-05-18
CN112818892B CN112818892B (zh) 2023-04-07

Family

ID=75865281

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110184432.2A Active CN112818892B (zh) 2021-02-10 2021-02-10 基于时间卷积神经网络的多模态抑郁症检测方法及系统

Country Status (1)

Country Link
CN (1) CN112818892B (zh)

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113274023A (zh) * 2021-06-30 2021-08-20 中国科学院自动化研究所 基于多角度分析的多模态精神状态评估方法
CN113297804A (zh) * 2021-06-24 2021-08-24 上海交通大学 基于U-Transformer多层次特征重构的异常检测方法及系统
CN113397563A (zh) * 2021-07-22 2021-09-17 北京脑陆科技有限公司 抑郁分类模型的训练方法、装置、终端及介质
CN113409825A (zh) * 2021-08-19 2021-09-17 南京裕隆生物医学发展有限公司 健康智能检测方法、装置、电子设备及可读存储介质
CN113421632A (zh) * 2021-07-09 2021-09-21 中国人民大学 一种基于时间序列的心理疾病类型诊断系统
CN113822192A (zh) * 2021-09-18 2021-12-21 山东大学 一种基于Transformer的多模态特征融合的在押人员情感识别方法、设备及介质
CN114169291A (zh) * 2021-11-29 2022-03-11 天津大学 基于卷积神经和生成对抗网络的文本转语音方法及装置
CN114241599A (zh) * 2021-11-24 2022-03-25 人工智能与数字经济广东省实验室(广州) 一种基于多模态特征的抑郁倾向测评系统和方法
CN114255565A (zh) * 2022-03-02 2022-03-29 济宁蜗牛软件科技有限公司 一种危险感知的智能头盔及感知系统
CN114331226A (zh) * 2022-03-08 2022-04-12 天津联创科技发展有限公司 一种企业需求智能诊断方法、系统以及存储介质
CN114496221A (zh) * 2022-01-17 2022-05-13 天津大学 基于闭环语音链和深度学习的抑郁症自动诊断系统
CN115249539A (zh) * 2022-01-27 2022-10-28 云南师范大学 一种多模态小样本抑郁症预测模型构建方法
CN115346561A (zh) * 2022-08-15 2022-11-15 南京脑科医院 基于语音特征的抑郁情绪评估预测方法及系统
CN115631772A (zh) * 2022-10-27 2023-01-20 四川大学华西医院 自伤自杀危险性评估方法、装置、电子设备及存储介质
CN114190942B (zh) * 2021-12-13 2023-10-03 沃民高新科技(北京)股份有限公司 由计算机执行的基于音频分析的抑郁症检测的方法
CN116978408A (zh) * 2023-04-26 2023-10-31 新疆大学 基于语音预训练模型的抑郁症检测方法及系统
CN116978409A (zh) * 2023-09-22 2023-10-31 苏州复变医疗科技有限公司 基于语音信号的抑郁状态评估方法、装置、终端及介质
CN118038561A (zh) * 2024-04-15 2024-05-14 南京邮电大学 一种基于时空循环架构的3d人体姿态估计方法
CN118161166A (zh) * 2024-05-14 2024-06-11 吉林大学 基于ERP-fNIRS的抑郁症状特性识别方法及装置

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109190479A (zh) * 2018-08-04 2019-01-11 台州学院 一种基于混合深度学习的视频序列表情识别方法
CN109171769A (zh) * 2018-07-12 2019-01-11 西北师范大学 一种应用于抑郁症检测的语音、面部特征提取方法及系统
US20190074028A1 (en) * 2017-09-01 2019-03-07 Newton Howard Real-time vocal features extraction for automated emotional or mental state assessment
CN110223715A (zh) * 2019-05-07 2019-09-10 华南理工大学 一种基于声音事件检测的独居老人家中活动估计方法
CN110728997A (zh) * 2019-11-29 2020-01-24 中国科学院深圳先进技术研究院 一种基于情景感知的多模态抑郁症检测方法和系统
CN111951824A (zh) * 2020-08-14 2020-11-17 苏州国岭技研智能科技有限公司 一种基于声音判别抑郁症的检测方法
CN112164459A (zh) * 2020-09-16 2021-01-01 同济大学 一种抑郁症状的信息评估方法
CN112307947A (zh) * 2020-10-29 2021-02-02 北京沃东天骏信息技术有限公司 用于生成信息的方法和装置
CN112349297A (zh) * 2020-11-10 2021-02-09 西安工程大学 一种基于麦克风阵列的抑郁症检测方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190074028A1 (en) * 2017-09-01 2019-03-07 Newton Howard Real-time vocal features extraction for automated emotional or mental state assessment
CN109171769A (zh) * 2018-07-12 2019-01-11 西北师范大学 一种应用于抑郁症检测的语音、面部特征提取方法及系统
CN109190479A (zh) * 2018-08-04 2019-01-11 台州学院 一种基于混合深度学习的视频序列表情识别方法
CN110223715A (zh) * 2019-05-07 2019-09-10 华南理工大学 一种基于声音事件检测的独居老人家中活动估计方法
CN110728997A (zh) * 2019-11-29 2020-01-24 中国科学院深圳先进技术研究院 一种基于情景感知的多模态抑郁症检测方法和系统
CN111951824A (zh) * 2020-08-14 2020-11-17 苏州国岭技研智能科技有限公司 一种基于声音判别抑郁症的检测方法
CN112164459A (zh) * 2020-09-16 2021-01-01 同济大学 一种抑郁症状的信息评估方法
CN112307947A (zh) * 2020-10-29 2021-02-02 北京沃东天骏信息技术有限公司 用于生成信息的方法和装置
CN112349297A (zh) * 2020-11-10 2021-02-09 西安工程大学 一种基于麦克风阵列的抑郁症检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
GENEVIEVE LAM等: "Context-aware Deep Learning for Multi-modal Depression Detection", 《2019 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP)》 *

Cited By (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113297804A (zh) * 2021-06-24 2021-08-24 上海交通大学 基于U-Transformer多层次特征重构的异常检测方法及系统
CN113297804B (zh) * 2021-06-24 2022-02-25 上海交通大学 基于U-Transformer多层次特征重构的异常检测方法及系统
CN113274023A (zh) * 2021-06-30 2021-08-20 中国科学院自动化研究所 基于多角度分析的多模态精神状态评估方法
CN113274023B (zh) * 2021-06-30 2021-12-14 中国科学院自动化研究所 基于多角度分析的多模态精神状态评估方法
CN113421632A (zh) * 2021-07-09 2021-09-21 中国人民大学 一种基于时间序列的心理疾病类型诊断系统
CN113421632B (zh) * 2021-07-09 2024-08-06 中国人民大学 一种基于时间序列的心理疾病类型诊断系统
CN113397563A (zh) * 2021-07-22 2021-09-17 北京脑陆科技有限公司 抑郁分类模型的训练方法、装置、终端及介质
CN113409825A (zh) * 2021-08-19 2021-09-17 南京裕隆生物医学发展有限公司 健康智能检测方法、装置、电子设备及可读存储介质
CN113822192A (zh) * 2021-09-18 2021-12-21 山东大学 一种基于Transformer的多模态特征融合的在押人员情感识别方法、设备及介质
CN113822192B (zh) * 2021-09-18 2023-06-30 山东大学 一种基于Transformer的多模态特征融合的在押人员情感识别方法、设备及介质
CN114241599A (zh) * 2021-11-24 2022-03-25 人工智能与数字经济广东省实验室(广州) 一种基于多模态特征的抑郁倾向测评系统和方法
CN114169291A (zh) * 2021-11-29 2022-03-11 天津大学 基于卷积神经和生成对抗网络的文本转语音方法及装置
CN114169291B (zh) * 2021-11-29 2024-04-26 天津大学 基于卷积神经和生成对抗网络的文本转语音方法及装置
CN114190942B (zh) * 2021-12-13 2023-10-03 沃民高新科技(北京)股份有限公司 由计算机执行的基于音频分析的抑郁症检测的方法
CN114496221A (zh) * 2022-01-17 2022-05-13 天津大学 基于闭环语音链和深度学习的抑郁症自动诊断系统
CN114496221B (zh) * 2022-01-17 2024-05-14 天津大学 基于闭环语音链和深度学习的抑郁症自动诊断系统
CN115249539A (zh) * 2022-01-27 2022-10-28 云南师范大学 一种多模态小样本抑郁症预测模型构建方法
CN114255565A (zh) * 2022-03-02 2022-03-29 济宁蜗牛软件科技有限公司 一种危险感知的智能头盔及感知系统
CN114331226B (zh) * 2022-03-08 2022-06-24 天津联创科技发展有限公司 一种企业需求智能诊断方法、系统以及存储介质
CN114331226A (zh) * 2022-03-08 2022-04-12 天津联创科技发展有限公司 一种企业需求智能诊断方法、系统以及存储介质
CN115346561A (zh) * 2022-08-15 2022-11-15 南京脑科医院 基于语音特征的抑郁情绪评估预测方法及系统
CN115346561B (zh) * 2022-08-15 2023-11-24 南京医科大学附属脑科医院 基于语音特征的抑郁情绪评估预测方法及系统
CN115631772A (zh) * 2022-10-27 2023-01-20 四川大学华西医院 自伤自杀危险性评估方法、装置、电子设备及存储介质
CN116978408A (zh) * 2023-04-26 2023-10-31 新疆大学 基于语音预训练模型的抑郁症检测方法及系统
CN116978408B (zh) * 2023-04-26 2024-04-30 新疆大学 基于语音预训练模型的抑郁症检测方法及系统
CN116978409A (zh) * 2023-09-22 2023-10-31 苏州复变医疗科技有限公司 基于语音信号的抑郁状态评估方法、装置、终端及介质
CN118038561A (zh) * 2024-04-15 2024-05-14 南京邮电大学 一种基于时空循环架构的3d人体姿态估计方法
CN118161166A (zh) * 2024-05-14 2024-06-11 吉林大学 基于ERP-fNIRS的抑郁症状特性识别方法及装置
CN118161166B (zh) * 2024-05-14 2024-07-05 吉林大学 基于ERP-fNIRS的抑郁症状特性识别方法及装置

Also Published As

Publication number Publication date
CN112818892B (zh) 2023-04-07

Similar Documents

Publication Publication Date Title
CN112818892B (zh) 基于时间卷积神经网络的多模态抑郁症检测方法及系统
CN109599129B (zh) 基于注意力机制和卷积神经网络的语音抑郁症识别系统
CN110491416B (zh) 一种基于lstm和sae的电话语音情感分析与识别方法
CN113012720B (zh) 谱减法降噪下多语音特征融合的抑郁症检测方法
CN111329494B (zh) 抑郁症参考数据的获取方法及装置
CN111951824A (zh) 一种基于声音判别抑郁症的检测方法
CN112006697A (zh) 一种基于语音信号的梯度提升决策树抑郁症识别方法
CN110349588A (zh) 一种基于词嵌入的lstm网络声纹识别方法
CN102339606A (zh) 一种抑郁情绪电话自动语音识别筛查系统
CN112329438A (zh) 基于域对抗训练的自动谎言检测方法及系统
CN114373452A (zh) 基于深度学习的嗓音异常识别和评价的方法及系统
WO2023139559A1 (en) Multi-modal systems and methods for voice-based mental health assessment with emotion stimulation
CN113111151A (zh) 一种基于智能语音问答的跨模态抑郁症检测方法
Liu et al. AI recognition method of pronunciation errors in oral English speech with the help of big data for personalized learning
CN117763446B (zh) 一种多模态情感识别方法及装置
Tian et al. Deep learning for depression recognition from speech
CN116978408B (zh) 基于语音预训练模型的抑郁症检测方法及系统
CN116978409A (zh) 基于语音信号的抑郁状态评估方法、装置、终端及介质
CN113571095A (zh) 基于嵌套深度神经网络的语音情感识别方法和系统
CN116965819A (zh) 基于语音表征的抑郁症识别方法和系统
CN114626424B (zh) 一种基于数据增强的无声语音识别方法及装置
CN116013371A (zh) 一种神经退行性疾病监测方法、系统、装置及存储介质
Sindhu et al. Automatic Speech and Voice Disorder Detection using Deep Learning-A Systematic Literature Review
CN117059283B (zh) 一种基于肺结核预警的语音数据库分类和处理系统
Avikal et al. Estimation of age from speech using excitation source features

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant