CN112818892A - 基于时间卷积神经网络的多模态抑郁症检测方法及系统 - Google Patents
基于时间卷积神经网络的多模态抑郁症检测方法及系统 Download PDFInfo
- Publication number
- CN112818892A CN112818892A CN202110184432.2A CN202110184432A CN112818892A CN 112818892 A CN112818892 A CN 112818892A CN 202110184432 A CN202110184432 A CN 202110184432A CN 112818892 A CN112818892 A CN 112818892A
- Authority
- CN
- China
- Prior art keywords
- depression
- features
- neural network
- text
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 36
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 30
- 238000012549 training Methods 0.000 claims abstract description 63
- 230000008921 facial expression Effects 0.000 claims abstract description 48
- 238000000034 method Methods 0.000 claims abstract description 39
- 239000013598 vector Substances 0.000 claims abstract description 33
- 238000000605 extraction Methods 0.000 claims abstract description 20
- 230000008447 perception Effects 0.000 claims abstract description 18
- 230000005236 sound signal Effects 0.000 claims abstract description 16
- 238000012545 processing Methods 0.000 claims abstract description 4
- 239000000523 sample Substances 0.000 claims description 38
- 238000001228 spectrum Methods 0.000 claims description 30
- 230000004927 fusion Effects 0.000 claims description 17
- 238000013527 convolutional neural network Methods 0.000 claims description 14
- 230000008569 process Effects 0.000 claims description 12
- 238000013508 migration Methods 0.000 claims description 10
- 230000005012 migration Effects 0.000 claims description 10
- 238000013526 transfer learning Methods 0.000 claims description 10
- 238000009432 framing Methods 0.000 claims description 9
- 238000010586 diagram Methods 0.000 claims description 8
- 230000003001 depressive effect Effects 0.000 claims description 6
- 230000006870 function Effects 0.000 claims description 6
- 230000007246 mechanism Effects 0.000 claims description 6
- 230000004913 activation Effects 0.000 claims description 3
- 230000001364 causal effect Effects 0.000 claims description 3
- 238000010276 construction Methods 0.000 claims description 3
- 201000010099 disease Diseases 0.000 claims description 3
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims description 3
- 239000013604 expression vector Substances 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 239000013610 patient sample Substances 0.000 claims description 3
- 239000004576 sand Substances 0.000 claims description 3
- 230000002123 temporal effect Effects 0.000 claims description 3
- 238000012360 testing method Methods 0.000 claims description 3
- 230000001815 facial effect Effects 0.000 claims description 2
- 208000020401 Depressive disease Diseases 0.000 description 3
- 238000003745 diagnosis Methods 0.000 description 3
- 230000002708 enhancing effect Effects 0.000 description 2
- 206010054089 Depressive symptom Diseases 0.000 description 1
- 208000003028 Stuttering Diseases 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000003153 chemical reaction reagent Substances 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000003759 clinical diagnosis Methods 0.000 description 1
- 230000000994 depressogenic effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000007499 fusion processing Methods 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 208000024335 physical disease Diseases 0.000 description 1
- 238000004445 quantitative analysis Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Biomedical Technology (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种基于时间卷积神经网络的多模态抑郁症检测方法及系统。其检测方法具体包括:构建训练样本集,其包含抑郁症和非抑郁症患者的音频、3D面部表情和对应的文本信息;对训练样本集进行3D面部表情特征提取,获得具备情境感知的3D面部表情特征向量;结合梅尔倒谱系数,用于对所述训练样本集的音频信号进行声学特征提取,获得具备情境感知的语音向量特征;使用Transformer模型,对训练样本集词嵌入进行处理,获得具备情境感知的文本特征;对3D面部表情特征、语音向量特征和文本特征进行融合,获得用于进行抑郁症分类的信息;将用于进行抑郁症分类的信息带入时间卷积神经网络,获得抑郁症分类信息。本发明能够提高了抑郁症检测的准确性。
Description
技术领域
本发明属于大数据技术领域,具体涉及一种基于时间卷积神经网络的多模态抑郁症检测方法及系统。
背景技术
世界上每年因为抑郁症而自杀的患者有近80万人,与其他身体疾病相比,精神障碍更难发现。早期的临床实践中,医生通过在个人访谈中通过诊断抑郁症状的严重程度来确定患者是否患有抑郁症。后来,科研人员通过对语音信号的时域特征,例如停顿时间、录音时间、对问题的反馈时间、语速等进行定量分析,帮助医生对抑郁症患者进行辅助诊断。但是,人们发现单一的特征对辅助临床诊断的辨识度较低。近年来,随着语音检测技术的深入发展,研究者尝试选取特定的语音特征,例如音高(pitch)、能量(energy)、语速(speaking rate)、共振峰(formant)、梅尔倒谱系数(MFCC)等,将其组合,构建出检测抑郁症的分类模型。文本信息是另外一种与抑郁症相关的及其重要的信息。研究表明,抑郁症患者使用消极情感词和愤怒词明显较正常人多,因此人们通常对词频统计作为文本特征表示。在临床实验中,大部分抑郁症患者会将消极或烦躁的情绪通过面部表情的方式展现出来。因此,研究人员将面部特征也作为一种模态融合至抑郁症检测中。
在现有技术中,通常采用基于生化试剂和基于脑电的检测手段,而在基于语音、文本或图像的技术方案中,多以语音数据为依托,在临床面试过程中,患者可能口吃且经常在单词之间停顿,导致音频、视频记录比非抑郁症患者更长。简言之,现有技术主要存在以下几方面的问题:训练数据量方面,现有的基于语音、文本或图像的多模态抑郁症检测系统大部分由有限抑郁症数据训练得到,因此性能低下;特征提取方面,现有特征提取方法缺少受试者在回答不同问题时的面部表情特征,在抑郁症检测领域表现力不足,限制了最终抑郁症检测系统的性能;抑郁症分类建模方面,现有技术没有考虑语音、文本特征与抑郁症诊断的长时间依赖关系;多模态融合方面,不同模态数据之间的特征分布差异大,现有技术简单地把不同模态或通道下所得的子系统输出串联在一起,由于模态之间的特征差异导致特征融合过程中易出现信息损失,因此性能收到限制;在模型选择方面,传统方法多用基于递归神经网络的抑郁症检测方法,对音频、视频的长度进行了限制。
发明内容
本发明的目的是基于上述技术现状,提供一种基于时间卷积神经网络的多模态抑郁症检测方法及系统。
一种基于时间卷积神经网络的多模态抑郁症检测方法,包括如下步骤:
步骤1:构建训练样本集,所述训练样本集包含抑郁症和非抑郁症患者的音频、3D面部表情和对应的文本信息;
步骤2:对所述训练样本集的3D面部表情进行面部表情特征提取,获得具备情境感知的3D面部表情特征向量;
步骤3:使用音频信号分帧加窗算法,结合短时傅里叶变换,绘制所述训练样本集的音频信号的语谱图;再使用三角滤波器,结合梅尔倒谱系数(MFCC),对所述训练样本集的语谱图进行特征增强,获得具备情景感知的语音向量特征;
步骤4:使用Transformer模型,对所述训练样本集的患者测试文本进行句子级嵌入处理,获得具备情景感知的文本特征;
步骤5:使用图卷积神经网络(GCN),对所述3D面部表情特征向量、所述语音向量特征和所述文本特征进行融合,获得用于进行抑郁症分类的信息;
步骤6:将所述用于进行抑郁症分类的信息带入时间卷积神经网络,获得抑郁症分类信息。
进一步,所述步骤3获得具备情景感知的语音向量特征的具体过程为:
(1)将采集到的音频信号经过预加重滤波、分帧加汉宁窗及分帧补零后,对每帧信号进行傅里叶变换得到频谱,并对语音信号的频谱取模平方得到功率谱;
(2)再将频谱及功率谱的纵坐标频率转换为梅尔频率,应用40个在转换后的梅尔谱上均匀分布且每两个滤波器间有50%重叠部分的三角滤波器,计算转换后的频谱及功率谱在这40个滤波器的梅尔频率分布,随后将梅尔频率通过以下公式转换成实际频率:
(3)对三角窗滤波器组的输出求对数,得到对数能量梅尔谱;
(4)对对数能量梅尔谱进行离散余弦变换(DCT)变换,取前13维输出,得到语音向量特征。
进一步,所述步骤4获得具备情景感知的文本特征的具体过程为:
构建Transformer模型,以词嵌入作为Transformer模型的输入,该Transformer模型包括多个含有自注意力的编码器和解码器以及位于最后一层的softmax层;
利用已有的文本语料,使用无监督训练方法与训练Transformer模型参数,然后采用迁移学习,在采集得到的抑郁症文本数据进行自适应训练;
在训练完成后,将softmax层去除,以Transformer模型的输出作为所述情景感知的文本特征。
进一步,所述步骤5具体包括:
每个患者样本的多模态特征表示为:
该特征序列的多模态时序图结构表示为A,特征融合网络利用图卷积神经网络,每个特征在第k次迭代表示如下:
由上述图卷积神经网络,最终输出模态无关性的融合特征表示为XK,K代表图卷积总层数。
进一步,所述步骤6具体包括:采用迁移学习机制,调整所述3D面部表情特征、声学通道特征和文本通道特征的权重,带入时间卷积神经网络中,使得最终抑郁症分类预测结果和反馈信息之间的差异最小化;融合所述时间卷积神经网络的输出,获得抑郁症的分类结果。
进一步,所述声学通道特征、所述文本通道特征和所述3D面部表情特征基于TCN网络建立,网络的输入为经特征融合后,声学特征的语音向量、文本特征的文本编码和经3D面部扫描的3D面部表情向量,输出为抑郁症分类标签。
进一步,所述TCN网络包括输入层、带因果卷积(Causal Convolutions)的一维全卷积神经网络层(1-D FCN)、全连接层和输出层。
进一步,采用基于KL散度约束的迁移学习方法引入抑郁症检测公开数据集作为源域进行知识迁移,并构建如下损失函数:
LKL=∑[q(Xs)logq(Xs)]p(Xt)logp(Xt)
使用迁移学习机制,得到带预训练权重的TCN网络模型;
将融合后的时序特征信号XK作为输入,送入TCN网络中,经全连接层输出获得每个样本不同患病程度的概率分布p(X)。
一种基于时间卷积神经网络的多模态抑郁症检测系统,该系统包括:
训练样本的构建单元:用于构建训练样本集,所述训练样本集包含抑郁症和非抑郁症患者的音频、3D面部表情和对应的文本信息;
面部表情特征提取单元:用于对所述训练样本集进行3D面部表情特征提取,获得具备情境感知的3D面部表情特征向量;
声学特征提取单元:结合梅尔倒谱系数,用于对所述训练样本集的音频信号进行声学特征提取,获得具备情境感知的语音向量特征;
文本特征提取单元:用于利用所述训练样本集,使用Transformer模型对词嵌入进行处理,获得具备情境感知的文本特征;
特征融合单元:用于对所述3D面部表情特征、所述语音向量特征和所述文本特征进行融合,获得用于抑郁症检测分类的训练数据集;
分类预测单元:用于对所述抑郁症检测分类的训练数据集建立识别抑郁症患病程度的检测系统。
与现有技术相比,本发明的有益效果如下:
利用3D面部表情特征扫描的方法,根据医生与患者自由交谈时,获取患者对回答不同问题时面部表情的变化,扩展抑郁症训练数据,并利用该数据进行模型训练。利用数据增强的方法,根据医生与抑郁症患者自由交谈内容中的语音、语调信息,利用梅尔倒谱系数,增强抑郁症声学特征训练数据,获取与抑郁症检测相关的言语信息,包括获取与说话人无关、与抑郁症高度相关、具备情境感知的声学特征,以及获取与抑郁症高度相关、具备情境感知的文本特征。使用模态融合方法,考虑医生与抑郁症患者交谈时的面部表情、语音语调及文本信息三种模态信息进行模态特征融合,以实现全方位特征融合学习。
本发明设计了一个基于多模态融合网络,对样本的多模态特征构建多模态时序图结构进行图卷积神经网络,挖掘不同模态特征在不同时序之间的相互关联,减小不同模态特征之间的差异,使融合后的特征具备模态无关性;引入了时序卷积网络,对具备模态关联信息的多模态融合特征,结合已有的时序信息,输入至时序卷积网络,其主要利用了扩展卷积和1*1卷积,可以提取更丰富的时序信息,由此得到患者的多模态数据的特征表示,输出给分类器进行患者抑郁症诊断;
通常,源领域和目标领域数据分布存在内在偏移,需对迁移模型通过大量调整,才能进行有效的迁移学习。本发明采用基于KL散度的迁移学习训练策略,利用网络公开的数据集作为源域,为本发明所需的目标数据进行知识迁移。首先将源域和目标域数据输入到基于多模态特征融合的时序卷积网络中得到个样本对不同抑郁症级别的预测概率,然后利用KL散度约束将数据预测的概率分布向目标数据的概率分布进行迁移,可使源领域与目标领域最大程度的保持内部一致性,优化迁移学习的性能,提高患者抑郁分级准确性。
附图说明
图1为基于时间卷积神经网络的多模态抑郁症检测方法示意图;
图2为多模态特征融合网络示意图;
图3为基于时间卷积神经网络的融合特征提取过程的示意图。
具体实施方式
下面结合具体实施例对本发明作进一步详细描述。这些实施例以本发明技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于以下实施例。
如图1所示为一种基于时间卷积神经网络的多模态抑郁症检测方法示意图,其具体包括如下步骤:
步骤1:构建训练样本集,所述训练样本集包含抑郁症和非抑郁症患者的音频、3D面部表情和对应的文本信息;
步骤2:对所述训练样本集的3D面部表情进行面部表情特征提取,获得具备情境感知的3D面部表情特征向量;
步骤3:使用音频信号分帧加窗算法,结合短时傅里叶变换,绘制所述训练样本集的音频信号的语谱图;再使用三角滤波器,结合梅尔倒谱系数(MFCC),对所述训练样本集的语谱图进行特征增强,获得具备情景感知的语音向量特征;
步骤4:使用Transformer模型,对所述训练样本集的患者测试文本进行句子级嵌入处理,获得具备情景感知的文本特征;
步骤5:如图2所示,使用图卷积神经网络(GCN),对所述3D面部表情特征向量、所述语音向量特征和所述文本特征进行融合,获得用于进行抑郁症分类的信息;
步骤6:将所述用于进行抑郁症分类的信息带入时间卷积神经网络,时序卷积神经网络结构如图3所示,获得抑郁症分类信息。
在步骤3中,获得具备情景感知的语音向量特征的具体过程为:
(1)将采集到的音频信号经过预加重滤波、分帧加汉宁窗及分帧补零后,对每帧信号进行傅里叶变换得到频谱,并对语音信号的频谱取模平方得到功率谱;
(2)再将频谱及功率谱的纵坐标频率转换为梅尔频率,应用40个在转换后的梅尔谱上均匀分布且每两个滤波器间有50%重叠部分的三角滤波器,计算转换后的频谱及功率谱在这40个滤波器的梅尔频率分布,随后将梅尔频率通过以下公式转换成实际频率:
(3)对三角窗滤波器组的输出求对数,得到对数能量梅尔谱;
(4)对对数能量梅尔谱进行离散余弦变换(DCT)变换,取前13维输出,得到语音向量特征。
在步骤4中,获得具备情景感知的文本特征的具体过程为:
构建Transformer模型,以词嵌入作为Transformer模型的输入,该Transformer模型包括多个含有自注意力的编码器和解码器以及位于最后一层的softmax层;
利用已有的文本语料,使用无监督训练方法与训练Transformer模型参数,然后采用迁移学习,在采集得到的抑郁症文本数据进行自适应训练;
在训练完成后,将softmax层去除,以Transformer模型的输出作为所述情景感知的文本特征。
具体地,步骤5包括:
每个患者样本的多模态特征表示为:
该特征序列的多模态时序图结构表示为A,特征融合网络利用图卷积神经网络,每个特征在第k次迭代表示如下:
由上述图卷积神经网络,最终输出模态无关性的融合特征表示为XK,K代表图卷积总层数。
具体地,步骤6包括:采用迁移学习机制,调整所述3D面部表情特征、声学通道特征和文本通道特征的权重,带入时间卷积神经网络中,使得最终抑郁症分类预测结果和反馈信息之间的差异最小化;融合所述时间卷积神经网络的输出,获得抑郁症的分类结果。
所述声学通道特征、所述文本通道特征和所述3D面部表情特征基于TCN网络建立,网络的输入为经特征融合后,声学特征的语音向量、文本特征的文本编码和经3D面部扫描的3D面部表情向量,输出为抑郁症分类标签。
所述TCN网络包括输入层、带因果卷积(Causal Convolutions)的一维全卷积神经网络层(1-D FCN)、全连接层和输出层。
本实施例中采用基于KL散度约束的迁移学习方法引入抑郁症检测公开数据集作为源域进行知识迁移,并构建如下损失函数:
LKL=∑[q(Xs)logq(Xs)]p(Xt)logp(Xt)
使用迁移学习机制,得到带预训练权重的TCN网络模型;
将融合后的时序特征信号XK作为输入,送入TCN网络中,经全连接层输出获得每个样本不同患病程度的概率分布p(X)。
本实施例还提供了一种基于时间卷积神经网络的多模态抑郁症检测系统,该系统包括:
训练样本的构建单元:用于构建训练样本集,所述训练样本集包含抑郁症和非抑郁症患者的音频、3D面部表情和对应的文本信息;
面部表情特征提取单元:用于对所述训练样本集进行3D面部表情特征提取,获得具备情境感知的3D面部表情特征向量;
声学特征提取单元:结合梅尔倒谱系数,用于对所述训练样本集的音频信号进行声学特征提取,获得具备情境感知的语音向量特征;
文本特征提取单元:用于利用所述训练样本集,使用Transformer模型对词嵌入进行处理,获得具备情境感知的文本特征;
特征融合单元:用于对所述3D面部表情特征、所述语音向量特征和所述文本特征进行融合,获得用于抑郁症检测分类的训练数据集;
分类预测单元:用于对所述抑郁症检测分类的训练数据集建立识别抑郁症患病程度的检测系统。
通过具体实施方式的说明,应当可对本发明为达成预定目的所采取的技术手段及功效得以更加深入且具体的了解,然而所附图示用于提供参考与说明,并非用来对本发明加以限制。
Claims (9)
1.一种基于时间卷积神经网络的多模态抑郁症检测方法,其特征在于,包括如下步骤:
步骤1:构建训练样本集,所述训练样本集包含抑郁症和非抑郁症患者的音频、3D面部表情和对应的文本信息;
步骤2:对所述训练样本集的3D面部表情进行面部表情特征提取,获得具备情境感知的3D面部表情特征向量;
步骤3:使用音频信号分帧加窗算法,结合短时傅里叶变换,绘制所述训练样本集的音频信号的语谱图;再使用三角滤波器,结合梅尔倒谱系数(MFCC),对所述训练样本集的语谱图进行特征增强,获得具备情景感知的语音向量特征;
步骤4:使用Transformer模型,对所述训练样本集的患者测试文本进行句子级嵌入处理,获得具备情景感知的文本特征;
步骤5:使用图卷积神经网络(GCN),对所述3D面部表情特征向量、所述语音向量特征和所述文本特征进行融合,获得用于进行抑郁症分类的信息;
步骤6:将所述用于进行抑郁症分类的信息带入时间卷积神经网络,获得抑郁症分类信息。
2.根据权利要求1所述的一种基于时间卷积神经网络的多模态抑郁症检测方法,其特征在于,所述步骤3获得具备情景感知的语音向量特征的具体过程为:
(1)将采集到的音频信号经过预加重滤波、分帧加汉宁窗及分帧补零后,对每帧信号进行傅里叶变换得到频谱,并对语音信号的频谱取模平方得到功率谱;
(2)再将频谱及功率谱的纵坐标频率转换为梅尔频率,应用40个在转换后的梅尔谱上均匀分布且每两个滤波器间有50%重叠部分的三角滤波器,计算转换后的频谱及功率谱在这40个滤波器的梅尔频率分布,随后将梅尔频率通过以下公式转换成实际频率:
(3)对三角窗滤波器组的输出求对数,得到对数能量梅尔谱;
(4)对对数能量梅尔谱进行离散余弦变换(DCT)变换,取前13维输出,得到语音向量特征。
3.根据权利要求1所述的一种基于时间卷积神经网络的多模态抑郁症检测方法,其特征在于,所述步骤4获得具备情景感知的文本特征的具体过程为:
构建Transformer模型,以词嵌入作为Transformer模型的输入,该Transformer模型包括多个含有自注意力的编码器和解码器以及位于最后一层的softmax层;
利用已有的文本语料,使用无监督训练方法与训练Transformer模型参数,然后采用迁移学习,在采集得到的抑郁症文本数据进行自适应训练;
在训练完成后,将softmax层去除,以Transformer模型的输出作为所述情景感知的文本特征。
5.根据权利要求1所述的一种基于时间卷积神经网络的多模态抑郁症检测方法,其特征在于,所述步骤6具体包括:
采用迁移学习机制,调整所述3D面部表情特征、声学通道特征和文本通道特征的权重,带入时间卷积神经网络中,使得最终抑郁症分类预测结果和反馈信息之间的差异最小化;
融合所述时间卷积神经网络的输出,获得抑郁症的分类结果。
6.根据权利要求5所述的一种基于时间卷积神经网络的多模态抑郁症检测方法,其特征在于,所述声学通道特征、所述文本通道特征和所述3D面部表情特征基于TCN网络建立,网络的输入为经特征融合后,声学特征的语音向量、文本特征的文本编码和经3D面部扫描的3D面部表情向量,输出为抑郁症分类标签。
7.根据权利要求6所述的一种基于时间卷积神经网络的多模态抑郁症检测方法,其特征在于,所述TCN网络包括输入层、带因果卷积(Causal Convolutions)的一维全卷积神经网络层(1-D FCN)、全连接层和输出层。
9.一种基于时间卷积神经网络的多模态抑郁症检测系统,其特征在于,包括:
训练样本的构建单元:用于构建训练样本集,所述训练样本集包含抑郁症和非抑郁症患者的音频、3D面部表情和对应的文本信息;
面部表情特征提取单元:用于对所述训练样本集进行3D面部表情特征提取,获得具备情境感知的3D面部表情特征向量;
声学特征提取单元:结合梅尔倒谱系数,用于对所述训练样本集的音频信号进行声学特征提取,获得具备情境感知的语音向量特征;
文本特征提取单元:用于利用所述训练样本集,使用Transformer模型对词嵌入进行处理,获得具备情境感知的文本特征;
特征融合单元:用于对所述3D面部表情特征、所述语音向量特征和所述文本特征进行融合,获得用于抑郁症检测分类的训练数据集;
分类预测单元:用于对所述抑郁症检测分类的训练数据集建立识别抑郁症患病程度的检测系统。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110184432.2A CN112818892B (zh) | 2021-02-10 | 2021-02-10 | 基于时间卷积神经网络的多模态抑郁症检测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110184432.2A CN112818892B (zh) | 2021-02-10 | 2021-02-10 | 基于时间卷积神经网络的多模态抑郁症检测方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112818892A true CN112818892A (zh) | 2021-05-18 |
CN112818892B CN112818892B (zh) | 2023-04-07 |
Family
ID=75865281
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110184432.2A Active CN112818892B (zh) | 2021-02-10 | 2021-02-10 | 基于时间卷积神经网络的多模态抑郁症检测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112818892B (zh) |
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113274023A (zh) * | 2021-06-30 | 2021-08-20 | 中国科学院自动化研究所 | 基于多角度分析的多模态精神状态评估方法 |
CN113297804A (zh) * | 2021-06-24 | 2021-08-24 | 上海交通大学 | 基于U-Transformer多层次特征重构的异常检测方法及系统 |
CN113397563A (zh) * | 2021-07-22 | 2021-09-17 | 北京脑陆科技有限公司 | 抑郁分类模型的训练方法、装置、终端及介质 |
CN113409825A (zh) * | 2021-08-19 | 2021-09-17 | 南京裕隆生物医学发展有限公司 | 健康智能检测方法、装置、电子设备及可读存储介质 |
CN113421632A (zh) * | 2021-07-09 | 2021-09-21 | 中国人民大学 | 一种基于时间序列的心理疾病类型诊断系统 |
CN113822192A (zh) * | 2021-09-18 | 2021-12-21 | 山东大学 | 一种基于Transformer的多模态特征融合的在押人员情感识别方法、设备及介质 |
CN114169291A (zh) * | 2021-11-29 | 2022-03-11 | 天津大学 | 基于卷积神经和生成对抗网络的文本转语音方法及装置 |
CN114241599A (zh) * | 2021-11-24 | 2022-03-25 | 人工智能与数字经济广东省实验室(广州) | 一种基于多模态特征的抑郁倾向测评系统和方法 |
CN114255565A (zh) * | 2022-03-02 | 2022-03-29 | 济宁蜗牛软件科技有限公司 | 一种危险感知的智能头盔及感知系统 |
CN114331226A (zh) * | 2022-03-08 | 2022-04-12 | 天津联创科技发展有限公司 | 一种企业需求智能诊断方法、系统以及存储介质 |
CN114496221A (zh) * | 2022-01-17 | 2022-05-13 | 天津大学 | 基于闭环语音链和深度学习的抑郁症自动诊断系统 |
CN115249539A (zh) * | 2022-01-27 | 2022-10-28 | 云南师范大学 | 一种多模态小样本抑郁症预测模型构建方法 |
CN115346561A (zh) * | 2022-08-15 | 2022-11-15 | 南京脑科医院 | 基于语音特征的抑郁情绪评估预测方法及系统 |
CN115631772A (zh) * | 2022-10-27 | 2023-01-20 | 四川大学华西医院 | 自伤自杀危险性评估方法、装置、电子设备及存储介质 |
CN114190942B (zh) * | 2021-12-13 | 2023-10-03 | 沃民高新科技(北京)股份有限公司 | 由计算机执行的基于音频分析的抑郁症检测的方法 |
CN116978408A (zh) * | 2023-04-26 | 2023-10-31 | 新疆大学 | 基于语音预训练模型的抑郁症检测方法及系统 |
CN116978409A (zh) * | 2023-09-22 | 2023-10-31 | 苏州复变医疗科技有限公司 | 基于语音信号的抑郁状态评估方法、装置、终端及介质 |
CN118038561A (zh) * | 2024-04-15 | 2024-05-14 | 南京邮电大学 | 一种基于时空循环架构的3d人体姿态估计方法 |
CN118161166A (zh) * | 2024-05-14 | 2024-06-11 | 吉林大学 | 基于ERP-fNIRS的抑郁症状特性识别方法及装置 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109190479A (zh) * | 2018-08-04 | 2019-01-11 | 台州学院 | 一种基于混合深度学习的视频序列表情识别方法 |
CN109171769A (zh) * | 2018-07-12 | 2019-01-11 | 西北师范大学 | 一种应用于抑郁症检测的语音、面部特征提取方法及系统 |
US20190074028A1 (en) * | 2017-09-01 | 2019-03-07 | Newton Howard | Real-time vocal features extraction for automated emotional or mental state assessment |
CN110223715A (zh) * | 2019-05-07 | 2019-09-10 | 华南理工大学 | 一种基于声音事件检测的独居老人家中活动估计方法 |
CN110728997A (zh) * | 2019-11-29 | 2020-01-24 | 中国科学院深圳先进技术研究院 | 一种基于情景感知的多模态抑郁症检测方法和系统 |
CN111951824A (zh) * | 2020-08-14 | 2020-11-17 | 苏州国岭技研智能科技有限公司 | 一种基于声音判别抑郁症的检测方法 |
CN112164459A (zh) * | 2020-09-16 | 2021-01-01 | 同济大学 | 一种抑郁症状的信息评估方法 |
CN112307947A (zh) * | 2020-10-29 | 2021-02-02 | 北京沃东天骏信息技术有限公司 | 用于生成信息的方法和装置 |
CN112349297A (zh) * | 2020-11-10 | 2021-02-09 | 西安工程大学 | 一种基于麦克风阵列的抑郁症检测方法 |
-
2021
- 2021-02-10 CN CN202110184432.2A patent/CN112818892B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190074028A1 (en) * | 2017-09-01 | 2019-03-07 | Newton Howard | Real-time vocal features extraction for automated emotional or mental state assessment |
CN109171769A (zh) * | 2018-07-12 | 2019-01-11 | 西北师范大学 | 一种应用于抑郁症检测的语音、面部特征提取方法及系统 |
CN109190479A (zh) * | 2018-08-04 | 2019-01-11 | 台州学院 | 一种基于混合深度学习的视频序列表情识别方法 |
CN110223715A (zh) * | 2019-05-07 | 2019-09-10 | 华南理工大学 | 一种基于声音事件检测的独居老人家中活动估计方法 |
CN110728997A (zh) * | 2019-11-29 | 2020-01-24 | 中国科学院深圳先进技术研究院 | 一种基于情景感知的多模态抑郁症检测方法和系统 |
CN111951824A (zh) * | 2020-08-14 | 2020-11-17 | 苏州国岭技研智能科技有限公司 | 一种基于声音判别抑郁症的检测方法 |
CN112164459A (zh) * | 2020-09-16 | 2021-01-01 | 同济大学 | 一种抑郁症状的信息评估方法 |
CN112307947A (zh) * | 2020-10-29 | 2021-02-02 | 北京沃东天骏信息技术有限公司 | 用于生成信息的方法和装置 |
CN112349297A (zh) * | 2020-11-10 | 2021-02-09 | 西安工程大学 | 一种基于麦克风阵列的抑郁症检测方法 |
Non-Patent Citations (1)
Title |
---|
GENEVIEVE LAM等: "Context-aware Deep Learning for Multi-modal Depression Detection", 《2019 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP)》 * |
Cited By (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113297804A (zh) * | 2021-06-24 | 2021-08-24 | 上海交通大学 | 基于U-Transformer多层次特征重构的异常检测方法及系统 |
CN113297804B (zh) * | 2021-06-24 | 2022-02-25 | 上海交通大学 | 基于U-Transformer多层次特征重构的异常检测方法及系统 |
CN113274023A (zh) * | 2021-06-30 | 2021-08-20 | 中国科学院自动化研究所 | 基于多角度分析的多模态精神状态评估方法 |
CN113274023B (zh) * | 2021-06-30 | 2021-12-14 | 中国科学院自动化研究所 | 基于多角度分析的多模态精神状态评估方法 |
CN113421632A (zh) * | 2021-07-09 | 2021-09-21 | 中国人民大学 | 一种基于时间序列的心理疾病类型诊断系统 |
CN113421632B (zh) * | 2021-07-09 | 2024-08-06 | 中国人民大学 | 一种基于时间序列的心理疾病类型诊断系统 |
CN113397563A (zh) * | 2021-07-22 | 2021-09-17 | 北京脑陆科技有限公司 | 抑郁分类模型的训练方法、装置、终端及介质 |
CN113409825A (zh) * | 2021-08-19 | 2021-09-17 | 南京裕隆生物医学发展有限公司 | 健康智能检测方法、装置、电子设备及可读存储介质 |
CN113822192A (zh) * | 2021-09-18 | 2021-12-21 | 山东大学 | 一种基于Transformer的多模态特征融合的在押人员情感识别方法、设备及介质 |
CN113822192B (zh) * | 2021-09-18 | 2023-06-30 | 山东大学 | 一种基于Transformer的多模态特征融合的在押人员情感识别方法、设备及介质 |
CN114241599A (zh) * | 2021-11-24 | 2022-03-25 | 人工智能与数字经济广东省实验室(广州) | 一种基于多模态特征的抑郁倾向测评系统和方法 |
CN114169291A (zh) * | 2021-11-29 | 2022-03-11 | 天津大学 | 基于卷积神经和生成对抗网络的文本转语音方法及装置 |
CN114169291B (zh) * | 2021-11-29 | 2024-04-26 | 天津大学 | 基于卷积神经和生成对抗网络的文本转语音方法及装置 |
CN114190942B (zh) * | 2021-12-13 | 2023-10-03 | 沃民高新科技(北京)股份有限公司 | 由计算机执行的基于音频分析的抑郁症检测的方法 |
CN114496221A (zh) * | 2022-01-17 | 2022-05-13 | 天津大学 | 基于闭环语音链和深度学习的抑郁症自动诊断系统 |
CN114496221B (zh) * | 2022-01-17 | 2024-05-14 | 天津大学 | 基于闭环语音链和深度学习的抑郁症自动诊断系统 |
CN115249539A (zh) * | 2022-01-27 | 2022-10-28 | 云南师范大学 | 一种多模态小样本抑郁症预测模型构建方法 |
CN114255565A (zh) * | 2022-03-02 | 2022-03-29 | 济宁蜗牛软件科技有限公司 | 一种危险感知的智能头盔及感知系统 |
CN114331226B (zh) * | 2022-03-08 | 2022-06-24 | 天津联创科技发展有限公司 | 一种企业需求智能诊断方法、系统以及存储介质 |
CN114331226A (zh) * | 2022-03-08 | 2022-04-12 | 天津联创科技发展有限公司 | 一种企业需求智能诊断方法、系统以及存储介质 |
CN115346561A (zh) * | 2022-08-15 | 2022-11-15 | 南京脑科医院 | 基于语音特征的抑郁情绪评估预测方法及系统 |
CN115346561B (zh) * | 2022-08-15 | 2023-11-24 | 南京医科大学附属脑科医院 | 基于语音特征的抑郁情绪评估预测方法及系统 |
CN115631772A (zh) * | 2022-10-27 | 2023-01-20 | 四川大学华西医院 | 自伤自杀危险性评估方法、装置、电子设备及存储介质 |
CN116978408A (zh) * | 2023-04-26 | 2023-10-31 | 新疆大学 | 基于语音预训练模型的抑郁症检测方法及系统 |
CN116978408B (zh) * | 2023-04-26 | 2024-04-30 | 新疆大学 | 基于语音预训练模型的抑郁症检测方法及系统 |
CN116978409A (zh) * | 2023-09-22 | 2023-10-31 | 苏州复变医疗科技有限公司 | 基于语音信号的抑郁状态评估方法、装置、终端及介质 |
CN118038561A (zh) * | 2024-04-15 | 2024-05-14 | 南京邮电大学 | 一种基于时空循环架构的3d人体姿态估计方法 |
CN118161166A (zh) * | 2024-05-14 | 2024-06-11 | 吉林大学 | 基于ERP-fNIRS的抑郁症状特性识别方法及装置 |
CN118161166B (zh) * | 2024-05-14 | 2024-07-05 | 吉林大学 | 基于ERP-fNIRS的抑郁症状特性识别方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN112818892B (zh) | 2023-04-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112818892B (zh) | 基于时间卷积神经网络的多模态抑郁症检测方法及系统 | |
CN109599129B (zh) | 基于注意力机制和卷积神经网络的语音抑郁症识别系统 | |
CN110491416B (zh) | 一种基于lstm和sae的电话语音情感分析与识别方法 | |
CN113012720B (zh) | 谱减法降噪下多语音特征融合的抑郁症检测方法 | |
CN111329494B (zh) | 抑郁症参考数据的获取方法及装置 | |
CN111951824A (zh) | 一种基于声音判别抑郁症的检测方法 | |
CN112006697A (zh) | 一种基于语音信号的梯度提升决策树抑郁症识别方法 | |
CN110349588A (zh) | 一种基于词嵌入的lstm网络声纹识别方法 | |
CN102339606A (zh) | 一种抑郁情绪电话自动语音识别筛查系统 | |
CN112329438A (zh) | 基于域对抗训练的自动谎言检测方法及系统 | |
CN114373452A (zh) | 基于深度学习的嗓音异常识别和评价的方法及系统 | |
WO2023139559A1 (en) | Multi-modal systems and methods for voice-based mental health assessment with emotion stimulation | |
CN113111151A (zh) | 一种基于智能语音问答的跨模态抑郁症检测方法 | |
Liu et al. | AI recognition method of pronunciation errors in oral English speech with the help of big data for personalized learning | |
CN117763446B (zh) | 一种多模态情感识别方法及装置 | |
Tian et al. | Deep learning for depression recognition from speech | |
CN116978408B (zh) | 基于语音预训练模型的抑郁症检测方法及系统 | |
CN116978409A (zh) | 基于语音信号的抑郁状态评估方法、装置、终端及介质 | |
CN113571095A (zh) | 基于嵌套深度神经网络的语音情感识别方法和系统 | |
CN116965819A (zh) | 基于语音表征的抑郁症识别方法和系统 | |
CN114626424B (zh) | 一种基于数据增强的无声语音识别方法及装置 | |
CN116013371A (zh) | 一种神经退行性疾病监测方法、系统、装置及存储介质 | |
Sindhu et al. | Automatic Speech and Voice Disorder Detection using Deep Learning-A Systematic Literature Review | |
CN117059283B (zh) | 一种基于肺结核预警的语音数据库分类和处理系统 | |
Avikal et al. | Estimation of age from speech using excitation source features |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |