CN113674767A - 一种基于多模态融合的抑郁状态识别方法 - Google Patents
一种基于多模态融合的抑郁状态识别方法 Download PDFInfo
- Publication number
- CN113674767A CN113674767A CN202111174280.4A CN202111174280A CN113674767A CN 113674767 A CN113674767 A CN 113674767A CN 202111174280 A CN202111174280 A CN 202111174280A CN 113674767 A CN113674767 A CN 113674767A
- Authority
- CN
- China
- Prior art keywords
- layer
- voice
- lstm
- data
- voice data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000004927 fusion Effects 0.000 title claims abstract description 49
- 238000000034 method Methods 0.000 title claims abstract description 38
- 238000003062 neural network model Methods 0.000 claims abstract description 25
- 238000012549 training Methods 0.000 claims abstract description 22
- 239000011159 matrix material Substances 0.000 claims abstract description 20
- 238000007781 pre-processing Methods 0.000 claims abstract description 16
- 238000013507 mapping Methods 0.000 claims abstract description 15
- 230000000994 depressogenic effect Effects 0.000 claims abstract description 5
- 238000004364 calculation method Methods 0.000 claims description 13
- 238000012545 processing Methods 0.000 claims description 12
- 208000020401 Depressive disease Diseases 0.000 claims description 11
- 230000002457 bidirectional effect Effects 0.000 claims description 10
- 230000006870 function Effects 0.000 claims description 10
- 239000013598 vector Substances 0.000 claims description 10
- 238000012216 screening Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 5
- 230000004913 activation Effects 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims description 3
- 238000011176 pooling Methods 0.000 claims description 3
- 238000001514 detection method Methods 0.000 claims description 2
- 238000005070 sampling Methods 0.000 claims description 2
- 239000012634 fragment Substances 0.000 claims 2
- 230000000875 corresponding effect Effects 0.000 description 8
- 238000011156 evaluation Methods 0.000 description 5
- 230000007246 mechanism Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 3
- 230000008921 facial expression Effects 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 239000000090 biomarker Substances 0.000 description 1
- 238000003759 clinical diagnosis Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 230000005802 health problem Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 208000024335 physical disease Diseases 0.000 description 1
- 230000035479 physiological effects, processes and functions Effects 0.000 description 1
- 208000020016 psychiatric disease Diseases 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/66—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for extracting parameters related to health condition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Probability & Statistics with Applications (AREA)
- Epidemiology (AREA)
- Public Health (AREA)
- Signal Processing (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种基于多模态融合的抑郁状态识别方法,包括以下步骤:步骤S1,采集语音数据和人脸数据;步骤S2,对语音数据进行语音预处理;步骤S3,将预处理的语音数据通过阿里云接口转为语音文本,并对语音文本进行文本预处理;步骤S4,对人脸数据进行视频预处理;步骤S5,将预处理的语音数据映射到时频域上,得到二维矩阵;步骤S6,构建多模态融合神经网络模型,将二维矩阵、预处理的语音文本和视频数据共同输入到多模态融合神经网络模型,以被试者是否抑郁作为训练标签进行训练;步骤S7,将待测语音数据输入到完成训练的多模态融合神经网络模型得到对应的多个分类结果,再以投票法的方式选择类别更多的训练标签作为语音信号的最终分类结果。
Description
技术领域
本发明涉及一种基于多模态融合的抑郁状态识别方法。
背景技术
抑郁症是一种在世界范围内典型且常见的精神性疾病,覆盖各个年龄阶段,给患者造成严重的健康问题。现行的抑郁症临床诊断方法依赖医生的临床经验和患者填写的相关量表,整个过程耗时较长,诊断流程效率低下,受限于国内现阶段的医疗资源,患者的筛查效率更加低效。并且大部分早期患者对抑郁症类精神疾病不够重视,到医院求助的意愿相对身体疾病比较消极。
近年来,基于生理、行为等多种指标进行抑郁评估的研究均取得一定成果,但目前尚未有明确的生物标记物可用于识别抑郁症,研究人员仍在不断寻找一种客观有效的抑郁评估方法。
发明内容
为解决上述问题,提供一种基于多模态融合的抑郁状态识别方法,本发明采用了如下技术方案:
本发明提供了一种基于多模态融合的抑郁状态识别方法,包括以下步骤:步骤S1,采集被试者的语音数据和人脸数据;步骤S2,对语音数据进行语音预处理,得到预处理的语音数据;步骤S3,将预处理的语音数据通过阿里云接口转为语音文本,并对语音文本进行文本预处理,得到预处理的语音文本;步骤S4,对人脸数据进行视频预处理,得到视频数据;步骤S5,将预处理的语音数据映射到时频域上,得到二维矩阵;步骤S6,构建多模态融合神经网络模型,将二维矩阵、预处理的语音文本和视频数据共同输入到多模态融合神经网络模型,以被试者是否抑郁作为训练标签进行训练,得到完成训练的多模态融合神经网络模型;步骤S7,将待测语音数据输入到完成训练的多模态融合神经网络模型得到对应的多个分类结果,再以投票法的方式选择类别更多的训练标签作为语音信号的最终分类结果;其中,多模态融合神经网络模型包括视频处理模块、语音文本处理模块、时频域映射模块、全连接层和Softmax层,视频处理模块包括卷积层、池化层和全连接层,语音文本处理模块包括卷积层、双向LSTM层、注意力层和全连接层;时频域映射模块包括卷积层、双向LSTM层、注意力层和全连接层。
本发明提供的一种基于多模态融合的抑郁状态识别方法,还可以具有这样的技术特征,其中,双向LSTM层由作为前向LSTM层的多个LSTM单元以及作为后向LSTM层的多个LSTM单元构成,前向LSTM层的多个LSTM单元用于接收原始顺序的输入信号,后向LSTM层的多个LSTM单元用于接收反向顺序的输入信号。
本发明提供的一种基于多模态融合的抑郁状态识别方法,还可以具有这样的技术特征,其中,LSTM单元由输入门it、遗忘门ft、输出门ot三个门函数和细胞状态组成;LSTM单元的运行过程包括以下步骤:第一步,通过遗忘门决定丢弃的信息,并计算输入门it、遗忘门ft、输出门ot的值,计算公式为:it=δ(Wixt+Uiht-1+bi),ft=δ(Wfxt+Ufht-1+bf),ot=δ(W0xt+U0ht-1+b0),式中,xt为当前数据输入,ht为当前隐藏层的输入,ht-1为上一状态隐藏层的输出,Wi、Wf、W0为对应的权重系数矩阵,bi、bf、b0为对应的偏置项,δ为sigmoid函数;第二步,计算细胞状态候选值计算公式为:式中,Wc、Uc为对应的权重系数矩阵,bc为偏置项,tanh为激活函数;第三步,根据上一细胞状态值ct-1和细胞状态候选值计算当前细胞状态值ct,计算公式为:第四步,计算LSTM单元的当前状态输出ht,计算公式为:ht=ot tanh(ct)。
本发明提供的一种基于多模态融合的抑郁状态识别方法,还可以具有这样的技术特征,其中,注意力层的输出根据以下公式来得到:ut=tanh(Wωht+bω),式中,ut为ht通过多层感知机映射得到的隐式表达,uω为整个语音段矢量,αt为权重系数,Wω为权重系数矩阵,bω为偏置项,s为语音矢量。
本发明提供的一种基于多模态融合的抑郁状态识别方法,还可以具有这样的技术特征,其中,语音预处理是包括人工筛查排除明显的噪音片段、高通滤波、降采样以及静音片段检测和移除。
本发明提供的一种基于多模态融合的抑郁状态识别方法,还可以具有这样的技术特征,其中,语音数据片段时长为30秒。
本发明提供的一种基于多模态融合的抑郁状态识别方法,还可以具有这样的技术特征,其中,文本预处理是先人工筛查明显的错字、漏字,并将语音文本与语音数据逐一对应,再将语音文本嵌入到向量领域。
本发明提供的一种基于多模态融合的抑郁状态识别方法,还可以具有这样的技术特征,其中,步骤S5中,通过短时傅里叶变换来将预处理的语音数据映射到时频域上。
发明作用与效果
根据本发明的一种基于多模态融合的抑郁状态识别方法,设计了一种多模态融合神经网络模型,并将语音文本、视频数据以及语音数据映射到时频域上的二维矩阵共同输入使用该神经网络模型,从语言、面部表情等多方面对受试者更加客观有效进行抑郁状态识别评估,与现有的基于单一模态的机器学习模型相比,融合多模态数据源的神经网络模型的性能进一步提高。
同时,本发明中的多模态神经网络模型中还融合了注意力机制,能通过自学习的方式调整其权重系数,重点观察语音中的部分片段,因此能很好地解决因语音信号特征分布的稀疏性对分类结果造成的干扰等技术问题,因此进一步提高抑郁筛查的准确性和稳定性。
附图说明
图1是本发明实施例中的基于多模态的融合Attention与Bi-LSTM的卷积神经网络结构示意图;
图2是本发明实施例中注意力机制结构示意图;
图3是本发明实施例中一种基于多模态融合的抑郁状态识别方法流程图。
具体实施方式
为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,以下结合实施例及附图对本发明的一种基于多模态融合的抑郁状态识别方法作具体阐述。
<实施例>
图1是本发明实施例中的基于多模态的融合Attention与Bi-LSTM的卷积神经网络结构示意图。
如图1所示,本发明实施例中的基于多模态的融合Attention与Bi-LSTM的卷积神经网络结构包括视频处理模块、语音文本处理模块、时频域映射模块、全连接层和Softmax层。其中视频处理模块包括卷积层、池化层和全连接层。语音文本处理模块包括卷积层、双向LSTM层、注意力层和全连接层。时频域映射模块包括卷积层、双向LSTM层、注意力层和全连接层。
双向LSTM层由作为前向LSTM层的多个LSTM单元以及作为后向LSTM层的多个LSTM单元构成。前向LSTM层的多个LSTM单元用于接收原始顺序的输入信号。后向LSTM层的多个LSTM单元用于接收反向顺序的输入信号。
其中,LSTM单元由输入门it、遗忘门ft、输出门ot三个门函数和细胞状态组成。
LSTM单元的运行过程包括以下步骤:
第一步,通过遗忘门决定丢弃的信息,并计算输入门it、遗忘门ft、输出门ot的值,计算公式为:
it=δ(Wixt+Uiht-1+bi)
ft=δ(Wfxt+Ufht-1+bf)
ot=δ(W0xt+U0ht-1+b0)
式中,xt为当前数据输入,ht为当前隐藏层的输入,ht-1为上一状态隐藏层的输出,Wi、Wf、W0为对应的权重系数矩阵,bi、bf、b0为对应的偏置项,δ为sigmoid函数;
式中,Wc、Uc为对应的权重系数矩阵,bc为偏置项,tanh为激活函数;
第四步,计算LSTM单元的当前状态输出ht,计算公式为:
ht=ot tanh(ct)。
图2是本发明实施例中注意力机制结构示意图。
如图2所示,注意力机制是一系列权重参数,对于一段语音并不是从头到尾每个部分都给予同样的关注度,而是通过自学习的方式调整权重系数,重点观察语音的部分片段。
本实施例中,通过多层感知机将双向LSTM的输出ht映射为隐式表达ut,然后用ut与整个语音段矢量uω的相似性来衡量各个片段的重要性,再通过一个Softmax函数得到标准化后的权重系数αt,最后语音矢量s经过ht加权求和得到注意力层的输出。具体计算公式为:
ut=tanh(Wωht+bω)
式中,ut为ht通过多层感知机映射得到的隐式表达,uω为整个语音段矢量,αt为权重系数,Wω为权重系数矩阵,bω为偏置项,s为语音矢量。
图3为本发明实施例中一种基于多模态融合的抑郁状态识别方法流程图。
如图3所示,一种基于多模态融合的抑郁状态识别方法包括以下步骤:
步骤S1,采集被试者的语音数据和人脸数据。
步骤S2,对语音数据进行语音预处理,得到预处理的语音数据。本实施例中采用截止频率为137.8Hz的二阶巴特沃斯滤波器进行高通滤波,降低低频噪音对人声有效信息的干扰。用工具包librosa将语音信号统一采样到16000hz。采用工具包Pyaudioanalysis进行有声片段和静音片段的检测并去除非语音的无声片段。
步骤S3,将预处理的语音数据通过阿里云接口转为语音文本,并对语音文本进行文本预处理,得到预处理的语音文本。
步骤S4,对人脸数据进行视频预处理,得到视频数据。
步骤S5,将预处理的语音数据映射到时频域上,得到二维矩阵。本实施例中通过短时傅里叶变换来将预处理的语音数据映射到时频域上。其中,短时傅里叶变换选用hamming窗,NFFT=1024,窗长0.1s,滑动步长0.05s。
步骤S6,构建多模态融合神经网络模型,将二维矩阵、预处理的语音文本和视频数据共同输入到多模态融合神经网络模型,以被试者是否抑郁作为训练标签进行训练,得到完成训练的多模态融合神经网络模型。
本实施例中批处理大小(batch size)为512,交叉熵(cross entropy)为损失函数,优化器为Adam,训练次数为500次,初始学习率为0.0001,学习率会随着迭代步数的增加而衰减,每经过100次训练学习率×0.5。
步骤S7,将待测语音数据输入到完成训练的多模态融合神经网络模型得到对应的多个分类结果,再以投票法的方式选择类别更多的训练标签作为语音信号的最终分类结果。
本发明实施例还提供了以下三种语音抑郁状态分类结果的评价指标,Accuracy、F1分数以及AUC值。这三种评价指标的具体定义如下:
F1分数是召回率和精确率的调和平均值,取值范围[0,1]。
AUC值为受试者工作特征曲线(receiver operating characteristic curve,ROC)与坐标轴围成的面积,ROC曲线的横坐标是纵坐标是曲线处于y=x上方,取值范围[0.5,1]。
其中,TP,FP,FN,TN的定义如表1所示。
表1语音抑郁状态分类结果混淆矩阵
抑郁被试的音频 | 正常被试的音频 | |
判断属于抑郁被试的音频 | True Positive(TP) | False Positive(FP) |
判断属于正常被试的音频 | False Negative(FN) | True Negative(TN) |
上述三种评价指标的值都与分类性能正相关,值越大代表分类的结果越好。
如上,通过一种基于多模态融合的抑郁状态识别方法,将采集到的语音经处理后送入本发明设计的多模态融合神经网络模型进行训练,得到分类结果,并得到该分类结果的评价。
实施例作用与效果
根据本实施例提供的一种基于多模态融合的抑郁状态识别方法,设计了一种多模态融合神经网络模型,并将语音文本、视频数据以及语音数据映射到时频域上的二维矩阵共同输入使用该神经网络模型,从语言、面部表情等多方面对受试者更加客观有效进行抑郁状态识别评估,与现有的基于单一模态的机器学习模型相比,融合多模态数据源的神经网络模型的性能进一步提高。
同时,本实施例中的多模态神经网络模型中还融合了注意力机制,能通过自学习的方式调整其权重系数,重点观察语音中的部分片段,因此能很好地解决因语音信号特征分布的稀疏性对分类结果造成的干扰等技术问题,因此进一步提高抑郁筛查的准确性和稳定性。
上述实施例仅用于举例说明本发明的具体实施方式,而本发明不限于上述实施例的描述范围。
Claims (8)
1.一种基于多模态融合的抑郁状态识别方法,其特征在于,包括以下步骤:
步骤S1,采集被试者的语音数据和人脸数据;
步骤S2,对所述语音数据进行语音预处理,得到预处理的语音数据;
步骤S3,将预处理的语音数据通过阿里云接口转为语音文本,并对所述语音文本进行文本预处理,得到预处理的语音文本;
步骤S4,对所述人脸数据进行视频预处理,得到视频数据;
步骤S5,将所述预处理的语音数据映射到时频域上,得到二维矩阵;
步骤S6,构建多模态融合神经网络模型,将所述二维矩阵、所述预处理的语音文本和所述视频数据共同输入到所述多模态融合神经网络模型,以被试者是否抑郁作为训练标签进行训练,得到完成训练的多模态融合神经网络模型;
步骤S7,将待测语音数据输入到所述完成训练的多模态融合神经网络模型得到对应的多个分类结果,再以投票法的方式选择类别更多的所述训练标签作为所述语音信号的最终分类结果;
其中,所述多模态融合神经网络模型包括视频处理模块、语音文本处理模块、时频域映射模块、全连接层和Softmax层,
所述视频处理模块包括卷积层、池化层和全连接层,
所述语音文本处理模块包括卷积层、双向LSTM层、注意力层和全连接层;
所述时频域映射模块包括卷积层、双向LSTM层、注意力层和全连接层。
2.根据权利要求1所述的一种基于多模态融合的抑郁状态识别方法,其特征在于:
其中,所述双向LSTM层由作为前向LSTM层的多个LSTM单元以及作为后向LSTM层的多个所述LSTM单元构成,
所述前向LSTM层的多个所述LSTM单元用于接收原始顺序的所述输入信号,
所述后向LSTM层的多个所述LSTM单元用于接收反向顺序的所述输入信号。
3.根据权利要求2所述的一种基于多模态融合的抑郁状态识别方法,其特征在于:
其中,所述LSTM单元由输入门it、遗忘门ft、输出门ot三个门函数和细胞状态组成;
所述LSTM单元的运行过程包括以下步骤:
第一步,通过遗忘门决定丢弃的信息,并计算输入门it、遗忘门ft、输出门ot的值,计算公式为:
it=δ(Wixt+Uiht-1+bi)
ft=δ(Wfxt+Ufht-1+bf)
ot=δ(W0xt+U0ht-1+b0)
式中,xt为当前数据输入,ht为当前隐藏层的输入,ht-1为上一状态隐藏层的输出,Wi、Wf、W0为对应的权重系数矩阵,bi、bf、b0为对应的偏置项,δ为sigmoid函数;
式中,Wc、Uc为对应的权重系数矩阵,bc为偏置项,tanh为激活函数;
第四步,计算所述LSTM单元的当前状态输出ht,计算公式为:
ht=ottanh(ct)。
5.根据权利要求1所述的一种基于多模态融合的抑郁状态识别方法,其特征在于:
其中,所述语音预处理是包括人工筛查排除明显的噪音片段、高通滤波、降采样以及静音片段检测和移除。
6.根据权利要求1所述的一种基于多模态融合的抑郁状态识别方法,其特征在于:
其中,所述语音数据片段时长为30秒。
7.根据权利要求1所述的一种基于多模态融合的抑郁状态识别方法,其特征在于:
其中,所述文本预处理是先人工筛查明显的错字、漏字,并将所述语音文本与语音数据逐一对应,再将所述语音文本嵌入到向量领域。
8.根据权利要求1所述的一种基于多模态融合的抑郁状态识别方法,其特征在于:
其中,所述步骤S5中,通过短时傅里叶变换来将所述预处理的语音数据映射到所述时频域上。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111174280.4A CN113674767A (zh) | 2021-10-09 | 2021-10-09 | 一种基于多模态融合的抑郁状态识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111174280.4A CN113674767A (zh) | 2021-10-09 | 2021-10-09 | 一种基于多模态融合的抑郁状态识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113674767A true CN113674767A (zh) | 2021-11-19 |
Family
ID=78550552
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111174280.4A Pending CN113674767A (zh) | 2021-10-09 | 2021-10-09 | 一种基于多模态融合的抑郁状态识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113674767A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115414042A (zh) * | 2022-09-08 | 2022-12-02 | 北京邮电大学 | 基于情感信息辅助的多模态焦虑检测方法及装置 |
CN115831352A (zh) * | 2022-12-05 | 2023-03-21 | 湖南工商大学 | 一种基于动态纹理特征和时间分片权重网络的检测方法 |
CN116631630A (zh) * | 2023-07-21 | 2023-08-22 | 北京中科心研科技有限公司 | 一种识别焦虑障碍的方法、装置及可穿戴设备 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109614895A (zh) * | 2018-10-29 | 2019-04-12 | 山东大学 | 一种基于attention特征融合的多模态情感识别的方法 |
CN110287389A (zh) * | 2019-05-31 | 2019-09-27 | 南京理工大学 | 基于文本、语音和视频融合的多模态情感分类方法 |
CN110853680A (zh) * | 2019-11-05 | 2020-02-28 | 河南工业大学 | 一种用于语音情感识别的具有多输入多融合策略的双BiLSTM结构 |
CN111292765A (zh) * | 2019-11-21 | 2020-06-16 | 台州学院 | 一种融合多个深度学习模型的双模态情感识别方法 |
CN111753549A (zh) * | 2020-05-22 | 2020-10-09 | 江苏大学 | 一种基于注意力机制的多模态情感特征学习、识别方法 |
CN112489690A (zh) * | 2020-12-23 | 2021-03-12 | 沈阳新松机器人自动化股份有限公司 | 语音情绪识别方法及系统 |
WO2021104099A1 (zh) * | 2019-11-29 | 2021-06-03 | 中国科学院深圳先进技术研究院 | 一种基于情景感知的多模态抑郁症检测方法和系统 |
CN112966074A (zh) * | 2021-05-17 | 2021-06-15 | 华南师范大学 | 一种情感分析方法、装置、电子设备以及存储介质 |
CN113053418A (zh) * | 2021-04-30 | 2021-06-29 | 南京工程学院 | 一种基于长短时记忆网络快速识别语音情感类别的方法 |
CN113095357A (zh) * | 2021-03-04 | 2021-07-09 | 山东大学 | 基于注意力机制与gmn的多模态情感识别方法及系统 |
-
2021
- 2021-10-09 CN CN202111174280.4A patent/CN113674767A/zh active Pending
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109614895A (zh) * | 2018-10-29 | 2019-04-12 | 山东大学 | 一种基于attention特征融合的多模态情感识别的方法 |
CN110287389A (zh) * | 2019-05-31 | 2019-09-27 | 南京理工大学 | 基于文本、语音和视频融合的多模态情感分类方法 |
CN110853680A (zh) * | 2019-11-05 | 2020-02-28 | 河南工业大学 | 一种用于语音情感识别的具有多输入多融合策略的双BiLSTM结构 |
CN111292765A (zh) * | 2019-11-21 | 2020-06-16 | 台州学院 | 一种融合多个深度学习模型的双模态情感识别方法 |
WO2021104099A1 (zh) * | 2019-11-29 | 2021-06-03 | 中国科学院深圳先进技术研究院 | 一种基于情景感知的多模态抑郁症检测方法和系统 |
CN111753549A (zh) * | 2020-05-22 | 2020-10-09 | 江苏大学 | 一种基于注意力机制的多模态情感特征学习、识别方法 |
CN112489690A (zh) * | 2020-12-23 | 2021-03-12 | 沈阳新松机器人自动化股份有限公司 | 语音情绪识别方法及系统 |
CN113095357A (zh) * | 2021-03-04 | 2021-07-09 | 山东大学 | 基于注意力机制与gmn的多模态情感识别方法及系统 |
CN113053418A (zh) * | 2021-04-30 | 2021-06-29 | 南京工程学院 | 一种基于长短时记忆网络快速识别语音情感类别的方法 |
CN112966074A (zh) * | 2021-05-17 | 2021-06-15 | 华南师范大学 | 一种情感分析方法、装置、电子设备以及存储介质 |
Non-Patent Citations (2)
Title |
---|
JIANGFENG ZENG ET AL.: "《Enhancing Attention-Based LSTM With Position Context for Aspect-Level Sentiment Classification》", 《 IEEE ACCESS》, vol. 7 * |
金浩 等: "《基于注意力机制的TDNN-LSTM模型及应用》", 《声学技术》, vol. 40, no. 4 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115414042A (zh) * | 2022-09-08 | 2022-12-02 | 北京邮电大学 | 基于情感信息辅助的多模态焦虑检测方法及装置 |
CN115831352A (zh) * | 2022-12-05 | 2023-03-21 | 湖南工商大学 | 一种基于动态纹理特征和时间分片权重网络的检测方法 |
CN115831352B (zh) * | 2022-12-05 | 2023-08-08 | 湖南工商大学 | 一种基于动态纹理特征和时间分片权重网络的检测方法 |
CN116631630A (zh) * | 2023-07-21 | 2023-08-22 | 北京中科心研科技有限公司 | 一种识别焦虑障碍的方法、装置及可穿戴设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Hassan et al. | COVID-19 detection system using recurrent neural networks | |
CN107657964B (zh) | 基于声学特征和稀疏数学的抑郁症辅助检测方法及分类器 | |
Dash et al. | Detection of COVID-19 from speech signal using bio-inspired based cepstral features | |
CN111461176B (zh) | 基于归一化互信息的多模态融合方法、装置、介质及设备 | |
CN113674767A (zh) | 一种基于多模态融合的抑郁状态识别方法 | |
CN109044396B (zh) | 一种基于双向长短时记忆神经网络的智能心音识别方法 | |
CN111951824A (zh) | 一种基于声音判别抑郁症的检测方法 | |
CN110600053A (zh) | 一种基于ResNet与LSTM网络的脑卒中构音障碍风险预测方法 | |
CN113012720A (zh) | 谱减法降噪下多语音特征融合的抑郁症检测方法 | |
CN109285551A (zh) | 基于wmfcc和dnn的帕金森患者声纹识别方法 | |
Asatani et al. | Classification of respiratory sounds using improved convolutional recurrent neural network | |
CN112820279A (zh) | 基于语音上下文动态特征的帕金森病检测方法 | |
CN114188022A (zh) | 一种基于TextCNN模型的临床儿童咳嗽智能预诊断系统 | |
Lu et al. | Speech depression recognition based on attentional residual network | |
CN116842460A (zh) | 基于注意力机制与残差神经网络的咳嗽关联疾病识别方法和系统 | |
Sanjeev et al. | Deep learning-based mixed data approach for COVID-19 detection | |
Celik et al. | Proposing a new approach based on convolutional neural networks and random forest for the diagnosis of Parkinson's disease from speech signals | |
CN114299996A (zh) | 基于AdaBoost算法的帕金森病冻结步态症状关键特征参数的语音分析方法及系统 | |
CN112466284B (zh) | 一种口罩语音鉴别方法 | |
CN113974607A (zh) | 一种基于脉冲神经网络的睡眠鼾声检测系统 | |
Rani et al. | Machine learning approach for automatic lungs sound diagnosis from pulmonary signals | |
Kafentzis et al. | Predicting Tuberculosis from Real-World Cough Audio Recordings and Metadata | |
CN116570284A (zh) | 一种基于语音表征的抑郁症识别方法、系统 | |
CN116350234A (zh) | 基于gcnn-lstm模型的ecg心律失常分类方法及系统 | |
CN113571050A (zh) | 一种基于Attention与Bi-LSTM的语音抑郁状态识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20211119 |