CN113674767A - 一种基于多模态融合的抑郁状态识别方法 - Google Patents

一种基于多模态融合的抑郁状态识别方法 Download PDF

Info

Publication number
CN113674767A
CN113674767A CN202111174280.4A CN202111174280A CN113674767A CN 113674767 A CN113674767 A CN 113674767A CN 202111174280 A CN202111174280 A CN 202111174280A CN 113674767 A CN113674767 A CN 113674767A
Authority
CN
China
Prior art keywords
layer
voice
lstm
data
voice data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111174280.4A
Other languages
English (en)
Inventor
赵张
王守岩
刘伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fudan University
Original Assignee
Fudan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fudan University filed Critical Fudan University
Priority to CN202111174280.4A priority Critical patent/CN113674767A/zh
Publication of CN113674767A publication Critical patent/CN113674767A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/66Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for extracting parameters related to health condition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Probability & Statistics with Applications (AREA)
  • Epidemiology (AREA)
  • Public Health (AREA)
  • Signal Processing (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种基于多模态融合的抑郁状态识别方法,包括以下步骤:步骤S1,采集语音数据和人脸数据;步骤S2,对语音数据进行语音预处理;步骤S3,将预处理的语音数据通过阿里云接口转为语音文本,并对语音文本进行文本预处理;步骤S4,对人脸数据进行视频预处理;步骤S5,将预处理的语音数据映射到时频域上,得到二维矩阵;步骤S6,构建多模态融合神经网络模型,将二维矩阵、预处理的语音文本和视频数据共同输入到多模态融合神经网络模型,以被试者是否抑郁作为训练标签进行训练;步骤S7,将待测语音数据输入到完成训练的多模态融合神经网络模型得到对应的多个分类结果,再以投票法的方式选择类别更多的训练标签作为语音信号的最终分类结果。

Description

一种基于多模态融合的抑郁状态识别方法
技术领域
本发明涉及一种基于多模态融合的抑郁状态识别方法。
背景技术
抑郁症是一种在世界范围内典型且常见的精神性疾病,覆盖各个年龄阶段,给患者造成严重的健康问题。现行的抑郁症临床诊断方法依赖医生的临床经验和患者填写的相关量表,整个过程耗时较长,诊断流程效率低下,受限于国内现阶段的医疗资源,患者的筛查效率更加低效。并且大部分早期患者对抑郁症类精神疾病不够重视,到医院求助的意愿相对身体疾病比较消极。
近年来,基于生理、行为等多种指标进行抑郁评估的研究均取得一定成果,但目前尚未有明确的生物标记物可用于识别抑郁症,研究人员仍在不断寻找一种客观有效的抑郁评估方法。
发明内容
为解决上述问题,提供一种基于多模态融合的抑郁状态识别方法,本发明采用了如下技术方案:
本发明提供了一种基于多模态融合的抑郁状态识别方法,包括以下步骤:步骤S1,采集被试者的语音数据和人脸数据;步骤S2,对语音数据进行语音预处理,得到预处理的语音数据;步骤S3,将预处理的语音数据通过阿里云接口转为语音文本,并对语音文本进行文本预处理,得到预处理的语音文本;步骤S4,对人脸数据进行视频预处理,得到视频数据;步骤S5,将预处理的语音数据映射到时频域上,得到二维矩阵;步骤S6,构建多模态融合神经网络模型,将二维矩阵、预处理的语音文本和视频数据共同输入到多模态融合神经网络模型,以被试者是否抑郁作为训练标签进行训练,得到完成训练的多模态融合神经网络模型;步骤S7,将待测语音数据输入到完成训练的多模态融合神经网络模型得到对应的多个分类结果,再以投票法的方式选择类别更多的训练标签作为语音信号的最终分类结果;其中,多模态融合神经网络模型包括视频处理模块、语音文本处理模块、时频域映射模块、全连接层和Softmax层,视频处理模块包括卷积层、池化层和全连接层,语音文本处理模块包括卷积层、双向LSTM层、注意力层和全连接层;时频域映射模块包括卷积层、双向LSTM层、注意力层和全连接层。
本发明提供的一种基于多模态融合的抑郁状态识别方法,还可以具有这样的技术特征,其中,双向LSTM层由作为前向LSTM层的多个LSTM单元以及作为后向LSTM层的多个LSTM单元构成,前向LSTM层的多个LSTM单元用于接收原始顺序的输入信号,后向LSTM层的多个LSTM单元用于接收反向顺序的输入信号。
本发明提供的一种基于多模态融合的抑郁状态识别方法,还可以具有这样的技术特征,其中,LSTM单元由输入门it、遗忘门ft、输出门ot三个门函数和细胞状态组成;LSTM单元的运行过程包括以下步骤:第一步,通过遗忘门决定丢弃的信息,并计算输入门it、遗忘门ft、输出门ot的值,计算公式为:it=δ(Wixt+Uiht-1+bi),ft=δ(Wfxt+Ufht-1+bf),ot=δ(W0xt+U0ht-1+b0),式中,xt为当前数据输入,ht为当前隐藏层的输入,ht-1为上一状态隐藏层的输出,Wi、Wf、W0为对应的权重系数矩阵,bi、bf、b0为对应的偏置项,δ为sigmoid函数;第二步,计算细胞状态候选值
Figure BDA0003294652690000031
计算公式为:
Figure BDA0003294652690000032
式中,Wc、Uc为对应的权重系数矩阵,bc为偏置项,tanh为激活函数;第三步,根据上一细胞状态值ct-1和细胞状态候选值
Figure BDA0003294652690000033
计算当前细胞状态值ct,计算公式为:
Figure BDA0003294652690000034
第四步,计算LSTM单元的当前状态输出ht,计算公式为:ht=ot tanh(ct)。
本发明提供的一种基于多模态融合的抑郁状态识别方法,还可以具有这样的技术特征,其中,注意力层的输出根据以下公式来得到:ut=tanh(Wωht+bω),
Figure BDA0003294652690000035
式中,ut为ht通过多层感知机映射得到的隐式表达,uω为整个语音段矢量,αt为权重系数,Wω为权重系数矩阵,bω为偏置项,s为语音矢量。
本发明提供的一种基于多模态融合的抑郁状态识别方法,还可以具有这样的技术特征,其中,语音预处理是包括人工筛查排除明显的噪音片段、高通滤波、降采样以及静音片段检测和移除。
本发明提供的一种基于多模态融合的抑郁状态识别方法,还可以具有这样的技术特征,其中,语音数据片段时长为30秒。
本发明提供的一种基于多模态融合的抑郁状态识别方法,还可以具有这样的技术特征,其中,文本预处理是先人工筛查明显的错字、漏字,并将语音文本与语音数据逐一对应,再将语音文本嵌入到向量领域。
本发明提供的一种基于多模态融合的抑郁状态识别方法,还可以具有这样的技术特征,其中,步骤S5中,通过短时傅里叶变换来将预处理的语音数据映射到时频域上。
发明作用与效果
根据本发明的一种基于多模态融合的抑郁状态识别方法,设计了一种多模态融合神经网络模型,并将语音文本、视频数据以及语音数据映射到时频域上的二维矩阵共同输入使用该神经网络模型,从语言、面部表情等多方面对受试者更加客观有效进行抑郁状态识别评估,与现有的基于单一模态的机器学习模型相比,融合多模态数据源的神经网络模型的性能进一步提高。
同时,本发明中的多模态神经网络模型中还融合了注意力机制,能通过自学习的方式调整其权重系数,重点观察语音中的部分片段,因此能很好地解决因语音信号特征分布的稀疏性对分类结果造成的干扰等技术问题,因此进一步提高抑郁筛查的准确性和稳定性。
附图说明
图1是本发明实施例中的基于多模态的融合Attention与Bi-LSTM的卷积神经网络结构示意图;
图2是本发明实施例中注意力机制结构示意图;
图3是本发明实施例中一种基于多模态融合的抑郁状态识别方法流程图。
具体实施方式
为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,以下结合实施例及附图对本发明的一种基于多模态融合的抑郁状态识别方法作具体阐述。
<实施例>
图1是本发明实施例中的基于多模态的融合Attention与Bi-LSTM的卷积神经网络结构示意图。
如图1所示,本发明实施例中的基于多模态的融合Attention与Bi-LSTM的卷积神经网络结构包括视频处理模块、语音文本处理模块、时频域映射模块、全连接层和Softmax层。其中视频处理模块包括卷积层、池化层和全连接层。语音文本处理模块包括卷积层、双向LSTM层、注意力层和全连接层。时频域映射模块包括卷积层、双向LSTM层、注意力层和全连接层。
双向LSTM层由作为前向LSTM层的多个LSTM单元以及作为后向LSTM层的多个LSTM单元构成。前向LSTM层的多个LSTM单元用于接收原始顺序的输入信号。后向LSTM层的多个LSTM单元用于接收反向顺序的输入信号。
其中,LSTM单元由输入门it、遗忘门ft、输出门ot三个门函数和细胞状态组成。
LSTM单元的运行过程包括以下步骤:
第一步,通过遗忘门决定丢弃的信息,并计算输入门it、遗忘门ft、输出门ot的值,计算公式为:
it=δ(Wixt+Uiht-1+bi)
ft=δ(Wfxt+Ufht-1+bf)
ot=δ(W0xt+U0ht-1+b0)
式中,xt为当前数据输入,ht为当前隐藏层的输入,ht-1为上一状态隐藏层的输出,Wi、Wf、W0为对应的权重系数矩阵,bi、bf、b0为对应的偏置项,δ为sigmoid函数;
第二步,计算细胞状态候选值
Figure BDA0003294652690000061
计算公式为:
Figure BDA0003294652690000062
式中,Wc、Uc为对应的权重系数矩阵,bc为偏置项,tanh为激活函数;
第三步,根据上一细胞状态值ct-1和细胞状态候选值
Figure BDA0003294652690000063
计算当前细胞状态值ct,计算公式为:
Figure BDA0003294652690000064
第四步,计算LSTM单元的当前状态输出ht,计算公式为:
ht=ot tanh(ct)。
图2是本发明实施例中注意力机制结构示意图。
如图2所示,注意力机制是一系列权重参数,对于一段语音并不是从头到尾每个部分都给予同样的关注度,而是通过自学习的方式调整权重系数,重点观察语音的部分片段。
本实施例中,通过多层感知机将双向LSTM的输出ht映射为隐式表达ut,然后用ut与整个语音段矢量uω的相似性来衡量各个片段的重要性,再通过一个Softmax函数得到标准化后的权重系数αt,最后语音矢量s经过ht加权求和得到注意力层的输出。具体计算公式为:
ut=tanh(Wωht+bω)
Figure BDA0003294652690000071
Figure BDA0003294652690000072
式中,ut为ht通过多层感知机映射得到的隐式表达,uω为整个语音段矢量,αt为权重系数,Wω为权重系数矩阵,bω为偏置项,s为语音矢量。
图3为本发明实施例中一种基于多模态融合的抑郁状态识别方法流程图。
如图3所示,一种基于多模态融合的抑郁状态识别方法包括以下步骤:
步骤S1,采集被试者的语音数据和人脸数据。
步骤S2,对语音数据进行语音预处理,得到预处理的语音数据。本实施例中采用截止频率为137.8Hz的二阶巴特沃斯滤波器进行高通滤波,降低低频噪音对人声有效信息的干扰。用工具包librosa将语音信号统一采样到16000hz。采用工具包Pyaudioanalysis进行有声片段和静音片段的检测并去除非语音的无声片段。
步骤S3,将预处理的语音数据通过阿里云接口转为语音文本,并对语音文本进行文本预处理,得到预处理的语音文本。
步骤S4,对人脸数据进行视频预处理,得到视频数据。
步骤S5,将预处理的语音数据映射到时频域上,得到二维矩阵。本实施例中通过短时傅里叶变换来将预处理的语音数据映射到时频域上。其中,短时傅里叶变换选用hamming窗,NFFT=1024,窗长0.1s,滑动步长0.05s。
步骤S6,构建多模态融合神经网络模型,将二维矩阵、预处理的语音文本和视频数据共同输入到多模态融合神经网络模型,以被试者是否抑郁作为训练标签进行训练,得到完成训练的多模态融合神经网络模型。
本实施例中批处理大小(batch size)为512,交叉熵(cross entropy)为损失函数,优化器为Adam,训练次数为500次,初始学习率为0.0001,学习率会随着迭代步数的增加而衰减,每经过100次训练学习率×0.5。
步骤S7,将待测语音数据输入到完成训练的多模态融合神经网络模型得到对应的多个分类结果,再以投票法的方式选择类别更多的训练标签作为语音信号的最终分类结果。
本发明实施例还提供了以下三种语音抑郁状态分类结果的评价指标,Accuracy、F1分数以及AUC值。这三种评价指标的具体定义如下:
Figure BDA0003294652690000081
Figure BDA0003294652690000091
F1分数是召回率和精确率的调和平均值,取值范围[0,1]。
AUC值为受试者工作特征曲线(receiver operating characteristic curve,ROC)与坐标轴围成的面积,ROC曲线的横坐标是
Figure BDA0003294652690000092
纵坐标是
Figure BDA0003294652690000093
曲线处于y=x上方,取值范围[0.5,1]。
其中,TP,FP,FN,TN的定义如表1所示。
表1语音抑郁状态分类结果混淆矩阵
抑郁被试的音频 正常被试的音频
判断属于抑郁被试的音频 True Positive(TP) False Positive(FP)
判断属于正常被试的音频 False Negative(FN) True Negative(TN)
上述三种评价指标的值都与分类性能正相关,值越大代表分类的结果越好。
如上,通过一种基于多模态融合的抑郁状态识别方法,将采集到的语音经处理后送入本发明设计的多模态融合神经网络模型进行训练,得到分类结果,并得到该分类结果的评价。
实施例作用与效果
根据本实施例提供的一种基于多模态融合的抑郁状态识别方法,设计了一种多模态融合神经网络模型,并将语音文本、视频数据以及语音数据映射到时频域上的二维矩阵共同输入使用该神经网络模型,从语言、面部表情等多方面对受试者更加客观有效进行抑郁状态识别评估,与现有的基于单一模态的机器学习模型相比,融合多模态数据源的神经网络模型的性能进一步提高。
同时,本实施例中的多模态神经网络模型中还融合了注意力机制,能通过自学习的方式调整其权重系数,重点观察语音中的部分片段,因此能很好地解决因语音信号特征分布的稀疏性对分类结果造成的干扰等技术问题,因此进一步提高抑郁筛查的准确性和稳定性。
上述实施例仅用于举例说明本发明的具体实施方式,而本发明不限于上述实施例的描述范围。

Claims (8)

1.一种基于多模态融合的抑郁状态识别方法,其特征在于,包括以下步骤:
步骤S1,采集被试者的语音数据和人脸数据;
步骤S2,对所述语音数据进行语音预处理,得到预处理的语音数据;
步骤S3,将预处理的语音数据通过阿里云接口转为语音文本,并对所述语音文本进行文本预处理,得到预处理的语音文本;
步骤S4,对所述人脸数据进行视频预处理,得到视频数据;
步骤S5,将所述预处理的语音数据映射到时频域上,得到二维矩阵;
步骤S6,构建多模态融合神经网络模型,将所述二维矩阵、所述预处理的语音文本和所述视频数据共同输入到所述多模态融合神经网络模型,以被试者是否抑郁作为训练标签进行训练,得到完成训练的多模态融合神经网络模型;
步骤S7,将待测语音数据输入到所述完成训练的多模态融合神经网络模型得到对应的多个分类结果,再以投票法的方式选择类别更多的所述训练标签作为所述语音信号的最终分类结果;
其中,所述多模态融合神经网络模型包括视频处理模块、语音文本处理模块、时频域映射模块、全连接层和Softmax层,
所述视频处理模块包括卷积层、池化层和全连接层,
所述语音文本处理模块包括卷积层、双向LSTM层、注意力层和全连接层;
所述时频域映射模块包括卷积层、双向LSTM层、注意力层和全连接层。
2.根据权利要求1所述的一种基于多模态融合的抑郁状态识别方法,其特征在于:
其中,所述双向LSTM层由作为前向LSTM层的多个LSTM单元以及作为后向LSTM层的多个所述LSTM单元构成,
所述前向LSTM层的多个所述LSTM单元用于接收原始顺序的所述输入信号,
所述后向LSTM层的多个所述LSTM单元用于接收反向顺序的所述输入信号。
3.根据权利要求2所述的一种基于多模态融合的抑郁状态识别方法,其特征在于:
其中,所述LSTM单元由输入门it、遗忘门ft、输出门ot三个门函数和细胞状态组成;
所述LSTM单元的运行过程包括以下步骤:
第一步,通过遗忘门决定丢弃的信息,并计算输入门it、遗忘门ft、输出门ot的值,计算公式为:
it=δ(Wixt+Uiht-1+bi)
ft=δ(Wfxt+Ufht-1+bf)
ot=δ(W0xt+U0ht-1+b0)
式中,xt为当前数据输入,ht为当前隐藏层的输入,ht-1为上一状态隐藏层的输出,Wi、Wf、W0为对应的权重系数矩阵,bi、bf、b0为对应的偏置项,δ为sigmoid函数;
第二步,计算细胞状态候选值
Figure FDA0003294652680000031
计算公式为:
Figure FDA0003294652680000032
式中,Wc、Uc为对应的权重系数矩阵,bc为偏置项,tanh为激活函数;
第三步,根据上一细胞状态值ct-1和细胞状态候选值
Figure FDA0003294652680000033
计算当前细胞状态值ct,计算公式为:
Figure FDA0003294652680000034
第四步,计算所述LSTM单元的当前状态输出ht,计算公式为:
ht=ottanh(ct)。
4.根据权利要求2所述的一种基于多模态融合的抑郁状态识别方法,其特征在于:
其中,所述注意力层的输出根据以下公式来得到:
ut=tanh(Wωht+bω)
Figure FDA0003294652680000035
Figure FDA0003294652680000036
式中,ut为ht通过多层感知机映射得到的隐式表达,uω为整个语音段矢量,αt为权重系数,Wω为权重系数矩阵,bω为偏置项,s为语音矢量。
5.根据权利要求1所述的一种基于多模态融合的抑郁状态识别方法,其特征在于:
其中,所述语音预处理是包括人工筛查排除明显的噪音片段、高通滤波、降采样以及静音片段检测和移除。
6.根据权利要求1所述的一种基于多模态融合的抑郁状态识别方法,其特征在于:
其中,所述语音数据片段时长为30秒。
7.根据权利要求1所述的一种基于多模态融合的抑郁状态识别方法,其特征在于:
其中,所述文本预处理是先人工筛查明显的错字、漏字,并将所述语音文本与语音数据逐一对应,再将所述语音文本嵌入到向量领域。
8.根据权利要求1所述的一种基于多模态融合的抑郁状态识别方法,其特征在于:
其中,所述步骤S5中,通过短时傅里叶变换来将所述预处理的语音数据映射到所述时频域上。
CN202111174280.4A 2021-10-09 2021-10-09 一种基于多模态融合的抑郁状态识别方法 Pending CN113674767A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111174280.4A CN113674767A (zh) 2021-10-09 2021-10-09 一种基于多模态融合的抑郁状态识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111174280.4A CN113674767A (zh) 2021-10-09 2021-10-09 一种基于多模态融合的抑郁状态识别方法

Publications (1)

Publication Number Publication Date
CN113674767A true CN113674767A (zh) 2021-11-19

Family

ID=78550552

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111174280.4A Pending CN113674767A (zh) 2021-10-09 2021-10-09 一种基于多模态融合的抑郁状态识别方法

Country Status (1)

Country Link
CN (1) CN113674767A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115414042A (zh) * 2022-09-08 2022-12-02 北京邮电大学 基于情感信息辅助的多模态焦虑检测方法及装置
CN115831352A (zh) * 2022-12-05 2023-03-21 湖南工商大学 一种基于动态纹理特征和时间分片权重网络的检测方法
CN116631630A (zh) * 2023-07-21 2023-08-22 北京中科心研科技有限公司 一种识别焦虑障碍的方法、装置及可穿戴设备

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109614895A (zh) * 2018-10-29 2019-04-12 山东大学 一种基于attention特征融合的多模态情感识别的方法
CN110287389A (zh) * 2019-05-31 2019-09-27 南京理工大学 基于文本、语音和视频融合的多模态情感分类方法
CN110853680A (zh) * 2019-11-05 2020-02-28 河南工业大学 一种用于语音情感识别的具有多输入多融合策略的双BiLSTM结构
CN111292765A (zh) * 2019-11-21 2020-06-16 台州学院 一种融合多个深度学习模型的双模态情感识别方法
CN111753549A (zh) * 2020-05-22 2020-10-09 江苏大学 一种基于注意力机制的多模态情感特征学习、识别方法
CN112489690A (zh) * 2020-12-23 2021-03-12 沈阳新松机器人自动化股份有限公司 语音情绪识别方法及系统
WO2021104099A1 (zh) * 2019-11-29 2021-06-03 中国科学院深圳先进技术研究院 一种基于情景感知的多模态抑郁症检测方法和系统
CN112966074A (zh) * 2021-05-17 2021-06-15 华南师范大学 一种情感分析方法、装置、电子设备以及存储介质
CN113053418A (zh) * 2021-04-30 2021-06-29 南京工程学院 一种基于长短时记忆网络快速识别语音情感类别的方法
CN113095357A (zh) * 2021-03-04 2021-07-09 山东大学 基于注意力机制与gmn的多模态情感识别方法及系统

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109614895A (zh) * 2018-10-29 2019-04-12 山东大学 一种基于attention特征融合的多模态情感识别的方法
CN110287389A (zh) * 2019-05-31 2019-09-27 南京理工大学 基于文本、语音和视频融合的多模态情感分类方法
CN110853680A (zh) * 2019-11-05 2020-02-28 河南工业大学 一种用于语音情感识别的具有多输入多融合策略的双BiLSTM结构
CN111292765A (zh) * 2019-11-21 2020-06-16 台州学院 一种融合多个深度学习模型的双模态情感识别方法
WO2021104099A1 (zh) * 2019-11-29 2021-06-03 中国科学院深圳先进技术研究院 一种基于情景感知的多模态抑郁症检测方法和系统
CN111753549A (zh) * 2020-05-22 2020-10-09 江苏大学 一种基于注意力机制的多模态情感特征学习、识别方法
CN112489690A (zh) * 2020-12-23 2021-03-12 沈阳新松机器人自动化股份有限公司 语音情绪识别方法及系统
CN113095357A (zh) * 2021-03-04 2021-07-09 山东大学 基于注意力机制与gmn的多模态情感识别方法及系统
CN113053418A (zh) * 2021-04-30 2021-06-29 南京工程学院 一种基于长短时记忆网络快速识别语音情感类别的方法
CN112966074A (zh) * 2021-05-17 2021-06-15 华南师范大学 一种情感分析方法、装置、电子设备以及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JIANGFENG ZENG ET AL.: "《Enhancing Attention-Based LSTM With Position Context for Aspect-Level Sentiment Classification》", 《 IEEE ACCESS》, vol. 7 *
金浩 等: "《基于注意力机制的TDNN-LSTM模型及应用》", 《声学技术》, vol. 40, no. 4 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115414042A (zh) * 2022-09-08 2022-12-02 北京邮电大学 基于情感信息辅助的多模态焦虑检测方法及装置
CN115831352A (zh) * 2022-12-05 2023-03-21 湖南工商大学 一种基于动态纹理特征和时间分片权重网络的检测方法
CN115831352B (zh) * 2022-12-05 2023-08-08 湖南工商大学 一种基于动态纹理特征和时间分片权重网络的检测方法
CN116631630A (zh) * 2023-07-21 2023-08-22 北京中科心研科技有限公司 一种识别焦虑障碍的方法、装置及可穿戴设备

Similar Documents

Publication Publication Date Title
Hassan et al. COVID-19 detection system using recurrent neural networks
CN107657964B (zh) 基于声学特征和稀疏数学的抑郁症辅助检测方法及分类器
Dash et al. Detection of COVID-19 from speech signal using bio-inspired based cepstral features
CN111461176B (zh) 基于归一化互信息的多模态融合方法、装置、介质及设备
CN113674767A (zh) 一种基于多模态融合的抑郁状态识别方法
CN109044396B (zh) 一种基于双向长短时记忆神经网络的智能心音识别方法
CN110755108A (zh) 一种基于智能听诊器的心脏声音分类方法、系统、装置及可读存储介质
CN111951824A (zh) 一种基于声音判别抑郁症的检测方法
CN110600053A (zh) 一种基于ResNet与LSTM网络的脑卒中构音障碍风险预测方法
Deperlioglu Heart sound classification with signal instant energy and stacked autoencoder network
CN113012720A (zh) 谱减法降噪下多语音特征融合的抑郁症检测方法
Asatani et al. Classification of respiratory sounds using improved convolutional recurrent neural network
CN109285551A (zh) 基于wmfcc和dnn的帕金森患者声纹识别方法
Haider et al. Computerized lung sound based classification of asthma and chronic obstructive pulmonary disease (COPD)
CN112820279A (zh) 基于语音上下文动态特征的帕金森病检测方法
Turan et al. Monitoring Infant's Emotional Cry in Domestic Environments Using the Capsule Network Architecture.
Lu et al. Speech depression recognition based on attentional residual network
CN116842460A (zh) 基于注意力机制与残差神经网络的咳嗽关联疾病识别方法和系统
Celik et al. Proposing a new approach based on convolutional neural networks and random forest for the diagnosis of Parkinson's disease from speech signals
CN114299996A (zh) 基于AdaBoost算法的帕金森病冻结步态症状关键特征参数的语音分析方法及系统
CN112466284B (zh) 一种口罩语音鉴别方法
CN114188022A (zh) 一种基于TextCNN模型的临床儿童咳嗽智能预诊断系统
CN113974607A (zh) 一种基于脉冲神经网络的睡眠鼾声检测系统
Rani et al. Machine learning approach for automatic lungs sound diagnosis from pulmonary signals
CN116570284A (zh) 一种基于语音表征的抑郁症识别方法、系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20211119