CN113571050A - 一种基于Attention与Bi-LSTM的语音抑郁状态识别方法 - Google Patents

一种基于Attention与Bi-LSTM的语音抑郁状态识别方法 Download PDF

Info

Publication number
CN113571050A
CN113571050A CN202110855540.8A CN202110855540A CN113571050A CN 113571050 A CN113571050 A CN 113571050A CN 202110855540 A CN202110855540 A CN 202110855540A CN 113571050 A CN113571050 A CN 113571050A
Authority
CN
China
Prior art keywords
speech
lstm
layer
voice signal
attention
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110855540.8A
Other languages
English (en)
Inventor
赵张
王守岩
汪静莹
刘伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fudan University
Original Assignee
Fudan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fudan University filed Critical Fudan University
Priority to CN202110855540.8A priority Critical patent/CN113571050A/zh
Publication of CN113571050A publication Critical patent/CN113571050A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Child & Adolescent Psychology (AREA)
  • General Health & Medical Sciences (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychiatry (AREA)
  • Signal Processing (AREA)
  • Evolutionary Computation (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明提供一种基于Attention与Bi‑LSTM的语音抑郁状态识别方法,使用融合注意力机制与双向LSTM的神经网络模型来对采集切分得到的语音信号片段进行分类,由于该神经网络中融合了双向LSTM网络,因此能够对语音信号中的时序特征进行提取,并且双向LSTM网络融合前向后向的信息,能够提取得到更为全面的特征,不仅如此,由于该神经网络中还融合了注意力机制,能通过自学习的方式调整其权重系数,重点观察语音的部分片段,因此能很好地解决因语音信号特征分布的稀疏性造成的问题。上述的两种方法相结合能进一步提高抑郁筛查的准确性和稳定性。

Description

一种基于Attention与Bi-LSTM的语音抑郁状态识别方法
技术领域
本发明属于语音信号处理的技术领域,具体涉及一种基于Attention与Bi-LSTM的语音抑郁状态识别方法。
背景技术
现行的抑郁症临床诊断方法是医生根据患者的主观描述,结合患者填写的量表结果,依靠个人经验进行评估。这种方式需要患者准确地描述自身情况,医生具备丰富的临床经验,对医患的要求都非常高。此外,整个过程耗时较长,诊断流程效率低下。因此一种客观、准确、方便、快捷的自动化抑郁识别方法能够提升临床诊断效率,让患者及时了解自身精神健康状态。目前针对抑郁识别并没有明确的标记物,语音作为表情外情绪的一种重要的外部表现,加之其使用限制少、设备成本低、无接触、采集方式无创且便捷等独特的优势,成为针对抑郁识别最受期待的数据。
目前为止,研究人员为提升识别精度主要从特征设计和模型改进两个角度出发。特征设计层面主要在于使用不同领域的语音特征如声学特征、频域特征,并比较不同特征组合的分类结果,但这些特征有自身的领域背景并非针对抑郁设计,不能充分挖掘出语音中与抑郁相关的信息。模型改进层面除了使用机器学习算法,还引入常见的卷积神经网络,但卷积的方式忽略了语音信号作为时间序列与时间相关的信息。此外,语音信号的特征分布具有稀疏性,大量的信息集中于部分片段,目前对语音的各个部分给予相同的权重,计算成本高且提取的噪音信息还会对分类结果造成干扰。
发明内容
本发明是为解决上述问题而进行的,目的在于提供一种基于Attention与Bi-LSTM的语音抑郁状态识别方法。
本发明采用了如下技术方案:本发明提供了一种基于Attention与Bi-LSTM的语音抑郁状态识别方法,其特征在于,包括:步骤S1,使用录音设备采集被试的语音,得到语音信号;步骤S2,对语音信号进行预处理;步骤S3,将语音信号切分为多个语音信号片段并分别映射到时频域,得到语音信号片段的时频域映射;步骤S4,建立融合注意力机制与双向LSTM的神经网络模型,将多个语音信号片段的时频域映射输入神经网络模型,以语音信号所属的被试是否抑郁作为训练标签,得到对应的多个分类结果;步骤S5,对于多个分类结果,以投票法的方式选择类别更多的标签作为语音信号的最终分类结果,其中,神经网络模型由依次连接的卷积层、双向LSTM层、注意力层、全连接层以及Softmax层组成,卷积层的输入为语音信号片段的时频域映射;卷积层用于提取语音信号片段的空间特征;双向LSTM层用于提取语音信号片段的时序特征;注意力层用于衡量各个语音信号片段的重要性,给予不同的权重,得到加权后的目标特征;全连接层用于将目标特征进行分布式特征表示;Softmax层用于基于目标特征的分布式特征表示对语音信号片段进行分类。
本发明提供的基于Attention与Bi-LSTM的语音抑郁状态识别方法,还可以具有这样的技术特征,其中,双向LSTM层由作为前向LSTM层的LSTM单元以及作为后向LSTM层的LSTM单元构成,前向LSTM层的LSTM单元用于接收原始顺序的输入信号,后向LSTM层的LSTM单元用于接收反向顺序的输入信号。
本发明提供的基于Attention与Bi-LSTM的语音抑郁状态识别方法,还可以具有这样的技术特征,其中,LSTM单元具有输入门,遗忘门,输出门以及细胞状态,细胞状态用于存储信息;输入门用于向细胞状态中添加信息,输入门的值根据以下公式来得到:
it=δ(Wixt+Uiht-1+bi)
遗忘门用于从细胞状态中移除信息,遗忘门的值根据以下公式来得到:
ft=δ(Wfxt+Ufht-1+bf)
输出门用于输出细胞状态中的信息,输出门的值根据以下公式来得到:
ot=δ(Woxt+Uoht-1+bo)
式中,xt为当前输入,ht为隐藏层的输入,ht-1为上一状态的输出,Wi、Wf、Wo为对应的权重系数矩阵,bi、bf、bo为对应的偏置项,δ为sigmoid函数。
本发明提供的基于Attention与Bi-LSTM的语音抑郁状态识别方法,还可以具有这样的技术特征,其中,双向LSTM层的输出ht根据以下公式来得到:
Figure BDA0003183839280000041
Figure BDA0003183839280000042
ht=ottanh(ct)
式中,
Figure BDA0003183839280000043
为细胞状态候选值,ct为当前时刻状态值,Wc、Uc为对应的权重系数矩阵,bc为偏置项,tanh为激活函数。
本发明提供的基于Attention与Bi-LSTM的语音抑郁状态识别方法,还可以具有这样的技术特征,其中,注意力层的输出根据以下公式来得到:
ut=tanh(Wωht+bω)
Figure BDA0003183839280000044
Figure BDA0003183839280000045
式中,ut为ht通过多层感知机映射得到的隐式表达,uω为整个语音段矢量,αt为权重系数,Wω为权重系数矩阵,bω为偏置项,s为语音矢量,即目标特征。
本发明提供的基于Attention与Bi-LSTM的语音抑郁状态识别方法,还可以具有这样的技术特征,其中,语音信号片段的时长为2秒。
本发明提供的基于Attention与Bi-LSTM的语音抑郁状态识别方法,还可以具有这样的技术特征,其中,步骤S3中,通过短时傅里叶变换来将语音信号片段映射到时频域。
本发明提供的基于Attention与Bi-LSTM的语音抑郁状态识别方法,还可以具有这样的技术特征,其中,预处理包括对语音信号进行噪音片段的移除、静音片段的移除、高通滤波以及降采样。
发明作用与效果
根据本发明的基于Attention与Bi-LSTM的语音抑郁状态识别方法,设计了一种融合注意力机制与双向LSTM的神经网络模型,使用该神经网络模型对采集切分得到的语音片段进行分类,由于该神经网络中融合了双向长短时记忆网络(即双向LSTM网络),因此能够对语音信号中的时序特征进行提取,并且双向长短时记忆网络融合前向后向的信息,能够提取得到更为全面的特征,从而解决了现有技术中,常见的卷积神经网络卷积的方式忽略了语音信号的时序特征这一技术问题。
不仅如此,由于该神经网络中还融合了注意力机制(即Attention),能通过自学习的方式调整其权重系数,重点观察语音中的部分片段,因此能很好地解决因语音信号特征分布的稀疏性造成的技术问题,例如计算成本高、提取的噪音信息对分类结果造成干扰等。上述的两种方法相结合能进一步提高抑郁筛查的准确性和稳定性。
附图说明
图1是本发明实施例中融合注意力机制与双向LSTM的神经网络模型的结构示意图;
图2是本发明实施例中注意力机制的结构示意图;
图3是本发明实施例的端到端的语音抑郁状态识别方法流程图。
具体实施方式
为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,以下结合实施例及附图对本发明的融合注意力机制与双向长短时记忆网络的语音抑郁状态识别方法作具体阐述。
<实施例>
图1是本发明实施例的融合注意力机制与双向LSTM的神经网络模型结构示意图。
如图1所示,本发明实施例的融合注意力机制与双向LSTM的神经网络模型由依次连接的卷积层、双向LSTM层、注意力层、全连接层以及Softmax层组成。
卷积层的输入为语音信号片段在时频域上的二维矩阵;双向LSTM层用于提取语音信号片段的时序特征;注意力层用于衡量各个语音信号片段的重要性,并给予不同的权重,得到加权后的目标特征;全连接层用于将目标特征进行分布式特征表示;Softmax层基于目标特征的分布式特征表示,对语音信号片段进行分类。
其中,LSTM网络通过门结构来对细胞状态增加或删除信息,由输入门it、遗忘门ft、输出门Ot三个门函数和细胞状态组成。
LSTM网络层的输出通过以下步骤以及公式来得到:
步骤1,决定要丢弃的信息,该决定通过遗忘门完成,读取当前输入xt,隐藏层的输入为ht,上一状态的输出为ht-1,计算输入门、遗忘门、输出门的值:
it=δ(Wixt+Uiht-1+bi)
ft=δ(Wfxt+Ufht-1+bf)
ot=δ(Woxt+Uoht-1+bo)
步骤2,确定细胞状态中的信息,即细胞状态候选值
Figure BDA0003183839280000071
Figure BDA0003183839280000072
步骤3,据上一时态和当前候选值计算当前时刻状态值:
Figure BDA0003183839280000073
步骤4,LSTM的最终输出为输出门状态与前一状态的相乘,并加入激活函数tanh:
ht=ottanh(ct)
图2是本发明实施例中注意力机制的结构示意图。
如图2所示,注意力机制是一系列权重参数,对于一段语音并不是从头到尾每个部分都给予同样的关注度,而是通过自学习的方式调整权重系数,重点观察语音的部分片段。
本实施例中,通过多层感知机将双向LSTM的输出ht映射为隐式表达ut,然后用ut与整个语音段矢量uω的相似性来衡量各个片段的重要性。再通过一个Softmax函数得到标准化后的权重系数αt,最后语音矢量s经过ht加权求和得到。语音矢量s可以被视为一段语音的高维特征表示,类似于自然语音处理任务中对一段query经过循环神经网络提取到的特征。uω是通过训练学习得到的最终参数,初始时是随机的矢量。注意力层的输出通过以下公式来得到:
ut=tanh(Wωht+bω);
Figure BDA0003183839280000081
Figure BDA0003183839280000082
图3是本发明实施例的端到端的语音抑郁状态识别方法流程图。
如图3所示,基于Attention与Bi-LSTM的语音抑郁状态识别方法包括以下步骤:
步骤S1,设计问题,让被试根据屏幕上显示的问题进行回答,使用录音设备采集被试完整的说话过程,并将其记录为wav文件,该文件即为采集到的语音信号。
步骤S2,对采集到的语音信号进行预处理,人工筛查排除明显的噪音片段,如咳嗽、东西掉落的声音等,并对语音信号进行高通滤波、降采样、静音片段检测和移除。
本实施例中,采用截止频率为137.8Hz的二阶巴特沃斯滤波器进行高通滤波,降低低频噪音对人声有效信息的干扰;使用工具包librosa将语音信号统一采样到16000hz;使用工具包Pyaudioanalysis进行有声片段和静音片段的检测,并去除非语音的无声片段。
步骤S3,将采集到的语音信号切分为单位时长2秒的若干个语音信号片段,通过短时傅里叶变换分别将其映射到时频域,得到对应的多个语音信号片段的时频域映射。
其中,短时傅里叶变换的参数设置如下:窗长0.1s,滑动步长0.05s,选用hamming窗,NFFT=1024。
步骤S4,建立融合注意力机制与双向LSTM的神经网络模型,将多个语音信号片段的时频域映射输入该神经网络模型,以该语音所属被试是否抑郁作为训练标签进行训练,得到和多个切分得到的语音信号片段所对应的多个分类结果。
本实施例中,神经网络的输入维度为39×513,卷积层的维度是256×1,步长为4,Dropout层的激活概率是0.5,LSTM的cell个数设为64个,双向LSTM的输出维度是10×128,注意力机制中Wω维度为10×128,s维度为1×128,全连接层的向量维度是128,最后以Softmax为激活函数。
批处理大小(batch size)为512,交叉熵(cross entropy)为损失函数,优化器为Adam,训练次数为200次,初始学习率为0.0001,学习率会随着迭代步数的增加而衰减,每经过50次训练学习率×0.5。
步骤S5,对步骤S4得到的对应于多个语音信号片段的多个分类结果,以投票法的方式选择类别更多的标签作为该段语音的最终分类结果。
本发明实施例还提供了以下三种语音抑郁状态分类结果的评价指标,Accuracy、F1分数以及AUC值。这三种评价指标的具体定义如下:
Figure BDA0003183839280000091
Figure BDA0003183839280000101
F1分数是召回率和精确率的调和平均值,取值范围[0,1]。
AUC值为受试者工作特征曲线(receiver operating characteristic curve,ROC)与坐标轴围成的面积,ROC曲线的横坐标是
Figure BDA0003183839280000102
纵坐标是
Figure BDA0003183839280000103
曲线处于y=x上方,取值范围[0.5,1]。
其中,TP,FP,FN,TN的定义如表1所示。
表1语音抑郁状态分类结果混淆矩阵
抑郁被试的音频 正常被试的音频
判断属于抑郁被试的音频 True Positive(TP) False Positive(FP)
判断属于正常被试的音频 False Negative(FN) True Negative(TN)
上述三种评价指标的值都与分类性能正相关,值越大代表分类的结果越好。
如上所述,通过基于Attention与Bi-LSTM的语音抑郁状态识别方法,将采集到的语音经处理后送入本发明设计的融合注意力机制与双向LSTM的神经网络模型进行训练,得到分类结果,并得到该分类结果的评价。
实施例作用与效果
根据本实施例提供的基于Attention与Bi-LSTM的语音抑郁状态识别方法,设计了一种融合注意力机制与双向LSTM的神经网络模型,使用该神经网络模型对采集切分得到的语音片段进行分类,由于该神经网络模型中融合了双向LSTM网络,因此能够对语音信号中的时序特征进行提取,并且双向LSTM网络融合前向后向的信息,能够提取得到更为全面的特征,从而解决了现有技术中,常见的卷积神经网络卷积的方式忽略了语音信号的时序特征这一技术问题。
不仅如此,由于该神经网络中还融合了注意力机制,能通过自学习的方式调整其权重系数,重点观察语音的部分片段,因此能很好地解决因语音信号特征分布的稀疏性造成的技术问题,例如计算成本高、提取的噪音信息对分类结果造成干扰等。上述的两种方法相结合能进一步提高抑郁筛查的准确性和稳定性。
上述实施例仅用于举例说明本发明的具体实施方式,而本发明不限于上述实施例的描述范围。

Claims (8)

1.一种基于Attention与Bi-LSTM的语音抑郁状态识别方法,用于识别语音抑郁状态,其特征在于,包括:
步骤S1,使用录音设备采集被试的语音,得到语音信号;
步骤S2,对所述语音信号进行预处理;
步骤S3,将所述语音信号切分为多个语音信号片段并分别映射到时频域,得到多个所述语音信号片段的时频域映射;
步骤S4,建立融合注意力机制与双向LSTM的神经网络模型,将多个所述语音信号片段的时频域映射输入所述神经网络模型,以所述语音信号所属的所述被试是否抑郁作为训练标签进行训练,得到对应的多个分类结果;
步骤S5,对于所述多个分类结果,以投票法的方式选择类别更多的所述训练标签作为所述语音信号的最终分类结果,
其中,所述神经网络模型由依次连接的卷积层、双向LSTM层、注意力层、全连接层以及Softmax层组成,
所述卷积层用于提取所述语音信号片段的空间特征,所述卷积层的输入为所述语音信号片段的时频域映射,
所述双向LSTM层用于提取所述语音信号片段的时序特征,
所述注意力层用于衡量各个所述语音信号片段的重要性,给予不同的权重,得到加权后的目标特征,
所述全连接层用于将所述目标特征进行分布式特征表示,
所述Softmax层用于基于所述目标特征的分布式特征表示对所述语音信号片段进行分类。
2.根据权利要求1所述的语音抑郁状态识别方法,其特征在于:
其中,所述双向LSTM层由作为前向LSTM层的多个LSTM单元以及作为后向LSTM层的多个所述LSTM单元构成,
所述前向LSTM层的多个所述LSTM单元用于接收原始顺序的所述输入信号,
所述后向LSTM层的多个所述LSTM单元用于接收反向顺序的所述输入信号。
3.根据权利要求2所述的语音抑郁状态识别方法,其特征在于:
其中,所述LSTM单元具有输入门,遗忘门,输出门以及细胞状态,
所述输入门用于向所述细胞状态中添加信息,所述输入门的值根据以下公式来得到:
it=δ(Wixt+Uiht-1+bi)
所述遗忘门用于从所述细胞状态中移除信息,所述遗忘门的值根据以下公式来得到:
ft=δ(Wfxt+Ufht-1+bf)
所述输出门用于输出所述细胞状态的信息,所述输出门的值根据以下公式来得到:
ot=δ(Woxt+Uoht-1+bo)
式中,xt为当前输入,ht为隐藏层的输入,ht-1为上一状态的输出,Wi、Wf、Wo为对应的权重系数矩阵,bi、bf、bo为对应的偏置项,δ为sigmoid函数。
4.根据权利要求3所述的语音抑郁状态识别方法,其特征在于:
其中,所述双向LSTM层的输出ht根据以下公式来得到:
Figure FDA0003183839270000031
Figure FDA0003183839270000032
ht=ottanh(ct)
式中,
Figure FDA0003183839270000033
为所述细胞状态候选值,ct为当前时刻状态值,Wc、Uc为对应的权重系数矩阵,bc为偏置项,tanh为激活函数。
5.根据权利要求4所述的语音抑郁状态识别方法,其特征在于:
其中,所述注意力层的输出根据以下公式来得到:
Figure FDA0003183839270000034
Figure FDA0003183839270000035
Figure FDA0003183839270000036
式中,ut为ht通过多层感知机映射得到的隐式表达,uω为整个语音段矢量,αt为权重系数,Wω为权重系数矩阵,bω为偏置项,s为语音矢量,即所述目标特征。
6.根据权利要求1所述的语音抑郁状态识别方法,其特征在于:
其中,所述语音信号片段的时长为2秒。
7.根据权利要求1所述的语音抑郁状态识别方法,其特征在于:
其中,所述步骤S3中,通过短时傅里叶变换来将所述语音信号片段映射到所述时频域。
8.根据权利要求1所述的语音抑郁状态识别方法,其特征在于:
其中,所述预处理包括对所述语音信号进行噪音片段的移除、静音片段的移除、高通滤波以及降采样。
CN202110855540.8A 2021-07-28 2021-07-28 一种基于Attention与Bi-LSTM的语音抑郁状态识别方法 Pending CN113571050A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110855540.8A CN113571050A (zh) 2021-07-28 2021-07-28 一种基于Attention与Bi-LSTM的语音抑郁状态识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110855540.8A CN113571050A (zh) 2021-07-28 2021-07-28 一种基于Attention与Bi-LSTM的语音抑郁状态识别方法

Publications (1)

Publication Number Publication Date
CN113571050A true CN113571050A (zh) 2021-10-29

Family

ID=78168444

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110855540.8A Pending CN113571050A (zh) 2021-07-28 2021-07-28 一种基于Attention与Bi-LSTM的语音抑郁状态识别方法

Country Status (1)

Country Link
CN (1) CN113571050A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115831352A (zh) * 2022-12-05 2023-03-21 湖南工商大学 一种基于动态纹理特征和时间分片权重网络的检测方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109614895A (zh) * 2018-10-29 2019-04-12 山东大学 一种基于attention特征融合的多模态情感识别的方法
WO2019096149A1 (zh) * 2017-11-15 2019-05-23 中国科学院自动化研究所 基于记忆和注意力模型的听觉选择方法和装置
CN110400579A (zh) * 2019-06-25 2019-11-01 华东理工大学 基于方向自注意力机制和双向长短时网络的语音情感识别
CN110826466A (zh) * 2019-10-31 2020-02-21 南京励智心理大数据产业研究院有限公司 基于lstm音像融合的情感识别方法、装置及存储介质
CN111753549A (zh) * 2020-05-22 2020-10-09 江苏大学 一种基于注意力机制的多模态情感特征学习、识别方法
WO2020258502A1 (zh) * 2019-06-25 2020-12-30 平安科技(深圳)有限公司 文本分析方法、装置、计算机装置及存储介质
CN112164459A (zh) * 2020-09-16 2021-01-01 同济大学 一种抑郁症状的信息评估方法
CN112489690A (zh) * 2020-12-23 2021-03-12 沈阳新松机器人自动化股份有限公司 语音情绪识别方法及系统
CN112581979A (zh) * 2020-12-10 2021-03-30 重庆邮电大学 一种基于语谱图的语音情绪识别方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019096149A1 (zh) * 2017-11-15 2019-05-23 中国科学院自动化研究所 基于记忆和注意力模型的听觉选择方法和装置
CN109614895A (zh) * 2018-10-29 2019-04-12 山东大学 一种基于attention特征融合的多模态情感识别的方法
CN110400579A (zh) * 2019-06-25 2019-11-01 华东理工大学 基于方向自注意力机制和双向长短时网络的语音情感识别
WO2020258502A1 (zh) * 2019-06-25 2020-12-30 平安科技(深圳)有限公司 文本分析方法、装置、计算机装置及存储介质
CN110826466A (zh) * 2019-10-31 2020-02-21 南京励智心理大数据产业研究院有限公司 基于lstm音像融合的情感识别方法、装置及存储介质
CN111753549A (zh) * 2020-05-22 2020-10-09 江苏大学 一种基于注意力机制的多模态情感特征学习、识别方法
CN112164459A (zh) * 2020-09-16 2021-01-01 同济大学 一种抑郁症状的信息评估方法
CN112581979A (zh) * 2020-12-10 2021-03-30 重庆邮电大学 一种基于语谱图的语音情绪识别方法
CN112489690A (zh) * 2020-12-23 2021-03-12 沈阳新松机器人自动化股份有限公司 语音情绪识别方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JIANGFENG ZENG ET AL.: "《Enhancing Attention-Based LSTM With Position Context for Aspect-Level Sentiment Classification》", 《IEEE ACCESS》, vol. 7 *
曾润华: "《基于卷积神经网络语音情感识别的研究与实现》", 《中国优秀硕士学位论文全文数据库 信息科技辑》, no. 05 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115831352A (zh) * 2022-12-05 2023-03-21 湖南工商大学 一种基于动态纹理特征和时间分片权重网络的检测方法
CN115831352B (zh) * 2022-12-05 2023-08-08 湖南工商大学 一种基于动态纹理特征和时间分片权重网络的检测方法

Similar Documents

Publication Publication Date Title
CN112581979B (zh) 一种基于语谱图的语音情绪识别方法
CN111951824A (zh) 一种基于声音判别抑郁症的检测方法
CN110070895B (zh) 一种基于监督变分编码器因素分解的混合声音事件检测方法
CN112820279B (zh) 基于语音上下文动态特征的帕金森检测模型构建方法
CN113674767A (zh) 一种基于多模态融合的抑郁状态识别方法
CN113012720A (zh) 谱减法降噪下多语音特征融合的抑郁症检测方法
Turan et al. Monitoring Infant's Emotional Cry in Domestic Environments Using the Capsule Network Architecture.
CN103761965A (zh) 一种乐器信号的分类方法
CN116842460A (zh) 基于注意力机制与残差神经网络的咳嗽关联疾病识别方法和系统
Lu et al. Speech depression recognition based on attentional residual network
CN114373452A (zh) 基于深度学习的嗓音异常识别和评价的方法及系统
da Silva et al. Evaluation of a sliding window mechanism as DataAugmentation over emotion detection on speech
CN113571050A (zh) 一种基于Attention与Bi-LSTM的语音抑郁状态识别方法
CN116580706B (zh) 一种基于人工智能的语音识别方法
CN112466284B (zh) 一种口罩语音鉴别方法
Radha et al. Automated detection and severity assessment of dysarthria using raw speech
CN109584861A (zh) 基于深度学习的阿尔茨海默症语音信号的筛查方法
CN114299995A (zh) 一种用于情绪评估的语言情感识别方法
Sheela et al. Linear discriminant analysis F-Ratio for optimization of TESPAR & MFCC features for speaker recognition.
Henríquez et al. Application of nonlinear dynamics characterization to emotional speech
Khan et al. Hybrid BiLSTM-HMM based event detection and classification system for food intake recognition
CN112259107A (zh) 一种会议场景小样本条件下的声纹识别方法
CN112259126B (zh) 一种自闭症语音特征辅助识别机器人及方法
Merzougui et al. Diagnosing Spasmodic Dysphonia with the Power of AI
Dentamaro et al. A benchmarking study of deep learning techniques applied for breath analysis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20211029