CN109243493A - 基于改进长短时记忆网络的婴儿哭声情感识别方法 - Google Patents

基于改进长短时记忆网络的婴儿哭声情感识别方法 Download PDF

Info

Publication number
CN109243493A
CN109243493A CN201811273025.3A CN201811273025A CN109243493A CN 109243493 A CN109243493 A CN 109243493A CN 201811273025 A CN201811273025 A CN 201811273025A CN 109243493 A CN109243493 A CN 109243493A
Authority
CN
China
Prior art keywords
term
short
vagitus
memory network
length
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811273025.3A
Other languages
English (en)
Other versions
CN109243493B (zh
Inventor
梁瑞宇
梁镇麟
谢跃
赵力
唐闺臣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Institute of Technology
Original Assignee
Nanjing Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Institute of Technology filed Critical Nanjing Institute of Technology
Priority to CN201811273025.3A priority Critical patent/CN109243493B/zh
Publication of CN109243493A publication Critical patent/CN109243493A/zh
Application granted granted Critical
Publication of CN109243493B publication Critical patent/CN109243493B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Child & Adolescent Psychology (AREA)
  • General Health & Medical Sciences (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychiatry (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于改进长短时记忆网络的婴儿哭声情感识别方法,将婴儿哭声数据集语音进行端点检测并分帧,提取该婴儿哭声数据集语音的时序相关特征,并针对不同长度的时序相关特征建立长短时记忆网络的处理算法;然后,将注意力机制结合时序的深度的策略引入长短时记忆网络的遗忘门,输入门上,实验结果显示,该方法不但能大量减少模型参数,而且在实录的婴儿情感数据库上体现出显著的识别性能,且识别效率高,具有良好的应用前景。

Description

基于改进长短时记忆网络的婴儿哭声情感识别方法
技术领域
本发明涉及情感识别技术领域,具体涉及一种基于改进长短时记忆网络的婴儿哭声情感识别方法。
背景技术
新生婴儿的啼哭是孩子的一种表达方式,父母及时了解自己宝宝的需求显得异常重要。婴儿出生后的最先几个月内获得的安全感将伴随今后生活,因此及时满足宝宝需求会让孩子更健康的成长。对于一个″呱呱″落地的婴儿来说,其表达情感需求信息的方式有限,基本上只能通过哭和笑来表达需求和心情。然而婴儿通常以笑的方式来表达当时的心情,其传达的信息比较简单明确,一般表示开心、愉悦等心理情感状态。因此,婴儿只能通过哭泣的方式来向父母或者监护人来表达自己的需求。
相对于婴儿的笑声来说,哭声相对比较复杂,哭声所传达的信息也是比较模糊的,比如饥饿、痛苦、困倦等,婴儿都可以依靠哭泣方式来向父母或监护人来表达自己的需求。但是,对于一个有经验的保姆来说分清婴儿哭声中所包含的需求尚很困难,更不用说初为人父的青年父母。面对以上种种难题,当前比较好的解决方案是采取人机结合的方式。通过对婴儿在不同需求下啼哭语音进行分析筛选出有效特征,并使用这些特征来进行相关模型的训练,然后将采集到的新的啼哭语音通过已训练好的分类模型来对哭声语音进行分类,从而达到智能识别的目的。通过这种方式,可以减轻父母照顾婴儿的压力,提高年轻父母的生活幸福指数,且还能提高婴儿的生活质量。
早在十九世纪中叶,达尔文就进行了婴儿啼哭的相关研究工作,他利用收集到的各种代表婴儿情绪的照片和图表,研究婴儿在不同生理状态和病理状态下所发出哭声的特点。进入21世纪,婴儿哭声相关的研究课题越来越受到相关研究人员的关注。这里列举部分研究工作:1)对婴儿哭声语音进行梅尔频率倒谱系数(Mel-Frequency CepstralCoefficients,MFCC)提取并将MFCC作为特征向量,然后使用隐马尔科夫模型进行类别的划分,最后对婴儿哭声语音进行识别,从而分辨出婴儿是否处于健康状态;2)通过图像与音频相结合的方式来共同确定婴儿哭声所表达的情感需求;3)将语谱图作为特征向量,选取卷积神经网络作为分类模型,应用于婴儿疼痛、饥饿及困倦等三种状态下的哭声分类;4)将支持向量机作为分类器对婴儿在饥饿、疼痛及困倦等三种状态下的哭声进行分类,得到不错的识别效果。上述工作推动了婴儿哭声情感的研究,但是,也存在一些值得深入研究的问题,具体如下:
(1)语音存在长短问题,如果对语音求固定长度的特征,必定会流失时序上的信息;
(2)从分类算法看,早期的分类算法效果对特征依赖较大,算法本身不具有特征学习能力。
(3)尚缺乏统一的、成熟的婴儿哭声情感需求信息识别的特征描述和分类方法,同时也缺少相应鲁棒性比较好的特征描述及识别算法。
因此,如何克服上述问题,是当前急需解决的问题。
发明内容
本发明的目的是克服现有的婴儿哭声情感识别方法中存在的语音长短不一,以及分类算法效率低等问题。本发明的基于改进长短时记忆网络的婴儿哭声情感识别方法,将婴儿哭声数据集语音进行端点检测并分帧,提取该婴儿哭声数据集语音的时序相关特征,并针对不同长度的时序相关特征建立长短时记忆网络的处理算法;然后,将注意力机制结合时序的深度的策略引入长短时记忆网络的遗忘门,输入门上,实验结果显示,该方法不但能大量减少模型参数,而且在实录的婴儿情感数据库上体现出显著的识别性能,且识别效率高,具有良好的应用前景。
为了达到上述目的,本发明所采用的技术方案是:
一种基于改进长短时记忆网络的婴儿哭声情感识别方法,包括以下步骤,
步骤(A),将婴儿哭声数据集语音进行端点检测并分帧,提取该婴儿哭声数据集语音的时序相关特征;
步骤(B),将长度不同的时序相关特征补零到固定长度,形成该数据集语音的时序相关特征测试集;
步骤(C),计算长短时记忆网络的注意力门以及深度注意力门;
步骤(D),用深度注意力门替换长短时记忆网络的输入门和遗忘门,形成改进长短时记忆网络;
步骤(E),通过训练集训练该改进长短时记忆网络,每间隔训练十步,并将时序相关特征测试集输入训练好的改进长短时记忆网络进行婴儿哭声情感评测,得到此刻婴儿哭声数据集分类的情感以及识别率。
前述的基于改进长短时记忆网络的婴儿哭声情感识别方法,步骤(A),将婴儿哭声数据集语音进行端点检测并分帧,提取该婴儿哭声数据集语音的时序相关特征,包括以下步骤,
(A1),将婴儿哭声数据集语音进行端点检测,用于消除静默段保证从有效的语音信息提取时序相关特征;
(A2),将端点检测后的婴儿哭声数据集语音按照每40ms一帧进行分帧,划分为多组帧数据;
(A3),将每组多组帧数据均提取93维的时序相关特征。
前述的基于改进长短时记忆网络的婴儿哭声情感识别方法,(A3),所述93维的时序相关特征,包括声音概率、谐噪比、基频、无声段的基频原始值、基频包络、连续周期之间的平均绝对差、连续周期之间的连续差的平均绝对差值、连续周期内插值峰值振幅的平均绝对差、谐波分量的均方根能量、噪声的均方根能量、响度、响度增量回归系数、15个美尔倒谱系数MFCC,15个MFCC的增量回归系数、26个美尔谱,8个对数美尔频段,8个线性预测编码系数、8个线谱对频率、过零率。
前述的基于改进长短时记忆网络的婴儿哭声情感识别方法,步骤(B),将长度不同的时序相关特征补零到固定长度为先将所有不等长时序相关特征结尾处补零,使所有时序相关特征长度达到与数据集中的最长时序相关特征等长,补长后的时序相关特征的实际有效长度通过其的绝对值求和并判断是否为零来获得。
前述的基于改进长短时记忆网络的婴儿哭声情感识别方法,步骤(C),计算长短时记忆网络的注意力门以及深度注意力门,其中注意力门attnt,如公式(1)所示,
其中,σ(x)为sigmod函数,Va和Wa为对上一时刻的细胞状态来计算注意力门的可训练的矩阵,Ct-1为上一刻的细胞状态;
由于不仅要关注上一时刻信息的深度length=1,还考虑t-2,t-3,…,t-n时刻,即深度length=n的细胞状态的信息,从而提出深度注意力门如公式(2)所示,
其中,Va和Wa分别为对之前某一时刻的细胞状态来计算注意力门的共享参数的可训练矩阵。
前述的基于改进长短时记忆网络的婴儿哭声情感识别方法,步骤(D),用深度注意力门替换长短时记忆网络的输入门和遗忘门,形成改进长短时记忆网络,该改进长短时记忆网络的细胞状态,如公式(3)所示,
其中,Ct为改进长短时记忆网络在t时刻的细胞状态、代表对应着当前时刻的前i个时刻的细胞状态的对齐向量。
本发明的有益效果是:本发明的基于改进长短时记忆网络的婴儿哭声情感识别方法,将婴儿哭声数据集语音进行端点检测并分帧,提取该婴儿哭声数据集语音的时序相关特征,并针对不同长度的时序相关特征建立长短时记忆网络的处理算法;然后,将注意力机制结合时序的深度的策略引入长短时记忆网络的遗忘门,输入门上,实验结果显示,该方法不但能大量减少模型参数,而且在实录的婴儿情感数据库上体现出显著的识别性能,且识别效率高,具有良好的应用前景,并具有以下优点,
(1)采用改进长短时记忆网络来实现婴儿哭声情感识别方法,提取具有时序特点的特征并做等长处理,克服传统方法语音样本不等长问题;
(2)将注意力机制结合时序的深度引入长短时记忆网络的遗忘门和输出门,提升了情感识别性能和效率。
附图说明
图1是本发明的基于多重注意力机制长短时记忆网络的儿童情感识别方法的流程图;
图2是本发明与其他算法训练过程中训练集和测试集的准确率变化曲线图;
图3是图2变化曲线收敛后的算法性能的箱型图。
具体实施方式
下面将结合说明书附图,对本发明作进一步的说明。
如图1所示,本发明的基于改进长短时记忆网络的婴儿哭声情感识别方法,包括以下步骤,
步骤(A),将婴儿哭声数据集语音进行端点检测并分帧,提取该婴儿哭声数据集语音的时序相关特征,包括以下步骤,
(A1),将婴儿哭声数据集语音进行端点检测,用于消除静默段保证从有效的语音信息提取时序相关特征;
(A2),将端点检测后的婴儿哭声数据集语音按照每40ms一帧进行分帧,划分为多组帧数据;
(A3),将每组多组帧数据均提取93维的时序相关特征,所述93维的时序相关特征,包括声音概率、谐噪比、基频、无声段的基频原始值、基频包络、连续周期之间的平均绝对差、连续周期之间的连续差的平均绝对差值、连续周期内插值峰值振幅的平均绝对差、谐波分量的均方根能量、噪声的均方根能量、响度、响度增量回归系数、15个美尔倒谱系数MFCC,15个MFCC的增量回归系数、26个美尔谱,8个对数美尔频段,8个线性预测编码系数、8个线谱对频率、过零率,该93维的时序相关特征能够完整且准确的表示出每帧测试集语音帧数据的基本特征。
步骤(B),将长度不同的时序相关特征补零到固定长度,形成该数据集语音的时序相关特征测试集,先将所有不等长时序相关特征结尾处补零,使所有时序相关特征长度达到与数据集中的最长时序相关特征等长,补长后的时序相关特征的实际有效长度通过其的绝对值求和并判断是否为零来获得,并在长短时记忆网络中去根据实际长度决定是否计算下一个时刻信息;
步骤(C),计算长短时记忆网络(LSTM)的注意力门以及深度注意力门,其中注意力门attnt,如公式(1)所示,
其中,σ(x)为sigmod函数,Va和Wa分别为对上一时刻的细胞状态来计算注意力门的可训练的矩阵,Ct-1为上一刻的细胞状态,
由于不仅要关注上一时刻信息的深度length=1,还考虑t-2,t-3,…,t-n时刻,即深度length=n的细胞状态的信息,从而提出深度注意力门如公式(2)所示,
其中,Va和Wa分别为对之前某一时刻的细胞状态来计算注意力门的共享参数的可训练的矩阵;
步骤(D),用深度注意力门替换长短时记忆网络的输入门和遗忘门,形成改进长短时记忆网络,我们知道长短时记忆网络的关键就是细胞状态,有通过精心设计的称作为″门″的结构来去除或者增加信息到细胞状态的能力,算法通过考虑对每一刻的细胞状态做自注意力,并对细胞状态不需要注意的部分加入输入的信息,从而用注意力门替换了遗忘门和输入门,该改进长短时记忆网络的细胞状态,如公式(3)所示,
其中,Ct为改进长短时记忆网络在t时刻的细胞状态、代表对应着当前时刻的前i个时刻的细胞状态的对齐向量;
步骤(E),通过训练集训练该改进长短时记忆网络,每间隔训练十步,并将将最后一个时刻的输出作为全连接层的输入,为了避免过拟合,需要在训练时刻加入dropout层,来随机的遗忘部分信息,最后,为了对标签进行预测,我们需要将dropout的输出通过一个softmax层,来计算该样本属于每一个类别的概率,并将概率最大的类别判定为该样本所属的类别,从而实现将时序相关特征测试集输入训练好的改进长短时记忆网络进行婴儿哭声情感评测,得到该婴儿哭声数据集语音对应的情感。
根据本发明的基于改进长短时记忆网络的婴儿哭声情感识别方法,如图2-3所示,介绍一下识别效果:
实验均采用单向两层LSTM堆叠结构,并使用了一个全连接层和一个softmax层作为训练模型,训练过程中,采用tanh作为激活函数,采用小批量梯度下降法,批量为64,对800个训练样本总共训练了1500个epochs,每次训练10个batch。通过对测试集打印一次测试的结果以验证模型的效果。为了保证对比有效性,以下实验的所有参数均完全相同(除了第一层全连接层,因为输入的维度不一样,但输出的维度是相同的)。参数设置如表1所示。
表1网络参数
Parameters Values
Eta 0.001
Adam Beta1,2 0.7,0.7
Batch size 64
Epochs 1500
N inputs 93
Lstm cells [512,256],单向
Dense layers [128,5]
L2 0.0001
Train samples 800
Test samples 200
实验比较的模型包括传统LSTM以及深度分别为1,2和3的LSTM+deepf_1,LSTM+deepf_2,LSTM+deepf_3模型。
其中,图2为训练过程中训练集和测试集的准确率变化曲线,图3为变化曲线收敛后的算法性能的箱型图,
从图2的准确率变化曲线可知,提出的LSTM+deepf不管在什么深度下,在训练集和测试集上收敛速度和识别效果均高于传统LSTM,而且LSTM+deepf_2和LSTM+deepf_3性能均优于LSTM+deepf_1。
从图3的箱型图来看,传统LSTM模型有8个异常值,LSTM+deepf_1有两个,LSTM+deepf_2有5个,而LSTM+deepf_3没有异常值。对比模型收敛后的识别率三项指标,LSTM+deepf_3模型、LSTM+deepf_2模型和LSTM+deepf_1模型的三项指标分别为(0.920,0.815,0.869),(0.920,0.810,0.868)和(0.915,0.805,0.859)。相比较LSTM模型的相同指标(0.870,0.745,0.805)均有提升,而且随着深度的增加,性能也在逐渐增加。
由上述实验所示,采用自注意力门可以大幅度提高LSTM的识别率,且加深自注意力门的深度,也可以提高浅自注意力门的识别率。
综上所述,本发明的基于改进长短时记忆网络的婴儿哭声情感识别方法,将婴儿哭声数据集语音进行端点检测并分帧,提取该婴儿哭声数据集语音的时序相关特征,并针对不同长度的时序相关特征建立长短时记忆网络的处理算法;然后,将注意力机制结合时序的深度的策略引入长短时记忆网络的遗忘门,输入门上,实验结果显示,该方法不但能大量减少模型参数,而且在实录的婴儿情感数据库上体现出显著的识别性能,且识别效率高,具有良好的应用前景,并具有以下优点,
(1)采用改进长短时记忆网络来实现婴儿哭声情感识别方法,提取具有时序特点的特征并做等长处理,克服传统方法语音样本不等长问题;
(2)将注意力机制结合时序的深度引入长短时记忆网络的遗忘门和输出门,提升了情感识别性能和效率。
以上显示和描述了本发明的基本原理、主要特征及优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims (6)

1.基于改进长短时记忆网络的婴儿哭声情感识别方法,其特征在于:包括以下步骤,
步骤(A),将婴儿哭声数据集语音进行端点检测并分帧,提取该婴儿哭声数据集语音的时序相关特征;
步骤(B),将长度不同的时序相关特征补零到固定长度,形成该数据集语音的时序相关特征测试集;
步骤(C),计算长短时记忆网络的注意力门以及深度注意力门;
步骤(D),用深度注意力门替换长短时记忆网络的输入门和遗忘门,形成改进长短时记忆网络;
步骤(E),通过训练集训练该改进长短时记忆网络,每间隔训练十步,
并将时序相关特征测试集输入训练好的改进长短时记忆网络进行婴儿哭声情感评测,得到此刻婴儿哭声数据集分类的情感以及识别率。
2.根据权利要求1所述的基于改进长短时记忆网络的婴儿哭声情感识别方法,其特征在于:步骤(A),将婴儿哭声数据集语音进行端点检测并分帧,提取该婴儿哭声数据集语音的时序相关特征,包括以下步骤,
(A1),将婴儿哭声数据集语音进行端点检测,用于消除静默段保证从有效的语音信息提取时序相关特征;
(A2),将端点检测后的婴儿哭声数据集语音按照每40ms一帧进行分帧,划分为多组帧数据;
(A3),将每组多组帧数据均提取93维的时序相关特征。
3.根据权利要求2所述的基于改进长短时记忆网络的婴儿哭声情感识别方法,其特征在于:(A3),所述93维的时序相关特征,包括声音概率、谐噪比、基频、无声段的基频原始值、基频包络、连续周期之间的平均绝对差、连续周期之间的连续差的平均绝对差值、连续周期内插值峰值振幅的平均绝对差、谐波分量的均方根能量、噪声的均方根能量、响度、响度增量回归系数、15个美尔倒谱系数MFCC,15个MFCC的增量回归系数、26个美尔谱,8个对数美尔频段,8个线性预测编码系数、8个线谱对频率、过零率。
4.根据权利要求1所述的基于改进长短时记忆网络的婴儿哭声情感识别方法,其特征在于:步骤(B),将长度不同的时序相关特征补零到固定长度为先将所有不等长时序相关特征结尾处补零,使所有时序相关特征长度达到与数据集中的最长时序相关特征等长,补长后的时序相关特征的实际有效长度通过其的绝对值求和并判断是否为零来获得。
5.根据权利要求1所述的基于改进长短时记忆网络的婴儿哭声情感识别方法,其特征在于:步骤(C),计算长短时记忆网络的注意力门以及深度注意力门,其中注意力门attnt,如公式(1)所示,
其中,σ(x)为sigmod函数,Va和Wa为对上一时刻的细胞状态来计算注意力门的可训练的矩阵,Ct-1为上一刻的细胞状态;
由于不仅要关注上一时刻信息的深度length=1,还考虑t-2,t-3,…,t-n时刻,即深度length=n的细胞状态的信息,从而提出深度注意力门如公式(2)所示,
其中,Va和Wa分别为对之前某一时刻的细胞状态来计算注意力门的共享参数的可训练矩阵。
6.根据权利要求1所述的基于改进长短时记忆网络的婴儿哭声情感识别方法,其特征在于:步骤(D),用深度注意力门替换长短时记忆网络的输入门和遗忘门,形成改进长短时记忆网络,该改进长短时记忆网络的细胞状态,如公式(3)所示,
其中,Ct为改进长短时记忆网络在t时刻的细胞状态、代表对应着当前时刻的前i个时刻的细胞状态的对齐向量。
CN201811273025.3A 2018-10-30 2018-10-30 基于改进长短时记忆网络的婴儿哭声情感识别方法 Active CN109243493B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811273025.3A CN109243493B (zh) 2018-10-30 2018-10-30 基于改进长短时记忆网络的婴儿哭声情感识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811273025.3A CN109243493B (zh) 2018-10-30 2018-10-30 基于改进长短时记忆网络的婴儿哭声情感识别方法

Publications (2)

Publication Number Publication Date
CN109243493A true CN109243493A (zh) 2019-01-18
CN109243493B CN109243493B (zh) 2022-09-16

Family

ID=65079022

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811273025.3A Active CN109243493B (zh) 2018-10-30 2018-10-30 基于改进长短时记忆网络的婴儿哭声情感识别方法

Country Status (1)

Country Link
CN (1) CN109243493B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109817246A (zh) * 2019-02-27 2019-05-28 平安科技(深圳)有限公司 情感识别模型的训练方法、情感识别方法、装置、设备及存储介质
CN110070893A (zh) * 2019-03-25 2019-07-30 成都品果科技有限公司 一种利用婴儿哭声进行情感分析的系统、方法和装置
CN110321827A (zh) * 2019-06-27 2019-10-11 嘉兴深拓科技有限公司 一种基于人脸疼痛表情视频的疼痛水平评估方法
CN110400579A (zh) * 2019-06-25 2019-11-01 华东理工大学 基于方向自注意力机制和双向长短时网络的语音情感识别
CN111326179A (zh) * 2020-02-27 2020-06-23 杭州雄迈集成电路技术股份有限公司 一种婴儿哭声检测深度学习方法
CN112349301A (zh) * 2019-08-06 2021-02-09 本田技研工业株式会社 信息处理装置、信息处理方法以及记录介质
CN113053417A (zh) * 2021-03-29 2021-06-29 济南大学 带噪语音情感识别方法、系统、设备及存储介质
EP3940698A1 (en) 2020-07-13 2022-01-19 Zoundream AG A computer-implemented method of providing data for an automated baby cry assessment
CN116386661A (zh) * 2023-06-05 2023-07-04 成都启英泰伦科技有限公司 一种基于双注意力和数据增强的哭声检测模型训练方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104700828A (zh) * 2015-03-19 2015-06-10 清华大学 基于选择性注意原理的深度长短期记忆循环神经网络声学模型的构建方法
CN106782602A (zh) * 2016-12-01 2017-05-31 南京邮电大学 基于长短时间记忆网络和卷积神经网络的语音情感识别方法
CN107316654A (zh) * 2017-07-24 2017-11-03 湖南大学 基于dis‑nv特征的情感识别方法
CN107368613A (zh) * 2017-09-05 2017-11-21 中国科学院自动化研究所 短文本情感分析方法及装置
WO2018053835A1 (en) * 2016-09-26 2018-03-29 Intel Corporation Method and apparatus for reducing parameter density of deep neural network (dnn)
CN108460455A (zh) * 2018-02-01 2018-08-28 成都小多科技有限公司 模型处理方法及装置
CN108520753A (zh) * 2018-02-26 2018-09-11 南京工程学院 基于卷积双向长短时记忆网络的语音测谎方法
CN108597541A (zh) * 2018-04-28 2018-09-28 南京师范大学 一种增强愤怒与开心识别的语音情感识别方法及系统
CN108701453A (zh) * 2016-03-04 2018-10-23 微软技术许可有限责任公司 模块化深度学习模型
US10108902B1 (en) * 2017-09-18 2018-10-23 CS Disco, Inc. Methods and apparatus for asynchronous and interactive machine learning using attention selection techniques

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104700828A (zh) * 2015-03-19 2015-06-10 清华大学 基于选择性注意原理的深度长短期记忆循环神经网络声学模型的构建方法
CN108701453A (zh) * 2016-03-04 2018-10-23 微软技术许可有限责任公司 模块化深度学习模型
WO2018053835A1 (en) * 2016-09-26 2018-03-29 Intel Corporation Method and apparatus for reducing parameter density of deep neural network (dnn)
CN106782602A (zh) * 2016-12-01 2017-05-31 南京邮电大学 基于长短时间记忆网络和卷积神经网络的语音情感识别方法
CN107316654A (zh) * 2017-07-24 2017-11-03 湖南大学 基于dis‑nv特征的情感识别方法
CN107368613A (zh) * 2017-09-05 2017-11-21 中国科学院自动化研究所 短文本情感分析方法及装置
US10108902B1 (en) * 2017-09-18 2018-10-23 CS Disco, Inc. Methods and apparatus for asynchronous and interactive machine learning using attention selection techniques
CN108460455A (zh) * 2018-02-01 2018-08-28 成都小多科技有限公司 模型处理方法及装置
CN108520753A (zh) * 2018-02-26 2018-09-11 南京工程学院 基于卷积双向长短时记忆网络的语音测谎方法
CN108597541A (zh) * 2018-04-28 2018-09-28 南京师范大学 一种增强愤怒与开心识别的语音情感识别方法及系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
LI WEI,MAK B: "Derivation of document vectors from adaptation of LSTM language model", 《PROCEEDINGS OF THE 15TH CONFERENCE OF THE EUROPEAN CHAPTER OF THE ASSOCIATION FOR COMPUTATIONAL LINGUISTICS》 *
TZIRAKIS P,TRIGEORGIS G,NICOLAOU M A,ET AL.: "End-to-end multimodal emotion recognition using deep neural networks", 《IEEE JOURNAL OF SELECTED TOPICS IN SIGNAL PROCESSING》 *
龙星延等: "采用最少门单元结构的改进注意力声学模型", 《信号处理》 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109817246A (zh) * 2019-02-27 2019-05-28 平安科技(深圳)有限公司 情感识别模型的训练方法、情感识别方法、装置、设备及存储介质
CN109817246B (zh) * 2019-02-27 2023-04-18 平安科技(深圳)有限公司 情感识别模型的训练方法、情感识别方法、装置、设备及存储介质
CN110070893A (zh) * 2019-03-25 2019-07-30 成都品果科技有限公司 一种利用婴儿哭声进行情感分析的系统、方法和装置
CN110400579A (zh) * 2019-06-25 2019-11-01 华东理工大学 基于方向自注意力机制和双向长短时网络的语音情感识别
CN110321827A (zh) * 2019-06-27 2019-10-11 嘉兴深拓科技有限公司 一种基于人脸疼痛表情视频的疼痛水平评估方法
CN112349301A (zh) * 2019-08-06 2021-02-09 本田技研工业株式会社 信息处理装置、信息处理方法以及记录介质
CN111326179A (zh) * 2020-02-27 2020-06-23 杭州雄迈集成电路技术股份有限公司 一种婴儿哭声检测深度学习方法
CN111326179B (zh) * 2020-02-27 2023-05-26 杭州雄迈集成电路技术股份有限公司 一种婴儿哭声检测深度学习方法
EP3940698A1 (en) 2020-07-13 2022-01-19 Zoundream AG A computer-implemented method of providing data for an automated baby cry assessment
WO2022012777A1 (en) 2020-07-13 2022-01-20 Zoundream Ag A computer-implemented method of providing data for an automated baby cry assessment
CN113053417A (zh) * 2021-03-29 2021-06-29 济南大学 带噪语音情感识别方法、系统、设备及存储介质
CN116386661A (zh) * 2023-06-05 2023-07-04 成都启英泰伦科技有限公司 一种基于双注意力和数据增强的哭声检测模型训练方法
CN116386661B (zh) * 2023-06-05 2023-08-08 成都启英泰伦科技有限公司 一种基于双注意力和数据增强的哭声检测模型训练方法

Also Published As

Publication number Publication date
CN109243493B (zh) 2022-09-16

Similar Documents

Publication Publication Date Title
CN109243493A (zh) 基于改进长短时记忆网络的婴儿哭声情感识别方法
CN109243494B (zh) 基于多重注意力机制长短时记忆网络的儿童情感识别方法
CN110516696B (zh) 一种基于语音和表情的自适应权重双模态融合情感识别方法
CN110956953B (zh) 基于音频分析与深度学习的争吵识别方法
CN110491416A (zh) 一种基于lstm和sae的电话语音情感分析与识别方法
CN110070895B (zh) 一种基于监督变分编码器因素分解的混合声音事件检测方法
CN106504772B (zh) 基于重要性权重支持向量机分类器的语音情感识别方法
CN106297825A (zh) 一种基于集成深度信念网络的语音情感识别方法
CN112581979A (zh) 一种基于语谱图的语音情绪识别方法
CN112820279B (zh) 基于语音上下文动态特征的帕金森检测模型构建方法
CN115530847A (zh) 一种基于多尺度注意力的脑电信号自动睡眠分期方法
Yan et al. Speech interactive emotion recognition system based on random forest
Ling An acoustic model for English speech recognition based on deep learning
Kodrasi Temporal envelope and fine structure cues for dysarthric speech detection using CNNs
Hou et al. Intelligent model for speech recognition based on svm: a case study on English language
CN114403878B (zh) 一种基于深度学习的语音检测疲劳度方法
Aggarwal et al. Application of genetically optimized neural networks for hindi speech recognition system
CN114847968A (zh) 一种基于长短期记忆网络的脑电信号睡眠分期方法
Fu et al. A study on influence of gender on speech emotion classification
Zeng et al. Multi-feature fusion speech emotion recognition based on SVM
CN113643725A (zh) 一种基于动态卷积神经网络及脉冲神经网络的语音情感识别模型
Mızrak et al. Gender Detection by Acoustic Characteristics of Sound with Machine Learning Algorithms
Jun et al. Speech signals identification base on improved DBN
CN112562645B (zh) 一种基于自编码网络联合学习的语音测谎方法
CN116312484B (zh) 跨语言域不变声学特征提取方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant