CN110400579B - 基于方向自注意力机制和双向长短时网络的语音情感识别 - Google Patents

基于方向自注意力机制和双向长短时网络的语音情感识别 Download PDF

Info

Publication number
CN110400579B
CN110400579B CN201910555688.2A CN201910555688A CN110400579B CN 110400579 B CN110400579 B CN 110400579B CN 201910555688 A CN201910555688 A CN 201910555688A CN 110400579 B CN110400579 B CN 110400579B
Authority
CN
China
Prior art keywords
self
output
attention
network
attention mechanism
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910555688.2A
Other languages
English (en)
Other versions
CN110400579A (zh
Inventor
李冬冬
王喆
孙琳煜
方仲礼
杜文莉
张静
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
East China University of Science and Technology
Original Assignee
East China University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by East China University of Science and Technology filed Critical East China University of Science and Technology
Priority to CN201910555688.2A priority Critical patent/CN110400579B/zh
Publication of CN110400579A publication Critical patent/CN110400579A/zh
Application granted granted Critical
Publication of CN110400579B publication Critical patent/CN110400579B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Child & Adolescent Psychology (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychiatry (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种基于方向自注意力机制的双向长短时网络的语音情感识别系统,包括如下步骤:先对原始的音频信号提取声学特征,再输入到正反向长短时记忆网络中,输出正反向特征;然后通过自注意力机制操作得到正反向自注意力加权后的输出;对所得到的正反向自注意力加权后的输出分别做均值池化和拼接,并输入到softmax层,将所得到的softmax层的输出和类标一起输入到交叉熵损失函数中,通过验证集选出最适合的网络,最后将测试集的数据放入到训练好的网络中得到最后的情感类别。本发明把自注意力机制引入到循环神经网络中,能够更加容易发现句子内部信号的相关性,并对自注意力机制加入了方向机制,解决了因为信息的缺乏导致分类性能下降的问题。

Description

基于方向自注意力机制和双向长短时网络的语音情感识别
技术领域
本发明涉及语音情感识别技术领域,具体地说,本发明涉及一种基于方向自注意力机制和双向长短时网络的语音情感识别系统。
背景技术
近年来,人机交互引起了越来越多数据科学家的兴趣。为了让人与机器之间的交流更加自然,其目标主要有两个方面:一是让机器理解人类说话的意思,二是让机器识别出人类说话时的情绪。如今计算机可以理解人类说话的意思,但是让机器识别出语音中的情绪却有较大的挑战。
在早期的时候,研究者们通过提取语音信号特征,再利用机器学习分类器对其进行分类。在21世纪初,研究者们利用高斯混合模型或者隐马尔可夫模型来进行分类,之后由于支持向量机的优秀表现,研究者们将分类器替换成了支持向量机,而目前该算法经常作为语音情感识别领域的基线算法。紧接着,由于神经网络的发展,研究者们发现通过神经网络提取高层次特征,再放入别的分类器中(诸如支持向量机和高斯混合模型等等)能够取得不错的效果。
尽管近年来人们利用深度学习技术来分析语音中的情绪变化并取得了不错的效果,但是一般的方法并不能很好地区分语音中的浊音帧和清音帧。而目前处理这种问题的方法主要分为两大类:第一类是手动去除清音帧,第二类是利用算法自适应地学习出哪些是清音帧,哪些是浊音帧。第一类方法通常是根据 pitch来识别,但是这种方法费时费力,并且会较大程度地破坏语音数据的时序性,所以该方法虽然可用,但是有一定的缺陷。第二类方法是利用某种自适应的方法来对清音帧赋予较低的权重,常用的方法包括注意力机制和CTC loss方法。由于CTC loss方法是分配离散权重,其会将非发声段的权重强制地归为0或者将发声段的权重强制地归为1,但是人类情绪的表达往往是循序渐进的,所以对其分配连续权重才是正确可取的方法,而注意力机制恰恰可以很好地做到这一点。
本发明和传统的注意力机制不同,传统的注意力机制只是对时间维度上的数据作softmax变换,得到时序上的权重,这种方法虽然有一定的效果,但是并不能很好地利用信号数据。而本发明所采用的自注意力机制是通过数据自身和自身之间的相似度做softmax变换得到的,其权重矩阵是通过信号之间的内部信息所得到的,能够更加有效地利用句子内部信息。
发明内容
技术问题:本发明所要解决的技术问题是提供一种能够分析语音信号情绪的算法,通过在双向长短时网络后加入自注意力机制来发现信号内部的相关性,进而控制每个时序帧的重要程度。自注意力机制能够降低对分类性能不利的时序帧的影响,并且让网络更加关注对分类性能帮助较大的时序帧,进而提高分类器在语音情感数据集上的分类精度。
技术方案:首先,将原始数据分为训练集、验证集和测试集。由于语音数据的时序性,本发明通过双向长短时记忆网络对语音特征训练集数据进行解码,再对解码后两个方向的数据用自注意力机制方法对每一个时序进行加权,最后把加权输出的结果和真实的类标放入到交叉熵损失函数中。通过训练集获得模型权重后,用验证集对模型进行参数选择得到性能最好的模型,然后把测试集放入到所得到的最好的模型中进行测试,获得模型的分类性能。
本发明所采用的技术方案可以进一步细化。所述自注意力机制被定义为自身与自身做相似性度量,并通过该相似性度量得到每一时刻的权重结果。首先将双向长短时记忆网络输出的特征分别放入三个一维卷积中,得到三个不同的特征映射矩阵
Figure RE-GDA0002177176580000021
并对所得Q,K,V的最后一个维度D进行分割得到三个四维矩阵
Figure RE-GDA0002177176580000022
然后对所得到的Q′矩阵和K′矩阵做乘法运算并将所得的运算结果做softmax层变换得到权重矩阵W,最后把所得的权重矩阵W和另一个四维矩阵V′做点积,得到自注意力加权后的输出O,用公式定义为:
Figure RE-GDA0002177176580000031
O=W*V′
合并所得输出O的第三维得到三维数据O′,正向自注意力加权后的输出定义为
Figure RE-GDA0002177176580000032
反向自注意力加权后的输出定义为
Figure RE-GDA0002177176580000033
对所得到的正向自注意力加权后的输出
Figure RE-GDA0002177176580000034
和反向自注意力加权后的输出
Figure RE-GDA0002177176580000035
分别做均值池化操作得到
Figure RE-GDA0002177176580000036
Figure RE-GDA0002177176580000037
并将所得到的
Figure RE-GDA0002177176580000038
Figure RE-GDA0002177176580000039
进行拼接,输出拼接后的
Figure RE-GDA00021771765800000310
将所输出的拼接后的
Figure RE-GDA00021771765800000311
输入到softmax层中得到softmax层的输出,将所得到的 softmax层的输出和类标一起输入到交叉熵损失函数中,通过反向传播算法调整整个网络结构。
有益效果:本发明与现有的技术相比,具有以下优点:
本发明的基于方向自注意力机制的双向长短时网络的语音情感识别系统,将自注意力机制引入到双向长短时网络中,通过注意力机制赋予语音时序帧的权重,而不需要手动删除无用的帧。本发明利用自注意力机制能够发现句子内部信号相关性的特点,其更加关注浊音帧,还能减弱对分类不利的清音帧的影响。此外,从不同方向来分析语音数据会进一步增加网络的鲁棒性,所以本发明的语音情感识别系统对自注意力机制加入了方向机制,通过解析LSTM正向和反向的高层次特征,解决了因为信息缺乏而导致的分类性能下降的问题。实验证明本发明的语音情感识别系统有着较为理想的分类性能。
附图说明
图1是本发明应用在语音情感识别领域的整体框架图;
图2是各类算法在IEMOCAP即兴表演数据集的混淆矩阵
具体实施方式
为了更清楚地描述本发明的内容,下面结合附图和具体实施例进行详细说明。本发明的基于方向自注意力机制的双向长短时网络(BLSTM-DSA)的语音情感识别系统,包括如下步骤:
步骤1:对原始的音频信号样本提取声学特征,声学特征包括韵律学特征:过零率和能量,谱相关特征:梅尔频率倒谱系数、频谱滚降点、频谱流量、频谱中心、频谱熵、频谱扩展度、色度特征以及色度特征标准差,用opensmile工具箱来提取这些声学特征,得到提取特征后的语音训练集数据;
步骤2:将所得到的提取特征后的语音训练集数据输入到正向长短时记忆网络和反向长短时记忆网络中,输入的训练语音数据定义为
Figure RE-GDA0002177176580000041
Figure RE-GDA0002177176580000042
其中N是训练样本的数量,yi=0代表该样本为生气类,yi=1代表该样本为高兴类,yi=2代表该样本为中性类,yi=3代表该样本为伤心类。长短时记忆网络的公式定义如下:
Figure RE-GDA0002177176580000043
Figure RE-GDA0002177176580000044
Figure RE-GDA0002177176580000045
Figure RE-GDA0002177176580000046
Figure RE-GDA0002177176580000047
其中σ(·)代表sigmoid函数,它的输出区间是(0,1)。因为sigmoid函数输出区间的特殊性(类似于概率),所以它常常被看作是最接近正态分布的表现形式。 Wi,Wf,Wc,Wo是输入到状态(Input to State)可学习的权重矩阵,Ui,Uf,Uc,Uo是状态到状态(State toState)可学习矩阵,Vi,Vf,Vo是被称作窥视孔连接(Peephole Connections)的可学习矩阵,
Figure RE-GDA0002177176580000048
是第l层在时间步长t上的神经元。
Figure RE-GDA0002177176580000049
是输入门,它表示在当前时刻应该为候选的过去状态保存多少信息;
Figure RE-GDA00021771765800000410
是遗忘门,它表示在前一时间步的内部状态
Figure RE-GDA00021771765800000411
中应该遗忘多少信息;
Figure RE-GDA00021771765800000412
是输出门,它控制当前时刻内部状态
Figure RE-GDA00021771765800000413
必须输出多少信息到外部状态
Figure RE-GDA00021771765800000414
为了区别正向和反向输出,将最后一层正向特征输出定义为
Figure RE-GDA00021771765800000415
反向特征输出定义为
Figure RE-GDA00021771765800000416
步骤3:将所输出的正向特征
Figure RE-GDA00021771765800000417
和反向特征
Figure RE-GDA00021771765800000418
分别做三次一维卷积,得到卷积后的输出
Figure RE-GDA00021771765800000419
其中正向的三维特征映射矩阵定义为
Figure RE-GDA00021771765800000420
反向的三维特征映射矩阵定义为
Figure RE-GDA00021771765800000421
Figure RE-GDA00021771765800000422
一维卷积操作比较适合分析语音数据,能够较好地利用语音数据的时序性,并且相比于其它算法,一维卷积在速度上占有一定的优势,而做三次卷积操作就是为了方便后续自注意力机制对自身进行分析。然后对Q,K,V的最后一个维度进行分割得到三个四维的特征矩阵,我们将这三个四维矩阵定义为
Figure RE-GDA0002177176580000051
其中第三维i的大小为
Figure RE-GDA0002177176580000052
对所得到的Q′,K′,V′做Scaled Dot-Product Attention运算,用公式定义为:
Figure RE-GDA0002177176580000053
O=W*V′ (7)
最后合并所得输出O的第三维得到三维数据O′,正向自注意力加权后的输出定义为
Figure RE-GDA0002177176580000054
反向自注意力加权后的输出定义为
Figure RE-GDA0002177176580000055
对所得到的正向自注意力加权后的输出
Figure RE-GDA0002177176580000056
和反向自注意力加权后的输出
Figure RE-GDA0002177176580000057
分别做均值池化操作得到
Figure RE-GDA0002177176580000058
Figure RE-GDA0002177176580000059
并将所得到的
Figure RE-GDA00021771765800000510
Figure RE-GDA00021771765800000511
进行拼接,该操作过程表示为:
Figure RE-GDA00021771765800000512
Figure RE-GDA00021771765800000513
Figure RE-GDA00021771765800000514
将所得的拼接后的结果S输入到softmax层中,然后将softmax层的输出和类标一起输入到交叉熵损失函数中,通过反向传播算法调整整个网络结构。交叉熵损失函数定义为:
Figure RE-GDA00021771765800000515
其中H为类别数,N为样本个数。
实验设计
实验数据集选取:本文使用了目前最流行的情感数据库(Interactive EmotionalDyadic Motion Capture,IEMOCAP)。IEMOCAP数据库是由美国南加州大学工程学院录制的,总共包括5个会话的视听记录,即音频、视频及动作捕捉数据,其总时长达到了12小时。每一个会话由一名男演员和女演员进行对话表演,并且表演分为剧本表演和即兴表演两种。根据统计,该数据库由10039句不同时长的语句组成,每一句话的平均长度为4.5秒,并由三位注释员对每一句话打入连续标签和离散标签。数据库主要关注五种情绪:愤怒、幸福、悲伤、中立和沮丧,然而,注释员在标注时并不局限于这些情绪。其中,不考虑类标的语音数据占比为38%,没有类标的语音数据占比为7%,无法确定类标的语音数据占比为15%,可确定类标的数据占比为40%。为了和其它研究者的研究成果相比较,我们只选取可确定类标的那部分中的生气、高兴、中性和伤心的语音数据。表1显示了IEMOCAP即兴表演数据集中每一个人在不同情感上分别有多少句话的描述。
表1 IEMOCAP即兴表演数据集
Figure RE-GDA0002177176580000061
特征提取:在特征提取阶段,原始的信号将被转换为声学特征(包括韵律学特征、谱相关特征、音质特征以及深度学习算法提取特征)。本方法中选取韵律学特征包括过零率和能量,选取的谱相关特征包括梅尔频率倒谱系数、频谱滚降点、频谱流量、频谱中心、频谱熵、频谱扩展度、色度特征以及色度特征标准差,使用openSMILE作为语音特征提取工具。首先对16KHz采样频率的语音信号进行分帧加窗,本方法中语音窗用的是25ms汉明窗和10ms的帧移。12维的梅尔频率倒谱系数由对数傅立叶变换和26个滤波器计算得到。频谱滚降点设置为 0.85,这表明低于总体幅度值85%的频率将被考虑在内,频谱流量由当前帧和前一帧最小平方距离得到,频谱中心由计算频率的权重平均得到。频谱熵使用香农熵转变能量分布为概率分布。频谱延展度即频谱二阶中心距,是由计算各个时段频率到频谱中心的标准差得到。过零率是时域波通过时间轴的频率。能量由每一帧的加权平方得到,此外,能量熵是对能量加入了香农熵,来确定能量分布是否均匀。整个手工提取的低维特征包括梅尔频率倒谱系数、频谱滚降点、频谱流量、频谱中心、频谱熵、频谱扩展度、过零率、基音频率、能量、能量熵以及它们的一阶差分。最后每一帧都有68维特征,为了更好地适应神经网络,均值方差归一化会在本方法中使用。
网络训练方法:本方法采用说话人独立的训练策略,在IEMOCAP即兴表演数据集上选用留一组法(Leave One Group Out,LOGO)的训练策略,总共执行五轮,每一轮用其中四个会话中的句子作为训练集,剩下一个会话中,女演员录制的句子将作为测试集,男演员录制的句子将作为验证集。由于IEMOCAP即兴表演数据集中高兴情感的样本占少数,数据情感处于不平衡状态,所以在该数据集上对高兴样本进行了重采样。在网络训练方法上,BLSTM层数设置为2层,输入的线性转换初始化方法为Glorot均匀分布,循环层状态的线性转换初始化方法为正交分布初始化方法,每一层LSTM神经元个数设置为256,随机失活率设置为0.3。在自注意力机制中,一维卷积卷积核用的初始化方法为Glorot均匀分布,卷积核大小为1,个数为128,正则化方法为L2正则化,正则化参数设置为 3*10-7。注意力机制分割分片的个数8,损失函数选择交叉熵,batch_size设置为256,基学习率设置为0.0001,然后运用Nadam优化器进行参数优化。为了更好地训练网络将选择warm_up和滑动平均策略。warm_up策略即在训练的前 8个epoch按
Figure RE-GDA0002177176580000071
公式计算学习率。当学习率在前期呈线性增长的状态,就能够让网络更好地适应数据。滑动平均能够使模型在测试集上更加健壮,衰减率(Decay)设置为0.999。为了防止过拟合,在训练时还使用了早停策略,当验证集的loss在10个epoch内不再降低,停止网络训练,最后选择在验证集上loss最低的模型进行测试。为了能够加速收敛,在BLSTM 和Direction Self Attention之间加入了层规范化(Layer Normal)层。
验证指标:本方法选择加权平均召回率(Weighted Accuracy,WA)和未加权平均召回率(Unweighted Accuracy,UA)为模型的评价指标。WA是在整个测试集上分类正确的数量。为了评价数据类别不平衡性对整体模型的影响,UA即每种类别分类正确率的平均结果也被考虑在内。WA和UA可以被定义为:
Figure RE-GDA0002177176580000081
Figure RE-GDA0002177176580000082
对比算法:本方法采用的对比算法是CNN,LSTM,BLSTM。CNN的结构为两层卷积层,并且第一层卷积层卷积核的大小为2*2,步长为1,卷积核个数为10,第二层卷积层卷积核的大小为2*2,步长为1,卷积核个数为20,然后每一层卷积层后都会加上一层最大池化层,其大小为2*2,步长为2,最后加上两层神经元个数为128的全连接层,并且在全连接层之间加入了批规范化(Batch Normalization)层。在本实验中LSTM设置为两层,每一层神经元个数为256,随机失活率(dropout)设置为0.3。BLSTM的实验参数设置和LSTM相同,只是在每一层正向LSTM再加一层反向LSTM,所有的模型都统一用Nadam优化器。
实验结果
表2显示了各个算法在IEMOCAP即兴表演数据集上的实验结果。CNN 在IEMOCAP即兴表演数据集上并没有发挥出很好的性能,不论是在WA和UA 上,CNN都是最低的结果。在加入方向机制后,BLSTM要比LSTM展现出更加优秀的泛化能力。融入了自注意力机制和方向机制的BLSTM-DSA在WA和UA 两个结果上达到了最好的结果。
表2 各个算法在IEMOCAP即兴表演数据集上的结果
模型 WA(%) UA(%)
CNN 57.75 45.08
LSTM 61.89 50.52
BSLTM 62.01 52.48
BLSTM-DSA 62.16 55.21
图2展示了各类算法在IEMOCAP即兴表演数据集的混淆矩阵。
由图2中的混淆矩阵图可知,在生气情感识别率上,BLSTM-DSA是最高的,CNN是最低的。在高兴情感识别率上,BLSTM-DSA也是最高的,而LSTM 是最低的。在中性情感识别率上,每种算法都在70%以上,并且每种算法差别不大。和中性情感识别类似的,各类算法的伤心识别率也相差不大。综上所述, BLSTM-DSA在生气识别率、中性识别率和伤心识别率上都有较为理想的结果。进一步地,由于伤心和中性两种情感的样本数量较大,并且这两种情感具有较明显的特点,所以在各类算法中,这两种情感都处于比较高的识别率。
综上所述,本发明的基于方向自注意力机制的双向长短时网络的语音情感识别系统,通过在双向长短时网络后加入自注意力机制来发现信号内部的相关性,进而控制每个时序帧的重要程度。自注意力机制能够降低对分类性能不利的时序帧的影响,并且让网络更加关注对分类性能帮助较大的时序帧,从而提高分类器在语音情感数据集上的分类精度。此外,本发明也为同领域内其他相关问题提供了参考,可以以此为依据进行拓展延伸,具有十分广阔的应用前景。

Claims (2)

1.一种基于方向自注意力机制和双向长短时网络的语音情感识别系统,其特征在于,包括如下步骤:
1)对原始的音频信号样本提取声学特征,得到提取特征后的语音训练集数据;
2)所述提取特征后的语音训练集数据为
Figure FDA0003337292780000011
其中N表示训练样本的数量,yi表示情感的类别,分别输入到正向长短时记忆网络和反向长短时记忆网络中,得到两个方向的输出特征,分别为输出正向特征
Figure FDA0003337292780000012
和反向特征
Figure FDA0003337292780000013
3)将所输出的正向特征
Figure FDA0003337292780000014
和反向特征
Figure FDA0003337292780000015
分别做三次一维卷积,得到卷积后的三维特征映射矩阵输出
Figure FDA0003337292780000016
其中正向的三维特征映射矩阵定义为
Figure FDA0003337292780000017
反向的三维特征映射矩阵定义为
Figure FDA0003337292780000018
4)对步骤3)所得到的三维特征映射矩阵做自注意力机制操作,对Q,K,V的最后一个维度进行分割得到三个四维的特征矩阵,将这三个四维矩阵定义为
Figure FDA0003337292780000019
其中第三维i的大小为
Figure FDA00033372927800000110
对所得到的Q′,K′,V′做Scaled Dot-Product Attention运算,用公式定义为:
Figure FDA00033372927800000111
O=W*V′
合并所得输出O的第三维得到三维数据O′,正向自注意力加权后的输出定义为
Figure FDA00033372927800000112
反向自注意力加权后的输出定义为
Figure FDA00033372927800000113
5)对所得到的正向自注意力加权后的输出
Figure FDA00033372927800000114
和反向自注意力加权后的输出
Figure FDA00033372927800000115
分别做均值池化操作得到
Figure FDA00033372927800000116
Figure FDA00033372927800000117
并将所得到的
Figure FDA00033372927800000118
Figure FDA00033372927800000119
进行拼接,该操作过程表示为:
Figure FDA00033372927800000120
Figure FDA00033372927800000121
Figure FDA0003337292780000021
6)将所得的拼接后的结果S输入到softmax层中,然后将softmax层的输出和类标一起输入到交叉熵损失函数中,通过反向传播算法调整整个网络结构,交叉熵损失函数定义为:
Figure FDA0003337292780000022
其中H为类别数,N为样本个数。
2.根据权利要求1所述的基于方向自注意力机制和 双向长短时网络的语音情感识别系统,其特征在于:1)所述原始的音频信号样本来自国际语音情感数据库IEMOCAP;所述原始的音频信号样本的声学特征由opensmile工具箱提取;所述原始的音频信号样本的声学特征包括韵律学特征:过零率和能量,谱相关特征:梅尔频率倒谱系数、频谱滚降点、频谱流量、频谱中心、频谱熵、频谱扩展度、色度特征以及色度特征标准差。
CN201910555688.2A 2019-06-25 2019-06-25 基于方向自注意力机制和双向长短时网络的语音情感识别 Active CN110400579B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910555688.2A CN110400579B (zh) 2019-06-25 2019-06-25 基于方向自注意力机制和双向长短时网络的语音情感识别

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910555688.2A CN110400579B (zh) 2019-06-25 2019-06-25 基于方向自注意力机制和双向长短时网络的语音情感识别

Publications (2)

Publication Number Publication Date
CN110400579A CN110400579A (zh) 2019-11-01
CN110400579B true CN110400579B (zh) 2022-01-11

Family

ID=68322649

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910555688.2A Active CN110400579B (zh) 2019-06-25 2019-06-25 基于方向自注意力机制和双向长短时网络的语音情感识别

Country Status (1)

Country Link
CN (1) CN110400579B (zh)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111048082B (zh) * 2019-12-12 2022-09-06 中国电子科技集团公司第二十八研究所 一种改进的端到端语音识别方法
WO2021127982A1 (zh) * 2019-12-24 2021-07-01 深圳市优必选科技股份有限公司 语音情感识别方法、智能装置和计算机可读存储介质
CN111259761A (zh) * 2020-01-13 2020-06-09 东南大学 基于可迁移注意力神经网络的脑电情感识别方法及装置
CN111461173B (zh) * 2020-03-06 2023-06-20 华南理工大学 一种基于注意力机制的多说话人聚类系统及方法
CN111429948B (zh) * 2020-03-27 2023-04-28 南京工业大学 一种基于注意力卷积神经网络的语音情绪识别模型及方法
CN111508500B (zh) * 2020-04-17 2023-08-29 五邑大学 一种语音情绪识别方法、系统、装置和存储介质
CN111524535B (zh) * 2020-04-30 2022-06-21 杭州电子科技大学 基于注意力机制的特征融合用于语音情感识别的方法
CN111613240B (zh) * 2020-05-22 2023-06-27 杭州电子科技大学 一种基于注意力机制和Bi-LSTM的伪装语音检测方法
CN111477221B (zh) * 2020-05-28 2022-12-30 中国科学技术大学 采用双向时序卷积与自注意力机制网络的语音识别系统
CN111783469A (zh) * 2020-06-29 2020-10-16 中国计量大学 一种提取文本句子特征的方法
CN111798445B (zh) * 2020-07-17 2023-10-31 北京大学口腔医院 一种基于卷积神经网络的牙齿图像龋坏识别方法及系统
CN112447186A (zh) * 2020-10-16 2021-03-05 华东理工大学 一种按类特征加权的语音情感识别算法
CN112581979B (zh) * 2020-12-10 2022-07-12 重庆邮电大学 一种基于语谱图的语音情绪识别方法
CN113284515B (zh) * 2021-04-19 2023-05-02 大连海事大学 一种基于物理波和循环网络的语音情感识别方法
CN113317791B (zh) * 2021-05-28 2023-03-14 温州康宁医院股份有限公司 一种基于被测者的音频确定抑郁症严重程度的方法及装置
CN113257280A (zh) * 2021-06-07 2021-08-13 苏州大学 基于wav2vec的语音情感识别方法
CN113571050A (zh) * 2021-07-28 2021-10-29 复旦大学 一种基于Attention与Bi-LSTM的语音抑郁状态识别方法
CN113469470B (zh) * 2021-09-02 2021-12-03 国网浙江省电力有限公司杭州供电公司 基于电力大脑中枢的用能数据与碳排放量关联分析方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108831450A (zh) * 2018-03-30 2018-11-16 杭州鸟瞰智能科技股份有限公司 一种基于用户情绪识别的虚拟机器人人机交互方法
CN108597541B (zh) * 2018-04-28 2020-10-02 南京师范大学 一种增强愤怒与开心识别的语音情感识别方法及系统
CN109285562B (zh) * 2018-09-28 2022-09-23 东南大学 基于注意力机制的语音情感识别方法
CN109522548A (zh) * 2018-10-26 2019-03-26 天津大学 一种基于双向交互神经网络的文本情感分析方法
CN109243493B (zh) * 2018-10-30 2022-09-16 南京工程学院 基于改进长短时记忆网络的婴儿哭声情感识别方法
CN109243494B (zh) * 2018-10-30 2022-10-11 南京工程学院 基于多重注意力机制长短时记忆网络的儿童情感识别方法
CN109740148B (zh) * 2018-12-16 2023-12-22 北京工业大学 一种BiLSTM结合Attention机制的文本情感分析方法
CN109710761A (zh) * 2018-12-21 2019-05-03 中国标准化研究院 基于注意力增强的双向lstm模型的情感分析方法
CN109817246B (zh) * 2019-02-27 2023-04-18 平安科技(深圳)有限公司 情感识别模型的训练方法、情感识别方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN110400579A (zh) 2019-11-01

Similar Documents

Publication Publication Date Title
CN110400579B (zh) 基于方向自注意力机制和双向长短时网络的语音情感识别
Chatziagapi et al. Data Augmentation Using GANs for Speech Emotion Recognition.
Venkataramanan et al. Emotion recognition from speech
Hu et al. Temporal multimodal learning in audiovisual speech recognition
CN110853680B (zh) 一种具有多输入多融合策略的双BiLSTM的语音情感识别方法
CN102800316B (zh) 基于神经网络的声纹识别系统的最优码本设计方法
CN112466326B (zh) 一种基于transformer模型编码器的语音情感特征提取方法
CN111798874A (zh) 一种语音情绪识别方法及系统
CN110827857B (zh) 基于谱特征和elm的语音情感识别方法
Van Segbroeck et al. Rapid language identification
Elshaer et al. Transfer learning from sound representations for anger detection in speech
Guo et al. Deep neural network based i-vector mapping for speaker verification using short utterances
Chen et al. Phoneme-unit-specific time-delay neural network for speaker verification
Sinha et al. Acoustic-phonetic feature based dialect identification in Hindi Speech
Hsu et al. Local wavelet acoustic pattern: A novel time–frequency descriptor for birdsong recognition
CN112562725A (zh) 基于语谱图和胶囊网络的混合语音情感分类方法
Lung Improved wavelet feature extraction using kernel analysis for text independent speaker recognition
CN114898779A (zh) 融合多模态的语音情感识别方法及系统
CN111243621A (zh) 一种用于合成语音检测的gru-svm深度学习模型的构造方法
Rabiee et al. Persian accents identification using an adaptive neural network
Palo et al. Comparison of neural network models for speech emotion recognition
Stefanidi et al. Application of convolutional neural networks for multimodal identification task
Hanifa et al. Comparative Analysis on Different Cepstral Features for Speaker Identification Recognition
CN114464159A (zh) 一种基于半流模型的声码器语音合成方法
Qiu et al. A voice cloning method based on the improved hifi-gan model

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant