CN113628639A - 一种基于多头注意力机制的语音情感识别方法 - Google Patents
一种基于多头注意力机制的语音情感识别方法 Download PDFInfo
- Publication number
- CN113628639A CN113628639A CN202110764366.6A CN202110764366A CN113628639A CN 113628639 A CN113628639 A CN 113628639A CN 202110764366 A CN202110764366 A CN 202110764366A CN 113628639 A CN113628639 A CN 113628639A
- Authority
- CN
- China
- Prior art keywords
- time
- emotion
- voice signal
- attention mechanism
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 26
- 230000008909 emotion recognition Effects 0.000 title claims abstract description 17
- 230000007246 mechanism Effects 0.000 title claims abstract description 17
- 230000002996 emotional effect Effects 0.000 claims abstract description 24
- 238000007781 pre-processing Methods 0.000 claims description 6
- 238000010586 diagram Methods 0.000 claims description 5
- 230000008569 process Effects 0.000 claims description 5
- 238000004458 analytical method Methods 0.000 claims description 4
- 230000006870 function Effects 0.000 claims description 4
- 230000005236 sound signal Effects 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000001514 detection method Methods 0.000 claims description 3
- 238000009432 framing Methods 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 238000013528 artificial neural network Methods 0.000 claims description 2
- 238000006243 chemical reaction Methods 0.000 claims description 2
- 230000008034 disappearance Effects 0.000 claims description 2
- 238000013507 mapping Methods 0.000 claims description 2
- 230000000306 recurrent effect Effects 0.000 claims description 2
- 238000012549 training Methods 0.000 claims description 2
- 238000000926 separation method Methods 0.000 claims 2
- 230000008451 emotion Effects 0.000 abstract description 16
- 238000000605 extraction Methods 0.000 abstract description 12
- 230000003993 interaction Effects 0.000 abstract description 4
- 238000013527 convolutional neural network Methods 0.000 abstract 1
- 230000007787 long-term memory Effects 0.000 abstract 1
- 230000007774 longterm Effects 0.000 abstract 1
- 230000000694 effects Effects 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 206010063385 Intellectualisation Diseases 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 230000008921 facial expression Effects 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Signal Processing (AREA)
- Psychiatry (AREA)
- Hospice & Palliative Care (AREA)
- Child & Adolescent Psychology (AREA)
- Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
Abstract
本发明公开了一种基于多头注意力机制的语音情感识别方法,语音情感识别是近年来人机交互领域中极具挑战性的问题。本发明使用短时能量和短时平均过零率的双门限方法对语音信号进行有声断与无声断的检测以减少分类识别模型中运算的数据量,并通过MFCC特征提取方法获取语音信号的人工情感特征;由于传统的情感特征提取方法使用卷积神经网络使得模型复杂度高,并且该方法只能提取人工特征图中的空间特征忽略时间信息,所以本发明使用多头注意力机制捕捉信息间长距离的依赖关系,缩减模型复杂度,获得语音信号的时空情感特征;使用长短时记忆网络进一步刻画情感特征,在时间维度上获得更好的长期依赖关系。最后将获得的具有较高时间相关性的情感特征送入分类器中进行识别,以获得较高的情感分类结果。
Description
技术领域
本发明是基于多头注意力机制(Multi-head attention mechanism)和注意力长短时记忆网络(ALSTM)提出的一种语音情感识别方法。
背景技术
随着人机交互系统的发展,如何让机器能够理解人的意图并做出相应的反应从而达到更好的人机交互效果成为了极大的挑战。一些研究人员通过生活中人的面部表情、行为动作等方面获取情感特征并将这些特征传入传统的机器学习算法中进行识别,从而达到情感识别的目的。但是这些特征难于获取使得识别的准确率偏低,并且在现实的人机交互中存在很大误差,所以寻找最优的情感特征和精确的识别算法已成为语音情感识别的研究重点。
发明内容
语音是人类交流最直接、最干脆的方式之一,语音信号不仅包含着人们丰富的情感表达而且在日常生活中较易获得。此外在人工智能的大背景下,较机器学习而言深度学习算法可以得到较好的识别精度。因此本发明针对以上论述,我们选择对语音信号进行处理来识别情感信息,使用多头注意力机制获取语音信号中的空间情感特征,将获得空间情感特征送入LSTM中获取语音信号的时序关系,最后将提取到的特征送入分类器中进行识别,达到较好的语音情感识别效果。
基于多头注意力机制(Multi-head-attention)的语音情感识别方法,其实现包括以下几个步骤:
步骤一:对音频信号进行预处理
步骤二:提取音频信号的人工情感特征
步骤三:使用多头注意力机制获取浅层情感特征
步骤四:使用LSTM获取语音信号中的时序关系
步骤五:建立分类输出层
对每一步骤进行详细阐述,说明如下:
1.对文件格式为.wav的语音文件进行处理,设置语音信号的采样频率为16KHz,对语音信号进行分帧和加窗操作,计算每一帧语音信号的短时能量和短时过零率。短时能量表征语音信号幅值的大小、短时过零率表征每秒语音信号通过零点的次数。采用短时能量和短时过零率的双门限方法区分语音信号的有声断和无声断,实现对语音信号合理的裁剪,减少运算成本。
2.对处理后的语音信号进行快速傅里叶变换将语音信号从时域转换为频域。将得到的频域信号在Mel尺度下进行倒谱分析最后经过DCT余弦变换获得人工情感特征MFCC。
3.将获得的人工情感特征放入本发明设计好的浅层特征提取模块,使用多头注意力机制选取合适的分割头的数量以捕获语音信号之间的时空关系,对语音信号的人工情感特征在时间和空间维度上进行注意力加权以获得语音信号的情感特征,在将获得情感信息通过卷积层和池化层进行深层的情感特征提取和特征降为。
4.将获得的浅层情感特征放入到LSTM中,为避免RNN网络带来的梯度消失以及梯度爆炸的现象,选用LSTM网络提取时间维度的信息,通过训练更新LSTM网络中的新的细胞状态获取细胞自身状态的关键信息,获得更精确的语音信号的时间信息,提高模型的分类精度。
5.将提取到的与时序相关的情感特征送入到分类输出层进行情感识别。本发明使用softmax分类器作为情绪的分类层,获取语音信号相应于情感标签的概率,得到语音识别的结果。
本发明使用了一个较新颖的情感识别模型,提供的方案可以达到以下效果:1)通过加入的端点检测技术可以较好的区分语音信号的有声段与无声断,为提取适宜的语音情感特征做了充分的准备工作,减少后续处理的运算复杂度。2)使用多头注意力机制可以在很大程度上提取语音信号局部特征,获得浅层情感特征。3)使用LSTM可以在很大程度上获得语音信号的时序相关性,提高模型的识别精度。4)本发明在一定程度上智能化较高,维护成本低。
附图说明
图1为语音频域信号人工情感特征提取流程图。
图2为本发明基于多头注意力机制的语音情感识别方法结构示意图。
具体实施方式
为了更好的凸现本发明申请的优点,下面将结合申请附图对本申请的研究方案进行详细的描述。
图1所示,展示了语音信号在频域信号下提取情感特征的基本过程,主要步骤详细介绍如下:
S1:为了方便对语音信号进行分析,将语音信号分为一个个小段进行处理称为帧,为了保证帧与帧之间能够平滑过渡我们采用汉明窗对语音信号进行加窗处理。汉明窗公式如下:
S2:本申请采用双门限方法进行语音信号的端点检测,双门限方法使用二级判决来实现。首先计算出语音信号的短时平均能量和短时平均过零率其计算方法如下所示:
短时能量:
短时过零率:
Z(n)=|sgn[x(m)]-sgn[x(m-1)]|*W(n-m)
第一级判决:以短时能量为基准,在短时能量上选取一个相对较高的门限阈值L2和一个较低的门限阈值L1,这两个门限阈值分别与短时能量谱相交于C、D、B、E四点,可知由短时能量判断出的BE段为语音信号的有声段,则语音信号的起止位置为B点的左侧与E点右侧。
第二级判决:以短时平均过零率为基准,在短时平均过零率上选取一个较低的阈值,从短时能量中的B、E、两点出发,向B点左侧和E点右侧查找短时平均过零率低于阈值的两个点A、F,则A点和F点位语音信号的起始点和终止点。
S3:使用快速傅里叶变换将时域信号的语音信号转换为频域信号,去除高于被采样信号的最高频率的点的影响,降低维度。
S4:将获得的频率信号通过一组Mel尺度的三角滤波器,设置滤波器个数为26,赫兹频率与Mel频率之间转换的关系如下:
S5:对滤波器组能量进行DCT变换得到倒谱系数即MFCC参数。
图二所示,本发明所设计的语音情感识别方法的结构主要包含如下几个模块:1、语音信号预处理模块2、MFCC人工情感特征提取模块3、多头注意力机制浅层特征提取模块4、LSTM时序信息提取模块5、情感识别分类模块。接下来对模块进行介绍。语音情感识别的答题流程如下;将经过预处理模块1后得到的适宜使用的语音信号送入MFCC人工特征提取模块2以获得人工情感特征,将该人工情感特征通过浅层特征提取模块3获取浅层情感特征,由于此时提取的特征时间与空间的相关性较少,所以将获取的浅层特征送入到模块4中获取时空相关性得到深层情感特征,最后将获得的深层情感特征传入情感识别分类模块进行识别。
语音预处理模块1:对.wav文件进行波形的读取,并对读取后的语音信号进行加窗、分帧、端点检测工作;
MFCC人工情感特征提取模块2:对处理后的语音信号提取MFCC特征,设置的采样频率为16KHz、预加重参数设置为0.97、语音信号的帧数设置为20ms为一帧帧移为8ms,Mel滤波器组的数量设置为50,DCT余弦参数设置为15,最终得到人工情感特征;
多头注意力机制浅层特征提取模块3:以分三个头为例进行介绍:将设置好的三个权重矩阵Q、K、V与特征图进行加权运算,将Q,K加权矩阵进行切分,并将切分后得到的三个局部特征学习块利用缩放点积的方法获取注意力权重,并将注意力权重映射到加权矩阵V上,获得注意力特征图,缩放点积计算公式如下:
其中dk起到维度调节的作用,使得内积的结果不会很大。得到对应权重矩阵下的注意力机制特征图。该过程中先计算出每个时间步之间的相似关系并利用softMax函数对相似度进行归一化处理最终映射到原始特征图中获取时空关系。通过实验验证分析本发明采用的分头数量为12。在对获得的特征进行卷积和池化操作,降低维度获得较高的空间情感特征。
LSTM时序信息提取模块4:LSTM是一种递归神经网络,其包括输入门、遗忘门、输出门、候选记忆细胞、记忆细胞、隐藏状态等信息,核心是细胞状态其贯穿整个细胞,可以保证信息不变的流过整个网络,在通过门结构对细胞状态进行删除或者添加,最终留下有用的时间信息,从而获得更加高的时间相关度。
情感识别分类模块5:最后需要将获得的情感特征进行识别,本发明采用softMax分类器作为分类层,分类层包含两层全连接层以解决可能存在的非线性问题、一层丢弃层以减弱过拟合,Softmax函数如下所示:
Claims (1)
1.一种基于多头注意力机制的语音情感识别方法,其特征主要在于,实现包括以下几个步骤:
步骤一:对音频信号进行预处理,对语音信号进行分帧加窗等预处理并使用短时能量和短时平均过零率的双门限方法进行端点检测,找出语音信号的有声段与无声段,加窗函数如下式:
步骤二:提取音频信号的人工情感特征,将预处理后的信号在Mel尺度下进行倒谱分析,使用余弦变换获得MFCC人工情感特征参数,赫兹频率与Mel频率之间转换公式如下:
步骤三:使用多头注意力机制获取浅层情感特征,将特征图进行加权运算,将其中两个加权矩阵进行分头处理,并将分头后的特征块利用缩放点积的方法获取注意力权重,并将注意力权重映射到加权矩阵V上,获得注意力特征图,缩放点积计算公式如下:
步骤四:使用LSTM获取语音信号中的时序关系,由于循环神经网络(RNN)在处理较长的时间序列时,序列的后半部分的梯度很难反向传播到前面的序列,这是容易造成梯度膨胀或者梯度消失的现象,使得训练精度下降,所以在本发明中选择长短时记忆网络处理时间序列,与RNN相比较,增加了三个控制门:输入门,输出门,遗忘门,记忆细胞,可以让网络学习如何让信息传入下个存储单元,解决了梯度消失和膨胀的问题;
步骤五:建立分类输出层;使用SoftMax函数对语音特征进行情感识别并分类:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110764366.6A CN113628639A (zh) | 2021-07-06 | 2021-07-06 | 一种基于多头注意力机制的语音情感识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110764366.6A CN113628639A (zh) | 2021-07-06 | 2021-07-06 | 一种基于多头注意力机制的语音情感识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113628639A true CN113628639A (zh) | 2021-11-09 |
Family
ID=78379094
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110764366.6A Pending CN113628639A (zh) | 2021-07-06 | 2021-07-06 | 一种基于多头注意力机制的语音情感识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113628639A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114758676A (zh) * | 2022-04-18 | 2022-07-15 | 哈尔滨理工大学 | 一种基于深度残差收缩网络的多模态情感识别方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108717856A (zh) * | 2018-06-16 | 2018-10-30 | 台州学院 | 一种基于多尺度深度卷积循环神经网络的语音情感识别方法 |
CN109243494A (zh) * | 2018-10-30 | 2019-01-18 | 南京工程学院 | 基于多重注意力机制长短时记忆网络的儿童情感识别方法 |
CN110415728A (zh) * | 2019-07-29 | 2019-11-05 | 内蒙古工业大学 | 一种识别情感语音的方法和装置 |
CN112185423A (zh) * | 2020-09-28 | 2021-01-05 | 南京工程学院 | 基于多头注意力机制的语音情感识别方法 |
-
2021
- 2021-07-06 CN CN202110764366.6A patent/CN113628639A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108717856A (zh) * | 2018-06-16 | 2018-10-30 | 台州学院 | 一种基于多尺度深度卷积循环神经网络的语音情感识别方法 |
CN109243494A (zh) * | 2018-10-30 | 2019-01-18 | 南京工程学院 | 基于多重注意力机制长短时记忆网络的儿童情感识别方法 |
CN110415728A (zh) * | 2019-07-29 | 2019-11-05 | 内蒙古工业大学 | 一种识别情感语音的方法和装置 |
CN112185423A (zh) * | 2020-09-28 | 2021-01-05 | 南京工程学院 | 基于多头注意力机制的语音情感识别方法 |
Non-Patent Citations (2)
Title |
---|
余莉萍等: "基于改进LSTM的儿童语音情感识别模型", 《计算机工程》 * |
李文杰等: ""基于可分离卷积与LSTM的语音情感识别研究"", 《信息技术》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114758676A (zh) * | 2022-04-18 | 2022-07-15 | 哈尔滨理工大学 | 一种基于深度残差收缩网络的多模态情感识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110400579B (zh) | 基于方向自注意力机制和双向长短时网络的语音情感识别 | |
CN109272990A (zh) | 基于卷积神经网络的语音识别方法 | |
CN103345923B (zh) | 一种基于稀疏表示的短语音说话人识别方法 | |
CN112581979B (zh) | 一种基于语谱图的语音情绪识别方法 | |
AU2019101150A4 (en) | Speaker Identity Recognition System Based on Deep Learning | |
CN110211594B (zh) | 一种基于孪生网络模型和knn算法的说话人识别方法 | |
CN111724770B (zh) | 一种基于深度卷积生成对抗网络的音频关键词识别方法 | |
CN110148408A (zh) | 一种基于深度残差的中文语音识别方法 | |
CN113643723A (zh) | 一种基于注意力CNN Bi-GRU融合视觉信息的语音情感识别方法 | |
CN114783418B (zh) | 基于稀疏自注意力机制的端到端语音识别方法及系统 | |
CN112071308A (zh) | 一种基于语音合成数据增强的唤醒词训练方法 | |
CN113450777A (zh) | 一种基于对比学习的端到端音障语音识别方法 | |
CN113611285B (zh) | 基于层叠双向时序池化的语种识别方法 | |
Sinha et al. | Acoustic-phonetic feature based dialect identification in Hindi Speech | |
Huang et al. | Speech emotion recognition using convolutional neural network with audio word-based embedding | |
CN115312080A (zh) | 一种基于互补声学表征的语音情绪识别模型以及方法 | |
Sun et al. | A novel convolutional neural network voiceprint recognition method based on improved pooling method and dropout idea | |
Rudresh et al. | Performance analysis of speech digit recognition using cepstrum and vector quantization | |
CN117877516A (zh) | 一种基于跨模型两阶段训练的声音事件检测方法 | |
CN113239903B (zh) | 一种跨模态唇读的对抗性双重对比自监督学习方法 | |
CN111243621A (zh) | 一种用于合成语音检测的gru-svm深度学习模型的构造方法 | |
CN113628639A (zh) | 一种基于多头注意力机制的语音情感识别方法 | |
CN114626424B (zh) | 一种基于数据增强的无声语音识别方法及装置 | |
CN111785262A (zh) | 一种基于残差网络及融合特征的说话人年龄性别分类方法 | |
Wilkinghoff et al. | Two-dimensional embeddings for low-resource keyword spotting based on dynamic time warping |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20211109 |