CN115312080A - 一种基于互补声学表征的语音情绪识别模型以及方法 - Google Patents
一种基于互补声学表征的语音情绪识别模型以及方法 Download PDFInfo
- Publication number
- CN115312080A CN115312080A CN202210952834.7A CN202210952834A CN115312080A CN 115312080 A CN115312080 A CN 115312080A CN 202210952834 A CN202210952834 A CN 202210952834A CN 115312080 A CN115312080 A CN 115312080A
- Authority
- CN
- China
- Prior art keywords
- voice
- mel
- audio data
- encoder
- emotion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000008909 emotion recognition Effects 0.000 title claims abstract description 31
- 230000000295 complement effect Effects 0.000 title claims abstract description 20
- 238000012512 characterization method Methods 0.000 title claims abstract description 19
- 238000000034 method Methods 0.000 title claims abstract description 16
- 238000001228 spectrum Methods 0.000 claims abstract description 34
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 22
- 238000013136 deep learning model Methods 0.000 claims abstract description 17
- 230000007246 mechanism Effects 0.000 claims abstract description 7
- 230000008451 emotion Effects 0.000 claims description 29
- 238000012549 training Methods 0.000 claims description 20
- 238000007781 pre-processing Methods 0.000 claims description 11
- 239000000284 extract Substances 0.000 claims description 10
- 230000011218 segmentation Effects 0.000 claims description 7
- 230000006870 function Effects 0.000 claims description 6
- 238000011176 pooling Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 5
- 230000002452 interceptive effect Effects 0.000 claims description 4
- 238000012935 Averaging Methods 0.000 claims description 3
- 230000004913 activation Effects 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 239000012634 fragment Substances 0.000 claims 2
- 238000011160 research Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 230000005236 sound signal Effects 0.000 description 5
- 238000012545 processing Methods 0.000 description 3
- 230000007774 longterm Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/21—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Child & Adolescent Psychology (AREA)
- General Health & Medical Sciences (AREA)
- Hospice & Palliative Care (AREA)
- Psychiatry (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及语音情绪识别技术领域,具体涉及一种基于互补声学表征的语音情绪识别模型以及方法,该模型采用深度学习模型:包括卷积神经网络编码器以及Transformer编码器两部分。其中,卷积神经网络编码器包含7层卷积层,通过局部感受野的特性,使其能够从输入的对数梅尔频谱logMels中提取局部特征;Transformer编码器包含8个Transformer模块,通过多头注意力机制,使其能够从输入的梅尔频率倒谱系数MFCCs中提取全局特征,将两种特征进行融合并送入全连接层。本发明能更好地利用互补声学表征的特征,从而提高语音情绪识别的准确率。
Description
技术领域
本发明涉及一种基于互补声学表征的语音情绪识别模型以及方法,属于语音情绪识别领域。
背景技术
语音信号是人类之间最快,最自然的通信方式,这促使研究人员将语音视为一种快速有效的人机交互方式。语音情绪识别从说话者的语音中提取说话人的情绪状态,它是交互式智能系统的重要组成部分。语音情感识别一般是由三部分组成,包括语音信号采集、情感特征提取以及情感识别。
语音信号中包含了多方面的信息,对这些信息进行进一步加工处理可以用于许多研究,包括自动语音识别、说话人识别等。现有的语音情绪识别研究能够做到从同一段语音中提取多种声学特征,但却没有考虑到不同的声学特征侧重点不尽相同,单一的使用某种声学特征作为研究对象无法做到充分利用音频信号中的信息,这样也会使得情绪识别准确率提升不明显。
深度学习的快速发展极大地推动了语音情绪识别研究的进展,然而现有的语音情绪识别研究主要将侧重点放在了模型的提升上,却没有考虑到输入的声学特征与模型之间也存在一定的适配性,合理地利用这一适配性可以进一步提升语音情绪识别的准确率。
发明内容
本发明的目的是针对声学特征的不恰当选用以及声学特征与模型的不恰当组合的问题,提出了一种基于互补声学表征的语音情绪识别模型以及方法,从音频数据中提取两种具有互补性的声学特征,并分别作为相应编码器的输入,从而提高语音情绪识别的准确率。
本发明为解决上述问题采用以下技术方案:
一种基于互补声学表征的语音情绪识别模型,该模型采用深度学习模型,包括卷积神经网络编码器以及Transformer编码器,其中:
卷积神经网络编码器包含7层卷积层,通过局部感受野的特性,使其能够从输入的对数梅尔频谱logMels中提取局部特征;
Transformer编码器包含8个Transformer模块,通过多头注意力机制,使其能够从输入的梅尔频率倒谱系数MFCCs中提取全局特征,将两种特征进行融合并送入全连接层。
一种基于互补声学表征的语音情绪识别方法,基于互补声学表征的语音情绪识别模型,包含步骤如下:
步骤1:建立深度学习模型:包含卷积神经网络编码器以及Transformer编码器,其中卷积神经网络编码器包含7层卷积层,Transformer编码器包含8个Transformer模块,设定随机种子,初始化模型的超参数;
步骤2:获取音频样本步骤:使用交互式情绪二元运动捕捉数据库IEMOCAP,将数据库中的各条语音进行预处理获得若干条语音片段,将前述语音片段作为独立的音频数据样本,语音片段的情绪标签为预处理前语音的情绪标签;
步骤3:提取特征步骤:从前述音频数据样本中提取对数梅尔频谱logMels以及梅尔频率倒谱系数MFCCs作为音频特征;
步骤4:训练步骤:将从各音频数据样本中提取的对数梅尔频谱logMels以及梅尔频率倒谱系数MFCCs分别作为深度学习模型中卷积神经网络编码器以及Transformer编码器的输入,执行如下训练操作;
步骤4.1:第一层卷积层至第七层卷积层利用局部感受野,从输入的对数梅尔频谱logMels中提取局部特征后,将结果展平为张量c;
步骤4.2:第一个Transformer模块至第8个Transformer模块利用多头注意力机制,从输入的梅尔频率倒谱系数MFCCs中提取全局特征后,将结果平均化为张量e;
步骤4.3:将张量c以及张量e拼接起来送入全连接层,获得该音频数据样本关于各情绪标签的概率,将最大概率对应的情绪标签作为该音频数据样本的训练结果输出;
步骤4.4:按照步骤4.1至步骤4.3对各音频数据样本进行训练,利用优化器更新深度学习模型中的参数,直至步骤4.3中全连接层输出的情绪标签准确率趋于稳定,完成训练;
步骤5:识别步骤:通过步骤2对待识别的语音进行预处理获得若干条较短的语音片段,并将这些语音片段作为待识别的音频数据样本;按照步骤3从上述的音频数据样本中提取2种特征;将提取的2种特征送入深度学习模型中分别作为2个编码器的输入进行识别得到各音频数据样本关于各情绪标签的概率,将来自待识别语音的音频数据样本的识别结果取平均后作为待识别语音最终的识别结果。
进一步地,所述的步骤2中,预处理步骤具体为:对于时长较短的语音进行零填充增加时长,将各条语音按照预设的长度和步长进行切分,相邻片段之间形成部分重叠。
进一步地,将原始时长不足2s的语音进行零填充使其时长增加到2s,片段长度为2s,切分步长为1s,相邻片段之间存在1s的重叠,将切分后长度小于片段长度的部分丢弃。
进一步地,所述步骤3中,具体步骤包括以下:
1)使用汉宁窗hanning对预处理好的音频数据样本做短时傅里叶变换STFT,得到功率频谱;
2)将功率频谱标度转化为梅尔频率标度,映射关系如以下公式所示:
其中fmel是以梅尔(Mel)为单位的梅尔频谱,f是以赫兹(Hz)为单位的功率频谱;
3)对梅尔频谱取对数得到对数梅尔频谱logMels;
4)将对数梅尔频谱logMels做离散余弦变换DCT,得到梅尔频率倒谱系数MFCCs。
进一步地,所述的汉宁窗hanning的宽度为2048,窗函数重叠宽度为512。
进一步地,所述的步骤4.1中,每个卷积层后面都有批量归一化层BatchNormalization和激活函数Relu,第三层卷积层到第七层卷积层后都分别使用内核为2x2的最大池化层用以减少参数数量,在卷积层和最大池化层之后使用Dropout层,以防止过拟合并提高模型的泛化能力。
进一步地,所述的步骤4.2中,Transformer编码器中的Transformer模块只使用了Transformer模型中的Encoder部分用以进行分类任务,多头注意力中头的数量为8个,其中多头注意力的计算公式如下:
Qi=QWi Q,Ki=KWi K,Vi=VWi V,i=1,...,h
headi=Attention(Qi,Ki,Vi),i=1,...,h
Multi(Q,K,V)-Concat(head1,...,headh)Wo
其中h代表的是head的数量,Q、K和V则是MFCCs特征经过位置编码和投影后得到参数,Wi Q、Wi K以及Wi V是第i个head对应于Q、K和V的训练参数,之后得到了每个head对应的Qi、Ki以及Vi,neadi为第i个head经过自注意力计算后的值,Wo为参数矩阵,Multi(Q,K,V)代表h个head对应的多头注意力的值。
进一步地,所述的步骤4.3中,张量c以及张量e按照列进行拼接。
有益效果:
本发明从音频信号中提取了具有局部高相关性的logMels特征作为善于提取局部特征的卷积神经网络编码器的输入,同时从音频信号中提取了具有全局信息的MFCCs特征作为善于处理长期依赖的Transformer编码器的输入,使得情绪识别的准确度更高。
本发明的方法使用IEMOCAP数据集的即兴部分的中性、开心、生气、悲伤这四种情绪数据进行了实验,实验结果表明我们所提出的模型能显著提高语音情绪识别的准确度。
目前,本发明的模型取得了79.2%的Weighted Accuracy(WA)和77%的Unweighted Accuracy(UA),WA指的是识别正确的语句占总语句数的比例,UA指的是每一情绪类别中识别正确的语句数占该情绪类别的比例的平均值。相较于其他模型,本发明的模型识别准确率表现优异。
附图说明
图1为本发明的总体模型构架示意图;
图2为本发明实施例中训练集和测试集的数据处理流程图。
图3为本发明实施例中logMels特征的时频图(图3(左))以及经过卷积神经网络编码器提取之后logMels特征图(图3(右));
图4为本发明实施例中MFCCs特征的时频图(图4(左))以及经过Transformer编码器提取之后MFCCs特征图(图4(右));
具体实施方式
下面将参照附图更详细地描述本发明的优选实施方式。虽然附图中显示了本发明的优选实施方式,然而应该理解,可以以各种形式实现本发明而不应被这里阐述的实施方式所限制。
如图1所示,本发明提供一种基于互补声学表征的语音情绪识别模型,该模型采用深度学习模型,卷积神经网络编码器各层具体参数以表1为例,Transformer编码器的具体参数以表2为例,全连接层的具体参数以表3为例。
表1
表2
名称 | 参数设置 |
全连接层 | 输入尺寸=808,输出尺寸=情绪种类数量 |
表3
该模型采用深度学习模型,包括卷积神经网络编码器以及Transformer编码器,其中:
卷积神经网络编码器包含7层卷积层,通过局部感受野的特性,使其能够从输入的对数梅尔频谱logMels中提取局部特征;
Transformer编码器包含8个Transformer模块,通过多头注意力机制,使其能够从输入的梅尔频率倒谱系数MFCCs中提取全局特征,将两种特征进行融合并送入全连接层。
一种基于互补声学表征的语音情绪识别方法,基于互补声学表征的语音情绪识别模型,包含步骤如下:
步骤1:建立深度学习模型:包含卷积神经网络编码器以及Transformer编码器,其中卷积神经网络编码器包含7层卷积层,Transformer编码器包含8个Transformer模块,设定随机种子,初始化模型的超参数;
步骤2:获取音频样本步骤:使用交互式情绪二元运动捕捉数据库IEMOCAP,将数据库中的各条语音进行预处理获得若干条语音片段,将前述语音片段作为独立的音频数据样本,语音片段的情绪标签为预处理前语音的情绪标签;
步骤3:提取特征步骤:从前述音频数据样本中提取对数梅尔频谱logMels以及梅尔频率倒谱系数MFCCs作为音频特征;
步骤4:训练步骤:将从各音频数据样本中提取的对数梅尔频谱logMels以及梅尔频率倒谱系数MFCCs分别作为深度学习模型中卷积神经网络编码器以及Transformer编码器的输入,执行如下训练操作;
步骤4.1:第一层卷积层至第七层卷积层利用局部感受野,从输入的对数梅尔频谱logMels中提取局部特征后,将结果展平为张量c;
步骤4.2:第一个Transformer模块至第8个Transformer模块利用多头注意力机制,从输入的梅尔频率倒谱系数MFCCs中提取全局特征后,将结果平均化为张量e;
步骤4.3:将张量c以及张量e拼接起来送入全连接层,获得该音频数据样本关于各情绪标签的概率,将最大概率对应的情绪标签作为该音频数据样本的训练结果输出;
步骤4.4:按照步骤4.1至步骤4.3对各音频数据样本进行训练,利用优化器更新深度学习模型中的参数,直至步骤4.3中全连接层输出的情绪标签准确率趋于稳定,完成训练;
步骤5:识别步骤:通过步骤2对待识别的语音进行预处理获得若干条较短的语音片段,并将这些语音片段作为待识别的音频数据样本;按照步骤3从上述的音频数据样本中提取2种特征;将提取的2种特征送入深度学习模型中分别作为2个编码器的输入进行识别得到各音频数据样本关于各情绪标签的概率,将来自待识别语音的音频数据样本的识别结果取平均后作为待识别语音最终的识别结果。
进一步地,所述的步骤2中,预处理步骤具体为:对于时长较短的语音进行零填充增加时长,将各条语音按照预设的长度和步长进行切分,相邻片段之间形成部分重叠。
进一步地,将原始时长不足2s的语音进行零填充使其时长增加到2s,片段长度为2s,训练数据切分步长为1s,相邻片段之间存在1s的重叠,而测试数据切分步长为0.4s,相邻片段之间存在1.6s的重叠,将切分后长度小于片段长度的部分丢弃。
进一步地,所述步骤3中,具体步骤包括以下:
1)使用汉宁窗hanning对预处理好的音频数据样本做短时傅里叶变换STFT,得到功率频谱;
2)将功率频谱标度转化为梅尔频率标度,映射关系如以下公式所示:
其中fmel是以梅尔(Mel)为单位的梅尔频谱,f是以赫兹(Hz)为单位的功率频谱;
3)对梅尔频谱取对数得到对数梅尔频谱logMels;
4)将对数梅尔频谱logMels做离散余弦变换DCT,得到梅尔频率倒谱系数MFCCs。
进一步地,所述的汉宁窗hanning的宽度为2048,窗函数重叠宽度为512。
进一步地,所述的步骤4.1中,每个卷积层后面都有批量归一化层BatchNormalization和激活函数Relu,第三层卷积层到第七层卷积层后都分别使用内核为2x2的最大池化层用以减少参数数量,在卷积层和最大池化层之后使用Dropout层,以防止过拟合并提高模型的泛化能力。
进一步地,所述的步骤4.2中,Transformer编码器中的Transformer模块只使用了Transformer模型中的Encoder部分用以进行分类任务,多头注意力中头的数量为8个,其中多头注意力的计算公式如下:
Qi=QWi Q,Ki=KWi K,Vi=VWi V,i=1,...,h
headi=Attention(Qi,Ki,Vi),i=1,...,h
Multi(Q,K,V)-Concat(head1,...,headh)Wo
其中h代表的是head的数量,Q、K和V则是MFCCs特征经过位置编码和投影后得到参数,Wi Q、Wi K以及Wi V是第i个head对应于Q、K和V的训练参数,之后得到了每个head对应的Qi、Ki以及Vi,neadi为第i个head经过自注意力计算后的值,Wo为参数矩阵,Multi(Q,K,V)代表h个head对应的多头注意力的值。
进一步地,所述的步骤4.3中,张量c以及张量e按照列进行拼接。
本发明从音频信号中提取了具有局部高相关性的logMels特征作为善于提取局部特征的卷积神经网络编码器的输入,同时从音频信号中提取了具有全局信息的MFCCs特征作为善于处理长期依赖的Transformer编码器的输入,使得情绪识别的准确度更高。本发明的模型取得了79.2%的Weighted Accuracy(WA)和77%的Unweighted Accuracy(UA),与大多数的语音情绪识别研究相比,本发明的模型表现优异。
以上已经描述了本发明的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。
Claims (9)
1.一种基于互补声学表征的语音情绪识别模型,其特征在于,该模型采用深度学习模型,包括卷积神经网络编码器以及Transformer编码器,其中:
卷积神经网络编码器包含7层卷积层,通过局部感受野的特性,使其能够从输入的对数梅尔频谱logMels中提取局部特征;
Transformer编码器包含8个Transformer模块,通过多头注意力机制,使其能够从输入的梅尔频率倒谱系数MFCCs中提取全局特征,将两种特征进行融合并送入全连接层。
2.一种基于互补声学表征的语音情绪识别方法,基于权利要求1所述的基于互补声学表征的语音情绪识别模型,其特征在于,步骤如下:
步骤1:建立深度学习模型:包含卷积神经网络编码器以及Transformer编码器,其中卷积神经网络编码器包含7层卷积层,Transformer编码器包含8个Transformer模块,设定随机种子,初始化模型的超参数;
步骤2:获取音频样本步骤:使用交互式情绪二元运动捕捉数据库IEMOCAP,将数据库中的各条语音进行预处理获得若干条语音片段,将前述语音片段作为独立的音频数据样本,语音片段的情绪标签为预处理前语音的情绪标签;
步骤3:提取特征步骤:从前述音频数据样本中提取对数梅尔频谱logMels以及梅尔频率倒谱系数MFCCs作为音频特征;
步骤4:训练步骤:将从各音频数据样本中提取的对数梅尔频谱logMels以及梅尔频率倒谱系数MFCCs分别作为深度学习模型中卷积神经网络编码器以及Transformer编码器的输入,执行如下训练操作;
步骤4.1:第一层卷积层至第七层卷积层利用局部感受野,从输入的对数梅尔频谱logMels中提取局部特征后,将结果展平为张量c;
步骤4.2:第一个Transformer模块至第8个Transformer模块利用多头注意力机制,从输入的梅尔频率倒谱系数MFCCs中提取全局特征后,将结果平均化为张量e;
步骤4.3:将张量c以及张量e拼接起来送入全连接层,获得该音频数据样本关于各情绪标签的概率,将最大概率对应的情绪标签作为该音频数据样本的训练结果输出;
步骤4.4:按照步骤4.1至步骤4.3对各音频数据样本进行训练,利用优化器更新深度学习模型中的参数,直至步骤4.3中全连接层输出的情绪标签准确率趋于稳定,完成训练;
步骤5:识别步骤:通过步骤2对待识别的语音进行预处理获得若干条较短的语音片段,并将这些语音片段作为待识别的音频数据样本;按照步骤3从上述的音频数据样本中提取2种特征;将提取的2种特征送入深度学习模型中分别作为2个编码器的输入进行识别得到各音频数据样本关于各情绪标签的概率,将来自待识别语音的音频数据样本的识别结果取平均后作为待识别语音最终的识别结果。
3.根据权利要求2所述的基于互补声学表征的语音情绪识别方法,其特征在于,所述的步骤2中,预处理步骤具体为:对于时长较短的语音进行零填充增加时长,将各条语音按照预设的长度和步长进行切分,相邻片段之间形成部分重叠。
4.根据权利要求2所述的基于互补声学表征的语音情绪识别方法,其特征在于,将原始时长不足2s的语音进行零填充使其时长增加到2s,片段长度为2s,切分步长为1s,相邻片段之间存在1s的重叠,将切分后长度小于片段长度的部分丢弃。
6.根据权利要求5所述的基于互补声学表征的语音情绪识别方法,其特征在于,所述的汉宁窗hanning的宽度为2048,窗函数重叠宽度为512。
7.根据权利要求2所述的基于互补声学表征的语音情绪识别方法,其特征在于,所述的步骤4.1中,每个卷积层后面都有批量归一化层Batch Normalization和激活函Relu,第三层卷积层到第七层卷积层后都分别使用内核为2x2的最大池化层用以减少参数数量,在卷积层和最大池化层之后使用Dropout层,以防止过拟合并提高模型的泛化能力。
8.根据权利要求2所述的基于互补声学表征的语音情绪识别方法,其特征在于,所述的步骤4.2中,Transformer编码器中的Transformer模块只使用了Transformer模型中的Encoder部分用以进行分类任务,多头注意力中头的数量为8个,其中多头注意力的计算公式如下:
headi=Attention(Qi,Ki,Vi),i=1,...,h
Multi(Q,K,V)=Concat(head1,...,headh)Wo
9.根据权利要求2所述的基于互补声学表征的语音情绪识别方法,其特征在于,所述的步骤4.3中,张量c以及张量e按照列进行拼接。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210952834.7A CN115312080A (zh) | 2022-08-09 | 2022-08-09 | 一种基于互补声学表征的语音情绪识别模型以及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210952834.7A CN115312080A (zh) | 2022-08-09 | 2022-08-09 | 一种基于互补声学表征的语音情绪识别模型以及方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115312080A true CN115312080A (zh) | 2022-11-08 |
Family
ID=83859834
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210952834.7A Pending CN115312080A (zh) | 2022-08-09 | 2022-08-09 | 一种基于互补声学表征的语音情绪识别模型以及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115312080A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116434787A (zh) * | 2023-06-14 | 2023-07-14 | 之江实验室 | 一种语音情感识别的方法、装置、存储介质及电子设备 |
-
2022
- 2022-08-09 CN CN202210952834.7A patent/CN115312080A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116434787A (zh) * | 2023-06-14 | 2023-07-14 | 之江实验室 | 一种语音情感识别的方法、装置、存储介质及电子设备 |
CN116434787B (zh) * | 2023-06-14 | 2023-09-08 | 之江实验室 | 一种语音情感识别的方法、装置、存储介质及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110400579B (zh) | 基于方向自注意力机制和双向长短时网络的语音情感识别 | |
An et al. | Deep CNNs with self-attention for speaker identification | |
CN109036382B (zh) | 一种基于kl散度的音频特征提取方法 | |
CN111429948B (zh) | 一种基于注意力卷积神经网络的语音情绪识别模型及方法 | |
CN112466326B (zh) | 一种基于transformer模型编码器的语音情感特征提取方法 | |
Demircan et al. | Feature extraction from speech data for emotion recognition | |
CN105047194B (zh) | 一种用于语音情感识别的自学习语谱图特征提取方法 | |
CN113066499B (zh) | 一种陆空通话说话人身份识别方法及装置 | |
CN106782521A (zh) | 一种语音识别系统 | |
CN111161715A (zh) | 一种基于序列分类的特定声音事件检索与定位的方法 | |
CN111461173A (zh) | 一种基于注意力机制的多说话人聚类系统及方法 | |
CN111653267A (zh) | 一种基于时延神经网络的快速语种识别方法 | |
CN111724770A (zh) | 一种基于深度卷积生成对抗网络的音频关键词识别方法 | |
CN114203177A (zh) | 一种基于深度学习与情绪识别的智能语音问答方法和系统 | |
CN114783418B (zh) | 基于稀疏自注意力机制的端到端语音识别方法及系统 | |
CN115312080A (zh) | 一种基于互补声学表征的语音情绪识别模型以及方法 | |
Lu et al. | Temporal Attentive Pooling for Acoustic Event Detection. | |
Santos et al. | Speech recognition in noisy environments with convolutional neural networks | |
Zhou et al. | Speech Emotion Recognition with Discriminative Feature Learning. | |
Wilkinghoff et al. | Two-dimensional embeddings for low-resource keyword spotting based on dynamic time warping | |
CN112992155B (zh) | 一种基于残差神经网络的远场语音说话人识别方法及装置 | |
Shin et al. | Speaker-invariant psychological stress detection using attention-based network | |
CN115064175A (zh) | 一种说话人识别方法 | |
Yousfi et al. | Isolated Iqlab checking rules based on speech recognition system | |
CN113628639A (zh) | 一种基于多头注意力机制的语音情感识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication |