CN111402927A - 基于分段语谱图和双重Attention的语音情感识别方法 - Google Patents
基于分段语谱图和双重Attention的语音情感识别方法 Download PDFInfo
- Publication number
- CN111402927A CN111402927A CN201910784181.4A CN201910784181A CN111402927A CN 111402927 A CN111402927 A CN 111402927A CN 201910784181 A CN201910784181 A CN 201910784181A CN 111402927 A CN111402927 A CN 111402927A
- Authority
- CN
- China
- Prior art keywords
- weight
- spectrogram
- speech emotion
- attention
- channel
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 33
- 230000008909 emotion recognition Effects 0.000 title claims abstract description 27
- 230000008451 emotion Effects 0.000 claims abstract description 36
- 230000005236 sound signal Effects 0.000 claims abstract description 15
- 230000009977 dual effect Effects 0.000 claims abstract description 6
- 239000013598 vector Substances 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000010606 normalization Methods 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 2
- 230000011218 segmentation Effects 0.000 claims description 2
- 230000001131 transforming effect Effects 0.000 claims description 2
- 238000010586 diagram Methods 0.000 abstract description 10
- 230000003993 interaction Effects 0.000 abstract description 4
- 238000013475 authorization Methods 0.000 description 3
- 230000002996 emotional effect Effects 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000008921 facial expression Effects 0.000 description 1
- 238000000513 principal component analysis Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Hospice & Palliative Care (AREA)
- Psychiatry (AREA)
- General Health & Medical Sciences (AREA)
- Child & Adolescent Psychology (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于分段语谱图和双重Attention的语音情感识别方法,所述方法包括:1)将数据库中的语音音频信号进行分段并把每段音频转换成带有语音情感信息的语谱图;2)采用预训练的VGG16网络提取语谱图中深度语音情感特征;3)对深度语音情感特征进行空间和通道两个方向的权重学习,获得加权后的深度语音情感特征;4)把FC2输出的深度语音情感特征输入到全连接层FC3进行情感分类,FC3输出识别好的语音情感类别。通过本发明能够自主的学习到语谱图中各个区域以及特征图的各个通道对语音情感识别的重要性,提高后续的语音情感识别率;推动基于语音的智能人机交互应用。
Description
技术领域
本发明涉及一种基于分段语谱图和双重Attention的语音情感识别方法,属于人工智能、情感计算和语音处理。
背景技术
自从麻省理工学院的Picard教授提出情感计算概念来,语音情感识别研究也开始得到越来越多研究者的重视,目前,已经广泛应用在智能人机交互、车辆情感检测和航天员情感分析等领域。传统的语音情感识别方法往往采用opensmile等工具来提取韵律特征、谱特征、音质特征以及相应的统计量等语音情感特征。比如,一段语音通过opensmile工具可以方便的提取1582维语音情感特征。然后在提取的语音情感特征基础上通过主成分分析等降维方法进行降维后送入分类器进行分类。相比于图像的二维结构,opensmile工具提取的语音情感特征是一维结构。
近年来,随着深度学习方法的发展,玻尔兹曼机网络、深度信念网络、卷积神经网络和循环神经网络等深度学习方法也应用于语音情感识别研究,取得了比传统方法更高的识别率。尤其是近年来,与上述基于opensmile工具的传统方法不同,少数研究人员开始采用傅里叶变换从音频信号中提取二维结构的语谱图作为语音情感特征,然后采用预训练的VGG16网络对语谱图进行深度特征提取,取得了较好的实验效果。
发明内容
发明目的:针对智能人机交互中的自动语音情感识别问题,本发明提出一种基于分段语谱图和双重Attention语音情感识别方法,解决现有语音情感识别方法识别率有限问题。
技术方案:本发明是一种基于分段语谱图和双重Attention的语音情感识别方法,包含以下步骤:
(1)将数据库中的语音音频信号进行分段并把每段音频转换成带有语音情感信息的语谱图;对语音音频信号进行分段,然后对原始语音信号段以及分段后的每一段语音信号提取相应的语谱图特征,作为多路VGG16网络的输入。在分段语谱图生成部分,首先使用Cool Edit Pro2.1对每段原始音频信号进行切分,以互相重叠的方式把语音信号分成2、3、4、5、6段等,语谱图生成过程包括:切分每段原始音频信号;傅里叶变换每一段音频信号获得相应的语谱图;采用双线性插值法缩放为相同图像大小的语谱图。
(2)采用预训练的VGG16网络提取每张语谱图的深度语音情感特征,得到一系列特征图。尽管通过VGG16网络学习到的多路特征图能够有效表示语谱图的语音情感信息,但无法判断语谱图中不同区域对语音情感识别的重要性。跟人脸面部表情类似,语谱图的某些区域包含有重要的、丰富的情感信息,而有些区域包含的情感信息就相对较少,甚至有区域携带噪声。所以本发明希望能够对特征图的空间位置区域进行选择,跟语音情感相关的区域给与高的权重,与语音情感不相关的区域给与低的权重。
(3)对深度语音情感特征进行空间和通道两个方向的权重学习,获得加权后的深度语音情感特征;空间方向的权重学习过程如下:将得到的一系列特征图级联,级联后的多路特征图输入到空间Attention模块中得到空间注意力权重,然后通过 Softmax对空间注意力权重进行归一化,归一化后的空间注意力权重跟输入的每一张特征图进行对位点乘,得到带空间注意力权重的特征图。空间方向权重学习中特征图为14×14×d,14×14为每张特征图的大小,d是特征图的个数,Ai,j∈R1×d为特征图上位置,(i,j)∈1~14的深度特征向量,空间注意力权重计算公式如下:
xi,j=tanh(W1 TAi,j+b1) (公式1)
其中W1为权重,b1为偏置。通过上述公式得到xi,j,再通过Softmax归一化得yi,j
通道方向的权重学习过程如下:带空间注意力权重的特征图首先通过一个全连接层得到通道注意力权重,然后经过Softmax对通道注意力权重进行归一化,归一化后的通道注意力权重跟对应的每一张带空间注意力权重特征图的每个位置 (14×14=196)进行点乘,得到带空间和通道注意力权重的特征图。带空间注意力权重的特征图yi,jAi,j中每一张14×14大小的特征图按从左到右、从上到下拉成一个向量,向量的特征维数为196(14×14=196),Ai∈R1×196为不同通道上的特征向量, i∈1~d,则通道注意力权重计算公式如下:
zi=tanh(W2 TAi+b2) (公式2)
其中W2为权重,b2为偏置。通过上述公式得到zi后,再通过Softmax归一化得到pi
4)依据特征图中各个通道对语音情感识别特征的重要性,得到带空间和通道注意力权重的特征图piyi,jAi,j,第二个全连接层FC2输出的深度语音情感特征输入到全连接层FC3进行情感分类,FC3输出识别好的语音情感类别。
有益效果:本发明与现有技术相比,其显著优点是:1、能够自主的学习到语谱图中各个区域以及特征图的各个通道对语音情感识别的重要性,提高后续的语音情感识别率;2、推动基于语音的智能人机交互应用。
附图说明
图1基于分段语谱图和双重Attention的语音情感识别方法流程图;
图2空间Attention模块和通道Attention模块。
具体实施方式
下面结合说明书附图对本发明实施方式作进一步详细说明。
如图1所示,图1中是将原始音频切分成5段,同时保留原始音频信号。然后对每一段音频信号通过傅里叶变换获得相应的语谱图,并使用双线性插值法缩放所有的语谱图到相同的图像大小。通过分段音频信号得到的语谱图具有不同的图像大小,使用双线性插值法缩放所有的语谱图到相同的图像大小。每段音频信号提取的一张语谱图作为一路VGG16网络的输入。
如图2所示,将得到的一系列特征图级联,把级联后的多路特征图输入到空间Attention模块中。多路特征图首先通过一个全连接层得到空间注意力权重,然后通过Softmax对空间注意力权重进行归一化,归一化后的空间注意力权重跟输入的每一张特征图进行对位点乘,得到带空间注意力权重的特征图。假设级联后的特征图为14×14×d,14×14是每张特征图的大小,d是其通道数,也就是特征图的个数, Ai,j∈R1×d为特征图上位置,(i,j)∈1~14的深度特征向量,则空间注意力权重可以通过如下的公式进行计算:
xi,j=tanh(W1 TAi,j+b1) (公式1)
其中W1为权重,b1为偏置。通过上述公式得到xi,j后,再通过Softmax层归一化得yi,j
通过使用空间Attention模块,网络能够学习到特征图中各个区域对语音情感识别的重要性,重要的区域权重大,不重要区域权重小,最后得到带空间注意力权重的特征图用yi,jAi,j表示,yi,j就是求得的空间注意力权重。获得带空间注意力权重的特征图后,需要对不同通道的特征图进行选择,因为不同通道的特征图对语音情感识别也有不同的重要性,因此构建了通道Attention模块。通道Attention模块与空间Attention模块类似,带空间注意力权重的特征图首先通过一个全连接层得到通道注意力权重,然后通过Softmax对通道注意力权重进行归一化,归一化后的通道注意力权重跟对应的每一张带空间注意力权重特征图的每个位置 (14×14=196)进行点乘,得到带空间和通道注意力权重的特征图。把带空间注意力权重的特征图yi,jAi,j中每一张14×14大小的特征图按从左到右、从上到下拉成一个向量,向量的特征维数为196(14×14=196),Ai∈R1×196为不同通道上的特征向量,i∈1~d,则通道注意力权重可以通过如下的公式进行计算:
zi=tanh(W2 TAi+b2) (公式2)
其中W2为权重,b2为偏置。通过上述公式得到zi后,再通过Softmax归一化得到 pi
通过使用通道Attention模块,能够学习到多通道特征图中各个通道对语音情感识别的重要性,重要的通道权重大,不重要通道权重小,得到带空间和通道注意力权重的特征图piyi,jAi,j。最后,输出的带空间和通道注意力权重特征图输入到全连接层。通过构建多路语谱图、空间Attention和通道Attention模块,本发明提出的基于分段语谱图和双重Attention的多路卷积神经网络能够自主的学习到语谱图中各个区域以及特征图的各个通道对语音情感识别的重要性,从而提高后续的语音情感识别率。本发明把第二个全连接层FC2输出的特征作为提取的深度语音情感特征。
Claims (7)
1.一种基于分段语谱图和双重Attention的语音情感识别方法,其特征在于,包括以下步骤:
1)将数据库中的语音音频信号进行分段并把每段音频转换成带有语音情感信息的语谱图;
2)采用预训练的VGG16网络提取语谱图中深度语音情感特征;
3)对深度语音情感特征进行空间和通道两个方向的权重学习,获得加权后的深度语音情感特征;
4)把FC2输出的深度语音情感特征输入到全连接层FC3进行情感分类,FC3输出识别好的语音情感类别。
2.根据权利要求1所述的一种基于分段语谱图和双重Attention的语音情感识别方法,其特征在于,步骤(1)中语谱图生成过程包括:
(1.1)切分每段原始音频信号;
(1.2)傅里叶变换每一段音频信号获得相应的语谱图;
(1.3)采用双线性插值法缩放为相同图像大小的语谱图。
3.根据权利要求1所述的一种基于分段语谱图和双重Attention的语音情感识别方法,其特征在于,步骤(2)中语音情感特征的提取根据特征图的空间位置区域进行选择,给予语音情感多的区域高权重,语音情感少的区域低权重。
4.根据权利要求1所述的一种基于分段语谱图和双重Attention的语音情感识别方法,其特征在于,步骤(3)中空间方向的权重学习过程如下:将得到的一系列特征图级联,级联后的多路特征图输入到空间Attention模块中得到空间注意力权重,然后通过Softmax对空间注意力权重进行归一化,归一化后的空间注意力权重跟输入的每一张特征图进行对位点乘,得到带空间注意力权重的特征图。
5.根据权利要求4所述的一种基于分段语谱图和双重Attention的语音情感识别方法,其特征在于,空间方向权重学习中特征图为14×14×d,14×14为每张特征图的大小,d是特征图的个数,Ai,j∈R1×d为特征图上位置,(i,j)∈1~14的深度特征向量,空间注意力权重计算公式如下:
xi,j=tanh(W1 TAi,j+b1) (公式1)
其中W1为权重,b1为偏置。通过上述公式得到xi,j,再通过Softmax归一化得yi,j。
6.根据权利要求1所述的一种基于分段语谱图和双重Attention的语音情感识别方法,其特征在于,步骤(3)中通道方向的权重学习过程如下:带空间注意力权重的特征图首先通过一个全连接层得到通道注意力权重,然后经过Softmax对通道注意力权重进行归一化,归一化后的通道注意力权重跟对应的每一张带空间注意力权重特征图的每个位置(14×14=196)进行点乘,得到带空间和通道注意力权重的特征图。带空间注意力权重的特征图yi, jAi,j中每一张14×14大小的特征图按从左到右、从上到下拉成一个向量,向量的特征维数为196(14×14=196),Ai∈R1×196为不同通道上的特征向量,i∈1~d,则通道注意力权重计算公式如下:
zi=tanh(W2 TAi+b2) (公式2)
其中W2为权重,b2为偏置。通过上述公式得到zi后,再通过Softmax归一化得到pi。
7.根据权利要求1所述的一种基于分段语谱图和双重Attention的语音情感识别方法,其特征在于,依据特征图中各个通道对语音情感识别特征的重要性,得到带空间和通道注意力权重的特征图piyi,jAi,j。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910784181.4A CN111402927A (zh) | 2019-08-23 | 2019-08-23 | 基于分段语谱图和双重Attention的语音情感识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910784181.4A CN111402927A (zh) | 2019-08-23 | 2019-08-23 | 基于分段语谱图和双重Attention的语音情感识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111402927A true CN111402927A (zh) | 2020-07-10 |
Family
ID=71413146
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910784181.4A Pending CN111402927A (zh) | 2019-08-23 | 2019-08-23 | 基于分段语谱图和双重Attention的语音情感识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111402927A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112466327A (zh) * | 2020-10-23 | 2021-03-09 | 北京百度网讯科技有限公司 | 语音处理方法、装置和电子设备 |
CN113327595A (zh) * | 2021-06-16 | 2021-08-31 | 北京语言大学 | 发音偏误检测方法、装置及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106952649A (zh) * | 2017-05-14 | 2017-07-14 | 北京工业大学 | 基于卷积神经网络和频谱图的说话人识别方法 |
CN109637522A (zh) * | 2018-12-26 | 2019-04-16 | 杭州电子科技大学 | 一种基于语谱图提取深度空间注意特征的语音情感识别方法 |
CN110047516A (zh) * | 2019-03-12 | 2019-07-23 | 天津大学 | 一种基于性别感知的语音情感识别方法 |
-
2019
- 2019-08-23 CN CN201910784181.4A patent/CN111402927A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106952649A (zh) * | 2017-05-14 | 2017-07-14 | 北京工业大学 | 基于卷积神经网络和频谱图的说话人识别方法 |
CN109637522A (zh) * | 2018-12-26 | 2019-04-16 | 杭州电子科技大学 | 一种基于语谱图提取深度空间注意特征的语音情感识别方法 |
CN110047516A (zh) * | 2019-03-12 | 2019-07-23 | 天津大学 | 一种基于性别感知的语音情感识别方法 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112466327A (zh) * | 2020-10-23 | 2021-03-09 | 北京百度网讯科技有限公司 | 语音处理方法、装置和电子设备 |
CN112466327B (zh) * | 2020-10-23 | 2022-02-22 | 北京百度网讯科技有限公司 | 语音处理方法、装置和电子设备 |
CN113327595A (zh) * | 2021-06-16 | 2021-08-31 | 北京语言大学 | 发音偏误检测方法、装置及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107273800B (zh) | 一种基于注意机制的卷积递归神经网络的动作识别方法 | |
CN110400579B (zh) | 基于方向自注意力机制和双向长短时网络的语音情感识别 | |
CN109272988B (zh) | 基于多路卷积神经网络的语音识别方法 | |
CN112132856B (zh) | 一种基于自适应模板更新的孪生网络跟踪方法 | |
CN109949824B (zh) | 基于N-DenseNet和高维mfcc特征的城市声音事件分类方法 | |
CN110176250B (zh) | 一种基于局部学习的鲁棒声学场景识别方法 | |
CN111627419A (zh) | 一种基于水下目标及环境信息特征的声音生成方法 | |
CN108520756B (zh) | 一种说话人语音分离的方法及装置 | |
CN111402927A (zh) | 基于分段语谱图和双重Attention的语音情感识别方法 | |
CN111523377A (zh) | 一种多任务的人体姿态估计和行为识别的方法 | |
CN111653267A (zh) | 一种基于时延神经网络的快速语种识别方法 | |
CN110992374A (zh) | 一种基于深度学习的头发精细化分割方法及系统 | |
CN112785626A (zh) | 一种基于多尺度特征融合的孪生网络小目标跟踪方法 | |
CN113763965A (zh) | 一种多重注意力特征融合的说话人识别方法 | |
CN109190471B (zh) | 基于自然语言描述的视频监控行人搜索的注意力模型方法 | |
CN108830878B (zh) | 一种基于fpn神经网络的目标跟踪方法 | |
US4989249A (en) | Method of feature determination and extraction and recognition of voice and apparatus therefore | |
CN113628640A (zh) | 一种基于样本均衡和最大均值差异的跨库语音情感识别方法 | |
CN110265060B (zh) | 一种基于密度聚类的说话人数目自动检测方法 | |
CN116304818A (zh) | 一种基于Transformer地震信号分类识别方法 | |
Cheng et al. | Fractal dimension pattern-based multiresolution analysis for rough estimator of speaker-dependent audio emotion recognition | |
US20140343944A1 (en) | Method of visual voice recognition with selection of groups of most relevant points of interest | |
US20140343945A1 (en) | Method of visual voice recognition by following-up the local deformations of a set of points of interest of the speaker's mouth | |
CN115438686A (zh) | 一种基于数据增强和残差cnn的水声目标识别方法 | |
Angadi et al. | Hybrid deep network scheme for emotion recognition in speech |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200710 |
|
RJ01 | Rejection of invention patent application after publication |