CN111312215A - 一种基于卷积神经网络和双耳表征的自然语音情感识别方法 - Google Patents
一种基于卷积神经网络和双耳表征的自然语音情感识别方法 Download PDFInfo
- Publication number
- CN111312215A CN111312215A CN201911330520.8A CN201911330520A CN111312215A CN 111312215 A CN111312215 A CN 111312215A CN 201911330520 A CN201911330520 A CN 201911330520A CN 111312215 A CN111312215 A CN 111312215A
- Authority
- CN
- China
- Prior art keywords
- voice
- channel
- frequency spectrum
- mel
- mel frequency
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013527 convolutional neural network Methods 0.000 title claims abstract description 78
- 238000000034 method Methods 0.000 title claims abstract description 47
- 230000008909 emotion recognition Effects 0.000 title claims abstract description 41
- 238000001228 spectrum Methods 0.000 claims abstract description 113
- 230000004927 fusion Effects 0.000 claims abstract description 70
- 238000011176 pooling Methods 0.000 claims abstract description 44
- 239000012634 fragment Substances 0.000 claims abstract description 34
- 239000011159 matrix material Substances 0.000 claims abstract description 24
- 238000013528 artificial neural network Methods 0.000 claims abstract description 18
- 238000007500 overflow downdraw method Methods 0.000 claims abstract description 12
- 230000008451 emotion Effects 0.000 claims description 44
- 238000012706 support-vector machine Methods 0.000 claims description 31
- 230000002996 emotional effect Effects 0.000 claims description 22
- 230000003595 spectral effect Effects 0.000 claims description 22
- 238000012512 characterization method Methods 0.000 claims description 20
- 238000009795 derivation Methods 0.000 claims description 15
- 230000003068 static effect Effects 0.000 claims description 11
- 230000006870 function Effects 0.000 claims description 7
- 238000005070 sampling Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 4
- 230000015572 biosynthetic process Effects 0.000 claims description 3
- 238000012545 processing Methods 0.000 abstract description 3
- 230000007935 neutral effect Effects 0.000 description 8
- 230000004931 aggregating effect Effects 0.000 description 2
- 230000000295 complement effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 238000013526 transfer learning Methods 0.000 description 2
- FAPWRFPIFSIZLT-UHFFFAOYSA-M Sodium chloride Chemical compound [Na+].[Cl-] FAPWRFPIFSIZLT-UHFFFAOYSA-M 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 239000011780 sodium chloride Substances 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Signal Processing (AREA)
- General Health & Medical Sciences (AREA)
- Psychiatry (AREA)
- Hospice & Palliative Care (AREA)
- Child & Adolescent Psychology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及语音和图像处理、模式识别领域,公开了一种基于卷积神经网络和双耳表征的自然语音情感识别方法,包括步骤:A)采集语音信号,获得与四种语音Mel频谱片段对应的语音RGB图像三通道输入矩阵;B)构建四个语音深度卷积神经网络,获得四种语音Mel频谱片段学习到的CNN特征;C)采用基于块的特征池化方法将四种语音Mel频谱片段学习到的CNN特征分别聚合成固定长度的全局性语句特征;D)采用两阶段分数层融合方法进行融合,获得语音情感识别分类结果。本发明不仅利用双耳表征进行特征学习,并且提出了基于块的特征池化方法,采用两阶段分数层融合方法进行融合,语音情感识别结果准确率高。
Description
技术领域
本发明涉及语音和图像处理、模式识别领域,特别是涉及基于卷积神经网络和双耳表征的自然语音情感识别方法。
背景技术
在语音情感特征的提取方面,现有技术采用手工设计的典型的语音情感特征参数,即语音情感识别领域中常用的主流特征参数,具体包括:与情感语音相关的韵律特征、音质特征、谱特征,(比如文献:Y.Wang and L.Guan.Recognizing human emotional statefrom audiovisual signals.IEEE Transaction on Multimedia,10(5):936–946,2008.)。尽管这些手工设计的典型的语音情感特征参数已经成为语音情感识别研究中的主流特征参数,但是手工设计的情感特征依赖于设计者的经验和专业知识,可靠性不够,很难利用大数据的优势。此外,手工设计的特征都属于低层次的情感特征,因为它们对于情感语义的表示力非常有限,尤其与人脑理解的高层次的情感语义之间存在较大差异,即存在“情感鸿沟”问题。而深度卷积神经网络作为传统的卷积神经网络(CNN)在深度上的一种扩展,利用多层次的卷积(Convolution)和池化(Pooling)操作来学习出高层次的图像语义特征,现已在图像检索、人体行为识别以及图像识别等图像处理方面表现出了强大的生命力,但CNN无法直接处理一维的情感语音信号。针对现有手工提取的语音情感特征参数存在的“情感鸿沟”问题,研究利用深度CNN模型从原始的语音信号频谱中学习出高层次的情感语音特征用于语音情感识别。
比如,文献1:Q.Mao,M.Dong,Z.Huang,and Y.Zhan,“Learning Salient Featuresfor Speech Emotion Recognition Using Convolutional Neural Networks,”IEEETransactions on Multimedia,vol.16,no.8,pp.2203-2213,2014.以及文献2:K.Simonyan,and A.Zisserman,“Very deep convolutional networks for large-scaleimage recognition,”in ICLR-2015,San Diego,CA,USA,2015,pp.1-14。虽然这两篇文献均采用了深度学习技术,但是在语音情感识别任务中只专注于单耳语音信号及其相关特征,并没有考虑其他声道的相关语音特征。
发明内容
本发明是为了解决单耳语音信号对于情感语义的表示力有限以及现有融合方法融合准确率低的问题,提供基于卷积神经网络和双耳表征的自然语音情感识别方法,本发明通过学习双耳表征,获取四种语音Mel频谱片段,通过构建四个语音深度卷积神经网络对四种语音Mel频谱片段分别进行特征学习,采用基于块的特征池化方法将四种语音Mel频谱片段学习到的CNN特征分别聚合成固定长度的全局性语句特征,采用两阶段分数层融合方法对四个线性支持向量机的输出结果进行融合,获得语音情感识别分类结果,语音情感识别结果准确率高。
为了实现上述目的,本发明采用以下技术方案:
基于卷积神经网络和双耳表征的自然语音情感识别方法,其特征在于,包括步骤:
A)采集语音信号,获取与双耳表征相关的四种语音Mel频谱片段,获得与双耳表征相关的四种语音Mel频谱片段对应的语音RGB图像三声道输入矩阵;
B)构建与双耳表征相关的四个语音深度卷积神经网络,将语音RGB图像三声道输入矩阵作为语音深度卷积神经网络的输入,对每个语音Mel频谱片段采用卷积神经网络的微调方式进行特征学习,获得四种语音Mel频谱片段学习到的CNN特征;
C)采用基于块的特征池化方法将四种语音Mel频谱片段学习到的CNN特征分别聚合成固定长度的全局性语句特征,然后采用四个线性支持向量机分别进行情感分类,获得四个线性支持向量机的情感分类输出结果;
D)采用两阶段分数层融合方法对四个线性支持向量机的情感分类输出结果进行融合,获得最终的语音情感识别分类结果。
本发明首先采集语音信号,语音信号包括左声道语音信号和右声道语音信号,然后左声道语音信号与右声道语音信号进行相加,获得相加后的语音信号,即中央声道语音信号。将左声道语音信号与右声道信号进行相减,获得相减后的语音信号,即侧边声道语音信号。然后获得四种一维的语音Me频谱片段,再将一维的语音Me频谱片段转换为类似于RGB图像表示的三个声道频谱,作为语音深度卷积神经网络(CNN)的输入,实现二维卷积运算。CNN在每个频谱片段采用微调方式进行特征学习,微调方式是利用已有训练的CNN图像模型进行迁移学习,减轻数据量不足的压力。采用基于块的特征池化方法将每个频谱片段学习到的CNN特征聚合成固定长度的全局性的语句(Utterance)特征表示,然后输入到支持向量机(SVM),采用两阶段分数层(Score-level)融合方法对四个线性支持向量机的输出结果进行融合,完成情感的分类任务。
进一步的,四种语音Mel频谱片段分别为左声道Mel频谱片段、右声道Mel频谱片段、中央声道Mel频谱片段和侧边声道Mel频谱片段。
中央声道Mel频谱片段表示左声道与右声道的相加,侧边声道Mel频谱片段表示左声道与右声道的相减。
进一步的,步骤A)中获得与双耳表征相关的四种语音Mel频谱片段对应的语音RGB图像三声道输入矩阵,包括步骤:
A1)获得一维的四种声道的情感语音信号,采用N1个Mel滤波器和N2帧的文本窗大小将四种声道的情感语音信号分别按时间顺序拆分成若干个语语音谱片段,获得四种声道的情感语音信号的N1×N2的二维静态频谱片段特征,四种声道道分别为左声道(Left)、右声道(Right)、中央声道(Mid)和侧边声道(Side);
A2)对二维静态频谱片段特征在时间轴上进行一阶求导,获得一阶求导系数;
A3)对二维静态频谱片段特征在时间轴上进行二阶求导,获得二阶求导系数;
A4)将四种声道的情感语音信号的二维静态频谱片段特征、一阶求导系数和二阶求导系数分别作为RGB图像的三声道,从而获得四种声道的情感语音信号的特征为N1×N2×3的语音RGB图像三声道输入矩阵;
A5)对每个特征为N1×N2×3的语音RGB图像三声道输入矩阵进行采样处理,获得符合CNN输入大小的语音RGB图像三声道输入矩阵;
A6)依次重复步骤A2)至A5),四种声道的情感语音信号均获得若干个语音RGB图像三声道输入矩阵。
采用双线性内插法对特征为N1×N2×3的语音RGB图像三声道输入矩阵进行采样处理。
对于一维的情感语音信号,本发明将其拆分成多个片段(segment),对每个片段进行CNN学习,获得语音片段特征。先采用N1个Mel滤波器和N2帧的文本窗大小,计算出二维的静态频谱片段N1×N2,然后对其在时间轴上进行一阶和二阶求导,以便抓住该频谱片段的时间动态特性。最后,将语音信号的静态的频谱片段特征、以及它的一阶求导系数和二阶求导系数作为RGB图像的三个声道,从而得到一个类似于RGB图像的三维Mel频谱片段,特征为N1×N2×3,然后缩放成预设特征大小的语音RGB图像三声道输入矩阵,将其作为语音深度卷积神经网络的语音输入。
进一步的,步骤B)中对每个语音Mel频谱片段采用微调方式进行特征学习,包括计算总样本损失函数,更新网络权重值;通过计算得到损失函数,其中,yj表示第j个情感识别类别的真实值,表示深度卷积神经网络的分类器输出的第j个情感识别类别预测值,C表示情感类别数目。
对每个语音Mel频谱片段,采用语音深度卷积神经网络,深度卷积神经网络可以通过采用多层的卷积(Convolution)和池化(Pooling)操作来捕获图像的高层属性特征。在目标情感数据集上进行微调,分别学习出高层次的语音情感特征表示。
进一步的,步骤C)中采用基于块的特征池化方法将四种语音Mel频谱片段学习到的CNN特征分别聚合成固定长度的全局语句特征,包括步骤:
C1)对每种语音Mel频谱片段学习到的CNN特征X在时间轴上进行一阶求导,获得与CNN特征X对应的一阶导数delta_X;
C2)将CNN特征X和一阶导数delta_X分别在不同尺度l下沿时间轴均匀分成L个连续非重叠子块,X=(X1,X2,…,X1),delta_X=(delta_X1,delta_X1,…,delta_X1),l=1,2,…,L;C3)对含有n个子片段d维的连续非重叠子块Xl=(x1,x2,...,xn)∈Rd×n进行池化处理,xn表示连续非重叠子块Xl的第n个语音Mel频谱片段CNN特征,获得固定长度的池化特征p取值为1或∞,当p取值为1时等同于平均池化,当p取值为∞时等同于平均池化;
C4)对含有n个子片段d维的连续非重叠导数子块delta_Xl=(x′1,x′2,...,x′n)∈Rd×n进行池化处理,x′n表示连续非重叠导数子块delta_Xl的第n个语音Mel频谱片段CNN特征的一阶导数,获得固定长度的池化特征C5)将所有的子块池化特征进行串联,获得全局语句特征
每句情感语音的发音时间不同,导致所拆分得到的局部频谱片段的数目也会不同。因此需要将不同频谱片段上学习到的CNN特征聚合成固定长度的全局语句特征表示,该过程称为特征池化(Feature Pooling)。为了寻找最优的特征池化策略,并同时充分利用时序信息,本发明提出了一种基于块的特征池化方法。步骤C3)以及步骤C4)的子片段均表示语音Mel频谱片段。本发明在时间轴上将一句语音上所有学习到的片段特征分成若干个子块,并在每个子块上学习出最优的特征池化,最后将所有的子块池化特征进行串联,得到一个完整的语句特征,即全局语句特征。
进一步的,步骤D)中采用两阶段分数层融合方法对四个线性支持向量机的情感分类输出结果进行融合,包括步骤:
D1)将四个线性支持向量机的输出结果分别记为左声道Mel频谱片段输出结果、右声道Mel频谱片段输出结果、中央声道Mel频谱片段输出结果和侧边声道Mel频谱片段输出结果;
D2)将左声道Mel频谱片段输出结果和右声道Mel频谱片段输出结果进行分数层融合,获得左右声道的融合结果;
D3)将中央声道Mel频谱片段输出结果和侧边声道Mel频谱片段输出结果进行分数层融合,获得中央和侧边声道融合结果;
D4)将所述左右声道融合结果与所述中央和侧边声道融合结果进行第二阶段的分数层融合,获得最终融合结果,将最终融合结果作为语音情感识别分类结果。
步骤D2)中获得左右声道融合结果
score1 fusion=α*scoreleft+(1-α)*scoreright,其中scoreleft为左声道Mel频谱片段输出结果,scoreright为右声道Mel频谱片段输出结果,α为左右声道融合结果权重,0≤α≤1。
支持向量机(SVM)是一种基于统计学习理论的机器学习方法,其基本思想是将原始的数据空间通过一个核函数映射到一个高维特征新空间,从而在这新的空间构建最优分类超平面实现数据的最优分类。由于SVM是在结构风险最小化原则上建立起来的,从而保证其学习具有良好的泛化能力,即使对小样本训练数据也可以得到较好的性能。本发明采用两阶段分数层融合方法对四个线性支持向量机的输出结果进行融合,第一阶段通过分数层融合将左声道Mel频谱片段输出结果和右声道Mel频谱片段输出结果进行分数层融合,获得左右声道融合结果,将中央声道Mel频谱片段输出结果和侧边声道Mel频谱片段输出结果进行分数层融合,获得中央和侧边声道融合结果。第二阶段将左右声道融合结果、中央和侧边声道融合结果进行分数层融合,获得最后的语音情感识别分类结果。
本发明具有如下有益效果:本发明通过采用多个深度卷积神经网络对双耳表征进行学习,采用新的特征池化策略,提出了一种基于块的特征池化方法,这种特征池化方法将四种语音Mel频谱片段学习到的CNN特征进行聚合,生成固定长度的全局语句特征,最后采用支持向量机进行语音情感识别。本发明采用了两层分数层融合结构,通过融合左右声道融合结果以及中央和侧边声道融合结果,获得最终的语音情感识别结果,识别准确率高。
附图说明
图1是本发明的实施例一流程示意图。
图2是本发明的实施例一融合语音深度卷积神经网络结构示意图。
图3是本发明的实施例一基于块的特征池化方法网络结构示意图。
具体实施方式
下面结合附图与具体实施方式对本发明做进一步的描述。
实施例一,采用AFEW5.0自然情绪语音数据库,从723个语音训练集样本中获得5141个语音Mel频谱片段,从383个验证集样本中获得2484个语音Mel频谱片段,识别情感目标分别为生气(Anger)、高兴(Joy)、悲伤(Sadness)、厌恶(Disgust)、惊奇(Surprise)、害怕(Fear)以及中性(neutral)。如图1所示,基于卷积神经网络和双耳表征的自然语音情感识别方法,包括步骤:
A)采集语音信号,获取与双耳表征相关的四种语音Mel频谱片段,四种语音Mel频谱片段分别为左声道Mel频谱片段、右声道Mel频谱片段、中央声道Mel频谱片段和侧边声道Mel频谱片段。中央声道Mel频谱片段表示左声道与右声道的相加,侧边声道Mel频谱片段表示左声道与右声道的相减。获得与双耳表征相关的四种语音Mel频谱片段对应的语音RGB图像三声道输入矩阵,包括步骤:
A1)获得一维的四种声道的情感语音信号,采用64个Mel滤波器和64帧的文本窗大小将四种声道的情感语音信号分别按时间顺序拆分成若干个语语音谱片段,获得四种声道的情感语音信号的N1×N2的二维静态频谱片段特征,四种声道分别为左声道(Left)、右声道(Right)、中央声道(Mid)和侧边声道(Side);
A2)对二维静态频谱片段特征在时间轴上进行一阶求导,获得一阶求导系数;
A3)对二维静态频谱片段特征在时间轴上进行二阶求导,获得二阶求导系数;
A4)将四种声道的情感语音信号的二维静态频谱片段特征、一阶求导系数和二阶求导系数分别作为四个RGB图像的三声道,获得四种声道的情感语音信号的特征为64×64×3的语音RGB图像三声道输入矩阵;
A5)对每个特征为64×64×3的语音RGB图像三声道输入矩阵采用双线性内插法对特征为64×64×3的语音RGB图像三声道输入矩阵进行采样处理,获得227×227×3的语音RGB图像三声道输入矩阵;
A6)依次重复步骤A2)至A5),四种声道的情感语音信号均获得若干个语音RGB图像三声道输入矩阵。
B)构建四个语音深度卷积神经网络,实施例中所使用的四个语音深度卷积神经网络与原AlexNet相同。包括5个卷积层(Conv1、Conv2、Conv3、Conv4和Conv5),3个最大池化层(Pool1、Pool2和Pool5)以及3个全连接层(fc6、fc7和fc8)。fc6和fc7有4096个神经元,而fc8表示一个与数据类别对应的标签向量。对四个语音深度卷积神经网络进行初始化,语音深度卷积神经网络的超参数mini-batch设为30,学习速率设为0.001,epoch number设为300。对每个语音Mel频谱片段采用微调方式,将语音RGB图像三声道输入矩阵作为语音深度卷积神经网络的输入,对每个语音Mel频谱片段采用卷积神经网络的微调方式进行特征学习,获得四种语音Mel频谱片段学习到的CNN特征。
本实施例采用在2012年ImageNet图像识别竞赛中获得第一名的AlexNet网络模型,在目标语音情感数据库上进行微调,从而提取高层次的语音情感特征参数用于情感分类,CNN微调的实现过程包括:将输入语语音谱64×64×3采样到AlexNet输入大小227×227×3;拷贝AlexNet模型参数进行网络初始化;利用现有的语音情感标签样本重新训练一次;将训练好的模型中的最后一层4096维的全连接层作为学习到的语音情感特征,输入到支持向量机(SVM),用于情感的分类。
采用卷积神经网络的微调方式进行特征学习的过程还包括计算总样本损失函数,更新网络权重值;通过计算得到损失函数,其中,yj表示第j个情感识别类别的真实值,表示深度卷积神经网络的分类器输出的第j个情感识别类别预测值,C表示情感类别数目。
C)采用基于块的特征池化方法将四种语音Mel频谱片段学习到的CNN特征分别聚合成固定长度的全局性语句特征,基于块的特征池化方法网络结构如图3所示,包括步骤:包括步骤:
C1)对每种语音Mel频谱片段学习到的CNN特征X在时间轴上进行一阶求导,获得与CNN特征X对应的一阶导数delta_X;
C2)将CNN特征X和一阶导数delta_X分别在不同尺度l下沿时间轴均匀分成L个连续非重叠子块,X=(X1,X2,…,X1),delta_X=(delta_X1,delta_X1,...,delta_X1),l=1,2,…,L;C3)对含有n个子片段d维的连续非重叠子块Xl=(x1,x2,...,xn)∈Rd×n进行池化处理,xn表示连续非重叠子块Xl的第n个语音Mel频谱片段CNN特征,获得固定长度的池化特征p取值为1或∞,当p取值为1时等同于平均池化,当p取值为∞时等同于平均池化;
C4)对含有n个子片段d维的连续非重叠导数子块delta_Xl=(x′1,x′2,...,x′n)∈Rd×n进行池化处理,x′n表示连续非重叠导数子块delta_Xl的第n个语音Mel频谱片段CNN特征的一阶导数,获得固定长度的池化特征C5)将所有的子块池化特征进行串联,获得全局语句特征
采用四个线性支持向量机分别四个语音深度卷积神经网络进行情感分类识别,获得四个线性支持向量机的输出结果。
D)采用两阶段分数层融合方法对四个线性支持向量机的情感分类输出结果进行融合,如图2所示,包括步骤:
D1)将四个线性支持向量机的输出结果分别记为左声道Mel频谱片段输出结果、右声道Mel频谱片段输出结果、中央声道Mel频谱片段输出结果和侧边声道Mel频谱片段输出结果;
D2)将左声道Mel频谱片段输出结果和右声道Mel频谱片段输出结果进行分数层融合,获得左右声道融合结果其中scoreleft为左声道Mel频谱片段输出结果,scoreright为右声道Mel频谱片段输出结果,α为左右声道融合结果权重,0≤α≤1。
D3)将中央声道Mel频谱片段输出结果和侧边声道Mel频谱片段输出结果进行分数层融合,获得中央和侧边声道融合结果其中,scoremid为中央声道Mel频谱片段输出结果,scoreside为侧边声道Mel频谱片段输出结果,β为中央和侧边声道融合结果权重,0≤β≤1。
本发明首先采集语音信息,语音信号包括左声道语音信号和右声道信号,然后左声道语音信号与右声道信号进行相加,获得相加后的语音信号。将左声道语音信号与右声道信号进行相减,获得相减后的语音信号。然后获得四种一维的语音Me频谱片段,再将将一维的语音Me频谱片段转换为类似于RGB图像表示的三个声道频谱,作为语音深度卷积神经网络(CNN)的输入,实现二维卷积运算。CNN在每个频谱片段采用微调方式进行特征学习,微调方式是利用已有训练的CNN图像模型进行迁移学习,减轻数据量不足的压力。采用基于块的特征池化方法将每个频谱片段学习到的CNN特征聚合成固定长度的全局性的语句(Utterance)特征表示,然后输入到支持向量机(SVM),采用两阶段分数层融合方法对四个线性支持向量机的输出结果进行融合,完成情感的分类任务。
为了验证从中央声道Mel频谱片段学习到的CNN特征或从侧边声道Mel频谱片段学习到的CNN特征是否与左/右单声道Mel频谱片段学习到的CNN特征之间存在互补性,表1至表4给出了AFEW5.0数据库中不同单耳表征识别结果的混淆矩阵。可以看到,对于厌恶(disgust)语音情感识别,侧边声道表征语音情感识别的准确率为15.38%,而左声道表征语音情感识别的准确率为0%。这说明在一定程度上,中央声道Mel频谱片段学习到的CNN特征与左声道或右声道Mel频谱片段学习到的CNN特征是互补的。同样的,对于侧边声道单声道表征,在对厌恶和惊讶语音情感进行分类时,得到的结果也是互补的。
表1 AFEW5.0数据库的左声道表征语音情感识别结果
Anger | Disgust | Fear | Joy | Sadness | Surprise | Neutral | |
Anger | 48.68 | 7.89 | 9.21 | 14.47 | 3.95 | 10.53 | 5.26 |
Disgust | 8.33 | 0.00 | 16.67 | 25.00 | 16.67 | 8.33 | 25.00 |
Fear | 6.90 | 6.90 | 51.72 | 13.79 | 10.34 | 6.90 | 3.45 |
Joy | 10.47 | 15.12 | 8.14 | 23.26 | 11.63 | 15.12 | 16.28 |
Sadness | 10.81 | 18.92 | 2.70 | 10.81 | 40.54 | 2.70 | 13.51 |
Surprise | 12.50 | 6.25 | 22.92 | 8.33 | 20.83 | 16.67 | 12.50 |
Neutral | 5.26 | 9.47 | 3.16 | 17.89 | 18.95 | 13.68 | 31.58 |
表1
表2 AFEW5.0数据库的右声道表征语音情感识别结果
Anger | Disgust | Fear | Joy | Sadness | Surprise | Neutral | |
Anger | 46.75 | 7.79 | 9.09 | 11.69 | 5.19 | 10.39 | 9.09 |
Disgust | 7.69 | 15.38 | 3.85 | 23.08 | 19.23 | 11.54 | 19.23 |
Fear | 8.33 | 5.56 | 38.89 | 19.44 | 13.89 | 11.11 | 2.78 |
Joy | 7.58 | 15.15 | 4.55 | 24.24 | 13.64 | 16.67 | 18.18 |
Sadness | 10.91 | 10.91 | 10.91 | 5.45 | 40.00 | 7.27 | 14.55 |
Surprise | 17.14 | 8.57 | 25.71 | 14.29 | 5.71 | 20.00 | 8.57 |
Neutral | 6.82 | 10.23 | 6.82 | 19.32 | 15.91 | 10.23 | 30.68 |
表2
表3 AFEW5.0数据库的中央声道表征语音情感识别结果
表3
表4 AFEW5.0数据库的侧边声道表征语音情感识别结果
Anger | Disgust | Fear | Joy | Sadness | Surprise | Neutral | |
Anger | 25.26 | 10.53 | 5.26 | 14.74 | 13.68 | 11.58 | 18.95 |
Disgust | 23.53 | 35.29 | 0.00 | 11.76 | 17.65 | 0.00 | 11.76 |
Fear | 4.35 | 2.17 | 36.96 | 13.04 | 19.57 | 17.39 | 6.52 |
Joy | 10.81 | 10.81 | 6.76 | 24.32 | 14.86 | 10.81 | 21.62 |
Sadness | 13.64 | 10.61 | 13.64 | 22.73 | 21.21 | 9.09 | 9.09 |
Surprise | 17.24 | 6.90 | 20.69 | 6.90 | 27.59 | 10.34 | 10.34 |
Neutral | 21.43 | 10.71 | 7.14 | 10.71 | 5.36 | 17.86 | 26.79 |
表4
表五为采用CNN对单声道表征进行识别和采用两阶段分数层融合方法对四个线性支持向量机的语音情感输出结果进行融合识别的准确率结果。如表六所示,本发明将左右声道融合结果权重α设为0.4,中央和侧边声道融合结果权重β设为0.7,最终融合权重λ设为0.6,通过融合左右声道融合结果以及中央和侧边声道融合结果,获得最终的识别结果。通过对比表五和表六可以看出,对于AFEW5.0自然情绪语音数据库,本发明的准确率均高于采用CNN对单声道表征进行识别的准确率。
表五采用CNN对单声道表征进行识别的准确率结果
单声道表征 | AFEW5.0 |
左声道 | 32.64 |
右声道 | 32.90 |
中央声道 | 32.89 |
侧边声道 | 25.32 |
表五
表六本发明对双耳表征进行识别的准确率结果
分数层融合 | AFEW5.0 |
左右声道融合结果 | 34.51(α=0.4) |
中央和侧边声道融合结果 | 34.99(β=0.7) |
最终的识别结果 | 36.29(λ=0.6) |
表六
本发明通过采用多个深度卷积神经网络对双耳表征进行学习,采用新的特征池化策略,提出了一种基于块的特征池化方法,这种特征池化方法将四种语音Mel频谱片段学习到的CNN特征进行聚合,生成固定长度的全局语句特征,最后采用支持向量机进行语音情感识别。本发明采用了两层分数层融合结构,通过融合左右声道融合结果以及中央和侧边声道融合结果,获得最终的识别结果,识别准确率高。
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明保护范围以内。
Claims (10)
1.一种基于卷积神经网络和双耳表征的自然语音情感识别方法,其特征在于,包括步骤:
A)采集语音信号,获取与双耳表征相关的四种语音Mel频谱片段,获得与双耳表征相关的四种语音Mel频谱片段对应的语音RGB图像三声道输入矩阵;
B)构建与双耳表征相关的四个语音深度卷积神经网络,将语音RGB图像三声道输入矩阵作为语音深度卷积神经网络的输入,对每个语音Mel频谱片段采用卷积神经网络的微调方式进行特征学习,获得四种语音Mel频谱片段学习到的CNN特征;
C)采用基于块的特征池化方法将四种语音Mel频谱片段学习到的CNN特征分别聚合成固定长度的全局性语句特征,然后采用四个线性支持向量机分别进行情感分类,获得四个线性支持向量机的情感分类输出结果;
D)采用两阶段分数层融合方法对四个线性支持向量机的情感分类输出结果进行融合,获得最终的语音情感识别分类结果。
2.根据权利要求1所述的一种基于卷积神经网络和双耳表征的自然语音情感识别方法,其特征在于,所述四种语音Mel频谱片段分别为左声道Mel频谱片段、右声道Mel频谱片段、中央声道Mel频谱片段和侧边声道Mel频谱片段。
3.根据权利要求1或2所述的一种基于卷积神经网络和双耳表征的自然语音情感识别方法,其特征在于,步骤A)中获得与双耳表征相关的四种语音Mel频谱片段对应的语音RGB图像三声道输入矩阵,包括步骤:
A1)获得一维的四种声道的情感语音信号,采用N1个Mel滤波器和N2帧的文本窗大小将四种声道的情感语音信号分别按时间顺序拆分成若干个语语音谱片段,获得四种声道的情感语音信号的N1×N2的二维静态频谱片段特征,所述四种声道分别为左声道、右声道、中央声道和侧边声道;
A2)对二维静态频谱片段特征在时间轴上进行一阶求导,获得一阶求导系数;
A3)对二维静态频谱片段特征在时间轴上进行二阶求导,获得二阶求导系数;
A4)将四种声道的情感语音信号的二维静态频谱片段特征、一阶求导系数和二阶求导系数分别作为RGB图像的三声道,从而获得四种声道的情感语音信号的特征为N1×N2×3的语音RGB图像三声道输入矩阵;
A5)对每个特征为N1×N2×3的语音RGB图像三声道输入矩阵进行采样处理,获得符合CNN输入大小的语音RGB图像三声道输入矩阵;
A6)依次重复步骤A2)至A5),四种声道的情感语音信号均获得若干个语音RGB图像三声道输入矩阵。
4.根据权利要求3所述的一种基于卷积神经网络和双耳表征的自然语音情感识别方法,其特征在于,步骤A5)中,采用双线性内插法对特征为N1×N2×3的语音RGB图像三声道输入矩阵进行采样处理。
6.根据权利要求5所述的一种基于卷积神经网络和双耳表征的自然语音情感识别方法,其特征在于,步骤C)中采用基于块的特征池化方法将四种语音Mel频谱片段学习到的CNN特征分别聚合成固定长度的全局语句特征,包括步骤:
C1)对每种语音Mel频谱片段学习到的CNN特征X在时间轴上进行一阶求导,获得与CNN特征X对应的一阶导数delta_X;
C2)将CNN特征X和一阶导数delta_X分别在不同尺度l下沿时间轴均匀分成L个连续非重叠子块,X=(X1,X2,…,XL),delta_X=(deltx_X1,delta_X2,…,delta_XL),l=1,2,…,L;
C3)对含有n个子片段d维的连续非重叠子块Xl=(x1,x2,...,xn)∈Rd×n进行池化处理,xn表示连续非重叠子块Xl的第n个语音Mel频谱片段CNN特征,获得固定长度的池化特征p取值为1或∞,当p取值为1时等同于平均池化,当p取值为∞时等同于平均池化;
C4)对含有n个子片段d维的连续非重叠导数子块delta_X1=(x′1,x′2,...,x′n)∈Rd×n进行池化处理,x′n表示连续非重叠导数子块delta_Xl的第n个语音Mel频谱片段CNN特征的一阶导数,获得固定长度的池化特征
7.根据权利要求1或6所述的一种基于卷积神经网络和双耳表征的自然语音情感识别方法,其特征在于,步骤D)中采用两阶段分数层融合方法对四个线性支持向量机的输出结果进行融合,包括步骤:
D1)将四个线性支持向量机的输出结果分别记为左声道Mel频谱片段输出结果、右声道Mel频谱片段输出结果、中央声道Mel频谱片段输出结果和侧边声道Mel频谱片段输出结果;
D2)将左声道Mel频谱片段输出结果和右声道Mel频谱片段输出结果进行分数层融合,获得左右声道的融合结果;
D3)将中央声道Mel频谱片段输出结果和侧边声道Mel频谱片段输出结果进行分数层融合,获得中央和侧边声道融合结果;
D4)将所述左右声道融合结果与所述中央和侧边声道融合结果进行第二阶段的分数层融合,获得最终融合结果,将最终融合结果作为语音情感识别分类结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911330520.8A CN111312215B (zh) | 2019-12-20 | 2019-12-20 | 一种基于卷积神经网络和双耳表征的自然语音情感识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911330520.8A CN111312215B (zh) | 2019-12-20 | 2019-12-20 | 一种基于卷积神经网络和双耳表征的自然语音情感识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111312215A true CN111312215A (zh) | 2020-06-19 |
CN111312215B CN111312215B (zh) | 2023-05-30 |
Family
ID=71148181
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911330520.8A Active CN111312215B (zh) | 2019-12-20 | 2019-12-20 | 一种基于卷积神经网络和双耳表征的自然语音情感识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111312215B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112861984A (zh) * | 2021-02-25 | 2021-05-28 | 西华大学 | 一种基于特征融合与集成学习的语音情感分类方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018014436A1 (zh) * | 2016-07-18 | 2018-01-25 | 天津大学 | 一种提高情绪识别模型时间鲁棒性的情绪脑电识别方法 |
CN108717856A (zh) * | 2018-06-16 | 2018-10-30 | 台州学院 | 一种基于多尺度深度卷积循环神经网络的语音情感识别方法 |
CN110517705A (zh) * | 2019-08-29 | 2019-11-29 | 北京大学深圳研究生院 | 一种基于深度神经网络和卷积神经网络的双耳声源定位方法和系统 |
-
2019
- 2019-12-20 CN CN201911330520.8A patent/CN111312215B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018014436A1 (zh) * | 2016-07-18 | 2018-01-25 | 天津大学 | 一种提高情绪识别模型时间鲁棒性的情绪脑电识别方法 |
CN108717856A (zh) * | 2018-06-16 | 2018-10-30 | 台州学院 | 一种基于多尺度深度卷积循环神经网络的语音情感识别方法 |
CN110517705A (zh) * | 2019-08-29 | 2019-11-29 | 北京大学深圳研究生院 | 一种基于深度神经网络和卷积神经网络的双耳声源定位方法和系统 |
Non-Patent Citations (2)
Title |
---|
张石清 等: "噪声背景下的语音情感识别" * |
林巧民 等: "基于HMM 和ANN 混合模型的语音情感识别研究" * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112861984A (zh) * | 2021-02-25 | 2021-05-28 | 西华大学 | 一种基于特征融合与集成学习的语音情感分类方法 |
CN112861984B (zh) * | 2021-02-25 | 2022-07-01 | 西华大学 | 一种基于特征融合与集成学习的语音情感分类方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111312215B (zh) | 2023-05-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110674339B (zh) | 一种基于多模态融合的中文歌曲情感分类方法 | |
Cao et al. | Deep neural networks for learning graph representations | |
Huang et al. | Unsupervised domain adaptation for speech emotion recognition using PCANet | |
CN110827804B (zh) | 一种音频帧序列到事件标签序列的声音事件标注方法 | |
CN109448703B (zh) | 结合深度神经网络和主题模型的音频场景识别方法及系统 | |
CN109949824B (zh) | 基于N-DenseNet和高维mfcc特征的城市声音事件分类方法 | |
Mo et al. | Neural architecture search for keyword spotting | |
CN109215680B (zh) | 一种基于卷积神经网络的语音还原方法 | |
Zhong et al. | A Lightweight Model Based on Separable Convolution for Speech Emotion Recognition. | |
CN109493881A (zh) | 一种音频的标签化处理方法、装置和计算设备 | |
Peddinti et al. | Deep scattering spectrum with deep neural networks | |
CN111933124A (zh) | 一种可支持自定唤醒词的关键词检测方法 | |
CN111242155A (zh) | 一种基于多模深度学习的双模态情感识别方法 | |
CN112183107A (zh) | 音频的处理方法和装置 | |
Kumar et al. | Discriminatively trained continuous Hindi speech recognition using integrated acoustic features and recurrent neural network language modeling | |
Sunny et al. | Recognition of speech signals: an experimental comparison of linear predictive coding and discrete wavelet transforms | |
Mohammadamini et al. | Barlow Twins self-supervised learning for robust speaker recognition | |
Soliman et al. | Isolated word speech recognition using convolutional neural network | |
Kamal et al. | An innovative approach utilizing binary-view transformer for speech recognition task | |
CN110348482A (zh) | 一种基于深度模型集成架构的语音情感识别系统 | |
Hosseini et al. | Multimodal modelling of human emotion using sound, image and text fusion | |
CN111312215B (zh) | 一种基于卷积神经网络和双耳表征的自然语音情感识别方法 | |
Hu et al. | A joint network based on interactive attention for speech emotion recognition | |
Jia | [Retracted] Music Emotion Classification Method Based on Deep Learning and Explicit Sparse Attention Network | |
CN116758451A (zh) | 基于多尺度和全局交叉注意力的视听情感识别方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |