CN111312215A - 一种基于卷积神经网络和双耳表征的自然语音情感识别方法 - Google Patents

一种基于卷积神经网络和双耳表征的自然语音情感识别方法 Download PDF

Info

Publication number
CN111312215A
CN111312215A CN201911330520.8A CN201911330520A CN111312215A CN 111312215 A CN111312215 A CN 111312215A CN 201911330520 A CN201911330520 A CN 201911330520A CN 111312215 A CN111312215 A CN 111312215A
Authority
CN
China
Prior art keywords
voice
channel
frequency spectrum
mel
mel frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911330520.8A
Other languages
English (en)
Other versions
CN111312215B (zh
Inventor
张石清
赵小明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Taizhou University
Original Assignee
Taizhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Taizhou University filed Critical Taizhou University
Priority to CN201911330520.8A priority Critical patent/CN111312215B/zh
Publication of CN111312215A publication Critical patent/CN111312215A/zh
Application granted granted Critical
Publication of CN111312215B publication Critical patent/CN111312215B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Signal Processing (AREA)
  • General Health & Medical Sciences (AREA)
  • Psychiatry (AREA)
  • Hospice & Palliative Care (AREA)
  • Child & Adolescent Psychology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及语音和图像处理、模式识别领域,公开了一种基于卷积神经网络和双耳表征的自然语音情感识别方法,包括步骤:A)采集语音信号,获得与四种语音Mel频谱片段对应的语音RGB图像三通道输入矩阵;B)构建四个语音深度卷积神经网络,获得四种语音Mel频谱片段学习到的CNN特征;C)采用基于块的特征池化方法将四种语音Mel频谱片段学习到的CNN特征分别聚合成固定长度的全局性语句特征;D)采用两阶段分数层融合方法进行融合,获得语音情感识别分类结果。本发明不仅利用双耳表征进行特征学习,并且提出了基于块的特征池化方法,采用两阶段分数层融合方法进行融合,语音情感识别结果准确率高。

Description

一种基于卷积神经网络和双耳表征的自然语音情感识别方法
技术领域
本发明涉及语音和图像处理、模式识别领域,特别是涉及基于卷积神经网络和双耳表征的自然语音情感识别方法。
背景技术
在语音情感特征的提取方面,现有技术采用手工设计的典型的语音情感特征参数,即语音情感识别领域中常用的主流特征参数,具体包括:与情感语音相关的韵律特征、音质特征、谱特征,(比如文献:Y.Wang and L.Guan.Recognizing human emotional statefrom audiovisual signals.IEEE Transaction on Multimedia,10(5):936–946,2008.)。尽管这些手工设计的典型的语音情感特征参数已经成为语音情感识别研究中的主流特征参数,但是手工设计的情感特征依赖于设计者的经验和专业知识,可靠性不够,很难利用大数据的优势。此外,手工设计的特征都属于低层次的情感特征,因为它们对于情感语义的表示力非常有限,尤其与人脑理解的高层次的情感语义之间存在较大差异,即存在“情感鸿沟”问题。而深度卷积神经网络作为传统的卷积神经网络(CNN)在深度上的一种扩展,利用多层次的卷积(Convolution)和池化(Pooling)操作来学习出高层次的图像语义特征,现已在图像检索、人体行为识别以及图像识别等图像处理方面表现出了强大的生命力,但CNN无法直接处理一维的情感语音信号。针对现有手工提取的语音情感特征参数存在的“情感鸿沟”问题,研究利用深度CNN模型从原始的语音信号频谱中学习出高层次的情感语音特征用于语音情感识别。
比如,文献1:Q.Mao,M.Dong,Z.Huang,and Y.Zhan,“Learning Salient Featuresfor Speech Emotion Recognition Using Convolutional Neural Networks,”IEEETransactions on Multimedia,vol.16,no.8,pp.2203-2213,2014.以及文献2:K.Simonyan,and A.Zisserman,“Very deep convolutional networks for large-scaleimage recognition,”in ICLR-2015,San Diego,CA,USA,2015,pp.1-14。虽然这两篇文献均采用了深度学习技术,但是在语音情感识别任务中只专注于单耳语音信号及其相关特征,并没有考虑其他声道的相关语音特征。
发明内容
本发明是为了解决单耳语音信号对于情感语义的表示力有限以及现有融合方法融合准确率低的问题,提供基于卷积神经网络和双耳表征的自然语音情感识别方法,本发明通过学习双耳表征,获取四种语音Mel频谱片段,通过构建四个语音深度卷积神经网络对四种语音Mel频谱片段分别进行特征学习,采用基于块的特征池化方法将四种语音Mel频谱片段学习到的CNN特征分别聚合成固定长度的全局性语句特征,采用两阶段分数层融合方法对四个线性支持向量机的输出结果进行融合,获得语音情感识别分类结果,语音情感识别结果准确率高。
为了实现上述目的,本发明采用以下技术方案:
基于卷积神经网络和双耳表征的自然语音情感识别方法,其特征在于,包括步骤:
A)采集语音信号,获取与双耳表征相关的四种语音Mel频谱片段,获得与双耳表征相关的四种语音Mel频谱片段对应的语音RGB图像三声道输入矩阵;
B)构建与双耳表征相关的四个语音深度卷积神经网络,将语音RGB图像三声道输入矩阵作为语音深度卷积神经网络的输入,对每个语音Mel频谱片段采用卷积神经网络的微调方式进行特征学习,获得四种语音Mel频谱片段学习到的CNN特征;
C)采用基于块的特征池化方法将四种语音Mel频谱片段学习到的CNN特征分别聚合成固定长度的全局性语句特征,然后采用四个线性支持向量机分别进行情感分类,获得四个线性支持向量机的情感分类输出结果;
D)采用两阶段分数层融合方法对四个线性支持向量机的情感分类输出结果进行融合,获得最终的语音情感识别分类结果。
本发明首先采集语音信号,语音信号包括左声道语音信号和右声道语音信号,然后左声道语音信号与右声道语音信号进行相加,获得相加后的语音信号,即中央声道语音信号。将左声道语音信号与右声道信号进行相减,获得相减后的语音信号,即侧边声道语音信号。然后获得四种一维的语音Me频谱片段,再将一维的语音Me频谱片段转换为类似于RGB图像表示的三个声道频谱,作为语音深度卷积神经网络(CNN)的输入,实现二维卷积运算。CNN在每个频谱片段采用微调方式进行特征学习,微调方式是利用已有训练的CNN图像模型进行迁移学习,减轻数据量不足的压力。采用基于块的特征池化方法将每个频谱片段学习到的CNN特征聚合成固定长度的全局性的语句(Utterance)特征表示,然后输入到支持向量机(SVM),采用两阶段分数层(Score-level)融合方法对四个线性支持向量机的输出结果进行融合,完成情感的分类任务。
进一步的,四种语音Mel频谱片段分别为左声道Mel频谱片段、右声道Mel频谱片段、中央声道Mel频谱片段和侧边声道Mel频谱片段。
中央声道Mel频谱片段表示左声道与右声道的相加,侧边声道Mel频谱片段表示左声道与右声道的相减。
进一步的,步骤A)中获得与双耳表征相关的四种语音Mel频谱片段对应的语音RGB图像三声道输入矩阵,包括步骤:
A1)获得一维的四种声道的情感语音信号,采用N1个Mel滤波器和N2帧的文本窗大小将四种声道的情感语音信号分别按时间顺序拆分成若干个语语音谱片段,获得四种声道的情感语音信号的N1×N2的二维静态频谱片段特征,四种声道道分别为左声道(Left)、右声道(Right)、中央声道(Mid)和侧边声道(Side);
A2)对二维静态频谱片段特征在时间轴上进行一阶求导,获得一阶求导系数;
A3)对二维静态频谱片段特征在时间轴上进行二阶求导,获得二阶求导系数;
A4)将四种声道的情感语音信号的二维静态频谱片段特征、一阶求导系数和二阶求导系数分别作为RGB图像的三声道,从而获得四种声道的情感语音信号的特征为N1×N2×3的语音RGB图像三声道输入矩阵;
A5)对每个特征为N1×N2×3的语音RGB图像三声道输入矩阵进行采样处理,获得符合CNN输入大小的语音RGB图像三声道输入矩阵;
A6)依次重复步骤A2)至A5),四种声道的情感语音信号均获得若干个语音RGB图像三声道输入矩阵。
采用双线性内插法对特征为N1×N2×3的语音RGB图像三声道输入矩阵进行采样处理。
对于一维的情感语音信号,本发明将其拆分成多个片段(segment),对每个片段进行CNN学习,获得语音片段特征。先采用N1个Mel滤波器和N2帧的文本窗大小,计算出二维的静态频谱片段N1×N2,然后对其在时间轴上进行一阶和二阶求导,以便抓住该频谱片段的时间动态特性。最后,将语音信号的静态的频谱片段特征、以及它的一阶求导系数和二阶求导系数作为RGB图像的三个声道,从而得到一个类似于RGB图像的三维Mel频谱片段,特征为N1×N2×3,然后缩放成预设特征大小的语音RGB图像三声道输入矩阵,将其作为语音深度卷积神经网络的语音输入。
进一步的,步骤B)中对每个语音Mel频谱片段采用微调方式进行特征学习,包括计算总样本损失函数,更新网络权重值;通过计算
Figure BDA0002329438660000031
得到损失函数,其中,yj表示第j个情感识别类别的真实值,
Figure BDA0002329438660000032
表示深度卷积神经网络的分类器输出的第j个情感识别类别预测值,C表示情感类别数目。
对每个语音Mel频谱片段,采用语音深度卷积神经网络,深度卷积神经网络可以通过采用多层的卷积(Convolution)和池化(Pooling)操作来捕获图像的高层属性特征。在目标情感数据集上进行微调,分别学习出高层次的语音情感特征表示。
进一步的,步骤C)中采用基于块的特征池化方法将四种语音Mel频谱片段学习到的CNN特征分别聚合成固定长度的全局语句特征,包括步骤:
C1)对每种语音Mel频谱片段学习到的CNN特征X在时间轴上进行一阶求导,获得与CNN特征X对应的一阶导数delta_X;
C2)将CNN特征X和一阶导数delta_X分别在不同尺度l下沿时间轴均匀分成L个连续非重叠子块,X=(X1,X2,…,X1),delta_X=(delta_X1,delta_X1,…,delta_X1),l=1,2,…,L;C3)对含有n个子片段d维的连续非重叠子块Xl=(x1,x2,...,xn)∈Rd×n进行池化处理,xn表示连续非重叠子块Xl的第n个语音Mel频谱片段CNN特征,获得固定长度的池化特征
Figure BDA0002329438660000041
p取值为1或∞,当p取值为1时等同于平均池化,当p取值为∞时等同于平均池化;
C4)对含有n个子片段d维的连续非重叠导数子块delta_Xl=(x′1,x′2,...,x′n)∈Rd×n进行池化处理,x′n表示连续非重叠导数子块delta_Xl的第n个语音Mel频谱片段CNN特征的一阶导数,获得固定长度的池化特征
Figure BDA0002329438660000042
C5)将所有的子块池化特征进行串联,获得全局语句特征
Figure BDA0002329438660000043
每句情感语音的发音时间不同,导致所拆分得到的局部频谱片段的数目也会不同。因此需要将不同频谱片段上学习到的CNN特征聚合成固定长度的全局语句特征表示,该过程称为特征池化(Feature Pooling)。为了寻找最优的特征池化策略,并同时充分利用时序信息,本发明提出了一种基于块的特征池化方法。步骤C3)以及步骤C4)的子片段均表示语音Mel频谱片段。本发明在时间轴上将一句语音上所有学习到的片段特征分成若干个子块,并在每个子块上学习出最优的特征池化,最后将所有的子块池化特征进行串联,得到一个完整的语句特征,即全局语句特征。
进一步的,步骤D)中采用两阶段分数层融合方法对四个线性支持向量机的情感分类输出结果进行融合,包括步骤:
D1)将四个线性支持向量机的输出结果分别记为左声道Mel频谱片段输出结果、右声道Mel频谱片段输出结果、中央声道Mel频谱片段输出结果和侧边声道Mel频谱片段输出结果;
D2)将左声道Mel频谱片段输出结果和右声道Mel频谱片段输出结果进行分数层融合,获得左右声道的融合结果;
D3)将中央声道Mel频谱片段输出结果和侧边声道Mel频谱片段输出结果进行分数层融合,获得中央和侧边声道融合结果;
D4)将所述左右声道融合结果与所述中央和侧边声道融合结果进行第二阶段的分数层融合,获得最终融合结果,将最终融合结果作为语音情感识别分类结果。
步骤D2)中获得左右声道融合结果
score1 fusion=α*scoreleft+(1-α)*scoreright,其中scoreleft为左声道Mel频谱片段输出结果,scoreright为右声道Mel频谱片段输出结果,α为左右声道融合结果权重,0≤α≤1。
步骤D3)中获得中央和侧边声道融合结果
Figure BDA0002329438660000051
其中,scoremid为中央声道Mel频谱片段输出结果,scoreside为侧边声道Mel频谱片段输出结果,β为中央和侧边声道融合结果权重,0≤β≤1。
步骤D4)中获得最终融合结果
Figure BDA0002329438660000052
λ为最终融合权重,0≤λ≤1。
支持向量机(SVM)是一种基于统计学习理论的机器学习方法,其基本思想是将原始的数据空间通过一个核函数映射到一个高维特征新空间,从而在这新的空间构建最优分类超平面实现数据的最优分类。由于SVM是在结构风险最小化原则上建立起来的,从而保证其学习具有良好的泛化能力,即使对小样本训练数据也可以得到较好的性能。本发明采用两阶段分数层融合方法对四个线性支持向量机的输出结果进行融合,第一阶段通过分数层融合将左声道Mel频谱片段输出结果和右声道Mel频谱片段输出结果进行分数层融合,获得左右声道融合结果,将中央声道Mel频谱片段输出结果和侧边声道Mel频谱片段输出结果进行分数层融合,获得中央和侧边声道融合结果。第二阶段将左右声道融合结果、中央和侧边声道融合结果进行分数层融合,获得最后的语音情感识别分类结果。
本发明具有如下有益效果:本发明通过采用多个深度卷积神经网络对双耳表征进行学习,采用新的特征池化策略,提出了一种基于块的特征池化方法,这种特征池化方法将四种语音Mel频谱片段学习到的CNN特征进行聚合,生成固定长度的全局语句特征,最后采用支持向量机进行语音情感识别。本发明采用了两层分数层融合结构,通过融合左右声道融合结果以及中央和侧边声道融合结果,获得最终的语音情感识别结果,识别准确率高。
附图说明
图1是本发明的实施例一流程示意图。
图2是本发明的实施例一融合语音深度卷积神经网络结构示意图。
图3是本发明的实施例一基于块的特征池化方法网络结构示意图。
具体实施方式
下面结合附图与具体实施方式对本发明做进一步的描述。
实施例一,采用AFEW5.0自然情绪语音数据库,从723个语音训练集样本中获得5141个语音Mel频谱片段,从383个验证集样本中获得2484个语音Mel频谱片段,识别情感目标分别为生气(Anger)、高兴(Joy)、悲伤(Sadness)、厌恶(Disgust)、惊奇(Surprise)、害怕(Fear)以及中性(neutral)。如图1所示,基于卷积神经网络和双耳表征的自然语音情感识别方法,包括步骤:
A)采集语音信号,获取与双耳表征相关的四种语音Mel频谱片段,四种语音Mel频谱片段分别为左声道Mel频谱片段、右声道Mel频谱片段、中央声道Mel频谱片段和侧边声道Mel频谱片段。中央声道Mel频谱片段表示左声道与右声道的相加,侧边声道Mel频谱片段表示左声道与右声道的相减。获得与双耳表征相关的四种语音Mel频谱片段对应的语音RGB图像三声道输入矩阵,包括步骤:
A1)获得一维的四种声道的情感语音信号,采用64个Mel滤波器和64帧的文本窗大小将四种声道的情感语音信号分别按时间顺序拆分成若干个语语音谱片段,获得四种声道的情感语音信号的N1×N2的二维静态频谱片段特征,四种声道分别为左声道(Left)、右声道(Right)、中央声道(Mid)和侧边声道(Side);
A2)对二维静态频谱片段特征在时间轴上进行一阶求导,获得一阶求导系数;
A3)对二维静态频谱片段特征在时间轴上进行二阶求导,获得二阶求导系数;
A4)将四种声道的情感语音信号的二维静态频谱片段特征、一阶求导系数和二阶求导系数分别作为四个RGB图像的三声道,获得四种声道的情感语音信号的特征为64×64×3的语音RGB图像三声道输入矩阵;
A5)对每个特征为64×64×3的语音RGB图像三声道输入矩阵采用双线性内插法对特征为64×64×3的语音RGB图像三声道输入矩阵进行采样处理,获得227×227×3的语音RGB图像三声道输入矩阵;
A6)依次重复步骤A2)至A5),四种声道的情感语音信号均获得若干个语音RGB图像三声道输入矩阵。
B)构建四个语音深度卷积神经网络,实施例中所使用的四个语音深度卷积神经网络与原AlexNet相同。包括5个卷积层(Conv1、Conv2、Conv3、Conv4和Conv5),3个最大池化层(Pool1、Pool2和Pool5)以及3个全连接层(fc6、fc7和fc8)。fc6和fc7有4096个神经元,而fc8表示一个与数据类别对应的标签向量。对四个语音深度卷积神经网络进行初始化,语音深度卷积神经网络的超参数mini-batch设为30,学习速率设为0.001,epoch number设为300。对每个语音Mel频谱片段采用微调方式,将语音RGB图像三声道输入矩阵作为语音深度卷积神经网络的输入,对每个语音Mel频谱片段采用卷积神经网络的微调方式进行特征学习,获得四种语音Mel频谱片段学习到的CNN特征。
本实施例采用在2012年ImageNet图像识别竞赛中获得第一名的AlexNet网络模型,在目标语音情感数据库上进行微调,从而提取高层次的语音情感特征参数用于情感分类,CNN微调的实现过程包括:将输入语语音谱64×64×3采样到AlexNet输入大小227×227×3;拷贝AlexNet模型参数进行网络初始化;利用现有的语音情感标签样本重新训练一次;将训练好的模型中的最后一层4096维的全连接层作为学习到的语音情感特征,输入到支持向量机(SVM),用于情感的分类。
采用卷积神经网络的微调方式进行特征学习的过程还包括计算总样本损失函数,更新网络权重值;通过计算
Figure BDA0002329438660000071
得到损失函数,其中,yj表示第j个情感识别类别的真实值,
Figure BDA0002329438660000072
表示深度卷积神经网络的分类器输出的第j个情感识别类别预测值,C表示情感类别数目。
C)采用基于块的特征池化方法将四种语音Mel频谱片段学习到的CNN特征分别聚合成固定长度的全局性语句特征,基于块的特征池化方法网络结构如图3所示,包括步骤:包括步骤:
C1)对每种语音Mel频谱片段学习到的CNN特征X在时间轴上进行一阶求导,获得与CNN特征X对应的一阶导数delta_X;
C2)将CNN特征X和一阶导数delta_X分别在不同尺度l下沿时间轴均匀分成L个连续非重叠子块,X=(X1,X2,…,X1),delta_X=(delta_X1,delta_X1,...,delta_X1),l=1,2,…,L;C3)对含有n个子片段d维的连续非重叠子块Xl=(x1,x2,...,xn)∈Rd×n进行池化处理,xn表示连续非重叠子块Xl的第n个语音Mel频谱片段CNN特征,获得固定长度的池化特征
Figure BDA0002329438660000081
p取值为1或∞,当p取值为1时等同于平均池化,当p取值为∞时等同于平均池化;
C4)对含有n个子片段d维的连续非重叠导数子块delta_Xl=(x′1,x′2,...,x′n)∈Rd×n进行池化处理,x′n表示连续非重叠导数子块delta_Xl的第n个语音Mel频谱片段CNN特征的一阶导数,获得固定长度的池化特征
Figure BDA0002329438660000082
C5)将所有的子块池化特征进行串联,获得全局语句特征
Figure BDA0002329438660000083
采用四个线性支持向量机分别四个语音深度卷积神经网络进行情感分类识别,获得四个线性支持向量机的输出结果。
D)采用两阶段分数层融合方法对四个线性支持向量机的情感分类输出结果进行融合,如图2所示,包括步骤:
D1)将四个线性支持向量机的输出结果分别记为左声道Mel频谱片段输出结果、右声道Mel频谱片段输出结果、中央声道Mel频谱片段输出结果和侧边声道Mel频谱片段输出结果;
D2)将左声道Mel频谱片段输出结果和右声道Mel频谱片段输出结果进行分数层融合,获得左右声道融合结果
Figure BDA0002329438660000084
其中scoreleft为左声道Mel频谱片段输出结果,scoreright为右声道Mel频谱片段输出结果,α为左右声道融合结果权重,0≤α≤1。
D3)将中央声道Mel频谱片段输出结果和侧边声道Mel频谱片段输出结果进行分数层融合,获得中央和侧边声道融合结果
Figure BDA0002329438660000085
其中,scoremid为中央声道Mel频谱片段输出结果,scoreside为侧边声道Mel频谱片段输出结果,β为中央和侧边声道融合结果权重,0≤β≤1。
D4)将左右声道融合结果与所述中央和侧边声道融合结果进行第二阶段的分数层融合,获得最终融合结果
Figure BDA0002329438660000086
λ为最终融合权重,0≤λ≤1,将最终融合结果作为语音情感识别分类结果。
本发明首先采集语音信息,语音信号包括左声道语音信号和右声道信号,然后左声道语音信号与右声道信号进行相加,获得相加后的语音信号。将左声道语音信号与右声道信号进行相减,获得相减后的语音信号。然后获得四种一维的语音Me频谱片段,再将将一维的语音Me频谱片段转换为类似于RGB图像表示的三个声道频谱,作为语音深度卷积神经网络(CNN)的输入,实现二维卷积运算。CNN在每个频谱片段采用微调方式进行特征学习,微调方式是利用已有训练的CNN图像模型进行迁移学习,减轻数据量不足的压力。采用基于块的特征池化方法将每个频谱片段学习到的CNN特征聚合成固定长度的全局性的语句(Utterance)特征表示,然后输入到支持向量机(SVM),采用两阶段分数层融合方法对四个线性支持向量机的输出结果进行融合,完成情感的分类任务。
为了验证从中央声道Mel频谱片段学习到的CNN特征或从侧边声道Mel频谱片段学习到的CNN特征是否与左/右单声道Mel频谱片段学习到的CNN特征之间存在互补性,表1至表4给出了AFEW5.0数据库中不同单耳表征识别结果的混淆矩阵。可以看到,对于厌恶(disgust)语音情感识别,侧边声道表征语音情感识别的准确率为15.38%,而左声道表征语音情感识别的准确率为0%。这说明在一定程度上,中央声道Mel频谱片段学习到的CNN特征与左声道或右声道Mel频谱片段学习到的CNN特征是互补的。同样的,对于侧边声道单声道表征,在对厌恶和惊讶语音情感进行分类时,得到的结果也是互补的。
表1 AFEW5.0数据库的左声道表征语音情感识别结果
Anger Disgust Fear Joy Sadness Surprise Neutral
Anger 48.68 7.89 9.21 14.47 3.95 10.53 5.26
Disgust 8.33 0.00 16.67 25.00 16.67 8.33 25.00
Fear 6.90 6.90 51.72 13.79 10.34 6.90 3.45
Joy 10.47 15.12 8.14 23.26 11.63 15.12 16.28
Sadness 10.81 18.92 2.70 10.81 40.54 2.70 13.51
Surprise 12.50 6.25 22.92 8.33 20.83 16.67 12.50
Neutral 5.26 9.47 3.16 17.89 18.95 13.68 31.58
表1
表2 AFEW5.0数据库的右声道表征语音情感识别结果
Anger Disgust Fear Joy Sadness Surprise Neutral
Anger 46.75 7.79 9.09 11.69 5.19 10.39 9.09
Disgust 7.69 15.38 3.85 23.08 19.23 11.54 19.23
Fear 8.33 5.56 38.89 19.44 13.89 11.11 2.78
Joy 7.58 15.15 4.55 24.24 13.64 16.67 18.18
Sadness 10.91 10.91 10.91 5.45 40.00 7.27 14.55
Surprise 17.14 8.57 25.71 14.29 5.71 20.00 8.57
Neutral 6.82 10.23 6.82 19.32 15.91 10.23 30.68
表2
表3 AFEW5.0数据库的中央声道表征语音情感识别结果
Figure BDA0002329438660000091
Figure BDA0002329438660000101
表3
表4 AFEW5.0数据库的侧边声道表征语音情感识别结果
Anger Disgust Fear Joy Sadness Surprise Neutral
Anger 25.26 10.53 5.26 14.74 13.68 11.58 18.95
Disgust 23.53 35.29 0.00 11.76 17.65 0.00 11.76
Fear 4.35 2.17 36.96 13.04 19.57 17.39 6.52
Joy 10.81 10.81 6.76 24.32 14.86 10.81 21.62
Sadness 13.64 10.61 13.64 22.73 21.21 9.09 9.09
Surprise 17.24 6.90 20.69 6.90 27.59 10.34 10.34
Neutral 21.43 10.71 7.14 10.71 5.36 17.86 26.79
表4
表五为采用CNN对单声道表征进行识别和采用两阶段分数层融合方法对四个线性支持向量机的语音情感输出结果进行融合识别的准确率结果。如表六所示,本发明将左右声道融合结果权重α设为0.4,中央和侧边声道融合结果权重β设为0.7,最终融合权重λ设为0.6,通过融合左右声道融合结果以及中央和侧边声道融合结果,获得最终的识别结果。通过对比表五和表六可以看出,对于AFEW5.0自然情绪语音数据库,本发明的准确率均高于采用CNN对单声道表征进行识别的准确率。
表五采用CNN对单声道表征进行识别的准确率结果
单声道表征 AFEW5.0
左声道 32.64
右声道 32.90
中央声道 32.89
侧边声道 25.32
表五
表六本发明对双耳表征进行识别的准确率结果
分数层融合 AFEW5.0
左右声道融合结果 34.51(α=0.4)
中央和侧边声道融合结果 34.99(β=0.7)
最终的识别结果 36.29(λ=0.6)
表六
本发明通过采用多个深度卷积神经网络对双耳表征进行学习,采用新的特征池化策略,提出了一种基于块的特征池化方法,这种特征池化方法将四种语音Mel频谱片段学习到的CNN特征进行聚合,生成固定长度的全局语句特征,最后采用支持向量机进行语音情感识别。本发明采用了两层分数层融合结构,通过融合左右声道融合结果以及中央和侧边声道融合结果,获得最终的识别结果,识别准确率高。
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明保护范围以内。

Claims (10)

1.一种基于卷积神经网络和双耳表征的自然语音情感识别方法,其特征在于,包括步骤:
A)采集语音信号,获取与双耳表征相关的四种语音Mel频谱片段,获得与双耳表征相关的四种语音Mel频谱片段对应的语音RGB图像三声道输入矩阵;
B)构建与双耳表征相关的四个语音深度卷积神经网络,将语音RGB图像三声道输入矩阵作为语音深度卷积神经网络的输入,对每个语音Mel频谱片段采用卷积神经网络的微调方式进行特征学习,获得四种语音Mel频谱片段学习到的CNN特征;
C)采用基于块的特征池化方法将四种语音Mel频谱片段学习到的CNN特征分别聚合成固定长度的全局性语句特征,然后采用四个线性支持向量机分别进行情感分类,获得四个线性支持向量机的情感分类输出结果;
D)采用两阶段分数层融合方法对四个线性支持向量机的情感分类输出结果进行融合,获得最终的语音情感识别分类结果。
2.根据权利要求1所述的一种基于卷积神经网络和双耳表征的自然语音情感识别方法,其特征在于,所述四种语音Mel频谱片段分别为左声道Mel频谱片段、右声道Mel频谱片段、中央声道Mel频谱片段和侧边声道Mel频谱片段。
3.根据权利要求1或2所述的一种基于卷积神经网络和双耳表征的自然语音情感识别方法,其特征在于,步骤A)中获得与双耳表征相关的四种语音Mel频谱片段对应的语音RGB图像三声道输入矩阵,包括步骤:
A1)获得一维的四种声道的情感语音信号,采用N1个Mel滤波器和N2帧的文本窗大小将四种声道的情感语音信号分别按时间顺序拆分成若干个语语音谱片段,获得四种声道的情感语音信号的N1×N2的二维静态频谱片段特征,所述四种声道分别为左声道、右声道、中央声道和侧边声道;
A2)对二维静态频谱片段特征在时间轴上进行一阶求导,获得一阶求导系数;
A3)对二维静态频谱片段特征在时间轴上进行二阶求导,获得二阶求导系数;
A4)将四种声道的情感语音信号的二维静态频谱片段特征、一阶求导系数和二阶求导系数分别作为RGB图像的三声道,从而获得四种声道的情感语音信号的特征为N1×N2×3的语音RGB图像三声道输入矩阵;
A5)对每个特征为N1×N2×3的语音RGB图像三声道输入矩阵进行采样处理,获得符合CNN输入大小的语音RGB图像三声道输入矩阵;
A6)依次重复步骤A2)至A5),四种声道的情感语音信号均获得若干个语音RGB图像三声道输入矩阵。
4.根据权利要求3所述的一种基于卷积神经网络和双耳表征的自然语音情感识别方法,其特征在于,步骤A5)中,采用双线性内插法对特征为N1×N2×3的语音RGB图像三声道输入矩阵进行采样处理。
5.根据权利要求1或4所述的一种基于卷积神经网络和双耳表征的自然语音情感识别方法,其特征在于,步骤B)中对每个语音Mel频谱片段采用卷积神经网络的微调方式进行特征学习,包括计算总样本损失函数,更新网络权重值;通过计算
Figure FDA0002329438650000021
得到损失函数,其中,yj表示第j个情感识别类别的真实值,
Figure FDA0002329438650000022
表示深度卷积神经网络的分类器输出的第j个情感识别类别预测值,C表示情感类别数目。
6.根据权利要求5所述的一种基于卷积神经网络和双耳表征的自然语音情感识别方法,其特征在于,步骤C)中采用基于块的特征池化方法将四种语音Mel频谱片段学习到的CNN特征分别聚合成固定长度的全局语句特征,包括步骤:
C1)对每种语音Mel频谱片段学习到的CNN特征X在时间轴上进行一阶求导,获得与CNN特征X对应的一阶导数delta_X;
C2)将CNN特征X和一阶导数delta_X分别在不同尺度l下沿时间轴均匀分成L个连续非重叠子块,X=(X1,X2,…,XL),delta_X=(deltx_X1,delta_X2,…,delta_XL),l=1,2,…,L;
C3)对含有n个子片段d维的连续非重叠子块Xl=(x1,x2,...,xn)∈Rd×n进行池化处理,xn表示连续非重叠子块Xl的第n个语音Mel频谱片段CNN特征,获得固定长度的池化特征
Figure FDA0002329438650000023
p取值为1或∞,当p取值为1时等同于平均池化,当p取值为∞时等同于平均池化;
C4)对含有n个子片段d维的连续非重叠导数子块delta_X1=(x′1,x′2,...,x′n)∈Rd×n进行池化处理,x′n表示连续非重叠导数子块delta_Xl的第n个语音Mel频谱片段CNN特征的一阶导数,获得固定长度的池化特征
Figure FDA0002329438650000024
C5)将所有的子块池化特征进行串联,获得全局语句特征
Figure FDA0002329438650000031
7.根据权利要求1或6所述的一种基于卷积神经网络和双耳表征的自然语音情感识别方法,其特征在于,步骤D)中采用两阶段分数层融合方法对四个线性支持向量机的输出结果进行融合,包括步骤:
D1)将四个线性支持向量机的输出结果分别记为左声道Mel频谱片段输出结果、右声道Mel频谱片段输出结果、中央声道Mel频谱片段输出结果和侧边声道Mel频谱片段输出结果;
D2)将左声道Mel频谱片段输出结果和右声道Mel频谱片段输出结果进行分数层融合,获得左右声道的融合结果;
D3)将中央声道Mel频谱片段输出结果和侧边声道Mel频谱片段输出结果进行分数层融合,获得中央和侧边声道融合结果;
D4)将所述左右声道融合结果与所述中央和侧边声道融合结果进行第二阶段的分数层融合,获得最终融合结果,将最终融合结果作为语音情感识别分类结果。
8.根据权利要求7所述的一种基于卷积神经网络和双耳表征的自然语音情感识别方法,其特征在于,步骤D2)中获得左右声道融合结果
Figure FDA0002329438650000032
其中scoreleft为左声道Mel频谱片段输出结果,scoreright为右声道Mel频谱片段输出结果,α为左右声道融合结果权重,0≤α≤1。
9.根据权利要求8所述的一种基于卷积神经网络和双耳表征的自然语音情感识别方法,其特征在于,步骤D3)中获得中央和侧边声道融合结果
Figure FDA0002329438650000033
其中,scoremid为中央声道Mel频谱片段输出结果,scoreside为侧边声道Mel频谱片段输出结果,β为中央和侧边声道融合结果权重,0≤β≤1。
10.根据权利要求9所述的一种基于卷积神经网络和双耳表征的自然语音情感识别方法,其特征在于,步骤D4)中获得最终融合结果
Figure FDA0002329438650000034
λ为最终融合权重,0≤λ≤1。
CN201911330520.8A 2019-12-20 2019-12-20 一种基于卷积神经网络和双耳表征的自然语音情感识别方法 Active CN111312215B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911330520.8A CN111312215B (zh) 2019-12-20 2019-12-20 一种基于卷积神经网络和双耳表征的自然语音情感识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911330520.8A CN111312215B (zh) 2019-12-20 2019-12-20 一种基于卷积神经网络和双耳表征的自然语音情感识别方法

Publications (2)

Publication Number Publication Date
CN111312215A true CN111312215A (zh) 2020-06-19
CN111312215B CN111312215B (zh) 2023-05-30

Family

ID=71148181

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911330520.8A Active CN111312215B (zh) 2019-12-20 2019-12-20 一种基于卷积神经网络和双耳表征的自然语音情感识别方法

Country Status (1)

Country Link
CN (1) CN111312215B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112861984A (zh) * 2021-02-25 2021-05-28 西华大学 一种基于特征融合与集成学习的语音情感分类方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018014436A1 (zh) * 2016-07-18 2018-01-25 天津大学 一种提高情绪识别模型时间鲁棒性的情绪脑电识别方法
CN108717856A (zh) * 2018-06-16 2018-10-30 台州学院 一种基于多尺度深度卷积循环神经网络的语音情感识别方法
CN110517705A (zh) * 2019-08-29 2019-11-29 北京大学深圳研究生院 一种基于深度神经网络和卷积神经网络的双耳声源定位方法和系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018014436A1 (zh) * 2016-07-18 2018-01-25 天津大学 一种提高情绪识别模型时间鲁棒性的情绪脑电识别方法
CN108717856A (zh) * 2018-06-16 2018-10-30 台州学院 一种基于多尺度深度卷积循环神经网络的语音情感识别方法
CN110517705A (zh) * 2019-08-29 2019-11-29 北京大学深圳研究生院 一种基于深度神经网络和卷积神经网络的双耳声源定位方法和系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
张石清 等: "噪声背景下的语音情感识别" *
林巧民 等: "基于HMM 和ANN 混合模型的语音情感识别研究" *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112861984A (zh) * 2021-02-25 2021-05-28 西华大学 一种基于特征融合与集成学习的语音情感分类方法
CN112861984B (zh) * 2021-02-25 2022-07-01 西华大学 一种基于特征融合与集成学习的语音情感分类方法

Also Published As

Publication number Publication date
CN111312215B (zh) 2023-05-30

Similar Documents

Publication Publication Date Title
CN110674339B (zh) 一种基于多模态融合的中文歌曲情感分类方法
Cao et al. Deep neural networks for learning graph representations
Huang et al. Unsupervised domain adaptation for speech emotion recognition using PCANet
CN110827804B (zh) 一种音频帧序列到事件标签序列的声音事件标注方法
CN109448703B (zh) 结合深度神经网络和主题模型的音频场景识别方法及系统
CN109949824B (zh) 基于N-DenseNet和高维mfcc特征的城市声音事件分类方法
Mo et al. Neural architecture search for keyword spotting
CN109215680B (zh) 一种基于卷积神经网络的语音还原方法
Zhong et al. A Lightweight Model Based on Separable Convolution for Speech Emotion Recognition.
CN109493881A (zh) 一种音频的标签化处理方法、装置和计算设备
Peddinti et al. Deep scattering spectrum with deep neural networks
CN111933124A (zh) 一种可支持自定唤醒词的关键词检测方法
CN111242155A (zh) 一种基于多模深度学习的双模态情感识别方法
CN112183107A (zh) 音频的处理方法和装置
Kumar et al. Discriminatively trained continuous Hindi speech recognition using integrated acoustic features and recurrent neural network language modeling
Sunny et al. Recognition of speech signals: an experimental comparison of linear predictive coding and discrete wavelet transforms
Mohammadamini et al. Barlow Twins self-supervised learning for robust speaker recognition
Soliman et al. Isolated word speech recognition using convolutional neural network
Kamal et al. An innovative approach utilizing binary-view transformer for speech recognition task
CN110348482A (zh) 一种基于深度模型集成架构的语音情感识别系统
Hosseini et al. Multimodal modelling of human emotion using sound, image and text fusion
CN111312215B (zh) 一种基于卷积神经网络和双耳表征的自然语音情感识别方法
Hu et al. A joint network based on interactive attention for speech emotion recognition
Jia [Retracted] Music Emotion Classification Method Based on Deep Learning and Explicit Sparse Attention Network
CN116758451A (zh) 基于多尺度和全局交叉注意力的视听情感识别方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant