CN113571095B - 基于嵌套深度神经网络的语音情感识别方法和系统 - Google Patents

基于嵌套深度神经网络的语音情感识别方法和系统 Download PDF

Info

Publication number
CN113571095B
CN113571095B CN202110670269.0A CN202110670269A CN113571095B CN 113571095 B CN113571095 B CN 113571095B CN 202110670269 A CN202110670269 A CN 202110670269A CN 113571095 B CN113571095 B CN 113571095B
Authority
CN
China
Prior art keywords
voice
recognition
emotion recognition
parameter
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110670269.0A
Other languages
English (en)
Other versions
CN113571095A (zh
Inventor
蔡芃芃
周茜璇
孙林慧
查亦文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN202110670269.0A priority Critical patent/CN113571095B/zh
Publication of CN113571095A publication Critical patent/CN113571095A/zh
Application granted granted Critical
Publication of CN113571095B publication Critical patent/CN113571095B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明公开了一种基于嵌套深度神经网络的语音情感识别方法和系统,方法包括:构建MFCC数据集;基于深度神经网络构建语音情感识别模型,采用MFCC数据集对语音情感识别模型进行初步训练,遍历得到不同参数组对应的语音情感的识别率;结合不同参数组及其对应的识别率,生成识别率数据集;基于深度神经网络构建参数拟合模型,用于对导入的识别率数据集进行拟合,得到最大识别率对应的参数组;将得到的最大识别率对应的参数组导入语音情感识别模型,利用MFCC数据集对语音情感识别模型进行训练,得到最终的语音情感识别模型。本发明通过利用嵌套式的深度神经网络不断优化输入神经网络的参数,大幅提高了语音情感的识别率。

Description

基于嵌套深度神经网络的语音情感识别方法和系统
技术领域
本发明涉及语音情感识别技术领域,具体而言涉及一种基于嵌套深度神经网络的语音情感识别方法和系统。
背景技术
语音是人类最自然的交互方式。计算机发明之后让机器能够“听懂”人类的语言、理解语言含义,并能做出正确回答就成为了人们追求的目标。这个过程主要采用了3种技术,即自动语音识别(automatic speech recognition,ASR)、自然语言处理(naturallanguage processing,NLP)和语音合成(speech synthesis,SS)。语音识别技术的目的是让机器能听懂人类的语音,是一个典型的交叉学科任务。
早期的语音情感特征分为三大类:韵律学特征、音质特征、基于谱的相关性分析特征。单独利用其中的某一个特征无法将语音完整的情感信息表达出来,识别率也会相对较低,因此目前大多利用的方式是一种多种语音情感特征的融合来进行相关的研究。
随着新型人机交互技术以及心理学研究、机器人技术、虚拟现实技术等新兴技术的出现,侧重于表层信息(词汇信息)的传统语音信号处理逐渐显露出局限性。研究表明,在人机交互中需要解决的重要问题与人和人交流中的重要因素一致,关键都是“情感智能”的能力。计算机要更加能够主动地适应操作者的需求,首先必须能够识别操作者的情感,再根据情感的判断来调整交互对话的方式。目前情感信息处理研究逐渐被越来越多的国内外学者所关注。情感处理技术包括多个方面,主要有情感特征分析、情感识别(如肢体情感识别、面部情感识别和语音情感识别等)和情感模拟(如情感语音合成)。Petrushin指出语音情感识别是语音情感处理的一个重要分支,其任务是利用语音中包含的声学特征确定话者的情感状态,在人工智能和信号处理领域有着重要的应用价值。在远程教育平台中,情感识别技术的应用能很好地提升教学效果。此外,情感识别还能应用在互动电影、电子商务、智能玩具、游戏等相关产业中,以构筑更加拟人化的风格和更加逼真的场景。还可以用来辅助语音识别,提高语音识别的性能
然而,目前虽然有研究人员指出可以将诸如深度神经网络等机器学习算法引入情感识别过程,以实现具有自学习特性的智能情感识别方法,但是此种单向语音情感识别方式由于难以获取最优网络参数,导致最终识别率并不理想,尤其是当情感识别相关的语音样本数量不足时,识别率不足40%。
发明内容
本发明针对现有技术中的不足,提供一种基于嵌套深度神经网络的语音情感识别方法和系统,通过利用嵌套式的深度神经网络不断优化输入神经网络的参数,大幅提高了语音情感的识别率。
为实现上述目的,本发明采用以下技术方案:
第一方面,本发明实施例提出了一种基于嵌套深度神经网络的语音情感识别方法,所述识别方法包括以下步骤:
S1,输入一定量具有情感类型标识的样本语音信号,对每个样本语音信号进行特征的提取,得到对应的梅尔倒谱系数,构建MFCC数据集;
S2,基于深度神经网络构建语音情感识别模型,该语音情感识别模型用于对提取导入的语音信号的梅尔倒谱系数,结合提取特征对导入的语音信号进行情感识别,采用MFCC数据集对语音情感识别模型进行初步训练,遍历得到不同参数组对应的语音情感的识别率;
S3,结合不同参数组及其对应的识别率,生成识别率数据集;所述参数组包括学习率、最大迭代次数和损失函数最大值;
S4,基于深度神经网络构建参数拟合模型,该参数拟合模型用于对导入的识别率数据集进行拟合,得到最大识别率对应的参数组;
S5,将得到的最大识别率对应的参数组导入语音情感识别模型,利用MFCC数据集对语音情感识别模型进行训练,得到最终的语音情感识别模型。
进一步地,步骤S1中,所述对每个样本语音信号进行特征的提取,得到对应的梅尔倒谱系数,构建MFCC数据集的过程包括以下步骤:
S11,对语音信号进行采样,采用端点检测、分帧加窗和预加重技术对语音信号进行预处理,得到预处理后的语音信号;
S12,利用Mel倒谱分析技术对预处理后的语音信号进行处理,依次进行分帧加窗、离散傅里叶变换和加权滤波处理,提取得到梅尔倒谱系数。
进一步地,步骤S11中,对语音信号进行采样,采用端点检测、分帧加窗和预加重技术对语音信号进行预处理,得到预处理后的语音信号的过程包括以下步骤:
将语音信号通过以下高通滤波器,对语音信号进行预加重处理:
H(z)=1-uz-1
式中,u值介于0.9-1.0之间,z是语音信号的频域信号。
进一步地,步骤S12中,利用Mel倒谱分析技术对预处理后的语音信号进行处理,依次进行分帧加窗、离散傅里叶变换和加权滤波处理,提取得到梅尔倒谱系数的过程包括以下步骤:
S211,对滤波处理后的语音信号进行采样处理,将N个采样点集合成一个观测单位,称为帧;其中,两相邻帧之间有一段重叠区域,该重叠区域包含了M个取样点,M的值约为N的1/2或1/3;
S212,将每一帧乘以汉明窗,将语音信号转换成以下格式:
S′(n)=S(n)×W(n)
式中,S(n)是分帧后的信号,n=0,1,...,N-1,N为帧的总数;
Figure BDA0003118921790000021
Figure BDA0003118921790000022
0≤n≤N-1;不同的a值会产生不同的汉明窗,一般情况下a取0.46。
S213,对分帧加窗后的各帧信号进行快速傅里叶变换得到各帧的频谱,并对语音信号的频谱取模平方得到语音信号的功率谱,得到语音信号的DFT为:
Figure BDA0003118921790000031
0≤k≤N
式中S′(n)为输入的分帧加窗后的各帧信号,N表示傅里叶变换的点数;
S214,对于FFT得到的幅度谱,分别跟多个三角带通滤波器进行频率相乘累加,得到的值即为该帧数据在在该滤波器对应频段的能量值;
S215,根据下述公式计算每个滤波器组输出的对数能量s(m)为:
Figure BDA0003118921790000032
0≤m≤M;
S216,经离散余弦变换得到MFCC系数C(n)为:
Figure BDA0003118921790000033
n=1,2,...L。
进一步地,步骤S2中,基于深度神经网络构建语音情感识别模型,该语音情感识别模型用于对提取导入的语音信号的梅尔倒谱系数,结合提取特征对导入的语音信号进行情感识别,采用MFCC数据集对语音情感识别模型进行初步训练,遍历得到不同参数组对应的语音情感的识别率的过程包括以下步骤:
S21,采用python3.7实现隐含层自定义且设置多层隐含层的DNN,利用BP算法设计神经网络,构建得到语音情感识别模型;其中隐含层激活函数为sigmoid,输出层激活函数为softmax,损失函数为交叉熵;
S22,对训练集进行中心化,并将包括均值和均方差在内的中心化的参数记录用于对测试集进行中心化,得到原始的识别率;
S23,提取出参数组:学习率,最大迭代次数,损失函数最大值;
S24,对于参数组包含的三类参数进行遍历,分别得到不同参数组对应的识别率。
进一步地,步骤S4,基于深度神经网络构建参数拟合模型,该参数拟合模型用于对导入的识别率数据集进行拟合,得到最大识别率对应的参数组的过程包括以下步骤:
S41,利用matlab设计得到参数拟合模型,将识别率数据集导入参数拟合模型;
S42,根据识别率数据集的特性,设定训练集、调整集和测试集的比例,其中训练集、调整集用于对参数拟合模型进行训练学习,自动调整网络参数,测试集用于将测试数据和原始数据进行比较,判断预测的准确度;
S43,进行多次测试,输入最优隐藏层参数;
S44,选择网络函数Levenberg-Marquardt,提供数非线性最小化的数值解;
S45,利用Error Histogram模型对参数拟合模型进行评价;提取得到最大识别率对应的参数组。
进一步地,步骤S5中,将得到的最大识别率对应的参数组导入语音情感识别模型,利用MFCC数据集对语音情感识别模型进行训练,得到最终的语音情感识别模型的过程包括以下步骤:
将得到的最大识别率对应的参数组再重新输入语音情感识别模型,对语音情感识别模型进行优化;
设置网络层数和维数,建立五层神经网络;其中,输入层为提取的语音的MFCC参数,隐藏层为三层,分别包含128、64和32个节点,输出层用于输出识别出的情感类型;
通过对损失函数用梯度下降法进行迭代优化求极小值,调整权重w和阈值b的值来使预测结果和真实结果之间的差更小。
第二方面,本发明实施例提出了一种基于嵌套深度神经网络的语音情感识别系统,所述识别系统包括:
MFCC数据集构建模块,用于输入一定量具有情感类型标识的样本语音信号,对每个样本语音信号进行特征的提取,得到对应的梅尔倒谱系数,构建MFCC数据集;
语音情感识别模型创建模块,基于深度神经网络构建语音情感识别模型,该语音情感识别模型用于对提取导入的语音信号的梅尔倒谱系数,结合提取特征对导入的语音信号进行情感识别,采用MFCC数据集对语音情感识别模型进行初步训练,遍历得到不同参数组对应的语音情感的识别率;
识别率数据集生成模块,结合不同参数组及其对应的识别率,生成识别率数据集;所述参数组包括学习率、最大迭代次数和损失函数最大值;
参数拟合模型创建模块,基于深度神经网络构建参数拟合模型,该参数拟合模型用于对导入的识别率数据集进行拟合,得到最大识别率对应的参数组;
语音情感识别模型再训练模块,将得到的最大识别率对应的参数组导入语音情感识别模型,利用MFCC数据集对语音情感识别模型进行训练,得到最终的语音情感识别模型。
本发明的有益效果是:
(1)本发明提出的基于嵌套深度神经网络的语音情感识别方法能够通过利用嵌套式的深度神经网络不断优化输入神经网络的参数,在样本数量不足的情况下,大幅提高了语音情感的识别率;经测试,识别率最高可达65.33%。
(2)本发明提出的基于嵌套深度神经网络的语音情感识别方法能够应用在多个领域,如电话服务和教育事业等等。
附图说明
图1是本发明实施例的基于嵌套深度神经网络的语音情感识别方法流程图。
图2为本发明实施例的语音特征参数MFCC提取流程示意图。
图3为本发明实施例的MFCC特征提取结果示意图。
图4为本发明实施例的语音情感识别模型的BP网络结构示意图。
图5为本发明实施例的语音情感识别模型的Sigmoid函数示意图。
图6为本发明实施例的语音情感识别模型的Softmax函数图像示意图。
图7为本发明实施例的语音情感识别模型的损失函数图像示意图。
图8为本发明实施例的训练识别代码及准确率示意图。
具体实施方式
现在结合附图对本发明作进一步详细的说明。
需要注意的是,发明中所引用的如“上”、“下”、“左”、“右”、“前”、“后”等的用语,亦仅为便于叙述的明了,而非用以限定本发明可实施的范围,其相对关系的改变或调整,在无实质变更技术内容下,当亦视为本发明可实施的范畴。
实施例一
图1是本发明实施例的基于嵌套深度神经网络的语音情感识别方法流程图。本实施例可适用于通过服务器等设备识别语音情感的情况,该方法可以由基于嵌套深度神经网络的语音情感识别系统来执行,该系统可以采用软件和/或硬件的方式实现,并可集成在电子设备中,例如集成服务器设备中。
参见图1,本发明提及一种基于嵌套深度神经网络的语音情感识别方法,该识别方法可适用于绝大部分需要识别语音情感的场合。为了便于说明技术方案,在本实施例中,只选取电话服务和课堂反馈这两个场景作为例子,应当理解,当更换使用场景时,本识别方法仍然适用,只需要针对性地调整语音样本数据比例即可。该识别方法具体包括以下步骤:
S1,输入一定量具有情感类型标识的样本语音信号,对每个样本语音信号进行特征的提取,得到对应的梅尔倒谱系数,构建MFCC数据集。
图2为本发明实施例的语音特征参数MFCC提取流程示意图。具体包括:
步骤1-1:对语音信号进行采样,采用端点检测、分帧加窗、预加重技术技术对语音信号进行预处理,得到预处理后的信号。本实施例从柏林EMO-DB情感语音库和CASIA汉语情感数据库中获取了一定量的语音信号。可选的,在抽取语音信号时,可以结合场景选择针对性更加强的部分语音,例如在本实施例中,更倾向于选取与电话服务和课堂反馈相关的一些语音数据作为样本语音,但这并不意味着其他语音数据不能够作为样本语音使用。
CASIA汉语情感语料库由中国科学院自动化所(Institute of Automation,Chinese Academy of Sciences)录制,共包括四个专业发音人,六种情绪生气(angry)、高兴(happy)、害怕(fear)、悲伤(sad)、惊讶(surprise)和中性(neutral),共9600句不同发音。其中300句是相同文本的,也即是说对相同的文本赋以不同的情感来阅读,这些语料可以用来对比分析不同情感状态下的声学及韵律表现;另外100句是不同文本的,这些文本从字面意思就可以看出其情感归属,便于录音人更准确地表现出情感。我们选取300句相同文本的音频作为实验数据,取前200句为训练集,后100句为测试集。实验同样对数据集进行了切分处理。
步骤1-1-1:预加重
预加重处理其实是将语音信号通过一个高通滤波器:
H(z)=1-uz-1
预加重的目的是提升高频部分,使信号的频谱变得平坦,保持在低频到高频的整个频带中,能用同样的信噪比求频谱。同时,也是为了消除发生过程中声带和嘴唇的效应,来补偿语音信号受到发音系统所抑制的高频部分,也为了突出高频的共振峰。式中,u值介于0.9-1.0之间,经验证,在类似电话客服等场景下的语音情感识别中,取0.97可以获得更佳的效果。z是语音信号的时域信号。
步骤1-1-2:分帧
先将N个采样点集合成一个观测单位,称为帧。通常情况下N的值为256或512,涵盖的时间约为20~30ms左右。为了避免相邻两帧的变化过大,因此会让两相邻帧之间有一段重叠区域,此重叠区域包含了M个取样点,通常M的值约为N的1/2或1/3。通常语音识别所采用语音信号的采样频率为8KHz或16KHz,以8KHz来说,若帧长度为256个采样点,则对应的时间长度是256/(8000×1000)=32ms。
步骤1-1-3:加窗(Hamming Window)
将每一帧乘以汉明窗,以增加帧左端和右端的连续性。假设分帧后的信号为S(n),n=0,1,...,N-1,N为帧的大小,那么乘上汉明窗后
S′(n)=S(n)×W(n)
式中,S(n)是分帧后的信号,n=0,1,...,N-1,N为帧的总数;
Figure BDA0003118921790000061
Figure BDA0003118921790000062
0≤n≤N-1;a是汉明窗调节因子;不同的a值会产生不同的汉明窗,在本实施例中,a取0.46。
步骤1-1-4:快速傅里叶变换
由于信号在时域上的变换通常很难看出信号的特性,所以通常将它转换为频域上的能量分布来观察,不同的能量分布,就能代表不同语音的特性。所以在乘上汉明窗后,每帧还必须再经过快速傅里叶变换以得到在频谱上的能量分布。对分帧加窗后的各帧信号进行快速傅里叶变换得到各帧的频谱。并对语音信号的频谱取模平方得到语音信号的功率谱。设语音信号的DFT为:
Figure BDA0003118921790000063
式中S′(n)为输入的分帧加窗后的各帧信号,N表示傅里叶变换的点数。
步骤1-1-5:三角带通滤波器
因为频域信号有很多冗余,滤波器组可以对频域的幅值进行精简,每一个频段用一个值来表示。对于FFT得到的幅度谱,分别跟每一个滤波器进行频率相乘累加,得到的值即为该帧数据在在该滤波器对应频段的能量值。如果滤波器的个数为22,那么此时应该得到22个能量值。
步骤1-1-6:计算每个滤波器组输出的对数能量为:
Figure BDA0003118921790000064
步骤1-1-7:经离散余弦变换(DCT)得到MFCC系数
Figure BDA0003118921790000065
n=1,2,...L
式中,L为MFCC系数阶数,M为三角滤波器个数。将上述的对数能量带入离散余弦变换,求出L阶的Mel-scale Cepstrum参数。L阶指MFCC系数阶数,通常取12-16。这里M是三角滤波器个数。
步骤1-2:对情感语音特征进行提取和处理,得到MFCC。图3为本发明实施例的MFCC特征提取结果示意图。
MFCC指利用Mel倒谱分析技术,分析语音信号,通过分帧加窗、离散傅里叶变换、加权滤波处理,所得到的用一组矢量序列。梅尔倒谱系数(Mel-scale FrequencyCepstralCoefficients,简称MFCC)是在Mel标度频率域提取出来的倒谱参数,Mel标度描述了人耳频率的非线性特性,它与频率的关系可用下式近似表示:
Figure BDA0003118921790000071
在语音识别(SpeechRecognition)和话者识别(SpeakerRecognition)方面,最常用到的语音特征就是梅尔倒谱系数(Mel-scaleFrequency Cepstral Coefficients,简称MFCC)。根据人耳听觉机理的研究发现,人耳对不同频率的声波有不同的听觉敏感度。从200Hz到5000Hz的语音信号对语音的清晰度影响对大。两个响度不等的声音作用于人耳时,则响度较高的频率成分的存在会影响到对响度较低的频率成分的感受,使其变得不易察觉,这种现象称为掩蔽效应。由于频率较低的声音在内耳蜗基底膜上行波传递的距离大于频率较高的声音,故一般来说,低音容易掩蔽高音,而高音掩蔽低音较困难。在低频处的声音掩蔽的临界带宽较高频要小。所以,人们从低频到高频这一段频带内按临界带宽的大小由密到疏安排一组带通滤波器,对输入信号进行滤波。将每个带通滤波器输出的信号能量作为信号的基本特征,对此特征经过进一步处理后就可以作为语音的输入特征。由于这种特征不依赖于信号的性质,对输入信号不做任何的假设和限制,又利用了听觉模型的研究成果。因此,这种参数比基于声道模型的LPCC相比具有更好的鲁邦性,更符合人耳的听觉特性,而且当信噪比降低时仍然具有较好的识别性能。
S2,基于深度神经网络构建语音情感识别模型,该语音情感识别模型用于对提取导入的语音信号的梅尔倒谱系数,结合提取特征对导入的语音信号进行情感识别,采用MFCC数据集对语音情感识别模型进行初步训练,遍历得到不同参数组对应的语音情感的识别率。
步骤2-1:将特征提取得到MFCC数据集作为神经网络的输入,初步构建神经网络I,作为语音情感识别模型。本实施例采用python3.7实现了隐含层自定义且可以设置多层隐含层的DNN,利用BP算法设计神经网络,其中隐含层激活函数为sigmoid,输出层激活函数为softmax,损失函数为交叉熵。图4为本发明实施例的语音情感识别模型的BP网络结构示意图。
在本实施例中,BP神经网络的计算过程由正向计算过程和反向计算过程组成。正向传播过程,输入模式从输入层经隐单元层逐层处理,并转向输出层,每一层神经元的状态只影响下一层神经元的状态。如果在输出层不能得到期望的输出,则转入反向传播,将误差信号沿原来的连接通路返回,通过修改各神经元的权值,使得误差信号最小。
图5为本发明实施例的语音情感识别模型的Sigmoid函数示意图。神经网络中的每个神经元节点接受上一层神经元的输出值作为本神经元的输入值,并将输入值传递给下一层,输入层神经元节点会将输入属性值直接传递给下一层(隐层或输出层)。在多层神经网络中,上层节点的输出和下层节点的输入之间具有一个函数关系,这个函数称为激活函数(又称激励函数)。在本实施例中,采用的Sigmoid函数为:
Figure BDA0003118921790000081
该函数将一个实数集映射到(0,1)的空间,可以对应于概率,并且相对于阶跃函数而言,他是连续且光滑的,并且该函数的导数有个很好的性质:f′(x)=f(x)(1-f(x))。
图6为本发明实施例的语音情感识别模型的Softmax函数图像示意图。采用的Softmax函数为:
Figure BDA0003118921790000082
式中,exp(x)表示e的指数函数,zj是输出层中第j个输入信号,exp(zj)表示zj的指数函数。分母表示输出层共有K个输出信号(神经元),并计算所有输出层中的输入信号的指数和。输出是第j个神经元的输出。
图7为本发明实施例的语音情感识别模型的损失函数图像示意图。采用的损失函数为交叉熵:
Figure BDA0003118921790000083
式中,输入中的Y^代表正确答案,Y代表的是预测值。yj^是神经网络的输出,yj是正确解的标签。
步骤2-2:先对训练集进行中心化,并将中心化的参数(均值和均方差)记录用于对测试集进行中心化,得到原始的识别率。
步骤2-3:提取出参数组:学习率,最大迭代次数,损失函数最大值。
步骤2-4:对于参数组包含的三类参数进行遍历,分别得到不同参数组对应的识别率。
S3,结合不同参数组及其对应的识别率,生成识别率数据集;参数组包括学习率、最大迭代次数和损失函数最大值。表1是本实施例提取得到的识别率数据集例子。
表1其中一种识别率数据集
Figure BDA0003118921790000084
Figure BDA0003118921790000091
S4,基于深度神经网络构建参数拟合模型,该参数拟合模型用于对导入的识别率数据集进行拟合,得到最大识别率对应的参数组。
提取出影响深度神经网络的参数:学习率,最大迭代次数,损失函数最大值,抓取出它们与对应的识别率作为新的数据集,利用matlab设计一个拟合的深度神经网络II,作为参数拟合模型。
步骤4-1:将需要学习的样本,即新的数据集输入到神经网络模型II。
步骤4-2:经过多次对比,选择合适的训练集、调整集、测试集的比例,在本实施例中,三个数据集的占比分别为70%、15%、15%,其中训练集、调整集是机器学习过程,在学习中会自动调整参数,而测试集只是用测试数据和原始数据进行比较,判断预测的准确度,并不会改变网络参数。
步骤4-3:进行多次测试,输入合适的隐藏层参数。
步骤4-4:选择网络函数Levenberg-Marquardt。莱文贝格-马夸特方法(Levenberg-Marquardt algorithm)能提供数非线性最小化(局部最小)的数值解。此算法能借由执行时修改参数达到结合高斯-牛顿算法以及梯度下降法的优点,并对两者之不足作改善(比如高斯-牛顿算法之反矩阵不存在或是初始值离局部极小值太远)。
步骤4-5:利用Error Histogram模型进行神经网络评价。
在进行特征提取时利用matlab进行MFCC的提取,利用python搭建神经网络。
在搭建神经网络的过程中利用深度神经网络的嵌套来优化情感识别的准确率,将深度神经网络中影响识别率的三个参数:学习率、最大迭代次数、损失函数最大值输入新的神经网络,求出能得到较理想的识别率的具体值。以表1为例,最终求得的损失函数最大值、学习率和最大迭代次数分别是0.05、0.01、1000,通过对比拟合过的得到的这三个参数的结果,可以明显的发现,利用嵌套式的深度神经网络比普通的方式得到的语音情感识别率要高一些。
将从神经网络II得到的最大的识别率对应的自变量提取出,输入神经网络I。
步骤4-1:将得到的能提高原来神经网络的识别率的参数的值,分别是损失函数最大值为0.01,最大迭代次数为1000,学习率为0.05,再重新输入原来的神经网络I进行优化,用来提高深度神经网络的识别率。
步骤4-2:设置网络层数和维数步骤:输入层为提取的语音的MFCC参数(每条语音mfcc含784维)。考虑到数据集较大,为了使网络训练达到较好的效果且不出现过拟合(层数越深,理论上拟合函数的能力增强,理论上效果会更好,但是实际上更深的层数可能会带来过拟合的问题,同时也会增加训练难度,使模型难以收敛),设置隐藏层为三层。建立五层神经网络:输入层-隐藏层(三层,分别包含128、64、32个节点)-输出层,
步骤4-3:合理设置阈值和权重:通过调整权重w和阈值b的值来使预测结果和真实结果之间的差更小。相当于在一个解空间中寻找最优解。通过对损失函数用梯度下降法进行迭代优化求极小值,找到合适的隐藏层和输出层对应的权重W,阈值b,让所有的训练样本输入计算出的输出尽可能的等于或接近样本标签。
S5,将得到的最大识别率对应的参数组导入语音情感识别模型,利用MFCC数据集对语音情感识别模型进行训练,得到最终的语音情感识别模型。经测试,在本实施例中,整理得到的识别率,最高可达65.33%。图8为本发明实施例的训练识别代码及准确率示意图。优化后的神经网络I代码如下:
Figure BDA0003118921790000101
/>
Figure BDA0003118921790000111
/>
Figure BDA0003118921790000121
/>
Figure BDA0003118921790000131
/>
Figure BDA0003118921790000141
/>
Figure BDA0003118921790000151
/>
Figure BDA0003118921790000161
实施例二
该识别系统包括MFCC数据集构建模块、语音情感识别模型创建模块、识别率数据集生成模块、参数拟合模型创建模块和语音情感识别模型再训练模块。
MFCC数据集构建模块,用于输入一定量具有情感类型标识的样本语音信号,对每个样本语音信号进行特征的提取,得到对应的梅尔倒谱系数,构建MFCC数据集。
语音情感识别模型创建模块,基于深度神经网络构建语音情感识别模型,该语音情感识别模型用于对提取导入的语音信号的梅尔倒谱系数,结合提取特征对导入的语音信号进行情感识别,采用MFCC数据集对语音情感识别模型进行初步训练,遍历得到不同参数组对应的语音情感的识别率。
识别率数据集生成模块,结合不同参数组及其对应的识别率,生成识别率数据集;所述参数组包括学习率、最大迭代次数和损失函数最大值。
参数拟合模型创建模块,基于深度神经网络构建参数拟合模型,该参数拟合模型用于对导入的识别率数据集进行拟合,得到最大识别率对应的参数组。
语音情感识别模型再训练模块,将得到的最大识别率对应的参数组导入语音情感识别模型,利用MFCC数据集对语音情感识别模型进行训练,得到最终的语音情感识别模型。
通过本发明实施例二的语音情感识别系统,通过建立整个应用的数据包含关系确定传输对象,达到提高语音情感识别准确度的目标。本发明实施例所提供的语音情感识别系统可执行本发明任意实施例所提供的基于嵌套深度神经网络的语音情感识别方法,具备执行方法相应的功能模块和有益效果。
以上仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,应视为本发明的保护范围。

Claims (6)

1.一种基于嵌套深度神经网络的语音情感识别方法,其特征在于,所述识别方法包括以下步骤:
S1,输入一定量的从中文语音情感数据库CASIA中得到的具有情感类型标识的样本语音信号,对每个样本语音信号进行特征的提取,得到对应的梅尔倒谱系数,构建MFCC数据集;
S2,基于深度神经网络构建语音情感识别模型,该语音情感识别模型用于对提取导入的语音信号的梅尔倒谱系数,结合提取特征对导入的语音信号进行情感识别,采用MFCC数据集对语音情感识别模型进行初步训练,遍历得到不同参数组对应的语音情感的识别率;
S3,结合不同参数组及其对应的识别率,生成识别率数据集;所述参数组包括学习率、最大迭代次数和损失函数最大值;
S4,基于深度神经网络构建参数拟合模型,该参数拟合模型用于对导入的识别率数据集进行拟合,得到最大识别率对应的参数组;
S5,将得到的最大识别率对应的参数组导入语音情感识别模型,利用MFCC数据集对语音情感识别模型进行训练,得到最终的语音情感识别模型;
步骤S2中,基于深度神经网络构建语音情感识别模型,该语音情感识别模型用于对提取导入的语音信号的梅尔倒谱系数,结合提取特征对导入的语音信号进行情感识别,采用MFCC数据集对语音情感识别模型进行初步训练,遍历得到不同参数组对应的语音情感的识别率的过程包括以下步骤:
S21,采用python3.7实现隐含层自定义且设置多层隐含层的DNN,利用BP算法设计神经网络,构建得到语音情感识别模型;其中隐含层激活函数为sigmoid,输出层激活函数为softmax,损失函数为交叉熵;
S22,对训练集进行中心化,并将包括均值和均方差在内的中心化的参数记录用于对测试集进行中心化,得到原始的识别率;
S23,提取出参数组:学习率,最大迭代次数,损失函数最大值;
S24,对于参数组包含的三类参数进行遍历,分别得到不同参数组对应的识别率;
步骤S4,基于深度神经网络构建参数拟合模型,该参数拟合模型用于对导入的识别率数据集进行拟合,得到最大识别率对应的参数组的过程包括以下步骤:
S41,利用matlab设计得到参数拟合模型,将识别率数据集导入参数拟合模型;
S42,根据识别率数据集的特性,设定训练集、调整集和测试集的比例,其中训练集、调整集用于对参数拟合模型进行训练学习,自动调整网络参数,测试集用于将测试数据和原始数据进行比较,判断预测的准确度;
S43,进行多次测试,输入最优隐藏层参数;
S44,选择网络函数Levenberg-Marquardt,提供数非线性最小化的数值解;
S45,利用Error Histogram模型对参数拟合模型进行评价;提取得到最大识别率对应的参数组。
2.根据权利要求1所述的基于嵌套深度神经网络的语音情感识别方法,其特征在于,步骤S1中,所述对每个样本语音信号进行特征的提取,得到对应的梅尔倒谱系数,构建MFCC数据集的过程包括以下步骤:
S11,对语音信号进行采样,采用端点检测、分帧加窗和预加重技术对语音信号进行预处理,得到预处理后的语音信号;
S12,利用Mel倒谱分析技术对预处理后的语音信号进行处理,依次进行分帧加窗、离散傅里叶变换和加权滤波处理,提取得到梅尔倒谱系数。
3.根据权利要求2所述的基于嵌套深度神经网络的语音情感识别方法,其特征在于,步骤S11中,对语音信号进行采样,采用端点检测、分帧加窗和预加重技术对语音信号进行预处理,得到预处理后的语音信号的过程包括以下步骤:
将语音信号通过以下高通滤波器,对语音信号进行预加重处理:
H(z)=1-uz-1
式中,u值介于0.9-1.0之间,z是语音信号的频域信号。
4.根据权利要求2所述的基于嵌套深度神经网络的语音情感识别方法,其特征在于,步骤S12中,利用Mel倒谱分析技术对预处理后的语音信号进行处理,依次进行分帧加窗、离散傅里叶变换和加权滤波处理,提取得到梅尔倒谱系数的过程包括以下步骤:
S211,对滤波处理后的语音信号进行采样处理,将N个采样点集合成一个观测单位,称为帧;其中,两相邻帧之间有一段重叠区域,该重叠区域包含了M个取样点,M的值约为N的1/2或1/3;
S212,将每一帧乘以汉明窗,将语音信号转换成以下格式:
S(n)=S(n)×W(n)
式中,S(n)是分帧后的信号,n=0,1,…,N-1,N为帧的总数;
Figure FDA0004181288450000021
Figure FDA0004181288450000022
0≤n≤N-1;不同的a值会产生不同的汉明窗;
S213,对分帧加窗后的各帧信号进行快速傅里叶变换得到各帧的频谱,并对语音信号的频谱取模平方得到语音信号的功率谱,得到语音信号的DFT为:
Figure FDA0004181288450000023
式中S(n)为输入的分帧加窗后的各帧信号,N表示傅里叶变换的点数;
S214,对于FFT得到的幅度谱,分别跟多个三角带通滤波器进行频率相乘累加,得到的值即为该帧数据在在该滤波器对应频段的能量值;
S215,根据下述公式计算每个滤波器组输出的对数能量s(m)为:
Figure FDA0004181288450000024
S216,经离散余弦变换得到MFCC系数C(n)为:
Figure FDA0004181288450000025
式中,L为MFCC系数阶数,M为三角滤波器个数。
5.根据权利要求1所述的基于嵌套深度神经网络的语音情感识别方法,其特征在于,步骤S5中,将得到的最大识别率对应的参数组导入语音情感识别模型,利用MFCC数据集对语音情感识别模型进行训练,得到最终的语音情感识别模型的过程包括以下步骤:
将得到的最大识别率对应的参数组再重新输入语音情感识别模型,对语音情感识别模型进行优化;
设置网络层数和维数,建立五层神经网络;其中,输入层为提取的语音的MFCC参数,隐藏层为三层,分别包含128、64和32个节点,输出层用于输出识别出的情感类型;
通过对损失函数用梯度下降法进行迭代优化求极小值,调整权重w和阈值b的值来使预测结果和真实结果之间的差更小。
6.一种基于嵌套深度神经网络的语音情感识别系统,其特征在于,所述识别系统采用如权利要求1-5任一项中所述的语音情感识别方法进行语音情感识别;所述识别系统包括:
MFCC数据集构建模块,用于输入一定量具有情感类型标识的样本语音信号,对每个样本语音信号进行特征的提取,得到对应的梅尔倒谱系数,构建MFCC数据集;
语音情感识别模型创建模块,基于深度神经网络构建语音情感识别模型,该语音情感识别模型用于对提取导入的语音信号的梅尔倒谱系数,结合提取特征对导入的语音信号进行情感识别,采用MFCC数据集对语音情感识别模型进行初步训练,遍历得到不同参数组对应的语音情感的识别率;
识别率数据集生成模块,结合不同参数组及其对应的识别率,生成识别率数据集;所述参数组包括学习率、最大迭代次数和损失函数最大值;
参数拟合模型创建模块,基于深度神经网络构建参数拟合模型,该参数拟合模型用于对导入的识别率数据集进行拟合,得到最大识别率对应的参数组;
语音情感识别模型再训练模块,将得到的最大识别率对应的参数组导入语音情感识别模型,利用MFCC数据集对语音情感识别模型进行训练,得到最终的语音情感识别模型。
CN202110670269.0A 2021-06-17 2021-06-17 基于嵌套深度神经网络的语音情感识别方法和系统 Active CN113571095B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110670269.0A CN113571095B (zh) 2021-06-17 2021-06-17 基于嵌套深度神经网络的语音情感识别方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110670269.0A CN113571095B (zh) 2021-06-17 2021-06-17 基于嵌套深度神经网络的语音情感识别方法和系统

Publications (2)

Publication Number Publication Date
CN113571095A CN113571095A (zh) 2021-10-29
CN113571095B true CN113571095B (zh) 2023-06-20

Family

ID=78162186

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110670269.0A Active CN113571095B (zh) 2021-06-17 2021-06-17 基于嵌套深度神经网络的语音情感识别方法和系统

Country Status (1)

Country Link
CN (1) CN113571095B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116682414B (zh) * 2023-06-06 2024-01-30 安徽迪科数金科技有限公司 一种基于大数据的方言语音识别系统
CN116631451B (zh) * 2023-06-25 2024-02-06 安徽迪科数金科技有限公司 一种语音情感识别系统及方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104157290B (zh) * 2014-08-19 2017-10-24 大连理工大学 一种基于深度学习的说话人识别方法
KR101844932B1 (ko) * 2014-09-16 2018-04-03 한국전자통신연구원 신호처리 알고리즘이 통합된 심층 신경망 기반의 음성인식 장치 및 이의 학습방법
CN108597539B (zh) * 2018-02-09 2021-09-03 桂林电子科技大学 基于参数迁移和语谱图的语音情感识别方法
CN109065073A (zh) * 2018-08-16 2018-12-21 太原理工大学 基于深度svm网络模型的语音情感识别方法
CN109493886A (zh) * 2018-12-13 2019-03-19 西安电子科技大学 基于特征选择和优化的语音情感识别方法
CN110491416B (zh) * 2019-07-26 2022-02-25 广东工业大学 一种基于lstm和sae的电话语音情感分析与识别方法
CN111798874A (zh) * 2020-06-24 2020-10-20 西北师范大学 一种语音情绪识别方法及系统

Also Published As

Publication number Publication date
CN113571095A (zh) 2021-10-29

Similar Documents

Publication Publication Date Title
Basu et al. A review on emotion recognition using speech
Jahangir et al. Deep learning approaches for speech emotion recognition: state of the art and research challenges
KR100908121B1 (ko) 음성 특징 벡터 변환 방법 및 장치
CN112466326B (zh) 一种基于transformer模型编码器的语音情感特征提取方法
CN111312245B (zh) 一种语音应答方法、装置和存储介质
CN111798874A (zh) 一种语音情绪识别方法及系统
CN109979436B (zh) 一种基于频谱自适应法的bp神经网络语音识别系统及方法
CN113571095B (zh) 基于嵌套深度神经网络的语音情感识别方法和系统
CN110942766A (zh) 音频事件检测方法、系统、移动终端及存储介质
CN111986679A (zh) 一种应对复杂声学环境的说话人确认方法、系统及存储介质
CN109065073A (zh) 基于深度svm网络模型的语音情感识别方法
Reddy et al. Audio compression with multi-algorithm fusion and its impact in speech emotion recognition
Sadeghi et al. Optimal MFCC features extraction by differential evolution algorithm for speaker recognition
Praksah et al. Analysis of emotion recognition system through speech signal using KNN, GMM & SVM classifier
CN111583965A (zh) 一种语音情绪识别方法、装置、设备及存储介质
Cheng et al. DNN-based speech enhancement with self-attention on feature dimension
Fan et al. The impact of student learning aids on deep learning and mobile platform on learning behavior
Brucal et al. Female voice recognition using artificial neural networks and MATLAB voicebox toolbox
Luo et al. Emotional Voice Conversion Using Neural Networks with Different Temporal Scales of F0 based on Wavelet Transform.
CN117310668A (zh) 融合注意力机制与深度残差收缩网络的水声目标识别方法
CN111081273A (zh) 一种基于声门波信号特征提取的语音情感识别方法
Aggarwal et al. Application of genetically optimized neural networks for hindi speech recognition system
CN114299995A (zh) 一种用于情绪评估的语言情感识别方法
CN112951270B (zh) 语音流利度检测的方法、装置和电子设备
CN111785262A (zh) 一种基于残差网络及融合特征的说话人年龄性别分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant