CN111710349A - 一种语音情感识别方法、系统、计算机设备和存储介质 - Google Patents

一种语音情感识别方法、系统、计算机设备和存储介质 Download PDF

Info

Publication number
CN111710349A
CN111710349A CN202010577842.9A CN202010577842A CN111710349A CN 111710349 A CN111710349 A CN 111710349A CN 202010577842 A CN202010577842 A CN 202010577842A CN 111710349 A CN111710349 A CN 111710349A
Authority
CN
China
Prior art keywords
emotion
subgroup
frog
energy spectrum
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010577842.9A
Other languages
English (en)
Other versions
CN111710349B (zh
Inventor
戚成杰
叶吉祥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Changsha University of Science and Technology
Original Assignee
Changsha University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Changsha University of Science and Technology filed Critical Changsha University of Science and Technology
Priority to CN202010577842.9A priority Critical patent/CN111710349B/zh
Publication of CN111710349A publication Critical patent/CN111710349A/zh
Application granted granted Critical
Publication of CN111710349B publication Critical patent/CN111710349B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Hospice & Palliative Care (AREA)
  • General Health & Medical Sciences (AREA)
  • Psychiatry (AREA)
  • Child & Adolescent Psychology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开一种语音情感识别方法,首先获取声音数据的相位数据和能量谱,再利用双向循环神经网络将能量谱中的语义与情感进行分离,去除语义部分并将情感部分与相位数据混合获得情感特征,然后利用该情感特征训练支持向量机,该支持向量机用于情感特征类别的识别。本发明的方法通过将语义与情感分离,并单独取情感部分进行情感识别可有效提高情感识别的准确度。

Description

一种语音情感识别方法、系统、计算机设备和存储介质
技术领域
本发明涉及语音情感识别技术领域,尤其是一种语音情感识别方法、系统、计算机设备和存储介质。
背景技术
随着人们对于智能生活的要求不断提高,人机交互已经成为了当今AI研究的趋势之一。如何可以更好地实现人机交互,是一个值得深究的问题,在不断地语音识别研究中,人们发现情感信息对一个人的语义理解有着极大的帮助。为了使计算机可以像人一样与人类“交流”,语音情感识别逐渐成为了智能人机交互领域的研究热点。目前情感识别研究领域中,最主要的途径就是通过对人的生理信息,例如声音信号、脉搏信号、脑电信号、面部表情、身体形态等一种信号分析或多种信号的多模分析,利用识别技术进行训练学习和类型识别判断。所以通过对语音进行情感研究是合理且有效的。
现有技术中,在原始数据的预处理过程中,大多数情况下只针对数据的清洗和降噪,对于情感和语义的信息数据并没有做任何的改变,这导致预处理后的效果并没有得到明显的提升。对于情感识别来说,语义部分所携带的大量信息都是对情感识别没有帮助的,甚至会影响情感的准确识别,导致情感识别率低。
发明内容
本发明提供一种语音情感识别方法、系统、计算机设备和存储介质,用于克服现有技术中情感识别率较低等缺陷。
为实现上述目的,本发明提出一种语音情感识别方法,包括:
构建语音情感数据集;所述语音情感数据集包括被标记的声音数据;
获取所述声音数据的相位数据和能量谱,将所述相位数据和能量谱输入预先设置的情感识别模型;所述情感识别模型包括:双向循环神经网络和支持向量机;
利用所述能量谱对所述双向循环神经网络进行训练,并利用训练好的双向循环神经网络对所述能量谱中的语义和情感进行分离,获得语义能量谱和情感能量谱;
根据所述情感能量谱和所述相位数据,得到情感特征;
利用所述情感特征对所述支持向量机进行训练,得到训练好的情感识别模型;
将从待识别声音数据中提取的相位数据和能量谱输入训练好的情感识别模型,获得情感类别。
为实现上述目的,本发明还提出一种语音情感识别系统,包括:
数据集构建模块,用于构建语音情感数据集;所述语音情感数据集包括被标记的声音数据;
相位数据和能量谱获取模块,用于获取所述声音数据的相位数据和能量谱,将所述相位数据和能量谱输入预先设置的情感识别模型;
语义和情感分离模块,用于利用所述能量谱对所述双向循环神经网络进行训练,并利用训练好的双向循环神经网络对所述能量谱中的语义和情感进行分离,获得语义能量谱和情感能量谱;
情感特征获取模块,用于根据所述情感能量谱和所述相位数据,得到情感特征;
支持向量机训练模块,用于利用所述情感特征对所述支持向量机进行训练,得到训练好的情感识别模型;
语音情感识别模块,用于将从待识别声音数据中提取的相位数据和能量谱输入训练好的情感识别模型,获得情感类别。
为实现上述目的,本发明还提出一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述所述方法的步骤。
为实现上述目的,本发明还提出一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述所述的方法的步骤。
与现有技术相比,本发明的有益效果有:
本发明提供的语音情感识别方法,首先获取声音数据的相位数据和能量谱,再利用双向循环神经网络将能量谱中的语义与情感进行分离,去除语义部分并将情感部分与相位数据混合获得情感特征,然后利用该情感特征训练支持向量机,该支持向量机用于情感特征类别的识别。本发明的方法通过将语义与情感分离,并单独取情感部分进行情感识别可有效提高情感识别的准确度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图示出的结构获得其他的附图。
图1为本发明提供的语音情感识别方法流程图;
图2为本发明中双向循环神经网络的结构图;
图3a为直接采用默认核参数的支持向量机对CASIA汉语情感语料库中的声音数据进行情感识别的结果图;
图3b为利用双向循环神经网络对CASIA汉语情感语料库中的声音数据进行语义与情感的分离并采用默认核参数的支持向量机对声音数据进行情感识别的结果图;
图3c为直接采用最优核参数的支持向量机对CASIA汉语情感语料库中的声音数据进行情感识别的结果图;
图3d为利用双向循环神经网络对CASIA汉语情感语料库中的声音数据进行语义与情感的分离并采用最优核参数的支持向量机对声音数据进行情感识别的结果图;
图4a为直接采用默认核参数的支持向量机对柏林数据集中的声音数据进行情感识别的结果图;
图4b为利用双向循环神经网络对柏林数据集中的声音数据进行语义与情感的分离并采用默认核参数的支持向量机对声音数据进行情感识别的结果图;
图4c为直接采用最优核参数的支持向量机对柏林数据集中的声音数据进行情感识别的结果图;
图4d为利用双向循环神经网络对柏林数据集中的声音数据进行语义与情感的分离并采用最优核参数的支持向量机对声音数据进行情感识别的结果图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
另外,本发明各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
本发明提出一种语音情感识别方法,如图1所示,包括:
101:构建语音情感数据集;该语音情感数据集包括被标记的声音数据;
语音情感数据集为MIR1K数据集,该MIR1K数据集拥有准确地混合音频和有单独的情感和语义的音频,可很好的用于情感识别模型训练。
102:获取声音数据的相位数据和能量谱,将相位数据和能量谱输入预先设置的情感识别模型;该情感识别模型包括:双向循环神经网络和支持向量机;
声音数据包括相位数据和频率,以频率为能量谱。
103:利用能量谱对双向循环神经网络进行训练,并利用训练好的双向循环神经网络对能量谱中的语义和情感进行分离,获得语义能量谱和情感能量谱;
可以将步骤102的全部能量谱用于双向循环神经网络训练,并利用训练好的双向循环神经网络对全部的能量谱进行语义和情感分离。
也可以为将步骤102的一部分能量谱用于双向循环神经网络训练,另一部分能量谱进行语义和情感分离。
104:根据情感能量谱和相位数据,得到情感特征;
情感能量谱只能跟与之对应的声音数据中分离的相位数据一起,才能获得相对应的情感特征。
105:利用情感特征对支持向量机进行训练,得到训练好的情感识别模型;
106:将从待识别声音数据中提取的相位数据和能量谱输入训练好的情感识别模型,获得情感类别。
情感类别包括害怕、开心、悲伤、生气、惊喜等,情感类别根据情感特征的值大小进行判断。
本发明提供的语音情感识别方法,首先获取声音数据的相位数据和能量谱,再利用双向循环神经网络将能量谱中的语义与情感进行分离,去除语义部分并将情感部分与相位数据混合获得情感特征,然后利用该情感特征训练支持向量机,该支持向量机用于情感特征类别的识别。本发明的方法通过将语义与情感分离,并单独取情感部分进行情感识别可有效提高情感识别的准确度。
在其中一个实施例中,对于步骤105,利用情感特征对支持向量机进行训练,得到训练好的情感识别模型,包括:
201:利用蛙跳算法确定支持向量机的最优核参数;
202:利用情感特征对设置了最优核参数的支持向量机进行训练,得到训练好的情感识别模型。
本实施例中选用的支持向量机经过训练后能够很好的识别情感数据中的情感类别,而支持向量机中核参数选择是对情感识别率产生影响的重要参数,因此本实施例选用蛙跳算法寻找支持向量机的最优核参数,通过蛙跳算法的自动寻优可快速、准确的寻找到支持向量机的最优核参数,以使支持向量机能够准确、高效的进行语音情感识别。
在另一个实施例中,对于步骤201,利用蛙跳算法确定支持向量机的最优核参数,包括:
301:对蛙跳算法初始化;
设定m和n的值,m为子群的数量,n为每个子群中青蛙的数量。种群规模F=m*n,支持向量机(LIBSVM)核函数c,g的取值范围为:c为[0.1,10],g为[0.01,1],核参数包含两个参数。
302:在可行解空间生成一个初始种群;所述初始种群包含多只青蛙,每只所述青蛙的当前位置对应于支持向量机分类问题中核函数解空间的一个候选解;
在核函数可行解空间生成F只青蛙U(1),U(2),.....,U(F),每个青蛙的当前位置Pwt对应于支持向量机分类问题中核函数解空间的一个候选解:
Figure BDA0002551905390000071
其中d为解的维度。计算出U(i)的性能f(i)(具体计算方式为:将每一个青蛙的解作为核参数的值代入支持向量机对情感进行分类,得到的识别率作为性能好坏的评价标准,从而选出F只性能好的青蛙),并利用公式
Figure BDA0002551905390000072
i=1,2,3,...M进行反向学习,其中
Figure BDA0002551905390000073
为反向学习之后的解;rands(i,d)为用于不同个体i的对应维度d上(-1,1)之间的一个随机数;mind,maxd分别为在所有初始解中第d维的最小值和在所有初始解中第d维的最大值;Cd为一个确定值,其维度由解的维度决定,作为是否进行此次反向学习的阈值,当Cd<rand()值,进行此维度的反向解求解,反之,则不进行任何操作;rand()为一个(0,1)之间的解。反向学习后的M只青蛙和前面选出的F只青蛙分别计算性能以后,按性能好坏排序,只保留性能最好的F只青蛙,组成初始种群。
反向学习后的青蛙不一定向好的结果迈进,因此还需与原来的F只青蛙进行性能比较,M与F数值相同。
303:对青蛙进行等级划分,获得多个子群;
将初始种群中的F只青蛙按照性能f(i)的好坏依次排列,生成数组并记录种群中最好青蛙位置Pg=U(1),并将青蛙分组(分组方式为将前s只青蛙依次作为每一个子群的第一只青蛙,第s~2s只青蛙依次作为每一个子群的第二只青蛙,以此类推,直到所有的青蛙都完成分组),放入不同的子群中。
304:对子群执行子群进化,获得初始种群中最好的青蛙,该最好的青蛙对应的支持向量机分类问题中核函数在解空间的解为最优核参数。
在每一个子群中,每一只青蛙收到其他青蛙位置的影响,通过子群进化,使每一只青蛙朝着目标位置逼近。
在下一个实施例中,对于步骤304,对所述子群执行子群进化,获得所述初始种群中最好的青蛙,包括:
401:设定最大进化次数;
402:计算获得所述子群中第i只青蛙所带的电荷,
Figure BDA0002551905390000081
式中,qi为第i只青蛙所带的电荷;n为子群数量的一半或者子群数量;xi为当前子群中第i只青蛙的解;xg为当前子群中最优青蛙的解;xk为当前子群中每一只青蛙的解,k为当前子群中第k只青蛙;
Figure BDA0002551905390000082
为初始种群中最优青蛙的解;
Figure BDA0002551905390000091
为各个子群中最优青蛙的解;m为单个子群中青蛙的数量;m′为子群数量;p为初始种群中第p个子群;
403:根据所述电荷获得作用在所述子群中最差青蛙上的分力,
Figure BDA0002551905390000092
式中,Fi w为作用在子群中最差青蛙上的分力;
Figure BDA0002551905390000093
为子群最差目标值青蛙所带电荷;Pwt为子群中最差目标值青蛙的当前位置;
404:根据所述分力调整所述子群中最差目标值青蛙的位置,
Pwt+1=w*Pwt+Da(Dmax>=Da>=-Dmax)+Fi w (3)
w=(ws-we)*(1+a/maxgen) (4)
Da=rand*(Pwt-Pb) (5)
式中,Pwt+1为调整后子群中最差目标值青蛙的位置;w为惯性参数,初始值为0.9,由ws和we控制,ws和we的值分别为0.9和0.4;Da为本次移动的随机步长;Dmax为一次跳跃的最大步长;maxgen为设定的最大进化次数;a为当前的总进化次数;Pb为当前子群中的最优青蛙;rand为(0,1)的随机值;
405:若调整后子群中最差目标值青蛙的位置Pwt+1优于子群中最差目标值青蛙的原位置Pwt,则用调整后子群中最差目标值青蛙的位置Pwt+1取代所述原位置Pwt;否则,用初始种群中最好的青蛙的解Pg代替子群最优青蛙的解Pb并重新计算调整后子群中最差目标值青蛙的解,如果优于所述原位置Pwt,则用调整后子群中最差目标值青蛙的位置取代所述原位置Pwt;若重新调整获得的子群中最差目标值青蛙的位置还是没有优于所述原位置Pwt,则在子群中随机生成一个新位置用于取代所述原位置Pwt
406:若当前的进化次数≥每个子群中青蛙的数量,则检查终止条件,如果迭代终止条件满足,则终止(终止条件为达到最大迭代次数并且每一个子群中一半以上的青蛙的解相同);否则,重新进行青蛙等级划分和子群进化;
407:若当前的进化次数<每个子群中青蛙的数量,同时若子群计数变量<子群数量,则重新进行电荷计算至最差青蛙的位置调整的步骤;否则将每个子群进行子群之间的跳跃,并将各个子群合并,将合并后的青蛙重新进行等级划分,更新初始种群中最好的青蛙,检查终止条件,如果迭代终止条件满足,则终止;否则,重新进行青蛙等级划分和子群进化;所述子群进行子群之间的跳跃具体为:
将子群计数变量清零并且执行公式:
Pg'=w*Pg+rands*Pg (6)
w=we+(ws-we)*(my/m) (7)
式中,Pg'为更新后的初始种群中最好的青蛙的解;w为惯性参数;Pg为初始种群中最好的青蛙的解;rands为[-1,1]之间的随机数,维度由Pg的维度决定;m为子群数量;my为第y个子群,y=1,2,.....,m。
在另一个实施例中,对于步骤102,获取声音数据的相位数据和能量谱,包括:
501:对声音数据进行短时傅里叶变换,获得频域;
通过短时傅里叶变换将时域转到频域。
502:从频域中分离获得频率和相位数据,并将频率作为能量谱。
在下一个实施例中,对于步骤104,根据情感能量谱和相位数据,得到情感特征,包括:
601:将情感能量谱和相位数据混合,对混合后的数据进行反向快速傅里叶变化,获得情感数据;
情感能量谱只有与相位数据结合才能进行反向快速傅里叶变化。
情感数据仅包含情感部分。
通过反向快速傅里叶变化又将频域转到时域。
602:对情感数据进行情感特征提取,得到情感特征。
情感特征的提取参考:梁瑞宇,赵力,魏昕《语音信号处理实验教程》pp.234机械工业出版社。
情感特征及对应标签如表1所示,该标签与步骤101中的声音数据的标记一一对应。
表1情感特征及对应标签
特征标签 特征名称
1-4 短时能量的最大值,最小值,均值,方差
5-7 短时能量的抖动,线性回归系数和线性回归系数的均方误差
8 0~255Hz频段能量占总能量的百分比
9-12 基因频率的最大值,最小值,均值,方差
13-14 基因频率的一阶抖动,二阶抖动
15-18 浊音帧差分基音的最大值,最小值,均值,方差
19-23 第一共振峰频率的最大值,最小值,均值,方差和一阶抖动
23-27 第二共振峰频率的最大值,最小值,均值,方差和一阶抖动
28-32 第三共振峰频率的最大值,最小值,均值,方差和一阶抖动
33-36 第二共振峰频率比率的最大值,最小值。均值
37-88 0~12阶梅尔倒谱参数的最大值,最小值,均值,方差
89-140 0~12阶梅尔倒谱参数一阶差分的最大值,最小值,均值,方差
在下一个实施例中,双向循环神经网络如图2所示,包括4层双向循环神经网络(ht 1、ht 2、ht 3、ht 4),4层双向循环神经网络对输入的能量谱进行逐层的语义与情感分离,最终从ht 4输出初始语义能量谱和初始情感能量谱并进入输出层进行输出处理,以保证双向循环神经网络最终输出的情感能量谱与输入双向循环神经网络的能量谱数据范围相同,这样才能实现情感能量谱与相位的结合。
本实施例采用的双向循环神经网络能够实现单声道变双声道的功能,从而实现对输入的能量谱中语义与情感的分离,并分别对初始语义能量谱和初始情感能量谱进行输出处理,获得与输入的能量谱数据范围相同的情感能量谱。
在另一个实施例中,双向循环神经网络的输出层包括门参数层和掩蔽效应层,输出层的激活函数为softplus函数:
softplus(x)=log(1+ex) (8)
门参数层中的门参数公式如下:
Figure BDA0002551905390000121
Figure BDA0002551905390000122
式中,
Figure BDA0002551905390000123
分别为人声和伴奏声的预测值;zt(f)为双向循环神经网络的输出层数据;ht1、ht2分别为双向循环神经网络的前向循环门参数和后向循环门参数;
掩蔽效应层的掩蔽效应公式如下:
Figure BDA0002551905390000124
Figure BDA0002551905390000125
Figure BDA0002551905390000126
式中,mt(f)为掩蔽效应的比例;
Figure BDA0002551905390000127
分别为语义信息和情感信息的真实值。
本实施例选用softplus函数作为激活函数可使双向循环神经网络的准确率更高,双向循环神经网络的损失函数值更低,同时可以避免梯度消失的问题。
选择门参数层和掩蔽效应层对初始语义能量谱和初始情感能量谱进行输出处理,可使得最终输出的语义能量谱和情感能量谱与输入的能量谱数据范围完全相同。
本实施例中,对双向循环神经网络进行训练时,双向循环神经网络的结构设置如表2所示。
表2双向循环神经网络的结构设置
信息名称 详细信息
训练数据集 MIR1K
输入输出特征 快速傅里叶变换后的能量谱
快速傅里叶变化采样点数和步幅 采样点数:1024,步幅:128
批处理大小 64
dropout率 0.85
总迭代次数 20000
学习率 0.001
模型层数 4
输入层节点 512
输出层节点 1024
隐藏层节点 1024
激活函数 隐藏层,输出层:softplus函数
损失函数 MSE(均方误差)函数
本发明提供的语音情感识别方法,首先将声音数据中的相位数据和频率进行分离,其实质上就是一个降噪处理,以降低后续处理的难度和保证最终识别结果的精确度;然后利用双向循环神经网络将该能量谱中的语义和情感进行分离,双向循环神经网络能快速、准确地将能量谱中的语义和情感分离,这是进一步的降噪处理,将语义作为噪声去除,以降低情感特征提出和情感识别的难度和保证最终识别结果的精确度;再将该情感与该相位数据进行反向快速傅里叶变化,获得仅拥有情感的情感数据;接着对该情感数据进行情感特征提取并对感情特征进行标记;最后利用支持向量机对语音情感进行分类。本发明提供的语音情感识别方法,将单声道的音频进行语义和情感的切割,产生只拥有情感信息的音频,用来进行情感特征的提取,并且在支持向量机分类中引入群智能算法,提供了最优的核函数,进一步的提高了分类的效果。
本发明提供的语音情感识别方法可用于对柏林情感数据集,CASIA汉语情感语料库,IEMOCAP语料库等中的音频文件进行情感识别。
图3a为直接采用默认核参数的支持向量机对CASIA汉语情感语料库中的声音数据进行情感识别的结果图,从图可知,情感识别的总识别率92.0833%。
图3b为利用双向循环神经网络对CASIA汉语情感语料库中的声音数据进行语义与情感的分离并采用默认核参数的支持向量机对声音数据进行情感识别的结果图,从图可知,情感识别的总识别率96.6667%。
图3c为直接采用最优核参数的支持向量机对CASIA汉语情感语料库中的声音数据进行情感识别的结果图,从图可知,情感识别的总识别率97.9167%。
图3d为利用双向循环神经网络对CASIA汉语情感语料库中的声音数据进行语义与情感的分离并采用最优核参数的支持向量机对声音数据进行情感识别的结果图,从图可知,情感识别的总识别率98.3333%。
图4a为直接采用默认核参数的支持向量机对柏林数据集中的声音数据进行情感识别的结果图,从图可知,情感识别的总识别率82.8571%。
图4b为利用双向循环神经网络对柏林数据集中的声音数据进行语义与情感的分离并采用默认核参数的支持向量机对声音数据进行情感识别的结果图,从图可知,情感识别的总识别率87.619%。
图4c为直接采用最优核参数的支持向量机对柏林数据集中的声音数据进行情感识别的结果图,从图可知,情感识别的总识别率87.619%。
图4d为利用双向循环神经网络对柏林数据集中的声音数据进行语义与情感的分离并采用最优核参数的支持向量机对声音数据进行情感识别的结果图,从图可知,情感识别的总识别率91.4286%。
图3a~图4d中,方块中的百分数值表示通过对应方法预测的结果与实际情况相符程度,数值越大,相符程度越高。
本发明提出还一种语音情感识别系统,包括:
数据集构建模块,用于构建语音情感数据集;所述语音情感数据集包括被标记的声音数据;
相位数据和能量谱获取模块,用于获取所述声音数据的相位数据和能量谱,将所述相位数据和能量谱输入预先设置的情感识别模型;
语义和情感分离模块,用于利用所述能量谱对所述双向循环神经网络进行训练,并利用训练好的双向循环神经网络对所述能量谱中的语义和情感进行分离,获得语义能量谱和情感能量谱;
情感特征获取模块,用于根据所述情感能量谱和所述相位数据,得到情感特征;
支持向量机训练模块,用于利用所述情感特征对所述支持向量机进行训练,得到训练好的情感识别模型;
语音情感识别模块,用于将从待识别声音数据中提取的相位数据和能量谱输入训练好的情感识别模型,获得情感类别。
本发明还提出一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述所述方法的步骤。
本发明还提出一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述所述的方法的步骤。
以上所述仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是在本发明的发明构思下,利用本发明说明书及附图内容所作的等效结构变换,或直接/间接运用在其他相关的技术领域均包括在本发明的专利保护范围内。

Claims (10)

1.一种语音情感识别方法,其特征在于,包括:
构建语音情感数据集;所述语音情感数据集包括被标记的声音数据;
获取所述声音数据的相位数据和能量谱,将所述相位数据和能量谱输入预先设置的情感识别模型;所述情感识别模型包括:双向循环神经网络和支持向量机;
利用所述能量谱对所述双向循环神经网络进行训练,并利用训练好的双向循环神经网络对所述能量谱中的语义和情感进行分离,获得语义能量谱和情感能量谱;
根据所述情感能量谱和所述相位数据,得到情感特征;
利用所述情感特征对所述支持向量机进行训练,得到训练好的情感识别模型;
将从待识别声音数据中提取的相位数据和能量谱输入训练好的情感识别模型,获得情感类别。
2.如权利要求1所述的语音情感识别方法,其特征在于,利用所述情感特征对所述支持向量机进行训练,得到训练好的情感识别模型,包括:
利用蛙跳算法确定支持向量机的最优核参数;
利用所述情感特征对设置了所述最优核参数的支持向量机进行训练,得到训练好的情感识别模型。
3.如权利要求2所述的语音情感识别方法,其特征在于,利用蛙跳算法确定支持向量机的最优核参数,包括:
对蛙跳算法初始化;
在可行解空间生成一个初始种群;所述初始种群包含多只青蛙,每只所述青蛙的当前位置对应于支持向量机分类问题中核函数解空间的一个候选解;
对所述青蛙进行等级划分,获得多个子群;
对所述子群执行子群进化,获得所述初始种群中最好的青蛙,所述最好的青蛙对应的支持向量机分类问题中核函数在解空间的解为最优核参数。
4.如权利要求3所述的语音情感识别方法,其特征在于,对所述子群执行子群进化,获得所述初始种群中最好的青蛙,包括:
设定最大进化次数;
计算获得所述子群中第i只青蛙所带的电荷,
Figure FDA0002551905380000021
式中,qi为第i只青蛙所带的电荷;n为子群数量的一半或者子群数量;xi为当前子群中第i只青蛙的解;xg为当前子群中最优青蛙的解;xk为当前子群中每一只青蛙的解,k为当前子群中第k只青蛙;
Figure FDA0002551905380000022
为初始种群中最优青蛙的解;
Figure FDA0002551905380000023
为各个子群中最优青蛙的解;m为单个子群中青蛙的数量;m′为子群数量;p为初始种群中第p个子群;
根据所述电荷获得作用在所述子群中最差青蛙上的分力,
Figure FDA0002551905380000024
式中,Fi w为作用在子群中最差青蛙上的分力;
Figure FDA0002551905380000025
为子群最差目标值青蛙所带电荷;Pwt为子群中最差目标值青蛙的当前位置;
根据所述分力调整所述子群中最差目标值青蛙的位置,
Pwt+1=w*Pwt+Da(Dmax>=Da>=-Dmax)+Fi w (3)
w=(ws-we)*(1+a/maxgen) (4)
Da=rand*(Pwt-Pb) (5)
式中,Pwt+1为调整后子群中最差目标值青蛙的位置;w为惯性参数,由ws和we控制;Da为本次移动的随机步长;Dmax为一次跳跃的最大步长;maxgen为设定的最大进化次数;a为当前的总进化次数;Pb为当前子群中的最优青蛙;rand为(0,1)的随机值;
若调整后子群中最差目标值青蛙的位置优于子群中最差目标值青蛙的原位置,则用调整后子群中最差目标值青蛙的位置取代所述原位置;否则,用初始种群中最好的青蛙的解代替子群最优青蛙的解并重新计算调整后子群中最差目标值青蛙的解,如果优于所述原位置,则用调整后子群中最差目标值青蛙的位置取代所述原位置;若重新调整获得的子群中最差目标值青蛙的位置还是没有优于所述原位置,则在子群中随机生成一个新位置用于取代所述原位置;
若当前的进化次数≥每个子群中青蛙的数量,则检查终止条件,如果迭代终止条件满足,则终止;否则,重新进行青蛙等级划分和子群进化;
若当前的进化次数<每个子群中青蛙的数量,同时若子群计数变量<子群数量,则重新进行电荷计算至最差青蛙的位置调整的步骤;否则将每个子群进行子群之间的跳跃,并将各个子群合并,将合并后的青蛙重新进行等级划分,更新初始种群中最好的青蛙,检查终止条件,如果迭代终止条件满足,则终止;否则,重新进行青蛙等级划分和子群进化;所述子群进行子群之间的跳跃具体为:
将子群计数变量清零并且执行公式:
Pg'=w*Pg+rands*Pg (6)
w=we+(ws-we)*(my/m) (7)
式中,Pg'为更新后的初始种群中最好的青蛙的解;w为惯性参数;Pg为初始种群中最好的青蛙的解;rands为[-1,1]之间的随机数,维度由Pg的维度决定;m为子群数量;my为第y个子群,y=1,2,.....,m。
5.如权利要求1所述的语音情感识别方法,其特征在于,获取所述声音数据的相位数据和能量谱,包括:
对所述声音数据进行短时傅里叶变换,获得频域;
从所述频域中分离获得频率和相位数据,并将所述频率作为能量谱。
6.如权利要求1所述的语音情感识别方法,其特征在于,根据所述情感能量谱和所述相位数据,得到情感特征,包括:
将所述情感能量谱和所述相位数据混合,对混合后的数据进行反向快速傅里叶变化,获得情感数据;
对所述情感数据进行情感特征提取,得到情感特征。
7.如权利要求1~6任一项所述的语音情感识别方法,其特征在于,所述双向循环神经网络的输出层包括门参数层和掩蔽效应层,所述输出层的激活函数为softplus函数:
softplus(x)=log(1+ex) (8)
所述门参数层中的门参数公式如下:
Figure FDA0002551905380000041
Figure FDA0002551905380000042
式中,
Figure FDA0002551905380000043
分别为人声和伴奏声的预测值;zt(f)为双向循环神经网络的输出层数据;ht1、ht2分别为双向循环神经网络的前向循环门参数和后向循环门参数;
所述掩蔽效应层的掩蔽效应公式如下:
Figure FDA0002551905380000051
Figure FDA0002551905380000052
Figure FDA0002551905380000053
式中,mt(f)为掩蔽效应的比例;
Figure FDA0002551905380000054
分别为语义信息和情感信息的真实值。
8.一种语音情感识别系统,其特征在于,包括:
数据集构建模块,用于构建语音情感数据集;所述语音情感数据集包括被标记的声音数据;
相位数据和能量谱获取模块,用于获取所述声音数据的相位数据和能量谱,将所述相位数据和能量谱输入预先设置的情感识别模型;
语义和情感分离模块,用于利用所述能量谱对所述双向循环神经网络进行训练,并利用训练好的双向循环神经网络对所述能量谱中的语义和情感进行分离,获得语义能量谱和情感能量谱;
情感特征获取模块,用于根据所述情感能量谱和所述相位数据,得到情感特征;
支持向量机训练模块,用于利用所述情感特征对所述支持向量机进行训练,得到训练好的情感识别模型;
语音情感识别模块,用于将从待识别声音数据中提取的相位数据和能量谱输入训练好的情感识别模型,获得情感类别。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1~7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1~7中任一项所述的方法的步骤。
CN202010577842.9A 2020-06-23 2020-06-23 一种语音情感识别方法、系统、计算机设备和存储介质 Active CN111710349B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010577842.9A CN111710349B (zh) 2020-06-23 2020-06-23 一种语音情感识别方法、系统、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010577842.9A CN111710349B (zh) 2020-06-23 2020-06-23 一种语音情感识别方法、系统、计算机设备和存储介质

Publications (2)

Publication Number Publication Date
CN111710349A true CN111710349A (zh) 2020-09-25
CN111710349B CN111710349B (zh) 2023-07-04

Family

ID=72541655

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010577842.9A Active CN111710349B (zh) 2020-06-23 2020-06-23 一种语音情感识别方法、系统、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN111710349B (zh)

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102122297A (zh) * 2011-03-04 2011-07-13 北京航空航天大学 一种基于语义的汉语网络文本情感提取方法
CN104867185A (zh) * 2015-06-16 2015-08-26 桂林电子科技大学 基于蛙跳算法的点射影深度估计方法
CN105334743A (zh) * 2015-11-18 2016-02-17 深圳创维-Rgb电子有限公司 一种基于情感识别的智能家居控制方法及其系统
US20160284343A1 (en) * 2013-03-15 2016-09-29 Kevin M. Short Method and system for generating advanced feature discrimination vectors for use in speech recognition
US20170140750A1 (en) * 2015-11-17 2017-05-18 Le Holdings (Beijing) Co., Ltd. Method and device for speech recognition
CN106849814A (zh) * 2017-03-27 2017-06-13 无锡开放大学 基于果蝇蛙跳模糊神经网络pid直线同步电机控制方法
CN107564543A (zh) * 2017-09-13 2018-01-09 苏州大学 一种高情感区分度的语音特征提取方法
CN107633851A (zh) * 2017-07-31 2018-01-26 中国科学院自动化研究所 基于情感维度预测的离散语音情感识别方法、装置及系统
CN109389992A (zh) * 2018-10-18 2019-02-26 天津大学 一种基于振幅和相位信息的语音情感识别方法
CN109584903A (zh) * 2018-12-29 2019-04-05 中国科学院声学研究所 一种基于深度学习的多人语音分离方法
US20190171660A1 (en) * 2017-06-22 2019-06-06 NewVoiceMedia Ltd. System and method for text categorization and sentiment analysis
CN110390955A (zh) * 2019-07-01 2019-10-29 东南大学 一种基于深度域适应性卷积神经网络的跨库语音情感识别方法
CN111081268A (zh) * 2019-12-18 2020-04-28 浙江大学 一种相位相关的共享深度卷积神经网络语音增强方法
CN111128240A (zh) * 2019-12-19 2020-05-08 浙江大学 一种基于对抗语义擦除的语音情感识别方法

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102122297A (zh) * 2011-03-04 2011-07-13 北京航空航天大学 一种基于语义的汉语网络文本情感提取方法
US20160284343A1 (en) * 2013-03-15 2016-09-29 Kevin M. Short Method and system for generating advanced feature discrimination vectors for use in speech recognition
CN104867185A (zh) * 2015-06-16 2015-08-26 桂林电子科技大学 基于蛙跳算法的点射影深度估计方法
US20170140750A1 (en) * 2015-11-17 2017-05-18 Le Holdings (Beijing) Co., Ltd. Method and device for speech recognition
CN105334743A (zh) * 2015-11-18 2016-02-17 深圳创维-Rgb电子有限公司 一种基于情感识别的智能家居控制方法及其系统
WO2017084197A1 (zh) * 2015-11-18 2017-05-26 深圳创维-Rgb电子有限公司 一种基于情感识别的智能家居控制方法及其系统
CN106849814A (zh) * 2017-03-27 2017-06-13 无锡开放大学 基于果蝇蛙跳模糊神经网络pid直线同步电机控制方法
US20190171660A1 (en) * 2017-06-22 2019-06-06 NewVoiceMedia Ltd. System and method for text categorization and sentiment analysis
CN107633851A (zh) * 2017-07-31 2018-01-26 中国科学院自动化研究所 基于情感维度预测的离散语音情感识别方法、装置及系统
CN107564543A (zh) * 2017-09-13 2018-01-09 苏州大学 一种高情感区分度的语音特征提取方法
CN109389992A (zh) * 2018-10-18 2019-02-26 天津大学 一种基于振幅和相位信息的语音情感识别方法
CN109584903A (zh) * 2018-12-29 2019-04-05 中国科学院声学研究所 一种基于深度学习的多人语音分离方法
CN110390955A (zh) * 2019-07-01 2019-10-29 东南大学 一种基于深度域适应性卷积神经网络的跨库语音情感识别方法
CN111081268A (zh) * 2019-12-18 2020-04-28 浙江大学 一种相位相关的共享深度卷积神经网络语音增强方法
CN111128240A (zh) * 2019-12-19 2020-05-08 浙江大学 一种基于对抗语义擦除的语音情感识别方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
余华等: "基于改进的蛙跳算法的神经网络在语音情感识别中的研究", vol. 26, no. 26, pages 1294 - 1299 *
王园媛: "求解组合优化问题的混合蛙跳算法的研究", no. 2, pages 10 - 13 *
王思羽: "语音情感识算法研究", no. 2, pages 14 - 24 *
陶华伟等: "面向语音情感识别的Gabor 分块局部二值模式特征", 信号处理, vol. 32, no. 5, pages 505 - 511 *

Also Published As

Publication number Publication date
CN111710349B (zh) 2023-07-04

Similar Documents

Publication Publication Date Title
CN110400579B (zh) 基于方向自注意力机制和双向长短时网络的语音情感识别
Tzinis et al. Improving universal sound separation using sound classification
CN110289003A (zh) 一种声纹识别的方法、模型训练的方法以及服务器
Lakomkin et al. Reusing neural speech representations for auditory emotion recognition
CN108597541A (zh) 一种增强愤怒与开心识别的语音情感识别方法及系统
Semwal et al. Automatic speech emotion detection system using multi-domain acoustic feature selection and classification models
Elshaer et al. Transfer learning from sound representations for anger detection in speech
Sun et al. Sparse autoencoder with attention mechanism for speech emotion recognition
Feraru et al. Speech emotion recognition for SROL database using weighted KNN algorithm
Shivakumar et al. Simplified and supervised i-vector modeling for speaker age regression
CN116524960A (zh) 一种基于混合熵下采样和集成分类器的语音情感识别系统
Cao et al. Speaker-independent speech emotion recognition based on random forest feature selection algorithm
Jaiswal et al. Controlling for confounders in multimodal emotion classification via adversarial learning
Alashban et al. Speaker gender classification in mono-language and cross-language using BLSTM network
Fan et al. Soundscape emotion recognition via deep learning
Koutini et al. Learning general audio representations with large-scale training of patchout audio transformers
Palo et al. Classification of emotional speech of children using probabilistic neural network
CN114678030A (zh) 基于深度残差网络和注意力机制的声纹识别方法及装置
CN112466284B (zh) 一种口罩语音鉴别方法
CN111462762B (zh) 一种说话人向量正则化方法、装置、电子设备和存储介质
Pham et al. Emotion recognition using speech data with convolutional neural network
Kaur et al. An efficient speaker recognition using quantum neural network
Espi et al. Spectrogram patch based acoustic event detection and classification in speech overlapping conditions
Pandey et al. Multi-cultural speech emotion recognition using language and speaker cues
Cakir Multilabel sound event classification with neural networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant