CN108364662B - 基于成对鉴别任务的语音情感识别方法与系统 - Google Patents
基于成对鉴别任务的语音情感识别方法与系统 Download PDFInfo
- Publication number
- CN108364662B CN108364662B CN201711481953.4A CN201711481953A CN108364662B CN 108364662 B CN108364662 B CN 108364662B CN 201711481953 A CN201711481953 A CN 201711481953A CN 108364662 B CN108364662 B CN 108364662B
- Authority
- CN
- China
- Prior art keywords
- audio
- vector
- paired
- training data
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000008909 emotion recognition Effects 0.000 title claims abstract description 51
- 238000000034 method Methods 0.000 title claims abstract description 49
- 239000013598 vector Substances 0.000 claims abstract description 139
- 238000012549 training Methods 0.000 claims abstract description 110
- 230000008451 emotion Effects 0.000 claims abstract description 46
- 238000000605 extraction Methods 0.000 claims abstract description 43
- 238000012706 support-vector machine Methods 0.000 claims abstract description 9
- 239000000126 substance Substances 0.000 claims description 10
- 230000002996 emotional effect Effects 0.000 claims description 7
- 238000002372 labelling Methods 0.000 claims description 7
- 230000004913 activation Effects 0.000 claims description 6
- 238000013528 artificial neural network Methods 0.000 claims description 6
- 238000013507 mapping Methods 0.000 claims description 6
- 239000011159 matrix material Substances 0.000 claims description 6
- 238000003045 statistical classification method Methods 0.000 claims description 6
- 102100029469 WD repeat and HMG-box DNA-binding protein 1 Human genes 0.000 claims description 4
- 101710097421 WD repeat and HMG-box DNA-binding protein 1 Proteins 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 4
- 238000013527 convolutional neural network Methods 0.000 claims description 3
- 238000009432 framing Methods 0.000 claims description 3
- 238000011176 pooling Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 2
- 230000008569 process Effects 0.000 abstract description 10
- 230000006870 function Effects 0.000 description 16
- 238000012360 testing method Methods 0.000 description 8
- 230000003247 decreasing effect Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000037433 frameshift Effects 0.000 description 1
- 238000011551 log transformation method Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000011056 performance test Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Child & Adolescent Psychology (AREA)
- General Health & Medical Sciences (AREA)
- Hospice & Palliative Care (AREA)
- Psychiatry (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及语音情感识别领域,具体涉及一种基于成对鉴别任务的语音情感识别方法与系统。目的在于解决情感标签的模糊性问题。本发明的语音情感识别系统,在训练过程中,将语音数据随机配对;然后提取语谱图特征并利用第一音向量提取模型生成成对音向量;再利用判别网络模型计算成对音频训练数据属于同一情感类别的概率;计算损失函数时,同时考虑成对音向量之间的余弦相似性损失,以及判别网络模型的输出值和预设标签之间的交叉熵。对于待识别语音,先提取语谱图特征,再用训练好的第一音向量提取模型生成音向量,最后用训练好的支持向量机进行情感分类。本发明通过成对鉴别任务训练语音情感模型,提升了基于语音的情感识别系统的性能。
Description
技术领域
本发明涉及语音情感识别领域,具体涉及一种基于成对鉴别任务的语音情感识别方法与系统。
背景技术
情感在人类交流过程中传递着重要信息。语音情感识别主要是让计算机能够通过声音信号,识别人类的情感。语音情感识别是人机交互技术中的重要一环,有助于使用户获得更加自然的人机交互体验。在语音情感识别技术的发展过程中,早期的研究主要是基于手工特征进行情感分类。近年来,随着计算机技术的发展,基于端到端的语音情感识别方法得到了广泛的关注。
基于端到端的语音情感识别方法,通过训练深度神经网络,直接建立原始音频(或者语谱图)与情感标签之间的映射关系。基于端到端的方法与基于手工特征的方法相比较,具有很多优点,比如识别准确率高,不需要考虑特征选取方式等,但是也存在一些不足,主要体现在以下几点:
1、在训练过程中,深度神经网络需要大量标注的数据,才能缓解网络陷入局部极小值,而大规模数据的标注会耗费人力物力;
2、情感标签存在模糊性,标注结果容易产生分歧,进而影响语音情感识别模型的识别性能。
发明内容
为了解决现有技术中的上述问题,本发明提出了一种基于成对鉴别任务的语音情感识别方法与系统,降低了数据标注的难度,提高了语音情感识别的准确率。
本发明的一方面,提出一种基于成对鉴别任务的语音情感识别方法,包括:
步骤A1,抽取待识别音频数据的语谱图特征;并根据该语谱图特征,利用训练好的第一音向量提取模型生成所述待识别音频数据的音向量;
步骤A2,通过统计分类方法,对所述待识别音频数据的音向量进行分类,得到情感识别结果;
其中,
所述第一音向量提取模型的训练方法为:
步骤B1,从语音情感数据库的训练集中,随机选取两个完整的音频数据,得到成对音频训练数据;
步骤B2,针对所述成对音频训练数据中的每一个训练数据,分别抽取该训练数据的语谱图特征,并利用第一音向量提取模型生成该训练数据的音向量;进而得到成对音向量;
步骤B3,根据所述成对音向量,利用判别网络模型计算所述成对音频训练数据属于同一情感类别的概率;
步骤B4,计算损失函数,若所述损失函数没有达到预设的收敛条件,则调整所述第一音向量提取模型和所述判别网络模型的参数,转至步骤B1;
其中,
所述预设的收敛条件为所述损失函数的值不再降低。
优选地,所述损失函数为:
L=λLcos+(1-λ)Lcro
其中,
Lcro(ypred,ytrue)=-[ytruelnypred+(1-ytrue)ln(1-ypred)]
Lcos代表所述成对音向量之间的余弦相似性损失;Lcro代表所述判别网络模型的输出值ypred和预设标签ytrue之间的交叉熵;λ代表权重;
x1和x2分别表示输入的两个音向量特征;y为预设值,表示两个音向量是否表达出同一类情感,1表示两个音向量属于同一情感状态,-1表示两个音向量属于不同情感状态;m是一个超参数,代表系统的容错能力,m越大,容错能力越强,m越小,容错能力越弱;cos(x1,x2)代表所述成对音向量归一化后的余弦距离;
ypred代表所述判别网络模型计算出的所述成对音频训练数据属于同一情感类别的概率;所述预设标签ytrue,为所述成对音频训练数据附带的标签,用于标记所述成对音频训练数据属于同一情感类别的概率;y与ytrue均是在选取所述成对音频训练数据时设定的,代表该对训练数据情感类别的真实情况,且当y=1时,对应ytrue=1;当y=-1时,对应ytrue=0。
优选地,抽取所述语谱图特征的方法为:
将原始音频用预设大小的汉明窗分帧;
将每一帧补足预设的点数,进行FFT变换,得到频域的特征向量;
根据FFT变换的周期性和对称性,只抽取每帧半个周期的特征,作为每帧音频的特征;根据所述原始音频中分出的所有音频帧的特征,组成一个矩阵向量;
对矩阵向量中的每个元素进行以10为底的对数变换,得到原始音频的语谱图特征;
其中,
所述原始音频,为所述待识别音频数据或所述成对音频训练数据中的一个数据。
优选地,所述第一音向量提取模型,采用神经网络构建,包含五层卷积神经网络和一层全连接层;不同卷积层之间采用最大值池化层和非线性激活函数相连。
优选地,所述判别网络模型,由两层全连接层组成,该两层全连接层之间有非线性激活函数相连,构成一个非线性映射函数。
优选地,步骤A2中所述统计分类,采用经过训练的支持向量机进行分类。
本发明一方面,提出一种基于成对鉴别任务的语音情感识别系统,基于上面所述的基于成对鉴别任务的语音情感识别方法,包括:音频对生成模块、音向量训练模块、判别网络模型、参数调整模块、音向量生成模块和分类模块;
所述音频对生成模块,用于从语音情感数据库的训练集中,随机选取完整的音频数据,并两两组合,得到成对音频训练数据;
所述音向量训练模块,配置为:针对所述成对音频训练数据中的每一个训练数据,分别抽取该训练数据的语谱图特征,并利用第一音向量提取模型生成该训练数据的音向量,进而得到成对音向量;
所述判别网络模型,用于根据所述成对音向量,计算所述成对音频训练数据属于同一情感类别的概率;
所述参数调整模块,用于计算损失函数,并调整所述第一音向量提取模型和所述判别网络模型的参数;
所述音向量生成模块,用于抽取待识别音频数据的语谱图特征;并根据所述语谱图特征,利用训练好的第一音向量提取模型生成所述待识别音频数据的音向量;
所述分类模块,用于采用训练好的支持向量机,通过统计分类方法,对所述待识别音频数据的音向量进行分类,得到情感识别结果。
优选地,所述音向量训练模块,包括:第一语谱图提取单元,第一音向量提取模型;
所述第一语谱图提取单元,用于抽取训练数据的语谱图特征;
所述第一音向量提取模型,用于根据抽取的语谱图特征生成对应的成对音向量。
优选地,所述音向量生成模块,包括:第二语谱图提取单元,第二音向量提取模型;
所述第二语谱图提取单元,与所述第一语谱图提取单元相同,用于抽取待识别音频数据的语谱图特征;
所述第二音向量提取模型,其结构与参数与训练好的所述第一音向量提取模型相同,用于根据所述待识别音频数据的语谱图特征生成所述待识别音频数据的音向量。
本发明的第三方面,提出一种存储设备,其中存储有程序,所述程序适于由处理器加载并执行,以实现上面所述的基于成对鉴别任务的语音情感识别方法。
本发明的第四方面,提出一种处理设备,包括:处理器和存储设备;
所述处理器,适于执行程序;所述存储设备,存储有程序;
所述程序适于由处理器加载并执行以实现上面所述的基于成对鉴别任务的语音情感识别方法。
本发明的有益效果:
本发明随机从语音情感训练数据库中选择成对的音频训练数据,假设原始的训练数据规模是N,配对后训练数据的规模是N×(N-1)/2,从而大幅度增加了训练数据的规模,适用于原始训练数据量较少的分类问题。现有技术中进行训练数据标注时,需要把音频数据分配到固定的情感类别,由于情感标签具有模糊性,标注结果容易产生分歧,进而影响语音情感识别模型的识别性能。但是采用本发明的训练方法,我们只需要将成对音频训练数据标注上该音频对是否属于同一类情感,通过这种比较的方式标注数据,更加符合人对于模糊问题的标注习惯,从而缓解了情感标签的模糊性问题。
附图说明
图1是本发明基于成对鉴别任务的语音情感识别方法的实施例流程示意图;
图2是本发明基于成对鉴别任务的语音情感识别系统实施例的构成示意图。
具体实施方式
下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本发明的技术原理,并非旨在限制本发明的保护范围。
本发明采用神经网络搭建语音情感识别系统,系统搭建包含两个过程:系统训练过程和系统性能测试过程。在系统训练过程中,需要基于成对鉴别任务,优化第一音向量提取模型和判别模型中的参数,使得系统能区分两个音频数据是否属于同一情感类别。在系统性能测试过程中,不需要人工介入,音向量生成模块沿用音向量训练模块中的方法、模型以及训练好的参数,对任何输入音频提取音向量特征,然后通过分类模块分类,得到测试音频的情感识别结果。测试结束的系统,就可以用来进行语音情感识别了。
图1是本发明基于成对鉴别任务的语音情感识别方法的实施例流程示意图。如图1所示,本实施例的语音情感识别方法包括:
步骤A1,抽取待识别音频数据的语谱图特征;并根据该语谱图特征,利用训练好的第一音向量提取模型生成所述待识别音频数据的音向量;
步骤A2,通过统计分类方法,对所述待识别音频数据的音向量进行分类,得到情感识别结果;
其中,
所述第一音向量提取模型的训练方法为:
步骤B1,从语音情感数据库的训练集中,随机选取两个完整的音频数据,得到成对音频训练数据;每个音频数据由很多帧组成,在实验过程中,每个音频数据通常是一句完整的话;
步骤B2,针对所述成对音频训练数据中的每一个训练数据,分别抽取该训练数据的语谱图特征,并利用第一音向量提取模型生成该训练数据的音向量;进而得到成对音向量;所述成对音频训练数据,在送入音向训练模块后,先抽取一个训练数据的语谱图特征并生成对应的音向量,再抽取另一个训练数据的语谱图特征并生成对应的音向量;然后配成一对送入到下个环节;
步骤B3,根据所述成对音向量,利用判别网络模型计算所述成对音频训练数据属于同一情感类别的概率;
步骤B4,计算损失函数,若所述损失函数没有达到预设的收敛条件,则调整所述第一音向量提取模型和所述判别网络模型的参数,转至步骤B1;所述预设的收敛条件为所述损失函数的值不再降低。
本实施例中,在实际训练过程中,需要考虑两部分损失来优化系统的性能:成对音向量之间的余弦相似性损失,以及判别模型的输出和预设标签之间的交叉熵,如公式(1)所示:
L=λLcos+(1-λ)Lcro (1)
每次从步骤B1执行到步骤B4都会计算一次损失函数值L,训练过程中L值会逐渐降低,当L值不再降低时,我们认为满足了预设的收敛条件,停止训练。
其中:
Lcos代表所述成对音向量之间的余弦相似性损失;Lcro代表所述判别网络模型的输出值ypred和预设标签ytrue之间的交叉熵;λ代表权重;
Lcos的计算方法如公式(2)、(3)所示:
x1和x2分别表示输入的两个音向量特征;y为预设值,表示两个音向量是否表达出同一类情感,因为我在产生成对音频训练数据的时候,就已经清楚这两个音频是不是从同一情感类别中采集的,1表示两个音向量属于同一情感状态,-1表示两个音向量属于不同情感状态;m是一个超参数,代表系统的容错能力,m越大,容错能力越强,m越小,容错能力越弱;cos(x1,x2)代表所述成对音向量归一化后的余弦距离。
Lcro的计算方法如公式(4)所示:
Lcro(ypred,ytrue)=-[ytrueln ypred+(1-ytrue)ln(1-ypred)] (4)
ypred代表所述判别网络模型计算出的所述成对音频训练数据属于同一情感类别的概率;所述预设标签ytrue,为所述成对音频训练数据附带的标签,用于标记所述成对音频训练数据属于同一情感类别的概率;y与ytrue均是在选取所述成对音频训练数据时设定的,代表该对训练数据情感类别的真实情况,且当y=1时,对应ytrue=1;当y=-1时,对应ytrue=0。
本实施例中,抽取所述语谱图特征的方法为:
先用窗长为20毫秒、帧移为10毫秒的汉明窗对原始音频进行分帧;再将每一帧补足512个点,经过FFT变换,将原始时域波形映射到频域,得到频域的512维特征向量;由于FFT变换具有周期性和对称性,512维FFT的周期是512,因此只抽取半个周期频域特征作为每帧音频的特征。假设512维度FFT特征从0开始编号,256对应对称轴位置的特征,512处的特征值和0处的特征值相同,根据FFT的对称性以及周期性,只保留标号从0到256的特征,共计257维特征向量。对于1秒的语音信号,能够得到100×257的矩阵向量。为了控制特征的变化范围,对得到的矩阵向量中的每个元素经过以10为底的log变换,得到原始音频的语谱图特征;
其中,所述原始音频,为所述待识别音频数据或所述成对音频训练数据中的一个数据。
本实施例中,所述第一音向量提取模型,采用神经网络构建,包含五层卷积神经网络和一层全连接层;不同卷积层之间采用最大值池化层和非线性激活函数相连,获得更加复杂的映射关系;所述判别网络模型,由两层全连接层组成,该两层全连接层之间有非线性激活函数相连,构成一个非线性映射函数。
本实施例中,步骤A2中所述统计分类,采用的分类器为经过训练的支持向量机。
测试音频分为训练集、验证集和测试集。训练集和验证集用于支持向量机训练,主要调节支持向量机中的惩罚系数;测试集用于测试训练得到的分类器的泛化性能,通过查看测试集音频在训练后的分类器上的分类准确率,反映系统的情感识别性能。
图2是本发明基于成对鉴别任务的语音情感识别系统实施例的构成示意图,基于上面所述的基于成对鉴别任务的语音情感识别方法,包括:音频对生成模块10、音向量训练模块20、判别网络模型30、参数调整模块40、音向量生成模块50和分类模块60。
音频对生成模块10用于从语音情感数据库的训练集中,随机选取完整的音频数据,并两两组合,得到成对音频训练数据;音向量训练模块20配置为:针对所述成对音频训练数据中的每一个训练数据,分别抽取该训练数据的语谱图特征,并利用第一音向量提取模型生成该训练数据的音向量,进而得到成对音向量;判别网络模型30用于根据所述成对音向量,计算所述成对音频训练数据属于同一情感类别的概率;参数调整模块40用于计算损失函数,并调整所述第一音向量提取模型和所述判别网络模型的参数;音向量生成模块50用于抽取待识别音频数据的语谱图特征;并根据所述语谱图特征,利用训练好的第一音向量提取模型生成所述待识别音频数据的音向量;分类模块60用于采用训练好的支持向量机,通过统计分类方法,对所述待识别音频数据的音向量进行分类,得到情感识别结果。
本实施例中,音向量训练模块20,包括:第一语谱图提取单元21和第一音向量提取模型22。
所述成对音频训练数据,在送入音向训练模块后,先抽取一个训练数据的语谱图特征并生成对应的音向量,再抽取另一个训练数据的语谱图特征并生成对应的音向量;然后配成一对送入到判别网络模型30。
所述第一语谱图提取单元21,用于抽取训练数据的语谱图特征;所述第一音向量提取模型22,用于根据抽取的语谱图特征生成对应的音向量。
相应地,本实施例中的音向量生成模块50,包括:第二语谱图提取单元51和第二音向量提取模型52。
所述第二语谱图提取单元51,与所述第一语谱图提取单元21相同,用于抽取待识别音频数据的语谱图特征;所述第二音向量提取模型52,其结构与参数与训练好的所述第一音向量提取模型22相同,用于根据所述待识别音频数据的语谱图特征生成所述待识别音频数据的音向量。
本发明基于成对鉴别任务的语音情感识别系统以Python语言编写,在windows平台下和在linux平台下均可使用Python程序编程运行,当然也可以采用其他的编程语言编写,在其他平台上运行。此外,本发明可以应用于电脑终端、手持式移动设备或其它形式的移动设备。
本发明的存储设备的实施例,其中存储有程序,所述程序适于由处理器加载并执行,以实现上面所述的基于成对鉴别任务的语音情感识别方法。
本发明的处理设备的实施例,包括:处理器和存储设备;
所述处理器,适于执行程序;所述存储设备,存储有程序;
所述程序适于由处理器加载并执行以实现上面所述的基于成对鉴别任务的语音情感识别方法。
本领域技术人员应该能够意识到,结合本文中所公开的实施例描述的各示例的方法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明电子硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征作出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。
Claims (10)
1.一种基于成对鉴别任务的语音情感识别方法,其特征在于,包括:
步骤A1,抽取待识别音频数据的语谱图特征;并根据该语谱图特征,利用训练好的第一音向量提取模型生成所述待识别音频数据的音向量;
步骤A2,通过统计分类方法,对所述待识别音频数据的音向量进行分类,得到情感识别结果;
其中,
所述第一音向量提取模型的训练方法为:
步骤B1,从语音情感数据库的训练集中,随机选取两个完整的音频数据,得到成对音频训练数据;
步骤B2,针对所述成对音频训练数据中的每一个训练数据,分别抽取该训练数据的语谱图特征,并利用第一音向量提取模型生成该训练数据的音向量,进而得到成对音向量;
步骤B3,根据所述成对音向量,利用判别网络模型计算所述成对音频训练数据属于同一情感类别的概率;
步骤B4,计算损失函数,若所述损失函数没有达到预设的收敛条件,则调整所述第一音向量提取模型和所述判别网络模型的参数,转至步骤B1;
其中,
所述预设的收敛条件为所述损失函数的值不再降低;
其中,所述损失函数为:
L=λLcos+(1-λ)Lcro
其中,
Lcro(ypred,ytrue)=-[ytruelnypred+(1-ytrue)ln(1-ypred)]
Lcos代表所述成对音向量之间的余弦相似性损失;Lcro代表所述判别网络模型的输出值ypred和预设标签ytrue之间的交叉熵;λ代表权重;
x1和x2分别表示输入的两个音向量特征;y为预设值,表示两个音向量是否表达出同一类情感,1表示两个音向量属于同一情感状态,-1表示两个音向量属于不同情感状态;m是一个超参数,代表系统的容错能力,m越大,容错能力越强,m越小,容错能力越弱;cos(x1,x2)代表所述成对音向量归一化后的余弦距离;
ypred代表由所述判别网络模型计算出的所述成对音频训练数据属于同一情感类别的概率;所述预设标签ytrue,为所述成对音频训练数据附带的标签,用于标记所述成对音频训练数据属于同一情感类别的概率;y与ytrue均是在选取所述成对音频训练数据时设定的,代表该对训练数据情感类别的真实情况,且当y=1时,对应ytrue=1;当y=-1时,对应ytrue=0。
2.根据权利要求1所述的语音情感识别方法,其特征在于,抽取所述语谱图特征的方法为:
将原始音频用预设大小的汉明窗分帧;
将每一帧补足预设的点数,进行FFT变换,得到频域的特征向量;
根据FFT变换的周期性和对称性,只抽取每帧半个周期的特征,作为每帧音频的特征;根据所述原始音频中分出的所有音频帧的特征,组成一个矩阵向量;
对矩阵向量中的每个元素进行以10为底的对数变换,得到原始音频的语谱图特征;
其中,
所述原始音频,为所述待识别音频数据或所述成对音频训练数据中的一个数据。
3.根据权利要求1所述的语音情感识别方法,其特征在于,所述第一音向量提取模型,采用神经网络构建,包含五层卷积神经网络和一层全连接层;不同卷积层之间采用最大值池化层和非线性激活函数相连。
4.根据权利要求1所述的语音情感识别方法,其特征在于,所述判别网络模型,由两层全连接层组成,该两层全连接层之间有非线性激活函数相连,构成一个非线性映射函数。
5.根据权利要求1所述的语音情感识别方法,其特征在于,步骤A2中所述统计分类,采用经过训练的支持向量机进行分类。
6.一种基于成对鉴别任务的语音情感识别系统,其特征在于,基于权利要求1-5中任一项所述的基于成对鉴别任务的语音情感识别方法,包括:音频对生成模块、音向量训练模块、判别网络模型、参数调整模块、音向量生成模块和分类模块;
所述音频对生成模块,用于从语音情感数据库的训练集中,随机选取完整的音频数据,并两两组合,得到成对音频训练数据;
所述音向量训练模块,配置为:针对所述成对音频训练数据中的每一个训练数据,分别抽取该训练数据的语谱图特征,并利用第一音向量提取模型生成该训练数据的音向量,进而得到成对音向量;
所述判别网络模型,用于根据所述成对音向量,计算所述成对音频训练数据属于同一情感类别的概率;
所述参数调整模块,用于计算损失函数,并调整所述第一音向量提取模型和所述判别网络模型的参数;
所述音向量生成模块,用于抽取待识别音频数据的语谱图特征;并根据所述语谱图特征,利用训练好的第一音向量提取模型生成所述待识别音频数据的音向量;
所述分类模块,用于采用训练好的支持向量机,通过统计分类方法,对所述待识别音频数据的音向量进行分类,得到情感识别结果;
其中,所述损失函数为:
L=λLcos+(1-λ)Lcro
其中,
Lcro(ypred,ytrue)=-[ytruelnypred+(1-ytrue)ln(1-ypred)]
Lcos代表所述成对音向量之间的余弦相似性损失;Lcro代表所述判别网络模型的输出值ypred和预设标签ytrue之间的交叉熵;λ代表权重;
x1和x2分别表示输入的两个音向量特征;y为预设值,表示两个音向量是否表达出同一类情感,1表示两个音向量属于同一情感状态,-1表示两个音向量属于不同情感状态;m是一个超参数,代表系统的容错能力,m越大,容错能力越强,m越小,容错能力越弱;cos(x1,x2)代表所述成对音向量归一化后的余弦距离;
ypred代表由所述判别网络模型计算出的所述成对音频训练数据属于同一情感类别的概率;所述预设标签ytrue,为所述成对音频训练数据附带的标签,用于标记所述成对音频训练数据属于同一情感类别的概率;y与ytrue均是在选取所述成对音频训练数据时设定的,代表该对训练数据情感类别的真实情况,且当y=1时,对应ytrue=1;当y=-1时,对应ytrue=0。
7.根据权利要求6所述的语音情感识别系统,其特征在于,所述音向量训练模块,包括:第一语谱图提取单元和第一音向量提取模型;
所述第一语谱图提取单元,用于抽取训练数据的语谱图特征;
所述第一音向量提取模型,用于根据抽取的语谱图特征生成对应的音向量。
8.根据权利要求7所述的语音情感识别系统,其特征在于,所述音向量生成模块,包括:第二语谱图提取单元,第二音向量提取模型;
所述第二语谱图提取单元,与所述第一语谱图提取单元相同,用于抽取待识别音频数据的语谱图特征;
所述第二音向量提取模型,其结构与参数与训练好的所述第一音向量提取模型相同,用于根据所述待识别音频数据的语谱图特征生成所述待识别音频数据的音向量。
9.一种存储设备,其中存储有程序,其特征在于,所述程序适于由处理器加载并执行,以实现权利要求1-5中任一项所述的基于成对鉴别任务的语音情感识别方法。
10.一种处理设备,包括:
处理器,适于执行程序;以及
存储设备,适于存储该程序;
其特征在于,所述程序适于由处理器加载并执行以实现:
权利要求1-5中任一项所述的基于成对鉴别任务的语音情感识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711481953.4A CN108364662B (zh) | 2017-12-29 | 2017-12-29 | 基于成对鉴别任务的语音情感识别方法与系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711481953.4A CN108364662B (zh) | 2017-12-29 | 2017-12-29 | 基于成对鉴别任务的语音情感识别方法与系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108364662A CN108364662A (zh) | 2018-08-03 |
CN108364662B true CN108364662B (zh) | 2021-01-05 |
Family
ID=63010695
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711481953.4A Active CN108364662B (zh) | 2017-12-29 | 2017-12-29 | 基于成对鉴别任务的语音情感识别方法与系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108364662B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109272993A (zh) * | 2018-08-21 | 2019-01-25 | 中国平安人寿保险股份有限公司 | 语音类别的识别方法、装置、计算机设备和存储介质 |
CN109147826B (zh) * | 2018-08-22 | 2022-12-27 | 平安科技(深圳)有限公司 | 音乐情感识别方法、装置、计算机设备及计算机存储介质 |
CN109859743B (zh) | 2019-01-29 | 2023-12-08 | 腾讯科技(深圳)有限公司 | 音频识别方法、系统和机器设备 |
CN112133291B (zh) * | 2019-06-05 | 2024-02-13 | 科大讯飞股份有限公司 | 一种语种识别模型训练、语种识别的方法和相关装置 |
CN110390955B (zh) * | 2019-07-01 | 2021-07-27 | 东南大学 | 一种基于深度域适应性卷积神经网络的跨库语音情感识别方法 |
CN111210844B (zh) * | 2020-02-03 | 2023-03-24 | 北京达佳互联信息技术有限公司 | 语音情感识别模型的确定方法、装置、设备及存储介质 |
CN111312292A (zh) * | 2020-02-18 | 2020-06-19 | 北京三快在线科技有限公司 | 基于语音的情绪识别方法、装置、电子设备及存储介质 |
CN114565964A (zh) * | 2022-03-03 | 2022-05-31 | 网易(杭州)网络有限公司 | 情绪识别模型的生成方法、识别方法、装置、介质和设备 |
CN117351940B (zh) * | 2023-12-05 | 2024-03-01 | 中国科学院自动化研究所 | 基于语音大模型的合成语音检测方法及装置 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8731932B2 (en) * | 2010-08-06 | 2014-05-20 | At&T Intellectual Property I, L.P. | System and method for synthetic voice generation and modification |
CN104199933B (zh) * | 2014-09-04 | 2017-07-07 | 华中科技大学 | 一种多模态信息融合的足球视频事件检测与语义标注方法 |
EP3350806A4 (en) * | 2015-09-14 | 2019-08-07 | Cogito Corporation | SYSTEMS AND METHODS FOR IDENTIFYING HUMAN EMOTIONS AND / OR MENTAL HEALTH CONDITIONS BASED ON ANALYZES OF AUDIO INPUTS AND / OR BEHAVIORAL DATA COLLECTED FROM COMPUTING DEVICES |
US10319374B2 (en) * | 2015-11-25 | 2019-06-11 | Baidu USA, LLC | Deployed end-to-end speech recognition |
CN105469065B (zh) * | 2015-12-07 | 2019-04-23 | 中国科学院自动化研究所 | 一种基于递归神经网络的离散情感识别方法 |
CN106469560B (zh) * | 2016-07-27 | 2020-01-24 | 江苏大学 | 一种基于无监督域适应的语音情感识别方法 |
CN107239769A (zh) * | 2017-06-16 | 2017-10-10 | 西南大学 | 一种使用多通道信息融合的个人情感效价识别方法 |
CN107273517B (zh) * | 2017-06-21 | 2021-07-23 | 复旦大学 | 基于图嵌入学习的图文跨模态检索方法 |
CN107316654A (zh) * | 2017-07-24 | 2017-11-03 | 湖南大学 | 基于dis‑nv特征的情感识别方法 |
-
2017
- 2017-12-29 CN CN201711481953.4A patent/CN108364662B/zh active Active
Non-Patent Citations (3)
Title |
---|
Adversarial Auto-encoders for Speech Based Emotion Recognition;Sahu Saurabh,et al;《18th Annual Conference of the International-Speech-Communication-Association》;20170824;第1243-1247页 * |
Emotion recognition from speech with recurrent neural networks;Chernykh, V.et al;《arXiv》;20170127;第1-18页 * |
基于卷积神经网络学习的语音情感特征降维方法研究;薄洪健等;《高技术通讯》;20171231;第27卷(第11-12期);第889-898页 * |
Also Published As
Publication number | Publication date |
---|---|
CN108364662A (zh) | 2018-08-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108364662B (zh) | 基于成对鉴别任务的语音情感识别方法与系统 | |
Kabir et al. | A survey of speaker recognition: Fundamental theories, recognition methods and opportunities | |
US11887582B2 (en) | Training and testing utterance-based frameworks | |
Sahidullah et al. | Introduction to voice presentation attack detection and recent advances | |
US10176811B2 (en) | Neural network-based voiceprint information extraction method and apparatus | |
Chauhan et al. | Speaker recognition using LPC, MFCC, ZCR features with ANN and SVM classifier for large input database | |
Agarwalla et al. | Machine learning based sample extraction for automatic speech recognition using dialectal Assamese speech | |
Jancovic et al. | Bird species recognition using unsupervised modeling of individual vocalization elements | |
CN110570873B (zh) | 声纹唤醒方法、装置、计算机设备以及存储介质 | |
CN110299142B (zh) | 一种基于网络融合的声纹识别方法及装置 | |
Sefara | The effects of normalisation methods on speech emotion recognition | |
Sher et al. | TESPAR feature based isolated word speaker recognition system | |
Radha et al. | Speech and speaker recognition using raw waveform modeling for adult and children’s speech: A comprehensive review | |
Kamble et al. | Emotion recognition for instantaneous Marathi spoken words | |
Shome et al. | Speaker Recognition through Deep Learning Techniques: A Comprehensive Review and Research Challenges | |
Saikia et al. | Effect of language independent transcribers on spoken language identification for different Indian languages | |
Guo et al. | Using deep belief network to capture temporal information for audio event classification | |
CN112185357A (zh) | 一种同时识别人声和非人声的装置及方法 | |
Wu et al. | Dku-tencent submission to oriental language recognition ap18-olr challenge | |
CN110910904A (zh) | 一种建立语音情感识别模型的方法及语音情感识别方法 | |
Huang et al. | Latent discriminative representation learning for speaker recognition | |
Ye et al. | An ensemble learning method for dialect classification | |
Kaewprateep et al. | Evaluation of small-scale deep learning architectures in Thai speech recognition | |
Kostoulas et al. | Affect recognition in real life scenarios | |
Zhao et al. | Deep neural network bottleneck features for bird species verification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |