CN107492384B

CN107492384B - 一种基于模糊最近邻算法的语音情感识别方法

Info

Publication number: CN107492384B
Application number: CN201710577204.5A
Authority: CN
Inventors: 袁家政; 刘宏哲; 龚灵杰
Original assignee: Beijing Union University
Current assignee: Beijing Union University
Priority date: 2017-07-14
Filing date: 2017-07-14
Publication date: 2020-12-25
Anticipated expiration: 2037-07-14
Also published as: CN107492384A

Abstract

本发明提供一种基于模糊最近邻算法的语音情感识别方法，包括以下步骤：按照定义提取每一个样本的短时能量特征、基音频率特征、过零率特征和短时平均幅值特征，组成四维的特征向量；计算每一种情感特征对于区分不同情感的贡献度；以步骤1所述的方法提取测试样本的四个相同的特征，组成四维的特征向量；根据欧式距离和步骤2中所计算出来的贡献度加权，计算训练样本的特征向量和测试样本的特征向量间的距离；对距离排序，并确定k个最近邻的样本的情感，根据个数多少分类；对于步骤5中的k个情感样本，用FKNN方法进行再分类。本发明能够提高了语音情感识别的准确性。

Description

一种基于模糊最近邻算法的语音情感识别方法

技术领域

本发明涉及语音信号处理和模式识别的技术领域，特别是一种基于模糊最近邻算法的语音情感识别方法。

背景技术

随着信息技术的不断发展，社会发展对情感计算提出了更高的要求。例如在人机交互方面，一个拥有情感能力的计算机能够对人类情感进行获取、分类、识别和响应，进而帮助使用者获得高效而又亲切的感觉，并能有效减轻人们使用电脑的挫败感，甚至能帮助人们理解自己和他人的情感世界。例如采用此类技术探测驾驶司机的精力是否集中、感受到的压力水平等，并做出相应反应。此外，情感计算还能应用在机器人、智能玩具、游戏、电子商务等相关产业中，以构筑更加拟人化的风格和更加逼真的场景。情感也反映了人类的心理健康情况，情感计算的应用可以有效地帮助人们避免不良情绪，保持乐观健康的心理。传统的knn算法局限性很大，在获取k值时只能获取奇数，受到很大的限制。

公开号为CN106469560A的专利文件公开了一种基于无监督域适应的语音情感识别方法，提出的模型包括：特征提取，情感标签预测，域标签预测。特征提取：首先将原始输入数据分解成两块特征，情感判断特征和情感无关特征，然后将情感判断特征记性层次非线性转换得到高层情感特征。将高层情感特征用于情感标签和域标签的预测。利用梯度湘江发对整个模型的参数进行更新，得到特征提取层的各层权重，然后，进行特征提取，源域有标签样本通过训练好的特征提取层到高级情感特征。最后，进行分类器SVM的训练，将源域有标签样本的高层情感特征和相对应的情感标签输入到SVM中训练，训练好的SVM可用于目标域测试样本的分类。该方法虽然能够解决训练样本和测试样本数据分布不同的问题，但是运算复杂，极易出现错误，而且对于高兴和愤怒这两种情感的区分并不是很到位。

发明内容

为了解决上述的技术问题，本发明提出了一种基于深度学习的手势识别方法，分为训练阶段和识别阶段，在训练阶段，首先对训练样本的情感语音进行预处理操作，主要是对语音进行预加重、加窗、分帧等；然后提取语音情感特征参数，短时平均能量、基音频率、过零率和短时平均幅度。在识别阶段，测试语音通过预处理、特征提取和特征分析后，输入到FKNN分类器中进行识别判决。

本发明提供一种基于模糊最近邻算法的语音情感识别方法，包括以下步骤：

步骤1：按照定义提取每一个样本的短时能量特征、基音频率特征、过零率特征和短时平均幅值特征，组成四维的特征向量；

步骤2：计算每一种情感特征对于区分不同情感的贡献度；

步骤3：以步骤1所述的方法提取测试样本的四个相同的特征，组成四维的特征向量；

步骤4：根据欧式距离和步骤2中所计算出来的贡献度加权，计算训练样本的特征向量和测试样本的特征向量间的距离；

步骤5：对距离排序，并确定k个最近邻的样本的情感，根据个数多少分类；

步骤6：对于步骤5中的k个情感样本，用FKNN方法进行再分类。

优选的是，所述短时能量特征的定义如下：

其中，E_n表示在信号的第n个点开始加窗函数时的短时能量；x(n)是语音信号；ω(n)是窗函数；N为窗长。

在上述任一方案中优选的是，所述过零特征的定义如下：

其中，sgn[.]是符号函数，即

在上述任一方案中优选的是，所述短时平均振幅的定义如下：

其中，Mn是一帧语音信号能量大小的表征，w(n)为汉明窗，m为变量。

在上述任一方案中优选的是，所述Mn与所述En的区别在于其计算时小取样值和大取样值不会因取平方而造成较大差异。

在上述任一方案中优选的是，所述贡献度的计算方法如下：

步骤11：归一化特征参数；

步骤12：计算某种特定情感下该特征参数的离散度；

步骤13：计算某一情感特征对于不同的情感的中心矩；

步骤14：根据离散度和中心矩求出所述贡献度。

在上述任一方案中优选的是，所述归一化方法如下：

步骤21：对训练样本集X统计出C种不同情感状态下同一个特征参数的平均值，记为M_ij；

步骤22：分别对每一种情感状态下的每一句语音样本的每个特征参数M_ijn；

其中，{i＝1,2,...,C},{j＝1,2,...,N},N为情感特征参数的个数，n为该情感状态下的样本，n＝1表示为第一句，以此类推。

在上述任一方案中优选的是，所述归一化的公式为：

A_ijk表示第k句样本中的第i个情感的第j个特征参数做归一化后的值。。

在上述任一方案中优选的是，所述离散度的计算公式如下：

在上述任一方案中优选的是，所述中心矩的计算方法为不同的情感特征间的中心矩就是不同的点集的中心的距离。

在上述任一方案中优选的是，每一个所述情感特征可视为一个点，而n个样本的所述情感特征便构成了一个所述点集。

在上述任一方案中优选的是，所述点集的中心即是点集的均值。

在上述任一方案中优选的是，所述点集的均值的计算公式为：

其中，{i＝1,2,...,C},{j＝1,2,...,n},n为情感特征参数的个数,如N₁₁就表示在n个样本中第一种情感的第一个情感特征参数的均值，M_ijk表示第k句样本中统计出C种不同情感状态下同一个特征参数的平均值。

在上述任一方案中优选的是，某一所述情感特征对于不同的情感的所述中心矩P_ij的计算公式为：

其中，{i＝1,2,...,C},{j＝1,2,...,n},n为情感特征参数的个数。

在上述任一方案中优选的是，根据所述离散度和所述中心矩计算每种情感下每个特征参数的贡献度。

在上述任一方案中优选的是，所述特征参数θ_ij的贡献度u_ij的计算公式如下：

在上述任一方案中优选的是，所述FKNN方法是指对于愤怒和高兴的情感，k个样本中属于愤怒情感的个数记为Num_A，距离之和记为Dis_A，属于高兴情感的个数记为Num_H,距离之和记为Dis_H。若|Num_A-Num_H|＝1，|Dis_A-Dis_H|<critical_value，则分别将其判断为A类情感和H类情感。其中critical_value为阈值。

本发明提出的方法能够提高语音情感识别的准确性，采用FKNN分类器不仅能够提高语音情感识别率，还能够较好的区分高兴和愤怒这两种原本较难区分的情感。

附图说明

图1为按照本发明的基于模糊最近邻算法的语音情感识别方法的一优选实施例的流程图。

图2为按照本发明的基于模糊最近邻算法的语音情感识别方法的如图1所示实施例的系统原理图。

具体实施方式

下面结合附图和具体的实施例对本发明做进一步的阐述。

实施例一

在本实施例中提出的基于模糊最近邻算法的语音情感识别方法，提高了语音情感识别的准确性，语音情感识别系统分为训练阶段和识别阶段。在训练阶段，首先对训练样本的情感语音进行预处理操作，主要是对语音进行预加重、加窗、分帧等；然后提取语音情感特征参数，短时平均能量、基音频率、过零率和短时平均幅度。在识别阶段，测试语音通过预处理、特征提取和特征分析后，输入到FKNN分类器中进行识别判决。FKNN不仅可以提高语音情感识别率，更可以较好的区分高兴和愤怒这两种原本较难区分的情感。再加上给不同的特征赋予不同的贡献率值，使得不同的特征在分别情感的时候起到不同的决定作用，这样最大限度的利用了情感特征区分情感的能力。不仅考虑测试样本周围k个样本不同情感的个数，也考虑它们距离测试样本的距离，这样能提高识别率，尤其是对于区分高兴和愤怒情感，识别率提升很大。

如图1所示，执行步骤100，训练语音样本，训练样本各种情感需要分别均匀。执行步骤110，提取情感特征，包括短时能量特征、基音频率特征、过零率特征和短时平均幅值特征，组成四维的特征向量。短时能量特征的定义及计算公式如下：

其中，E_n表示在信号的第n个点开始加窗函数时的短时能量；x(n)是语音信号；ω(n)是窗函数；N为窗长，m为变量。过零特征的定义及计算公式如下：

其中，sgn[.]是符号函数，即

所述短时平均振幅的定义及计算公式如下：

其中，Mn是一帧语音信号能量大小的表征，w(n)为汉明窗，Mn与所述En的区别在于其计算时小取样值和大取样值不会因取平方而造成较大差异。执行步骤102计算特征贡献度。贡献度的计算方法如下：(1)归一化特征参数；(2)步骤12：计算某种特定情感下该特征参数的离散度；(3)步骤13：计算某一情感特征对于不同的情感的中心矩；(4)步骤14：根据离散度和中心矩求出所述贡献度。其中，归一化方法如下：(1)对训练样本集X统计出C种不同情感状态下同一个特征参数的平均值，记为M_ij；(2)步骤22：分别对每一种情感状态下的每一句语音样本的每个特征参数M_ijn；

其中，{i＝1,2,...,C},{j＝1,2,...,N},N为情感特征参数的个数，n为该情感状态下的样本，n＝1表示为第一句，以此类推。所述归一化的公式为：

离散度计算公式如下：

A_ijk表示第k句样本中的第i个情感的第j个特征参数。做归一化后的值中心矩计算方法如下：每一个情感特征可视为一个点，而n个样本的情感特征便构成了一个点集，因此，不同的情感特征间的中心矩就是不同的点集的中心的距离，而点集的中心即是点集的均值。点集的均值的计算公式为

M_ijk表示第k句样本中统计出C种不同情感状态下同一个特征参数的平均值。因此某一情感特征对于不同的情感的中心矩P_ij的计算公式为：

(i＝1,2,...,C,j＝1,2,...,n,n为情感特征参数的个数,如N₁₁就表示在n个样本中第一种情感的第一个情感特征参数的均值)。离散度计算方法如下：求出每种情感下每个特征参数的离散度和中心矩后，根据离散度和中心矩的大小来计算每种情感下每个特征参数的贡献度的大小。特征参数θ_ij的贡献度u_ij的计算公式如下：

在执行步骤100的同时执行步骤110，测试语音样本。执行步骤111，参照步骤101的方法提取情感特征，包括短时能量特征、基音频率特征、过零率特征和短时平均幅值特征，组成四维的特征向量。顺序执行步骤120和步骤130，根据欧式距离和步骤二中所计算出来的贡献度加权，计算训练样本的特征向量和测试样本的特征向量间的距离，并对距离进行排序。点a(x₁₁,x₁₂,...,x_1n)和点b(x₂₁,x₂₂,...,x_2n)之间的距离计算公式为

执行步骤140，确定k个最近邻的样本的情感，根据个数多少分类。意思就是确定本样本的情感类型的方法是根据在k个最近邻的样本情感中个数最多的情感类型确定为本样本的情感类型。执行步骤150，判断是否满足分类条件。如果不满足分类条件，则直接执行步骤170，得出识别结果。如果满足分类条件，则执行步骤160，使用FKNN算法重新进行分类。所述FKNN方法是指对于愤怒和高兴的情感，k个样本中属于愤怒情感的个数记为Num_A，距离之和记为Dis_A，属于高兴情感的个数记为Num_H,距离之和记为Dis_H。若|Num_A-Num_H|＝1，|Dis_A-Dis_H|<critical_value，则分别将其判断为A类情感和H类情感。其中critical_value为阈值。执行步骤170，得出识别结果。

实施例二

如图2所示，语音情感识别系统分为训练阶段和识别阶段。在训练阶段，执行步骤200，对已知语音进行训练。执行步骤201，对训练样本的情感语音进行预处理操作,，主要是对语音进行预加重、加窗、分帧等。执行步骤202，提取已知语音情感特征参数。执行步骤203，进行已知语音特征计算。在测试阶段，执行步骤210，对未知语音记性测试。执行步骤211，对未知语音进行预处理操作,，主要是对语音进行预加重、加窗、分帧等。执行步骤212，提取未知语音情感特征参数。执行步骤213，进行未知语音特征计算分析。执行步骤220将已知语音情感特征参数和未知语音情感特征参数输入到FKNN分类器中进行识别判决。训练样本是首先已经知道他们的情感，提取到特征参数；测试样本的情感是未知的。在分类其中，通过上述方法，计算测试样本特征参数和训练样本参数的距离，判断出测试样本的情感。

实施例三

将本方法应用在智能机器人上。当机器人听到主人的声音后，将主人的语音设置为位置语音录入系统。通过调取主人以前的语音样本进行比对，判断出主人现在不高兴，机器人就可以做出相应的动作来哄主人开心，使机器人更加的智能化。

实施例四

将本方法应用在警察审理案件中，将嫌疑人的语音录入本系统，通过调取数据库中的语音样本进行对比，判断嫌疑人现在的情绪状态，根据嫌疑人情绪状态的变化引导嫌疑人说出事实真相，提高办案的效率。

实施例五

对于输入到系统的问题，具体流程图如下：

步骤A：选择好训练样本和测试样本，训练样本各种情感需要分别均匀。

步骤B：提取出短时能量特征、基音频率特征、过零率特征和短时平均幅值特征，组成四维的特征向量；

步骤C：根据公式一，计算出训练样本各种情感特征的贡献度，

步骤D：欧式距离和贡献度加权，以这个距离作为参考距离。

步骤E：对于计算出的距离，选取最小的前k个距离。

步骤F：计算k个样本中情感类别最多的那个情感，测试样本默认为此情感。

步骤G：对于高兴和愤怒样本，在步骤F的基础上再判断是否满足再分类条件。

步骤H：对于满足的样本进行再分类采用FKNN方法。对于愤怒和高兴的情感，k个样本中属于愤怒情感的个数记为Num_A，距离之和记为Dis_A，属于高兴情感的个数记为Num_H,距离之和记为Dis_H。若|Num_A-Num_H|＝1，|Dis_A-Dis_H|<critical_value，则分别将其判断为A类情感和H类情感。其中critical_value为阈值。

为了更好地理解本发明，以上结合本发明的具体实施例做了详细描述，但并非是对本发明的限制。凡是依据本发明的技术实质对以上实施例所做的任何简单修改，均仍属于本发明技术方案的范围。本说明书中每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言，由于其与方法实施例基本对应，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

可能以许多方式来实现本发明的方法、装置和系统。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本发明的方法和系统。用于所述方法的步骤的上述顺序仅是为了进行说明，本发明的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本发明实施为记录在记录介质中的程序，这些程序包括用于实现根据本发明的方法的机器可读指令。因而，本发明还覆盖存储用于执行根据本发明的方法的程序的记录介质。

本发明的描述是为了示例和描述起见而给出的，而并不是无遗漏的或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本发明的原理和实际应用，并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。