CN104008754A - 一种基于半监督特征选择的语音情感识别方法 - Google Patents
一种基于半监督特征选择的语音情感识别方法 Download PDFInfo
- Publication number
- CN104008754A CN104008754A CN201410216935.3A CN201410216935A CN104008754A CN 104008754 A CN104008754 A CN 104008754A CN 201410216935 A CN201410216935 A CN 201410216935A CN 104008754 A CN104008754 A CN 104008754A
- Authority
- CN
- China
- Prior art keywords
- mrow
- feature
- msub
- speaker
- math
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000008909 emotion recognition Effects 0.000 title claims abstract description 26
- 238000000034 method Methods 0.000 title claims abstract description 26
- 230000008451 emotion Effects 0.000 claims abstract description 39
- 238000012549 training Methods 0.000 claims abstract description 34
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 25
- 238000010606 normalization Methods 0.000 claims abstract description 25
- 239000013598 vector Substances 0.000 claims description 15
- 238000000605 extraction Methods 0.000 claims description 8
- 230000002996 emotional effect Effects 0.000 claims description 6
- 230000008859 change Effects 0.000 claims description 4
- 239000011159 matrix material Substances 0.000 claims description 4
- 238000000354 decomposition reaction Methods 0.000 claims description 3
- NGVDGCNFYWLIFO-UHFFFAOYSA-N pyridoxal 5'-phosphate Chemical compound CC1=NC=C(COP(O)(O)=O)C(C=O)=C1O NGVDGCNFYWLIFO-UHFFFAOYSA-N 0.000 claims 1
- 238000012706 support-vector machine Methods 0.000 abstract 1
- 230000008569 process Effects 0.000 description 6
- 241000282414 Homo sapiens Species 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000010187 selection method Methods 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 206010022998 Irritability Diseases 0.000 description 1
- PVMPDMIKUVNOBD-CIUDSAMLSA-N Leu-Asp-Ser Chemical compound CC(C)C[C@H](N)C(=O)N[C@@H](CC(O)=O)C(=O)N[C@@H](CO)C(O)=O PVMPDMIKUVNOBD-CIUDSAMLSA-N 0.000 description 1
- 241001014642 Rasta Species 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000008921 facial expression Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000009323 psychological health Effects 0.000 description 1
Landscapes
- Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
Abstract
本发明公开了一种基于半监督特征选择的语音情感识别方法,该方法针对每个说话人训练一个特定的分类器,可以很好的减小由于说话人之间的不同对语音情感识别造成的负面影响。训练步骤如下:提取有标签样本和某一说话人的无标签样本的特征,使用多个统计函数获得所有特征的统计结果,再执行归一化算法;然后使用半监督特征选择算法选择能够突出该测试说话人语音情感的特征,该半监督特征选择算法能够同时考虑数据的流形结构,数据的类别结构,以及利用该测试说话人的无标签数据所提供的信息;最后使用支持向量机训练该测试说话人的语音情感识别的分类器。本发明在用于说话人归一化算法的样本数量较少时也能获得较高的识别精度。
Description
技术领域
本发明涉及语音信号处理和模式识别研究领域,特别涉及一种基于半监督特征选择的语音情感识别方法。
背景技术
随着信息技术的不断发展,社会发展对情感计算提出了更高的要求。例如在人机交互方面,一个拥有情感能力的计算机能够对人类情感进行获取、分类、识别和响应,进而帮助使用者获得高效而又亲切的感觉,并能有效减轻人们使用电脑的挫败感,甚至能帮助人们理解自己和他人的情感世界。例如采用此类技术探测驾驶司机的精力是否集中、感受到的压力水平等,并做出相应反应。此外,情感计算还能应用在机器人、智能玩具、游戏、电子商务等相关产业中,以构筑更加拟人化的风格和更加逼真的场景。情感也反映了人类的心理健康情况,情感计算的应用可以有效地帮助人们避免不良情绪,保持乐观健康的心理。
人的面部表情、语音、生理指标等都能在一定程度上反映人类的情感。目前使用在语音情感识别中的特征选择方法有很多,广泛使用的是顺序前进特征选择方法(Sequential Forward Feature Selection)。但是顺序前进特征选择方法是一种贪心算法,其忽略了数据的流形结构和无标签样本提供的信息。然而数据的流形结构和无标签样本提供的信息对语音情感识别有非常重要的作用。首先数据的流行结构对语音情感识别有非常重要的作用,这是因为说话人之间的差异性比较大,并且待识别情感的人的有标签样本很难出现在训练数据中,如果在特征选择算法中只考虑数据的类别结构进行特征选择,那么选择的特征会过拟合训练数据而对新的测试样本识别能力不强。其次待识别情感的人的无标签样本提供的信息也有非常重要的作用,同样因为说话人之间的差异性比较大,如果仅仅依靠训练样本的流形结构指导特征选择,可能导致特征选择的结果与能够突出待识别情感说话人的特征有较大差异。
另外,语音数据的流形结构主要受到以下三个因素的影响:情感、说话人、语句,并且说话人对语音数据流形结构的影响非常严重,所以仅仅考虑了数据流形结构的特征选择算法不能直接应用于语音情感识别。
为此,提出一种能够考虑语音数据的流形结构、但是能减小说话人对语音数据流形结构影响的特征选择方法具有很高的研究价值。
发明内容
本发明的主要目的在于克服现有技术的缺点与不足,提出一种基于半监督特征选择的语音情感识别方法,该方法利用待识别情感说话人的无标签样本提供的说话人信息和流形结构信息,能够很好的减少说话人之间的不同对语音情感识别造成的负面影响,同时能够保持数据的流形结构和类别结构,使得特征选择结果对新说话人的情感有较好的识别能力。
本发明的目的通过以下的技术方案实现:一种基于半监督特征选择的语音情感识别方法,包括步骤:
(1)训练阶段:
(1-1)提取所有有标签样本的语音信号特征以及某一待识别情感说话人的无标签样本的语音信号特征;
(1-2)对所有特征执行特征统计;
(1-3)对所有的特征统计结果执行归一化算法;
(1-4)使用半监督特征选择算法突出该待识别情感说话人语音情感变化的特征,得到特征选择向量;
(1-5)使用特征选择结果训练针对该待识别情感说话人的语音情感分类器;
(1-6)所有需识别情感的说话人均按照上述步骤(1-1)—(1-5)得到对应的分类器;
(2)识别阶段:提取待识别样本的语音信号特征,对特征进行特征统计,对特征统计结果执行归一化算法,然后根据步骤(1-4)得到的特征选择向量计算特征选择结果,然后将特征选择结果代入步骤(1-6)得到的该说话人对应的分类器,即获得待识别样本的情感类别。
具体的,所述步骤(1-1)中,提取语音信号特征包括:MFCC(Mel FrequencyCepstrum Coefficient,Mel频率倒谱系数)、LFPC(Log Frequency PowerCoefficients,对数频率功率系数)、LPCC(Linear Predictive Cepstral Coding,线性预测倒谱系数)、ZCPA(Zero Crossing with Peak Amplitude,过零峰值幅度)、PLP(Perceptual Linear Predictive,感知线性预测)、R-PLP(Rasta Perceptual LinearPredictiv,拉斯塔滤波器感知线性预测),每类特征的特征提取结果均为二维矩阵,其中一个维度为时间维度;然后计算每类特征Fi在时间维度上的一阶导数ΔFi、二阶导数ΔΔFi,并将原始特征、一阶导数结果、二阶导数结果在非时间维度上串接,形成每一类特征的最终特征提取结果;将上述所有类的特征的最终特征提取结果在非时间维度上串接即为该样本的特征提取结果。
具体的,所述步骤(1-2)中对特征进行特征统计为:获得特征在时间维度上的均值、标准方差、最小值、最大值、峭度、偏度等统计结果,有标签样本的特征统计结果记为{x1,x2,...,xn},待识别情感说话人的无标签训练样本的特征统计结果记为{xn+1,xn+2,...,xn+m},其中n为训练样本的个数,m为某一说话人无标签样本的个数。
具体的,所述步骤(1-3)对特征统计结果进行归一化的步骤如下:
(1-3-1)对步骤(1-2)中得到的所有特征统计结果{x1,x2,...,xn+m}分别使用下式进行初步归一化:
其中 表示所有样本的均值, 表示所有样本的方差;
(1-3-2)对步骤(1-3-1)得到的初步归一化结果使用下式进行说话人归一化:
其中是训练样本中与说话人标签相同的样本,ni为训练样本中与说话人标签相同的样本的个数。在步骤(1-3-2)说话人归一化算法中只使用到每个说话人所有样本的均值,而均值在使用较少样本估算时置信度仍然较高,所以在使用较少的无标签样本进行说话人归一化仍然能有较好的效果。
具体的,所述步骤(1-4)中,半监督特征选择算法步骤如下:
(1-4-1)使用下式定义样本之间的关系:
式中,Sij表示样本之间的关系,nli表示类别标签为li的样本个数,li、lj表示样本的类别标签,为样本的邻域,为样本的邻域,并且Aij定义如下:
其中,表示与之间的欧氏距离, 表示到的欧式距离, 表示到的欧式距离,表示的第k个邻居;
(1-4-2)计算拉普拉斯图L=D-S,其中D是一个对角矩阵
(1-4-3)解决特征分解问题Ly=λDy,并且让Y=[y1,y2,...,yC]为最小的2到C+1个特征值对应的特征向量,其中C为语音情感的类别数;
(1-4-4)使用最小角回归算法(LARs)解决L1正规化回归问题 得到C个稀疏系数向量其中yc为(1-4-3)求出的第c个特征向量,
(1-4-5)计算每个特征的重要性得分j表示第j个特征,SCORE(j)表示第j个特征的得分;
(1-4-6)返回得分最大的d个特征的下标即为特征选择结果V,其中d为需要选择的特征维数。
本发明与现有技术相比,具有如下优点和有益效果:
1、本发明在提取特征后,使用改进的归一化算法对特征统计结果进行归一化。该归一化算法包含初步归一化和说话人归一化两步,其中初步归一化使用所有样本的均值和方差对每个样本进行归一化,能够避免特征取值范围的不同带来的影响;说话人归一化只需使用该说话人所有样本的均值,而对均值的估计在样本数量较少时也能得到较高的置信度,所以能够在说话人无标签样本数量很少的情况下,达到较好的说话人归一化效果。
2、本发明提出了一种针对语音情感识别的半监督特征选择算法,该半监督特征选择算法能够考虑数据的流形结构、数据的类别结构、以及利用无标签样本提供的信息,从而避免了特征选择结果过拟合于训练数据,选择有利于识别该说话人语音情感的特征。
3、本发明每次只使用有标签样本和一个说话人的无标签样本训练半监督特征选择算法,这样可以最优的利用该说话人无标签样本提供的信息,避免其他说话人无标签样本的影响,从而可以最大化提高该说话人对语音数据流形结构的影响,而选择出对该说话人语音情感识别有利的特征。在训练阶段,针对不同的说话人训练不同的分类器,这样能够减少说话人之间的不同对语音情感识别的影响。
附图说明
图1是本发明方法的流程示意图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
实施例1
如图1所示,本实施例所述的基于半监督特征选择的语音情感识别方法,包括训练阶段和识别阶段两个部分,现结合图1的流程图分别详述如下。
一、训练阶段
在这一阶段中,针对所有说话人均分别进行训练,得到每个说话人所对应的分类器,具体过程如下:
第一步:对所有的语音训练信号(每一次训练时,为所有有标签样本的语音信号和当前某一说话人的无标签样本的语音信号)提取MFCC,LFPC,LPCC,ZCPA,PLP,R-PLP特征,其中MFCC、LFPC的Mel滤波器个数为40;LPCC、PLP、R-PLP的线性预测阶数分别为12、16、16;ZCPA的频率分段为:0,106,223,352,495,655,829,1022,1236,1473,1734,2024,2344,2689,3089,3522,4000。从而每条语句的每类特征的维度分别为:ti*39,ti*40,ti*12,ti*16,ti*16,ti*16,其中ti为第i条语句的帧数,乘号后面的数字为每帧特征的维度。为了获得语音信号在时间维度上的变化,还对上述特征在时间维度上计算一阶导数,二阶导数。最后每类特征的维度分别为:ti*117,ti*140,ti*36,ti*48,ti*48,ti*48。第i样本的提取到的语音信号特征由上述所有特征组合而成,维度为ti*(117+140+36+48+48+48).
第二步:使用如下统计函数:均值(mean)、标准方差(standard deviation)、最小值(min)、最大值(max)、峭度(kurtosis)、偏度(skewness)获得上述特征在时间维度上的统计结果。有标签样本的特征统计结果记为{x1,x2,...,xn},某一说话人无标签训练样本的特征统计结果记为{xn+1,xn+2,...,xn+m},其中n为有标签标本的个数,m是某一说话人无标签样本的个数。
第三步:对特征统计结果进行归一化。步骤如下:
(1)对第二步中得到的所有特征统计结果{x1,x2,...,xn+m}分别使用下式进行初步归一化:。
其中 表示所有样本的均值, 表示所有样本的方差;
(2)对初步归一化结果使用下式执行说话人归一化:。
其中ni是训练样本中与说话人标签相同的样本,ni为训练样本中与说话人标签相同的样本的个数。
第四步:训练半监督特征选择算法。该算法包含如下步骤:
(1)使用下式定义样本之间的关系:
式中,Sij表示样本之间的关系,nli表示类别标签为li的样本个数,li、lj表示样本的类别标签,为样本的邻域,为样本的邻域,并且Aij定义如下:
其中,表示与之间的欧氏距离, 表示到的欧式距离, 表示到的欧式距离,为的第k个邻居。
(2)计算拉普拉斯图L=D-S,其中D是一个对角矩阵
(3)解决特征分解问题Ly=λDy。并且让Y=[y1,y2,...,yC]为最小的2到C+1个特征值对应的特征向量,其中C为语音情感的类别数。
(4)使用最小角回归算法(LARs)解决L1正规化回归问题 得到C个稀疏系数向量其中yc为(1-4-3)求出的第c个特征向量,
(5)计算每个特征的重要性得分j表示第j个特征,SCORE(j)表示第j个特征的得分。
(6)返回得分最大的d个特征的下标即为特征选择结果V。其中d为需要选择的特征的维数。
第五步:根据特征选择结果V获得有标签样本的特征选择结果{z1,z2,...,zn}。将上述的特征选择结果均储存在语音情感向量数据库中。
第六步:使用{z1,z2,...,zn}及其类别标签训练分类器。
二、识别阶段
在这一阶段中,针对已知说话人的待识别情感样本的语音信号进行处理,根据上面训练阶段得到的训练分类器得到此待识别样本的情感类别。具体过程如下:
第一步:对待识别情感样本的语音信号提取MFCC,LFPC,LPCC,ZCPA,PLP,R-PLP特征,其中MFCC、LFPC的Mel滤波器个数为40;LPCC、PLP、R-PLP的线性预测阶数分别为12、16、16;ZCPA的频率分段为:0,106,223,352,495,655,829,1022,1236,1473,1734,2024,2344,2689,3089,3522,4000。从而每条语句的每类特征的维度分别为:t*39,t*40,t*12,t*16,t*16,t*16,其中t为该待识别情感语句的帧数,乘号后面的数字为每帧特征的维度。为了获得语音信号在时间维度上的变化,还对上述特征在时间维度上计算一阶导数,二阶导数。最后每类特征的维度分别为:t*117,t*140,t*36,t*48,t*48,t*48。对该待识别情感语句提取到的语音信号特征由上述所有特征组合而成,维度为t*(117+140+36+48+48+48)。
第二步:使用如下统计函数:均值(mean)、标准方差(standard deviation)、最小值(min)、最大值(max)、峭度(kurtosis)、偏度(skewness)获得该待识别情感语句的特征统计结果x。
第三步:说话人归一化。首先根据训练阶段获得的μ、σ使用式(1)计算x的初步归一化结果x';然后使用式(2)对x'计算说话人归一化结果。
第四步:根据训练过程中获得的特征选择向量V,计算的特征选择结果z。
第五步:使用训练过程中获得的分类器,获得z的语音情感类别l。
本发明的情感识别的效果评价采用的语料库是德国的EMO-DB语音情感数据库,其为语音情感识别领域的标准数据库。首先完成训练过程,然后进行识别测试。测试模式按5倍交叉方式进行。可以识别愤怒、恐惧、烦躁、厌恶、开心、中性、悲伤7种情感,在说话人依赖的情况下平均分类正确率为90.84%,除了开心与愤怒比较容易混淆以外,其它情绪之间区分度较好。在说话人独立的情况下平均分类正确率为86.50%。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (5)
1.一种基于半监督特征选择的语音情感识别方法,其特征在于,包括步骤:
(1)训练阶段:
(1-1)提取所有有标签样本的语音信号特征以及某一待识别情感说话人的无标签样本的语音信号特征;
(1-2)对所有特征执行特征统计;
(1-3)对所有的特征统计结果执行归一化算法;
(1-4)使用半监督特征选择算法突出该待识别情感说话人语音情感变化的特征,得到特征选择向量;
(1-5)使用特征选择结果训练针对该待识别情感说话人的语音情感分类器;
(1-6)所有需识别情感的说话人均按照上述步骤(1-1)—(1-5)得到对应的分类器;
(2)识别阶段:提取待识别样本的语音信号特征,对特征进行特征统计,对特征统计结果执行归一化算法,然后根据步骤(1-4)得到的特征选择向量计算特征选择结果,然后将特征选择结果代入步骤(1-6)得到的该说话人对应的分类器,即获得待识别样本的情感类别。
2.根据权利要求1所述的基于半监督特征选择的语音情感识别方法,其特征在于,所述步骤(1-1)中,提取语音信号特征包括:MFCC、LFPC、LPCC、ZCPA、PLP、R-PLP,每类特征的特征提取结果均为二维矩阵,其中一个维度为时间维度;然后计算每类特征Fi在时间维度上的一阶导数ΔFi、二阶导数ΔΔFi,并将原始特征、一阶导数结果、二阶导数结果在非时间维度上串接,形成每一类特征的最终特征提取结果;将上述所有类的特征的最终特征提取结果在非时间维度上串接即为该样本的特征提取结果。
3.根据权利要求1所述的基于半监督特征选择的语音情感识别方法,其特征在于,所述步骤(1-2)中对特征进行特征统计为:获得特征在时间维度上的均值、标准方差、最小值、最大值、峭度、偏度统计结果,有标签样本的特征统计结果记为{x1,x2,...,xn},待识别情感说话人的无标签训练样本的特征统计结果记为{xn+1,xn+2,...,xn+m},其中n为训练样本的个数,m为某一说话人无标签样本的个数。
4.根据权利要求3所述的基于半监督特征选择的语音情感识别方法,其特征在于,所述步骤(1-3)对特征统计结果进行归一化的步骤如下:
(1-3-1)对步骤(1-2)中得到的所有特征统计结果{x1,x2,...,xn+m}分别使用下式进行初步归一化:
其中 表示所有样本的均值, 表示所有样本的方差;
(1-3-2)对步骤(1-3-1)得到的初步归一化结果使用下式进行说话人归一化:
其中j=1,2,...,ni是训练样本中与说话人标签相同的样本,ni为训练样本中与说话人标签相同的样本的个数。
5.根据权利要求4所述的基于半监督特征选择的语音情感识别方法,其特征在于,所述步骤(1-4)中,半监督特征选择算法步骤如下:
(1-4-1)使用下式定义样本之间的关系:
式中,Sij表示样本之间的关系,nli表示类别标签为li的样本个数,li、lj表示样本的类别标签,为样本的邻域,为样本的邻域,并且Aij定义如下:
其中,表示与之间的欧氏距离, 表示到的欧式距离,表示到的欧式距离,表示的第k个邻居;
(1-4-2)计算拉普拉斯图L=D-S,其中D是一个对角矩阵
(1-4-3)解决特征分解问题Ly=λDy,并且让Y=[y1,y2,...,yC]为最小的2到C+1个特征值对应的特征向量,其中C为语音情感的类别数;
(1-4-4)使用最小角回归算法(LARs)解决L1正规化回归问题 得到C个稀疏系数向量其中yc为(1-4-3)求出的第c个特征向量,
(1-4-5)计算每个特征的重要性得分j表示第j个特征,SCORE(j)表示第j个特征的得分;
(1-4-6)返回得分最大的d个特征的下标即为特征选择结果V,其中d为需要选择的特征维数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410216935.3A CN104008754B (zh) | 2014-05-21 | 2014-05-21 | 一种基于半监督特征选择的语音情感识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410216935.3A CN104008754B (zh) | 2014-05-21 | 2014-05-21 | 一种基于半监督特征选择的语音情感识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104008754A true CN104008754A (zh) | 2014-08-27 |
CN104008754B CN104008754B (zh) | 2017-01-18 |
Family
ID=51369381
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410216935.3A Active CN104008754B (zh) | 2014-05-21 | 2014-05-21 | 一种基于半监督特征选择的语音情感识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104008754B (zh) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104464756A (zh) * | 2014-12-10 | 2015-03-25 | 黑龙江真美广播通讯器材有限公司 | 一种小型说话人情感识别系统 |
CN105070300A (zh) * | 2015-08-12 | 2015-11-18 | 东南大学 | 一种基于说话人标准化变换的语音情感特征选择方法 |
CN105139867A (zh) * | 2015-08-12 | 2015-12-09 | 东南大学 | 基于拼音韵母说话内容标准化语音情感特征选择方法 |
CN105596016A (zh) * | 2015-12-23 | 2016-05-25 | 王嘉宇 | 一种人体心理、生理健康监测和管理装置及方法 |
CN105989836A (zh) * | 2015-03-06 | 2016-10-05 | 腾讯科技(深圳)有限公司 | 一种语音采集方法、装置及终端设备 |
CN106297825A (zh) * | 2016-07-25 | 2017-01-04 | 华南理工大学 | 一种基于集成深度信念网络的语音情感识别方法 |
CN109920450A (zh) * | 2017-12-13 | 2019-06-21 | 北京回龙观医院 | 信息处理装置及信息处理方法 |
CN110047517A (zh) * | 2019-04-24 | 2019-07-23 | 京东方科技集团股份有限公司 | 语音情感识别方法、问答方法及计算机设备 |
CN110120231A (zh) * | 2019-05-15 | 2019-08-13 | 哈尔滨工业大学 | 基于自适应半监督非负矩阵分解的跨语料情感识别方法 |
CN110931043A (zh) * | 2019-12-06 | 2020-03-27 | 湖北文理学院 | 集成语音情感识别方法、装置、设备及存储介质 |
CN110956981A (zh) * | 2019-12-06 | 2020-04-03 | 湖北文理学院 | 语音情感识别方法、装置、设备及存储介质 |
CN112447186A (zh) * | 2020-10-16 | 2021-03-05 | 华东理工大学 | 一种按类特征加权的语音情感识别算法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7412425B2 (en) * | 2005-04-14 | 2008-08-12 | Honda Motor Co., Ltd. | Partially supervised machine learning of data classification based on local-neighborhood Laplacian Eigenmaps |
CN101520847A (zh) * | 2008-02-29 | 2009-09-02 | 富士通株式会社 | 模式识别装置和方法 |
CN101894550A (zh) * | 2010-07-19 | 2010-11-24 | 东南大学 | 基于情感对特征优化的语音情感分类方法 |
CN103440863A (zh) * | 2013-08-28 | 2013-12-11 | 华南理工大学 | 一种基于流形的语音情感识别方法 |
CN103544963A (zh) * | 2013-11-07 | 2014-01-29 | 东南大学 | 一种基于核半监督判别分析的语音情感识别方法 |
-
2014
- 2014-05-21 CN CN201410216935.3A patent/CN104008754B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7412425B2 (en) * | 2005-04-14 | 2008-08-12 | Honda Motor Co., Ltd. | Partially supervised machine learning of data classification based on local-neighborhood Laplacian Eigenmaps |
CN101520847A (zh) * | 2008-02-29 | 2009-09-02 | 富士通株式会社 | 模式识别装置和方法 |
CN101894550A (zh) * | 2010-07-19 | 2010-11-24 | 东南大学 | 基于情感对特征优化的语音情感分类方法 |
CN103440863A (zh) * | 2013-08-28 | 2013-12-11 | 华南理工大学 | 一种基于流形的语音情感识别方法 |
CN103544963A (zh) * | 2013-11-07 | 2014-01-29 | 东南大学 | 一种基于核半监督判别分析的语音情感识别方法 |
Non-Patent Citations (2)
Title |
---|
SIQING WU等: ""Automatic speech emotion recognition using modulation spectral features"", 《SPEECH COMMUNICATION》 * |
韦佳等: ""基于局部重构与全局保持的半监督维数约减算法"", 《计算机科学》 * |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104464756A (zh) * | 2014-12-10 | 2015-03-25 | 黑龙江真美广播通讯器材有限公司 | 一种小型说话人情感识别系统 |
CN105989836A (zh) * | 2015-03-06 | 2016-10-05 | 腾讯科技(深圳)有限公司 | 一种语音采集方法、装置及终端设备 |
CN105070300A (zh) * | 2015-08-12 | 2015-11-18 | 东南大学 | 一种基于说话人标准化变换的语音情感特征选择方法 |
CN105139867A (zh) * | 2015-08-12 | 2015-12-09 | 东南大学 | 基于拼音韵母说话内容标准化语音情感特征选择方法 |
CN105596016A (zh) * | 2015-12-23 | 2016-05-25 | 王嘉宇 | 一种人体心理、生理健康监测和管理装置及方法 |
CN106297825B (zh) * | 2016-07-25 | 2019-10-18 | 华南理工大学 | 一种基于集成深度信念网络的语音情感识别方法 |
CN106297825A (zh) * | 2016-07-25 | 2017-01-04 | 华南理工大学 | 一种基于集成深度信念网络的语音情感识别方法 |
CN109920450A (zh) * | 2017-12-13 | 2019-06-21 | 北京回龙观医院 | 信息处理装置及信息处理方法 |
CN109920450B (zh) * | 2017-12-13 | 2024-08-06 | 北京回龙观医院 | 信息处理装置及信息处理方法 |
CN110047517A (zh) * | 2019-04-24 | 2019-07-23 | 京东方科技集团股份有限公司 | 语音情感识别方法、问答方法及计算机设备 |
CN110120231A (zh) * | 2019-05-15 | 2019-08-13 | 哈尔滨工业大学 | 基于自适应半监督非负矩阵分解的跨语料情感识别方法 |
CN110120231B (zh) * | 2019-05-15 | 2021-04-02 | 哈尔滨工业大学 | 基于自适应半监督非负矩阵分解的跨语料情感识别方法 |
CN110931043A (zh) * | 2019-12-06 | 2020-03-27 | 湖北文理学院 | 集成语音情感识别方法、装置、设备及存储介质 |
CN110956981A (zh) * | 2019-12-06 | 2020-04-03 | 湖北文理学院 | 语音情感识别方法、装置、设备及存储介质 |
CN112447186A (zh) * | 2020-10-16 | 2021-03-05 | 华东理工大学 | 一种按类特征加权的语音情感识别算法 |
Also Published As
Publication number | Publication date |
---|---|
CN104008754B (zh) | 2017-01-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104008754B (zh) | 一种基于半监督特征选择的语音情感识别方法 | |
CN109409296B (zh) | 将人脸表情识别和语音情感识别融合的视频情感识别方法 | |
Palo et al. | Wavelet based feature combination for recognition of emotions | |
Semwal et al. | Automatic speech emotion detection system using multi-domain acoustic feature selection and classification models | |
CN103871426A (zh) | 对比用户音频与原唱音频相似度的方法及其系统 | |
CN102201237B (zh) | 基于模糊支持向量机的可靠性检测的情感说话人识别方法 | |
CN103456302B (zh) | 一种基于情感gmm模型权重合成的情感说话人识别方法 | |
CN105702251A (zh) | 基于Top-k加强音频词袋模型的语音情感识别方法 | |
Wang et al. | A network model of speaker identification with new feature extraction methods and asymmetric BLSTM | |
Gupta et al. | Speech emotion recognition using SVM with thresholding fusion | |
CN110992988A (zh) | 一种基于领域对抗的语音情感识别方法及装置 | |
Shivakumar et al. | Simplified and supervised i-vector modeling for speaker age regression | |
Huang et al. | Speech emotion recognition using convolutional neural network with audio word-based embedding | |
CN112562725A (zh) | 基于语谱图和胶囊网络的混合语音情感分类方法 | |
Iqbal et al. | Mfcc and machine learning based speech emotion recognition over tess and iemocap datasets | |
Adiga et al. | Multimodal emotion recognition for human robot interaction | |
WO2023279691A1 (zh) | 语音分类方法、模型训练方法及装置、设备、介质和程序 | |
Shah et al. | Speech emotion recognition based on SVM using MATLAB | |
Lingampeta et al. | Human emotion recognition using acoustic features with optimized feature selection and fusion techniques | |
Elbarougy | Speech emotion recognition based on voiced emotion unit | |
Majkowski et al. | Identification of gender based on speech signal | |
Jiao et al. | MFHCA: Enhancing Speech Emotion Recognition Via Multi-Spatial Fusion and Hierarchical Cooperative Attention | |
Shekofteh et al. | MLP-based isolated phoneme classification using likelihood features extracted from reconstructed phase space | |
Vasquez-Correa et al. | Wavelet-based time-frequency representations for automatic recognition of emotions from speech | |
Bera et al. | Identification of mental state through speech using a deep learning approach |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |