CN112861984A - 一种基于特征融合与集成学习的语音情感分类方法 - Google Patents

一种基于特征融合与集成学习的语音情感分类方法 Download PDF

Info

Publication number
CN112861984A
CN112861984A CN202110209708.8A CN202110209708A CN112861984A CN 112861984 A CN112861984 A CN 112861984A CN 202110209708 A CN202110209708 A CN 202110209708A CN 112861984 A CN112861984 A CN 112861984A
Authority
CN
China
Prior art keywords
specifically
feature
maximum
variance
mean
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110209708.8A
Other languages
English (en)
Other versions
CN112861984B (zh
Inventor
郭奕
熊雪军
徐亮
黄永茂
卿朝进
黄文韬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Huasheng Xingcheng Intellectual Property Agency Co ltd
Shanghai Enterprise Information Technology Co ltd
Original Assignee
Xihua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xihua University filed Critical Xihua University
Priority to CN202110209708.8A priority Critical patent/CN112861984B/zh
Publication of CN112861984A publication Critical patent/CN112861984A/zh
Application granted granted Critical
Publication of CN112861984B publication Critical patent/CN112861984B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2148Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • G06F18/2115Selection of the most significant subset of features by evaluating different subsets according to an optimisation criterion, e.g. class separability, forward selection or backward elimination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24147Distances to closest patterns, e.g. nearest neighbour classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Child & Adolescent Psychology (AREA)
  • Probability & Statistics with Applications (AREA)
  • General Health & Medical Sciences (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychiatry (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于特征融合与集成学习的语音情感分类方法,包括以下步骤:采集若干语音数据,并对语音数据进行预处理;对预处理后的数据进行特征提取,并构建特征集;采用多分类器构建集成学习分类模型,并对集成学习分类模型进行训练;采用训练后的集成学习分类模型对待识别语音数据对应特征集进行识别,获取分类结果,得到语音情感分类结果。本发明能够有效地通过语音数据对说话人的语音情感进行预测和分类。

Description

一种基于特征融合与集成学习的语音情感分类方法
技术领域
本发明属于深度学习领域,具体涉及一种基于特征融合与集成学习的语音情感分类方法。
背景技术
随着计算机技术的快速发展,计算机已经成为人们生活不可缺少的一部分。目前的人机交互领域不再局限于键盘和屏幕,已经扩展到语音交互,例如百度的“小杜”、微软的“小冰”、苹果的“siri”等。然而现有的语音交互是比较“冰冷”的,是缺乏“情感”的,用户体验不好。从说话人的语音数据中挖掘出情感信息,是近年来语音信号领域研究的热门方向,对提高人机交互水平有着重要的意义,具有非常重要的研究价值和应用价值。
目前对于语音情感分类研究的技术方案和技术缺陷如下:
(1)基于传统的声学特征和分类模型,通过构建传统的声学特征集,然后使用分类模型进行训练和分类。这种方法的重心在于对声学特征集的构建,然构建的声学特征集比较庞杂,且主观性较强,耗时大,此外分类模型比较单一,总体识别准确率较低。
(2)基于深度学习的语音情感分类方法,该方法首先对语音数据进行预处理,然后提取出声谱图,接下来使用图像分类的方法来是实现情感数据的分类。这种方法的重心在于对模型的构建,然基于深度学习的分类算法繁多,分类表现也参差不齐,单一分类的方法无法区分典型样本,且一般提取的声谱图是语谱图或者Mel谱图,比较单一,总体识别准确率较低。
发明内容
针对现有技术中的上述不足,本发明提供的一种基于特征融合与集成学习的语音情感分类方法解决了现有技术中存在的问题。
为了达到上述发明目的,本发明采用的技术方案为:一种基于特征融合与集成学习的语音情感分类方法,包括以下步骤:
S1、采集若干语音数据,并对语音数据进行预处理;
S2、对预处理后的数据进行特征提取,并构建特征集;
S3、采用多分类器构建集成学习分类模型,并对集成学习分类模型进行训练;
S4、采用训练后的集成学习分类模型对待识别语音数据对应特征集进行识别,获取分类结果,得到语音情感分类结果。
进一步地,所述步骤S1中对语音数据进行预处理具体包括预加重、消除趋势项、端点处理、分帧处理以及加窗处理。
进一步地,所述步骤S2具体为:
S2.1、对预处理后的数据进行特征提取,得到若干特征;
S2.2、将若干特征组成若干维的特征向量;
S2.3、基于已训练的LightGBM模型,获取特征向量中每个特征的重要性,并按重要性将特征进行降序排序;
S2.3、获取特征重要度平均值,并将重要性低于平均值的特征滤除;
S2.4、采用序列前向算法选择最优特征子集,完成特征集的构建。
进一步地,所述步骤S2.1中特征包括特征1至特征809;
所述特征1-8具体为:短时能量及其一阶差分的均值、方差、最大值以及最小值;
特征9-14具体为:声音强度及其一阶差分的均值、方差以及最大值;
特征15具体为:平均语速;
特征16-23具体为:基音频率及其一阶差分的均值、方差、最大值以及最小值;
特征24-53具体为:第一、第二、第三共振峰频率及其一阶差分的均值、方差、最大值、最小值以及中值;
特征54-137具体为:1-12阶梅尔倒谱系数MFCC的均值、方差、最大值、最小值、中值、极差以及和;
特征138-221具体为:1-12阶伽马倒谱系数GFCC的均值、方差、最大值、最小值、中值、极差以及和;
特征222-305具体为:1-12阶巴克倒谱系数BFCC的均值、方差、最大值、最小值、中值、极差以及和;
特征306-389具体为:1-12阶线性预测系数LPC的均值、方差、最大值、最小值、中值、极差以及和;
特征390-473具体为:1-12阶线性预测倒谱系数LPCC的均值、方差、最大值、最小值、中值、极差以及和;
特征474-557具体为:1-12阶标准化伽马啁啾倒谱系数NGCC的均值、方差、最大值、最小值、中值、极差以及和;
特征558-641具体为:1-12阶基于幅度的谱根倒谱系数MSRCC的均值、方差、最大值、最小值、中值、极差以及和;
特征642-725具体为:1-12阶基于相位的谱根倒谱系数PSRCC的均值、方差、最大值、最小值、中值、极差以及和;
特征726-809具体为:1-12阶线性频率倒谱系数LFCC的均值、方差、最大值、最小值、中值、极差以及和。
进一步地,所述步骤S3中集成学习分类模型中分类器包括支持向量机SVM、K邻近算法、XGBoost算法和LightGBM算法。
进一步地,所述步骤S4具体为:
S4.1、对集成学习分类模型中支持向量机SVM、K邻近算法、XGBoost算法和LightGBM算法的分类结果分配权重为[w1 w2 w3 w4]1×4
S4.2、将支持向量机SVM、K邻近算法、XGBoost算法和LightGBM算法分别设定为1至4号分类器;
S4.3、将待识别语音数据对应特征集分别输入至1至4号分类器,得到每种分类器输出的每种预测类型概率为[Pi1 Pi2 Pi3 Pi4 Pi5 Pi6]1×4,其中,i=1,2,3,4,i表示分类器号,Pij表示i号分类器对第j个类别的预测概率,j=1,2,3,4,5,6;
S4.4、根据分配的权重以及预测类型的概率,获取第j个类别的输出概率yj为yj=w1×P1j+w2×P2j+w3×P3j+w4×P4j,得到每种预测类型的概率为[y1 y2 y3 y4 y5 y6]1×6
S4.5、选择y1至y6中最大值对应的预测类型作为最终预测类型标签,得到语音情感分类结果。
进一步地,所述步骤S4.1中分配的权重获取的具体方法为:
S4.1.1、以[w1 w2 w3 w4]1×4为基础,构建softmax回归模型;
S4.1.2、设置softmax回归模型的训练批次为T,批次大小为L以及学习率为0.005;
S4.1.3、以每种分类器输出的每种预测类型概率组成矩阵,将矩阵作为样本,采集若干样本;
S4.1.4、根据若干样本,以交叉损失函数作为损失函数,并使用Adam算法对softmax回归模型训练;
S4.1.5、训练至损失函数收敛或达到训练轮次时,得到[w1 w2 w3 w4]1×4的最终值。
进一步地,所述构建softmax回归模型的具体步骤为:
S4.1.1.1、令softmax回归模型的回归的权重W为:
W=[w1 w2 w3 w4]1×4
S4.1.1.2、设定样本d的特征x(d)为:
Figure BDA0002951874160000051
S4.1.1.3、以特征x(d)和权重W获取输出层的输出o(d)为:
Figure BDA0002951874160000052
其中,
Figure BDA0002951874160000053
表示输出层对样本d的第j类预测类型的输出,j=1,2,3,4,5,6;
S4.1.1.4、对输出层的输出o(d)进行softmax运算,获取第j类预测类型的概率yj为:
Figure BDA0002951874160000054
其中,k表示类别总数,exp(*)表示指数运算。
本发明的有益效果为:
(1)本发明提供了一种基于特征融合与集成学习的语音情感分类方法,有效地通过语音数据对说话人的语音情感进行预测和分类。
(2)本发明提取了短时能量、声音强度、平均语速、基音频率、共振峰频率、梅尔倒谱系数(MFCC)、伽马倒谱系数(GFCC)、巴克倒谱系数(BFCC)、线性预测系数(LPC)、线性预测倒谱系数(LPCC)、标准化伽马啁啾倒谱系数(NGCC)、基于幅度的谱根倒谱系数(MSRCC)、基于相位的谱根倒谱系数(PSRCC)、线性频率倒谱系数(LFCC)特征,并进行了级联,组合成了全特征集。实验结果表明,该特征集对语音情感有着良好的表征能力。
(3)本发明基于LightGBM的特征选择方法对特征数据集进行筛选,增强了特征数据对语音情感的表征力,提高了语音情感分类模型的泛化能力,降低了时间复杂度。
(4)本发明在分类阶段采用基于加权平均概率投票的集成策略对多模型进行融合,并基于softmax回归模型对分类器分配的权重进行优化,可以有效的提升语音情感分类的准确性和稳定性。
附图说明
图1为本发明提出的一种基于特征融合与集成学习的语音情感分类方法流程图。
具体实施方式
下面对本发明的具体实施方式进行描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
下面结合附图详细说明本发明的实施例。
如图1所示,一种基于特征融合与集成学习的语音情感分类方法解决了现有技术中存在的问题。
为了达到上述发明目的,本发明采用的技术方案为:一种基于特征融合与集成学习的语音情感分类方法,包括以下步骤:
S1、采集若干语音数据,并对语音数据进行预处理;
S2、对预处理后的数据进行特征提取,并构建特征集;
S3、采用多分类器构建集成学习分类模型,并对集成学习分类模型进行训练;
S4、采用训练后的集成学习分类模型对待识别语音数据对应特征集进行识别,获取分类结果,得到语音情感分类结果。
在本实施例中,通过CASIA中文情感语料库确定六种预测类型。
所述步骤S1中对语音数据进行预处理具体包括预加重、消除趋势项、端点处理、分帧处理以及加窗处理。
所述步骤S2具体为:
S2.1、对预处理后的数据进行特征提取,得到若干特征;
S2.2、将若干特征组成若干维的特征向量;
S2.3、基于已训练的LightGBM模型,获取特征向量中每个特征的重要性,并按重要性将特征进行降序排序;
S2.3、获取特征重要度平均值,并将重要性低于平均值的特征滤除;
S2.4、采用序列前向算法选择最优特征子集,完成特征集的构建。
所述步骤S2.1中特征包括特征1至特征809;
所述特征1-8具体为:短时能量及其一阶差分的均值、方差、最大值以及最小值;
特征9-14具体为:声音强度及其一阶差分的均值、方差以及最大值;
特征15具体为:平均语速;
特征16-23具体为:基音频率及其一阶差分的均值、方差、最大值以及最小值;
特征24-53具体为:第一、第二、第三共振峰频率及其一阶差分的均值、方差、最大值、最小值以及中值;
特征54-137具体为:1-12阶梅尔倒谱系数MFCC的均值、方差、最大值、最小值、中值、极差以及和;
特征138-221具体为:1-12阶伽马倒谱系数GFCC的均值、方差、最大值、最小值、中值、极差以及和;
特征222-305具体为:1-12阶巴克倒谱系数BFCC的均值、方差、最大值、最小值、中值、极差以及和;
特征306-389具体为:1-12阶线性预测系数LPC的均值、方差、最大值、最小值、中值、极差以及和;
特征390-473具体为:1-12阶线性预测倒谱系数LPCC的均值、方差、最大值、最小值、中值、极差以及和;
特征474-557具体为:1-12阶标准化伽马啁啾倒谱系数NGCC的均值、方差、最大值、最小值、中值、极差以及和;
特征558-641具体为:1-12阶基于幅度的谱根倒谱系数MSRCC的均值、方差、最大值、最小值、中值、极差以及和;
特征642-725具体为:1-12阶基于相位的谱根倒谱系数PSRCC的均值、方差、最大值、最小值、中值、极差以及和;
特征726-809具体为:1-12阶线性频率倒谱系数LFCC的均值、方差、最大值、最小值、中值、极差以及和。
所述步骤S3中集成学习分类模型中分类器包括支持向量机SVM、K邻近算法、XGBoost算法和LightGBM算法。
在本实施例中,SVM算法的算法描述如下:
设训练数据集为T={(xi',yi')},i'=1,2,...,n',xi'∈Rn',yi'∈{1,-1},将样本从原始空间映射到一个更高维的特征空间,使得样本在这个特征空间内线性可分。令Φ(x)表示将x映射后的特征向量,在特征空间划分超平面所对应的模型可表示为:
f(x)=wTΦ(x)+b (1)
式(1)中,w和b分别表示模型的权重和偏差。选用高斯核函数对x进行映射,表示如下:
Figure BDA0002951874160000091
式(2)中,σ>0为高斯核的带宽。再选取合适的惩罚因子C,引入松弛变量ξi'≥0。松弛变量ξi'大小代表样本点离群的远近。ξi'越大,代表样本点离群越远。惩罚因子C的大小代表离群样本点带来目标函数损失的重视程度。C越大,表示对离群点越重视,越不愿意放弃这些离群点对目标函数带来的损失。构造求解最优化问题,如式(3)、(4)。
Figure BDA0002951874160000092
s.t.yi'Txi'+b)≥1-ξi'i'≥0,i'=1,2,...,n' (4)
求解该最优化问题,可构造SVM的决策函数:
f(x)=sng(wTxi'-b) (5)
本方法使用的KNN算法的具体实现过程如下:
(a)假设有一个带有标签的样本数据集,其中包含每条数据与所属分类的对应关系。
(b)输入没有标签的新数据,将新数据的每个特征与样本集中数据对应特征进行比较。
①计算新数据与样本数据集中每条数据的距离。
②对求得的所有距离进行排序(从小到大,距离越小表示越相似)。
③取前K个样本数据对应的分类标签。
(c)求K个数据中出现次数最多的分类标签作为新数据的分类。
算法中的K值一般小于等于20,“距离”一般使用欧氏距离或曼哈顿距离。
欧式距离的定义为:
Figure BDA0002951874160000101
曼哈顿距离的定义为:
d=|x1-x2|+|y1-y2| (7)
本方法使用的XGBoost算法描述如下:
XGBoost模型是对GBDT模型的算法和工程的改进,一方面,引入二阶导数信息,并加入正则项控制模型的复杂度;另一方面,使每个基学习器内部的树节点分裂可以并行,实现了优化目标函数以达到误差和复杂度综合最优。
目标函数L(x)由误差函数F(x)和复杂度函数Ω(x)组成:
L(x)=F(x)+Ω(x) (8)
Figure BDA0002951874160000102
Figure BDA0002951874160000103
Figure BDA0002951874160000104
式(9)中,l是用来衡量
Figure BDA0002951874160000105
与y的相近程度的可导且凸的损失函数。式(10)中,T表示叶子的数量,Wj”表示叶分数。通过每一步增加一个基分类器,贪婪地去优化目标函数,使得每次增加都使得损失变小,然后让后一次迭代的基分类器去学习前一次遗留下来的误差。这样可以得到用于评价当前分类器性能的评价函数,如下:
Figure BDA0002951874160000111
这个算法又可以成为前向分步优化。为了更好更快的优化函数,可以在fm附近进行二阶泰勒展开,泰勒展开式如下:
Figure BDA0002951874160000112
Figure BDA0002951874160000113
最后可得到目标函数,在剔除常数项后可以得到最终的表达式,如公式所示:
Figure BDA0002951874160000114
本方法使用的Lightgbm算法描述如下:
Lightgbm模型提出Histogrm算法,对特征进行分桶,减少查询分裂节点的时间复杂度;此外,提出GOSS算法对样本进行采样来计算梯度,减少了小梯度数据;同时,提出EFB算法捆绑互斥特征,降低了特征维度,减少模型复杂度。下面主要介绍GOSS和EFB算法。
GOSS算法描述:
输入:训练数据,迭代步数d,大梯度数据的采样率a,小梯度数据的采样率b,损失函数和若学习器的类型(一般为决策树);
输出:训练好的强学习器;
(1)根据样本点的梯度的绝对值对它们进行降序排序;
(2)对排序后的结果选取前a×100%的样本生成一个大梯度样本点的子集;
(3)对剩下的样本集合(1-a)×100%的样本,随机选取b×(1-a)×100%个样本点,生成一个小梯度样本点的集合;
(4)将大梯度样本和采样的小梯度样本合并;
(5)将小梯度样本乘上一个权重系数;
(6)使用上述的采样的样本,学习一个新的弱学习器;
不断重复步骤(1)~(6),直到达到规定的迭代次数或者收敛为止。
通过上面的算法,可以在不改变数据分布和不损失学习器的精度的情况下,大大的减少模型学习的速率。
从上面的描述可知,当a=0时,GOSS算法退化为随机采样算法;当a=1时,GOSS算法变为采取整个样本的算法。在许多实验中,GOSS算法训练出的模型精度要高于随机采样算法。另外,采样也将会增加学习器的多样性,从而提升了模型的泛化能力。
EFB算法描述:
输入:特征F,最大冲突数K,图G;
输出:特征捆绑集合bundles;
(1)构造一个边带有权重的图,其权重对应于特征之间的总冲突;
(2)通过特征在图中的度来降序排序特征;
(3)检查有序列表中的每个特征,并将其分配给具有小冲突的现有bunding(由控制),或创建新bundling。
未分类样本分类:用训练好的支持向量机(SVM)模型、KNN模型、XGBoost模型以及LightGBM模型对待分类样本进行分类;
所述步骤S4具体为:
S4.1、对集成学习分类模型中支持向量机SVM、K邻近算法、XGBoost算法和LightGBM算法的分类结果分配权重为[w1 w2 w3 w4]1×4
S4.2、将支持向量机SVM、K邻近算法、XGBoost算法和LightGBM算法分别设定为1至4号分类器;
S4.3、将待识别语音数据对应特征集分别输入至1至4号分类器,得到每种分类器输出的每种预测类型概率为[Pi1 Pi2 Pi3 Pi4 Pi5 Pi6]1×4,其中,i=1,2,3,4,i表示分类器号,Pij表示i号分类器对第j个类别的预测概率,j=1,2,3,4,5,6;
S4.4、根据分配的权重以及预测类型的概率,获取第j个类别的输出概率yj为yj=w1×P1j+w2×P2j+w3×P3j+w4×P4j,得到每种预测类型的概率为[y1 y2 y3 y4 y5 y6]1×6
S4.5、选择y1至y6中最大值对应的预测类型作为最终预测类型标签,得到语音情感分类结果。
所述步骤S4.1中分配的权重获取的具体方法为:
S4.1.1、以[w1 w2 w3 w4]1×4为基础,构建softmax回归模型;
S4.1.2、设置softmax回归模型的训练批次为T,批次大小为L以及学习率为0.005;
S4.1.3、以每种分类器输出的每种预测类型概率组成矩阵,将矩阵作为样本,采集若干样本;
S4.1.4、根据若干样本,以交叉损失函数作为损失函数,并使用Adam算法对softmax回归模型训练;
S4.1.5、训练至损失函数收敛或达到训练轮次时,得到[w1 w2 w3 w4]1×4的最终值。
所述构建softmax回归模型的具体步骤为:
S4.1.1.1、令softmax回归模型的回归的权重W为:
W=[w1 w2 w3 w4]1×4 (15)
S4.1.1.2、设定样本d的特征x(d)为:
Figure BDA0002951874160000141
S4.1.1.3、以特征x(d)和权重W获取输出层的输出o(d)为:
Figure BDA0002951874160000142
其中,
Figure BDA0002951874160000143
表示输出层对样本d的第j类预测类型的输出,j=1,2,3,4,5,6;
S4.1.1.4、对输出层的输出o(d)进行softmax运算,获取第j类预测类型的概率yj为:
Figure BDA0002951874160000144
其中,k表示类别总数,exp(*)表示指数运算。
本发明的有益效果为:
(1)本发明提供了一种基于特征融合与集成学习的语音情感分类方法,有效地通过语音数据对说话人的语音情感进行预测和分类。
(2)本发明提取了短时能量、声音强度、平均语速、基音频率、共振峰频率、梅尔倒谱系数(MFCC)、伽马倒谱系数(GFCC)、巴克倒谱系数(BFCC)、线性预测系数(LPC)、线性预测倒谱系数(LPCC)、标准化伽马啁啾倒谱系数(NGCC)、基于幅度的谱根倒谱系数(MSRCC)、基于相位的谱根倒谱系数(PSRCC)、线性频率倒谱系数(LFCC)特征,并进行了级联,组合成了全特征集。实验结果表明,该特征集对语音情感有着良好的表征能力。
(3)本发明基于LightGBM的特征选择方法对特征数据集进行筛选,增强了特征数据对语音情感的表征力,提高了语音情感分类模型的泛化能力,降低了时间复杂度。
(4)本发明在分类阶段采用基于加权平均概率投票的集成策略对多模型进行融合,并基于softmax回归模型对分类器分配的权重进行优化,可以有效的提升语音情感分类的准确性和稳定性。

Claims (8)

1.一种基于特征融合与集成学习的语音情感分类方法,其特征在于,包括以下步骤:
S1、采集若干语音数据,并对语音数据进行预处理;
S2、对预处理后的数据进行特征提取,并构建特征集;
S3、采用多分类器构建集成学习分类模型,并对集成学习分类模型进行训练;
S4、采用训练后的集成学习分类模型对待识别语音数据对应特征集进行识别,获取分类结果,得到语音情感分类结果。
2.根据权利要求1所述的基于特征融合与集成学习的语音情感分类方法,其特征在于,所述步骤S1中对语音数据进行预处理具体包括预加重、消除趋势项、端点处理、分帧处理以及加窗处理。
3.根据权利要求1所述的基于特征融合与集成学习的语音情感分类方法,其特征在于,所述步骤S2具体为:
S2.1、对预处理后的数据进行特征提取,得到若干特征;
S2.2、将若干特征组成若干维的特征向量;
S2.3、基于已训练的LightGBM模型,获取特征向量中每个特征的重要性,并按重要性将特征进行降序排序;
S2.3、获取特征重要度平均值,并将重要性低于平均值的特征滤除;
S2.4、采用序列前向算法选择最优特征子集,完成特征集的构建。
4.根据权利要求3所述的基于特征融合与集成学习的语音情感分类方法,其特征在于,所述步骤S2.1中特征包括特征1至特征809;
所述特征1-8具体为:短时能量及其一阶差分的均值、方差、最大值以及最小值;
特征9-14具体为:声音强度及其一阶差分的均值、方差以及最大值;
特征15具体为:平均语速;
特征16-23具体为:基音频率及其一阶差分的均值、方差、最大值以及最小值;
特征24-53具体为:第一、第二、第三共振峰频率及其一阶差分的均值、方差、最大值、最小值以及中值;
特征54-137具体为:1-12阶梅尔倒谱系数MFCC的均值、方差、最大值、最小值、中值、极差以及和;
特征138-221具体为:1-12阶伽马倒谱系数GFCC的均值、方差、最大值、最小值、中值、极差以及和;
特征222-305具体为:1-12阶巴克倒谱系数BFCC的均值、方差、最大值、最小值、中值、极差以及和;
特征306-389具体为:1-12阶线性预测系数LPC的均值、方差、最大值、最小值、中值、极差以及和;
特征390-473具体为:1-12阶线性预测倒谱系数LPCC的均值、方差、最大值、最小值、中值、极差以及和;
特征474-557具体为:1-12阶标准化伽马啁啾倒谱系数NGCC的均值、方差、最大值、最小值、中值、极差以及和;
特征558-641具体为:1-12阶基于幅度的谱根倒谱系数MSRCC的均值、方差、最大值、最小值、中值、极差以及和;
特征642-725具体为:1-12阶基于相位的谱根倒谱系数PSRCC的均值、方差、最大值、最小值、中值、极差以及和;
特征726-809具体为:1-12阶线性频率倒谱系数LFCC的均值、方差、最大值、最小值、中值、极差以及和。
5.根据权利要求1所述的基于特征融合与集成学习的语音情感分类方法,其特征在于,所述步骤S3中集成学习分类模型中分类器包括支持向量机SVM、K邻近算法、XGBoost算法和LightGBM算法。
6.根据权利要求5所述的基于特征融合与集成学习的语音情感分类方法,其特征在于,所述步骤S4具体为:
S4.1、对集成学习分类模型中支持向量机SVM、K邻近算法、XGBoost算法和LightGBM算法的分类结果分配权重为[w1 w2 w3 w4]1×4
S4.2、将支持向量机SVM、K邻近算法、XGBoost算法和LightGBM算法分别设定为1至4号分类器;
S4.3、将待识别语音数据对应特征集分别输入至1至4号分类器,得到每种分类器输出的每种预测类型概率为[Pi1 Pi2 Pi3 Pi4 Pi5 Pi6]1×4,其中,i=1,2,3,4,i表示分类器号,Pij表示i号分类器对第j个类别的预测概率,j=1,2,3,4,5,6;
S4.4、根据分配的权重以及预测类型的概率,获取第j个类别的输出概率yj为yj=w1×P1j+w2×P2j+w3×P3j+w4×P4j,得到每种预测类型的概率为[y1 y2 y3 y4 y5 y6]1×6
S4.5、选择y1至y6中最大值对应的预测类型作为最终预测类型标签,得到语音情感分类结果。
7.根据权利要求6所述的基于特征融合与集成学习的语音情感分类方法,其特征在于,所述步骤S4.1中分配的权重获取的具体方法为:
S4.1.1、以[w1 w2 w3 w4]1×4为基础,构建softmax回归模型;
S4.1.2、设置softmax回归模型的训练批次为T,批次大小为L以及学习率为0.005;
S4.1.3、以每种分类器输出的每种预测类型概率组成矩阵,将矩阵作为样本,采集若干样本;
S4.1.4、根据若干样本,以交叉损失函数作为损失函数,并使用Adam算法对softmax回归模型训练;
S4.1.5、训练至损失函数收敛或达到训练轮次时,得到[w1 w2 w3 w4]1×4的最终值。
8.根据权利要求7所述的基于特征融合与集成学习的语音情感分类方法,其特征在于,所述构建softmax回归模型的具体步骤为:
S4.1.1.1、令softmax回归模型的回归的权重W为:
W=[w1 w2 w3 w4]1×4
S4.1.1.2、设定样本d的特征x(d)为:
Figure FDA0002951874150000041
S4.1.1.3、以特征x(d)和权重W获取输出层的输出o(d)为:
Figure FDA0002951874150000042
其中,
Figure FDA0002951874150000043
表示输出层对样本d的第j类预测类型的输出,j=1,2,3,4,5,6;
S4.1.1.4、对输出层的输出o(d)进行softmax运算,获取第j类预测类型的概率yj为:
Figure FDA0002951874150000044
其中,k表示类别总数,exp(*)表示指数运算。
CN202110209708.8A 2021-02-25 2021-02-25 一种基于特征融合与集成学习的语音情感分类方法 Active CN112861984B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110209708.8A CN112861984B (zh) 2021-02-25 2021-02-25 一种基于特征融合与集成学习的语音情感分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110209708.8A CN112861984B (zh) 2021-02-25 2021-02-25 一种基于特征融合与集成学习的语音情感分类方法

Publications (2)

Publication Number Publication Date
CN112861984A true CN112861984A (zh) 2021-05-28
CN112861984B CN112861984B (zh) 2022-07-01

Family

ID=75991267

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110209708.8A Active CN112861984B (zh) 2021-02-25 2021-02-25 一种基于特征融合与集成学习的语音情感分类方法

Country Status (1)

Country Link
CN (1) CN112861984B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113947099A (zh) * 2021-07-05 2022-01-18 华北电力大学(保定) 基于esprit-psa与lgbm的五相异步电动机转子断条数目高精度诊断方法
CN114495643A (zh) * 2022-01-25 2022-05-13 福建中科多特健康科技有限公司 一种辅助训练的方法和存储设备
CN114612750A (zh) * 2022-05-09 2022-06-10 杭州海康威视数字技术股份有限公司 自适应学习率协同优化的目标识别方法、装置及电子设备
CN115457966A (zh) * 2022-09-16 2022-12-09 东北农业大学 基于改进ds证据理论多分类器融合的猪咳嗽声识别方法
CN115472147A (zh) * 2022-09-15 2022-12-13 北京大学深圳医院 一种语言识别方法及装置

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103854645A (zh) * 2014-03-05 2014-06-11 东南大学 一种基于说话人惩罚的独立于说话人语音情感识别方法
CN106228977A (zh) * 2016-08-02 2016-12-14 合肥工业大学 基于深度学习的多模态融合的歌曲情感识别方法
CN107393525A (zh) * 2017-07-24 2017-11-24 湖南大学 一种融合特征评估和多层感知器的语音情感识别方法
CN109271522A (zh) * 2018-11-20 2019-01-25 深圳大学 基于深度混合模型迁移学习的评论情感分类方法及系统
US20190385607A1 (en) * 2019-08-15 2019-12-19 Lg Electronics Inc. Intelligent voice outputting method, apparatus, and intelligent computing device
US20200005766A1 (en) * 2019-08-15 2020-01-02 Lg Electronics Inc. Deeplearning method for voice recognition model and voice recognition device based on artificial neural network
CN110827857A (zh) * 2019-11-28 2020-02-21 哈尔滨工程大学 基于谱特征和elm的语音情感识别方法
CN110910902A (zh) * 2019-12-04 2020-03-24 杭州哲信信息技术有限公司 一种基于集成学习的混合模型语音情感识别方法及系统
CN111310672A (zh) * 2020-02-19 2020-06-19 广州数锐智能科技有限公司 基于时序多模型融合建模的视频情感识别方法、装置及介质
CN111312215A (zh) * 2019-12-20 2020-06-19 台州学院 一种基于卷积神经网络和双耳表征的自然语音情感识别方法
CN111816212A (zh) * 2020-06-19 2020-10-23 杭州电子科技大学 基于特征集融合的语音情感识别及评价方法
CN112201228A (zh) * 2020-09-28 2021-01-08 苏州贝果智能科技有限公司 一种基于人工智能的多模态语义识别服务接入方法

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103854645A (zh) * 2014-03-05 2014-06-11 东南大学 一种基于说话人惩罚的独立于说话人语音情感识别方法
CN106228977A (zh) * 2016-08-02 2016-12-14 合肥工业大学 基于深度学习的多模态融合的歌曲情感识别方法
CN107393525A (zh) * 2017-07-24 2017-11-24 湖南大学 一种融合特征评估和多层感知器的语音情感识别方法
CN109271522A (zh) * 2018-11-20 2019-01-25 深圳大学 基于深度混合模型迁移学习的评论情感分类方法及系统
US20190385607A1 (en) * 2019-08-15 2019-12-19 Lg Electronics Inc. Intelligent voice outputting method, apparatus, and intelligent computing device
US20200005766A1 (en) * 2019-08-15 2020-01-02 Lg Electronics Inc. Deeplearning method for voice recognition model and voice recognition device based on artificial neural network
CN110827857A (zh) * 2019-11-28 2020-02-21 哈尔滨工程大学 基于谱特征和elm的语音情感识别方法
CN110910902A (zh) * 2019-12-04 2020-03-24 杭州哲信信息技术有限公司 一种基于集成学习的混合模型语音情感识别方法及系统
CN111312215A (zh) * 2019-12-20 2020-06-19 台州学院 一种基于卷积神经网络和双耳表征的自然语音情感识别方法
CN111310672A (zh) * 2020-02-19 2020-06-19 广州数锐智能科技有限公司 基于时序多模型融合建模的视频情感识别方法、装置及介质
CN111816212A (zh) * 2020-06-19 2020-10-23 杭州电子科技大学 基于特征集融合的语音情感识别及评价方法
CN112201228A (zh) * 2020-09-28 2021-01-08 苏州贝果智能科技有限公司 一种基于人工智能的多模态语义识别服务接入方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
MOWER E 等: ""A Framework for Automatic Human Emotion Classification Using Emotion Profiles"", 《AUDIO, SPEECH, AND LANGUAGE PROCESSING, IEEE TRANSACTIONS ON, 2011》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113947099A (zh) * 2021-07-05 2022-01-18 华北电力大学(保定) 基于esprit-psa与lgbm的五相异步电动机转子断条数目高精度诊断方法
CN114495643A (zh) * 2022-01-25 2022-05-13 福建中科多特健康科技有限公司 一种辅助训练的方法和存储设备
CN114495643B (zh) * 2022-01-25 2024-05-14 福建中科多特健康科技有限公司 一种辅助训练的方法和存储设备
CN114612750A (zh) * 2022-05-09 2022-06-10 杭州海康威视数字技术股份有限公司 自适应学习率协同优化的目标识别方法、装置及电子设备
CN115472147A (zh) * 2022-09-15 2022-12-13 北京大学深圳医院 一种语言识别方法及装置
CN115457966A (zh) * 2022-09-16 2022-12-09 东北农业大学 基于改进ds证据理论多分类器融合的猪咳嗽声识别方法
CN115457966B (zh) * 2022-09-16 2023-05-12 东北农业大学 基于改进ds证据理论多分类器融合的猪咳嗽声识别方法

Also Published As

Publication number Publication date
CN112861984B (zh) 2022-07-01

Similar Documents

Publication Publication Date Title
CN112861984B (zh) 一种基于特征融合与集成学习的语音情感分类方法
Turnbull et al. Fast recognition of musical genres using RBF networks
CN110853680B (zh) 一种具有多输入多融合策略的双BiLSTM的语音情感识别方法
Fulzele et al. A hybrid model for music genre classification using LSTM and SVM
Guha et al. Hybrid feature selection method based on harmony search and naked mole-rat algorithms for spoken language identification from audio signals
WO2021174760A1 (zh) 声纹数据生成方法、装置、计算机装置及存储介质
CN110047462B (zh) 一种语音合成方法、装置和电子设备
Huang et al. Large-scale weakly-supervised content embeddings for music recommendation and tagging
CN111899766B (zh) 基于深度特征与声学特征寻优融合的语音情感识别方法
CN114678030A (zh) 基于深度残差网络和注意力机制的声纹识别方法及装置
Cao et al. Speaker-independent speech emotion recognition based on random forest feature selection algorithm
Thornton Audio recognition using mel spectrograms and convolution neural networks
CN116050419B (zh) 一种面向科学文献知识实体的无监督识别方法及系统
Sarkar et al. Raga identification from Hindustani classical music signal using compositional properties
CN105006231A (zh) 基于模糊聚类决策树的分布式大型人口语者识别方法
Shao et al. Applying neural network on the content-based audio classification
Ge et al. Speaker change detection using features through a neural network speaker classifier
Pikrakis et al. Unsupervised singing voice detection using dictionary learning
Aarti et al. Spoken Indian language classification using ANN and Multi-Class SVM
Shih et al. Speech emotion recognition with ensemble learning methods
Calık et al. An ensemble-based framework for mispronunciation detection of Arabic phonemes
Lashari et al. Soft set theory for automatic classification of traditional Pakistani musical instruments sounds
CN114898776A (zh) 一种多尺度特征联合多任务cnn决策树的语音情感识别方法
Guoqiang et al. A noise classification algorithm based on SAMME and BP neural network
Mangalam et al. Emotion Recognition from Mizo Speech: A Signal Processing Approach

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20230829

Address after: Room 1001, 1st Floor, Building B, No. 555 Dongchuan Road, Minhang District, Shanghai, 200082

Patentee after: Shanghai Enterprise Information Technology Co.,Ltd.

Address before: 1518J24, Building A, Xinghe Century, No. 3069 Caitian Road, Gangxia Community, Futian Street, Futian District, Shenzhen City, Guangdong Province, 518033

Patentee before: Guangdong Huasheng Xingcheng Intellectual Property Agency Co.,Ltd.

Effective date of registration: 20230829

Address after: 1518J24, Building A, Xinghe Century, No. 3069 Caitian Road, Gangxia Community, Futian Street, Futian District, Shenzhen City, Guangdong Province, 518033

Patentee after: Guangdong Huasheng Xingcheng Intellectual Property Agency Co.,Ltd.

Address before: 610039, No. 999, Jin Zhou road, Jinniu District, Sichuan, Chengdu

Patentee before: XIHUA University

TR01 Transfer of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: A Speech Sentiment Classification Method Based on Feature Fusion and Ensemble Learning

Granted publication date: 20220701

Pledgee: Agricultural Bank of China Limited Shanghai Huangpu Sub branch

Pledgor: Shanghai Enterprise Information Technology Co.,Ltd.

Registration number: Y2024310000041

PE01 Entry into force of the registration of the contract for pledge of patent right