CN105609116B - 一种语音情感维度区域的自动识别方法 - Google Patents

一种语音情感维度区域的自动识别方法 Download PDF

Info

Publication number
CN105609116B
CN105609116B CN201510976875.XA CN201510976875A CN105609116B CN 105609116 B CN105609116 B CN 105609116B CN 201510976875 A CN201510976875 A CN 201510976875A CN 105609116 B CN105609116 B CN 105609116B
Authority
CN
China
Prior art keywords
emotion
region
regions
dimension
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510976875.XA
Other languages
English (en)
Other versions
CN105609116A (zh
Inventor
黄程韦
赵力
张昕然
余华
杨晶
徐新洲
陶华伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN201510976875.XA priority Critical patent/CN105609116B/zh
Publication of CN105609116A publication Critical patent/CN105609116A/zh
Application granted granted Critical
Publication of CN105609116B publication Critical patent/CN105609116B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/15Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being formant information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Child & Adolescent Psychology (AREA)
  • General Health & Medical Sciences (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychiatry (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种语音情感维度区域的自动识别方法,属于语音识别技术领域。我们采用了一种特征空间重构的方法进行分类器的优化。第一,我们提取和优化基本声学特征作为区分情感区域的基准;第二,我们采用特征空间重构的方法将多个情感特征空间分解和配对,分别采用LDA和PCA模块级联的方法,提高目标类之间的离散程度;第三,我们提出两种情感区域的分割方法,即四个区域和十六个区域的分割方法,进行复合情感的分解,取代传统的基本情感类型,通过相关计算来融合分类器输出,进行情感区域的识别,获得了更高的识别效果。

Description

一种语音情感维度区域的自动识别方法
技术领域
本发明涉及语音识别技术领域,特别是一种语音情感维度区域的自动识别方法。
背景技术
传统的语音情感识别集中在基本情感类别的分析上,例如喜、怒、惊、悲等,对情感的维度很难进行有效识别。传统的情感分类器主要用于离散情感模型,在使用之前,必须对目标的情感的数量和类型做一个假设。目前在实验室环境下,获得了成功的应用,但对于许多实际的情感识别应用时需要自动识别特定类别的情感,传统的方法一般很难估计什么类型的情绪可能发生,从而导致无法识别或错误识别,因此无法处理复杂的人类情感。
目前,对情感维度的辨识可以分为唤醒维度的辨识和效价维度的辨识。目前基于情感维度的语音情感识别方法,直接对维度值进行准确的估计,如唤醒维度的具体数值,这样的方法在实际中受到噪声等多种因素的干扰,准确度较低。因此直接对这两个维度进行精确的识别是非常困难的,并且由于唤醒维度和效价维度不能直接对应到实际的情感类别上,因此单纯的维度识别的实际意义并不明确。
发明内容
发明目的:为了克服现有技术中存在的不足,本发明提供一种语音情感维度区域的自动识别方法,用于解决现有的语音情感识别方法无法对任意情感进行有效识别的技术问题。
技术方案:为实现上述目的,本发明采用的技术方案为:
一种语音情感维度区域的自动识别方法,包括顺序执行的以下步骤:
步骤一、采集语音信号,将语音信号按照唤醒维度和效价维度所构成的二维空间按照对唤醒维度和效价维度的维度值从负一到正一的取值区间等分成四个或者十六个情感区域;这里维度值的正负与情感的积极度有关,一般维度值的正区域为积极,维度值的负区域为消极;划分的区间越多,情感越细分。
步骤二、对采集到的语音信号提取声学特征,包括短时能量、过零率、基音频率、前四个共振峰频率、十二阶的梅尔倒谱系数6种,并根据共振峰的范围对上述声学特征进行规整化;规整化时按照频段分段进行,共振峰分度区域类别根据实际文本语义的差异情况进行确定,将共振峰频率段划分为0-2000、2000-3000、3000-5000等三个频段,以消除文本差异的干扰。
步骤三、在步骤一中划分得到的每个情感区域上分别随机产生统计区域,所述统计区域的大小满足时间尺寸大于20ms且小于1s,并在统计区域中对步骤二中的规整化后的6种情感特征分别提取最大、最小、平均和标准偏差,构成语音情感特征。
步骤四、对唤醒维度和效价维度构成的维度空间进行分解,从步骤一中划分得到的情感区域中随机选出两个区域进行配对,得到情感区域对,按照上述方式完成所有两两情感区域的配对,保存配对的次序;采用级联的主成分分析与线性判别分析对步骤三中所述语音情感特征,在每个情感区域对上,进行特征优化:
首先将步骤三中所述组成情感区域对的两个情感区域中的语音情感特征分别输入主成分分析模块,对主成分分析模块输出截取这两个情感区域中各自的前10个特征维度;然后将所截取的这两个情感区域中各自的前10个特征维度输入级联的线性判别分析模块进行优化,线性判别分析模块的输出为上述情感区域对优化的情感区域对特征,是用于区分该情感区域对中的两个情感区域最优的特征;
步骤五、根据步骤四中得到的最佳语音情感特征,通过训练数据,为步骤四中所述的每个情感区域对均构造一个两类分类器,计算每个两类分类器的输出。
步骤六、采用相关运算,构造解码器,将步骤五中所述的两类分类器的输出与解码器的码本进行相关运算,最大的相关值对应的情感区域为情感区域分类结果,即语音中包含的情感的唤醒维度值和效价维度值的范围。
有益效果:
(1)本发明中所提出的情感区域识别,通过引入特征空间的分解与多个两类分类器输出的融合判决,该算法提高了多区情感识别的识别性能。与传统的情感类模型相比,我们提供一个实用的框架,适用于分析各种复杂的情绪。
(2)在发明公开的特征空间重构方法中,我们提出识别情感地区来实现对现实世界中的复杂情感类型的有效处理。对情感的维度空间进行的分区,不需要假设目标情感的类别,提供了灵活和多样的检测方法。它也可以被用作一个初始步骤进一步进行精确的维度情感识别。
采用本发明中的方法,能够对任意类别的情感进行识别,获得该情感在维度空间中所处的位置,例如唤醒维的程度,即激动程度。采用本发明中的方法,能够在情感区域之间进行最优化,提高识别结果的可靠性,对噪声等干扰因素较为鲁棒,发生错误判断的可能性小,从而误判的代价低。
附图说明
图1为低分辨率情感区域划分图;
图2为高分辨率情感区域划分图;
图3为语音情感特征的生成过程的示意图;
图4为特征空间的级联优化的过程;
图5为基于特征空间重构的分类器组的判决融合;
图6为高分辨率识别测试的对比图;
图7为特征空间样本分布图。
具体实施方式
下面结合附图对本发明作更进一步的说明。
(1)情感区域的划分
如附图1所示,为语音情感中的唤醒维度和效价维度构成的二维空间,由于不同的语音情感具有不同的唤醒维度和效价维度,因此我们可以按照唤醒维度和效价维度将语音情感分类为四个区域。将其分积极的和消极的等不同类别。我们可以进一步将维度空间分解为更高辨析度的模型区域,以适应复合情感的处理,如图2所示。
(2)提取有效的情感特征
(2-1)首先提取基本的声学特征,包括短时能量、过零率、基音频率、前四个共振峰频率、12阶的梅尔倒谱系数,并根据共振峰的范围对声学特征进行特征的分段规整化:
其中:
mean()函数为取均值函数,X为特征值,X(i)为共振峰分段区域的特征值,Ψ(i)为共振峰分度区域类别。Ψ(i)根据实际文本语义的差异情况进行确定,一般将共振峰频率段划分为0-2000、2000-3000、3000-5000等三个频段,以消除文本差异的干扰。
(2-2)在情感区域划分得到的不同区域上随机产生统计区域,并在统计区域中对规整化后的声学特征反复使用统计函数构造语音情感特征,统计函数包括最大、最小、平均和标准偏差。如附图3所示,随机选取一个起始点,从起始点后取一定大小的语段,通常为一句话,提取这个语段中各帧的参数作为语段特征。对语段特征中各帧对应参数进行n阶的差分运算,通常为2阶到3阶差分运算。区域的大小在满足时间尺度上大于20ms小于1s的前提下随机产生。
(2-3)在划分得到的情感区域中随机进行两两情感区域的配对,完成所有配对后保存配对的次序,并采用级联的主成分分析(PCA)与线性判别分析(LDA)进行特征优化。将组成情感区域对的两个情感区域中的语音情感特征分别输入PCA模块,对主成分分析模块输出截取这两个情感区域中各自的前10个特征维度;然后将所截取的这两个情感区域中各自的前10个特征维度输入级联的LDA模块,进行优化,得到LDA模块的输出为上述情感区域对优化的情感区域对特征,即这个情感区域对中的两个情感区域之间获得一个最佳的维度特征以区分二者。如附图4所示。
(3)特征空间的重构
(3-1)将(2-3)中所述的最佳语音情感特征根据不同情感区域进行归类:
fi k∈Hk,k=1,2…M (2)
其中:
i为特征序号,f为特征值,Hk为情感区域类别对应的特征空间,M为划分出的情感区域的类别总数,即对应划分的四个或十六个区域。
(3-2)将每个特征空间Hk构造一个两类分类器,计算每个两类分类器的输出:
x∈ωj,j=arg max{P(x∈ωi)},i=1,2 (3)
其中:
x为待识别的语音信号;i代表两类分类器的输出,即类别标签;j为情感区域序号;P表示概率;ωj为划分出的情感区域。
(3-3)采用相关解码器将(3-2)中所述的两类分类器的输出进行融合判决,得到重构后的情感区域判决结果:
最大的相关值对应的情感区域,即为识别结果:
i*=arg max{ri} (4)
其中:
i*表示识别出的语音情感类别,ri为融合判决的相关值,通过下式得到,
其中:
I为单位阵,m指单位阵行数,n指单位阵列数,为相关值序列,是每个两类分类器输出值构成的列向量,T表示矩阵转置。
上述过程中的两类分类器可用KNN分类器实现:
基本KNN分类器在特征空间中找到距离最近的K个样本,并检查它们的类标签。在本发明中,类标签覆盖所划分出的情感区域的标签,即四个区域或十六个区域每个情感区域均具有一个不同与其他情感区域的标签。当类标签的全部或大部分属于同一个区域,则测试话语被划分到该类标签对应的情感区域。
上述过程中的两类分类器还可以采用高斯混合模型(GMM)对每种情感的概率分布进行建模从而建立两类分类器,采用贝叶斯分类器来实现上文中的每个两类分类器,这组两类分类器组以各自的识别正确概率pi,j给出式判决:
其中,i和j分别表示两个不同的类别标号,为语音情感的类别,Ci,j为两类分类器的输出,x为待识别的语音信号;
当待识别的语音信号处于情感区域的重叠区域时,每个两类分类器的置信度,可以用下式来得到:
其中,i和j分别表示两个不同的类别标号pi和pj是类别i和类别j的后验概率密度的取值,当两类分类器判决越可靠时,pi和pj的差值越大。
得到了两类分类器的置信度wi,j后,据此进行权值融合,将两类分类器的输出定义为:
Ci,j *=wi,j·I,I=+1,-1 (8)
其中,I是两类分类的判决,I=+1表示判断为两类分类中的第一个类别,I=-1表示判断为另一个类别。
为了实现判决融合,下面将这组两类分类器的输出构成一个超矢量,用相关译码的方法来进行判决,如附图5所示。
识别测试结果如下表和附图6所示,我们可以看到,通过使用该特征空间分解方法,不断提高了识别率。
在实验测试中,训练和测试语料通过人工标记的方式进行,我们采用相同的测试数据集来验证本发明方法在不同分类器上的性能。测试进行时,一共有3400条话语用于训练和识别测试,100条用在每个情感区域的训练当中,其他语料用于测试。我们可以在附图7中看到样本的分离情况。
以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (1)

1.一种语音情感维度区域的自动识别方法,其特征在于:包括顺序执行的以下步骤:
步骤一、采集语音信号,将语音信号按照唤醒维度和效价维度所构成的二维空间按照对唤醒维度和效价维度的维度值从负一到正一的取值区间等分成四个或者十六个情感区域;
步骤二、对采集到的语音信号提取声学特征,包括短时能量、过零率、基音频率、前四个共振峰频率、十二阶的梅尔倒谱系数6种,并根据共振峰的范围对上述声学特征进行规整化;
步骤三、在步骤一中划分得到的每个情感区域上分别随机产生统计区域,所述统计区域的大小满足时间尺寸大于20ms且小于1s,并在统计区域中对步骤二中的规整化后的6种声学特征分别提取最大、最小、平均和标准偏差,构成语音情感特征;
步骤四、从步骤一中划分得到的情感区域中随机选出两个情感区域进行配对,得到情感区域对,按照上述方式完成所有两两情感区域的配对,保存配对的次序;采用级联的主成分分析与线性判别分析对每个情感区域对进行特征优化:
首先将步骤四中所述组成情感区域对的两个情感区域中的语音情感特征分别输入主成分分析模块,对主成分分析模块输出截取这两个情感区域中各自的前10个特征维度;然后将所截取的这两个情感区域中各自的前10个特征维度输入级联的线性判别分析模块进行优化,线性判别分析模块的输出为上述情感区域对优化的情感区域对特征;
步骤五、根据步骤四中得到的优化的情感区域对特征,通过训练数据,为步骤四中所述的每个情感区域对均构造一个两类分类器,计算每个两类分类器的输出;
步骤六、采用相关运算,构造解码器,将步骤五中所述的两类分类器的输出与解码器的码本进行相关运算,最大的相关值对应的情感区域,为情感区域分类结果。
CN201510976875.XA 2015-12-23 2015-12-23 一种语音情感维度区域的自动识别方法 Active CN105609116B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510976875.XA CN105609116B (zh) 2015-12-23 2015-12-23 一种语音情感维度区域的自动识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510976875.XA CN105609116B (zh) 2015-12-23 2015-12-23 一种语音情感维度区域的自动识别方法

Publications (2)

Publication Number Publication Date
CN105609116A CN105609116A (zh) 2016-05-25
CN105609116B true CN105609116B (zh) 2019-03-05

Family

ID=55988999

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510976875.XA Active CN105609116B (zh) 2015-12-23 2015-12-23 一种语音情感维度区域的自动识别方法

Country Status (1)

Country Link
CN (1) CN105609116B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106653000A (zh) * 2016-11-16 2017-05-10 太原理工大学 一种基于语音信息的情感强度实验方法
CN107633851B (zh) * 2017-07-31 2020-07-28 极限元(杭州)智能科技股份有限公司 基于情感维度预测的离散语音情感识别方法、装置及系统
CN111145785A (zh) * 2018-11-02 2020-05-12 广州灵派科技有限公司 一种基于语音的情绪识别方法及装置
CN111354361A (zh) * 2018-12-21 2020-06-30 深圳市优必选科技有限公司 一种情感交流的方法、系统及机器人
CN111128240B (zh) * 2019-12-19 2022-05-17 浙江大学 一种基于对抗语义擦除的语音情感识别方法
CN113192537B (zh) * 2021-04-27 2024-04-09 深圳市优必选科技股份有限公司 唤醒程度识别模型训练方法及语音唤醒程度获取方法
CN116012930B (zh) * 2023-03-28 2023-07-18 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) 一种基于深度学习卷积神经网络的维度表情识别方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1300831A1 (en) * 2001-10-05 2003-04-09 Sony International (Europe) GmbH Method for detecting emotions involving subspace specialists
CN101937678A (zh) * 2010-07-19 2011-01-05 东南大学 一种针对烦躁情绪的可据判的自动语音情感识别方法
CN102881284A (zh) * 2012-09-03 2013-01-16 江苏大学 非特定人语音情感识别方法及系统
CN103440235A (zh) * 2013-08-20 2013-12-11 中国科学院自动化研究所 一种基于认知结构模型的文本情感类型识别方法及装置
CN103854645A (zh) * 2014-03-05 2014-06-11 东南大学 一种基于说话人惩罚的独立于说话人语音情感识别方法
CN104050963A (zh) * 2014-06-23 2014-09-17 东南大学 一种基于情感数据场的连续语音情感预测算法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1300831A1 (en) * 2001-10-05 2003-04-09 Sony International (Europe) GmbH Method for detecting emotions involving subspace specialists
CN101937678A (zh) * 2010-07-19 2011-01-05 东南大学 一种针对烦躁情绪的可据判的自动语音情感识别方法
CN102881284A (zh) * 2012-09-03 2013-01-16 江苏大学 非特定人语音情感识别方法及系统
CN103440235A (zh) * 2013-08-20 2013-12-11 中国科学院自动化研究所 一种基于认知结构模型的文本情感类型识别方法及装置
CN103854645A (zh) * 2014-03-05 2014-06-11 东南大学 一种基于说话人惩罚的独立于说话人语音情感识别方法
CN104050963A (zh) * 2014-06-23 2014-09-17 东南大学 一种基于情感数据场的连续语音情感预测算法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"基于语音信号的情感识别研究";金学成;《中国博士学位论文全文数据库》;20070915(第3期);全文
"实用语音情感识别中的若干关键技术";赵力;《数据采集与处理》;20140331;第29卷(第2期);全文

Also Published As

Publication number Publication date
CN105609116A (zh) 2016-05-25

Similar Documents

Publication Publication Date Title
CN105609116B (zh) 一种语音情感维度区域的自动识别方法
Lines et al. Time series classification with HIVE-COTE: The hierarchical vote collective of transformation-based ensembles
CN107291822B (zh) 基于深度学习的问题分类模型训练方法、分类方法及装置
Huang et al. Speech emotion recognition from variable-length inputs with triplet loss function.
CN109460737A (zh) 一种基于增强式残差神经网络的多模态语音情感识别方法
CN105488466B (zh) 一种深层神经网络和水声目标声纹特征提取方法
CN103544963B (zh) 一种基于核半监督判别分析的语音情感识别方法
CN110289003A (zh) 一种声纹识别的方法、模型训练的方法以及服务器
CN106649275A (zh) 基于词性信息和卷积神经网络的关系抽取方法
CN106776713A (zh) 一种基于词向量语义分析的海量短文本聚类方法
CN105261367B (zh) 一种说话人识别方法
Zhang Music feature extraction and classification algorithm based on deep learning
CN108776774A (zh) 一种基于复杂度感知分类算法的面部表情识别方法
CN110390952A (zh) 基于双特征2-DenseNet并联的城市声音事件分类方法
CN104091602A (zh) 一种基于模糊支持向量机的语音情感识别方法
CN110413791A (zh) 基于cnn-svm-knn组合模型的文本分类方法
CN112562741A (zh) 一种基于点积自注意力卷积神经网络的歌声检测方法
CN105912525A (zh) 基于主题特征的半监督学习情感分类方法
CN116110405B (zh) 一种基于半监督学习的陆空通话说话人识别方法及设备
CN110175334A (zh) 基于自定义的知识槽结构的文本知识抽取系统和方法
CN104077598A (zh) 一种基于语音模糊聚类的情感识别方法
Cao et al. Speaker-independent speech emotion recognition based on random forest feature selection algorithm
CN115309860A (zh) 基于伪孪生网络的虚假新闻检测方法
Uppaal et al. Is fine-tuning needed? pre-trained language models are near perfect for out-of-domain detection
CN117236338A (zh) 一种稠密实体文本的命名实体识别模型及其训练方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant