CN107633851A - 基于情感维度预测的离散语音情感识别方法、装置及系统 - Google Patents

基于情感维度预测的离散语音情感识别方法、装置及系统 Download PDF

Info

Publication number
CN107633851A
CN107633851A CN201710640201.1A CN201710640201A CN107633851A CN 107633851 A CN107633851 A CN 107633851A CN 201710640201 A CN201710640201 A CN 201710640201A CN 107633851 A CN107633851 A CN 107633851A
Authority
CN
China
Prior art keywords
emotion
feature
voice
speech emotional
dimension
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710640201.1A
Other languages
English (en)
Other versions
CN107633851B (zh
Inventor
陶建华
黄健
李雅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhongke Extreme Element Hangzhou Intelligent Technology Co Ltd
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN201710640201.1A priority Critical patent/CN107633851B/zh
Publication of CN107633851A publication Critical patent/CN107633851A/zh
Application granted granted Critical
Publication of CN107633851B publication Critical patent/CN107633851B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)

Abstract

本发明涉及情感计算领域,具体提出一种基于情感维度预测的离散语音情感识别方法、装置及系统。旨在解决现有语音情感识别方法对情感状态的识别难以满足要求的问题。本发明的方法包括提取语音的基本声学特征,将基本声学特征组合为语音情感特征,并对语音情感特征进行加窗处理,得到全局语音情感特征后,预测得到情感维度信息,将全局语音情感特征与情感维度信息进行组合后,进行离散语音情感识别,得到语音情感识别结果。本发明将情感维度信息加入到全局语音情感特征中,增加了语音情感特征的维度,提高了离散语音情感识别的准确率。本发明还提出了一种基于情感维度预测的离散语音情感识别装置和系统,同样具有上述有益效果。

Description

基于情感维度预测的离散语音情感识别方法、装置及系统
技术领域
本发明涉及情感计算领域,具体提供一种基于情感维度预测的离散语音情感识别方法、装置及系统。
背景技术
随着人工智能的发展,情感计算的地位越显重要,情感计算试图赋予机器类人的观察、理解和生成各种情感的能力,使机器具有情感,更加类人化。语音作为人类交流中重要的传输媒介,包含了大量的情感信息,语音情感识别可以很好地提升机器理解人类语音情感的能力,从而更加广泛地应用于人机对话中,使人机交互更加自然和谐。
语音情感识别主要包括特征提取和分类器分类两个步骤,目前,对于语音情感特征没有统一的标准,通常的做法是将许多与音频相关的特征组合在一起,例如韵律、频谱和音质特征,但是在不同的场景和数据库中,与音频相关的特征将发生改变。现有语音情感识别的方法主要包括利用情感维度模型或者离散情感模型来识别情感状态。其中,情感维度模型是将情感状态映射到一个连续的维度空间来描述细腻复杂的情感状态,但在实际应用中,难以直观理解而且情感维度信息难以获得;离散情感模型是将情感分成离散的情感标签,例如高兴、悲伤等,直观简单,但是离散情感模型能够描述的情感类型较少,难以描述复杂的情感状态。现有语音情感识别方法对情感状态的识别难以满足要求。
相应地,本领域需要一种新的语音情感识别方法来解决上述问题。
发明内容
为了解决现有技术中的上述问题,即为了解决现有语音情感识别方法对情感状态的识别难以满足要求的问题,本发明的一方面提供了一种基于情感维度预测的离散语音情感识别方法,应用于语音情感识别系统,包括:
提取语音的基本声学特征,并将所述基本声学特征组合为语音情感特征;
对所述语音情感特征进行加窗处理,得到全局语音情感特征;
根据所述全局语音情感特征,预测所述语音的情感维度信息,并将所述全局语音情感特征与所述情感维度信息进行组合,得到新的语音情感特征;
将所述新的语音情感特征输入到分类器中进行离散语音情感识别,得到语音情感识别结果。
在上述方法的优选方案中,所述提取语音的基本声学特征,其方法为:
以帧为单位提取所述语音的基本声学特征,其中,所述基本声学特征包括能量、基频以及共振峰。
在上述方法的优选方案中,所述对所述语音情感特征进行加窗处理,得到全局语音情感特征,其方法为:
以长度为N的窗长对所述语音情感特征进行统计回归,得到固定维度的全局语音情感特征,其中,N为不小于1的正整数。
在上述方法的优选方案中,所述全局语音情感特征包括韵律、频谱以及音质。
在上述方法的优选方案中,所述预测所述语音的情感维度信息,其方法为:
将所述全局语音情感特征输入到随机森林算法中进行计算,预测得到所述语音的情感维度信息。
在上述方法的优选方案中,所述将所述全局语音情感特征与所述情感维度信息进行组合,其方法为:
将所述情感维度信息加入所述全局语音情感特征,增加所述全局语音情感特征的维度。
在上述方法的优选方案中,所述分类器为支持向量机分类器。
本发明的另一方面,提供了一种基于情感维度预测的离散语音情感识别装置,应用于语音情感识别系统,包括:
声学特征提取模块,用于提取语音的基本声学特征,并将所述基本声学特征组合为语音情感特征;
全局语音情感特征提取模块,用于对所述语音情感特征进行加窗处理,得到全局语音情感特征;
情感特征组合模块,用于根据所述全局语音情感特征,预测所述语音的情感维度信息,并将所述全局语音情感特征与所述情感维度信息进行组合,得到新的语音情感特征;
离散情感识别模块,用于将所述新的语音情感特征输入到分类器中进行离散语音情感识别,得到语音情感识别结果。
本发明的第三方面,提供了一种语音情感识别系统,包括上述所述的基于情感维度预测的离散语音情感识别装置。
本发明提供了一种基于情感维度预测的离散语音情感识别方法,应用于语音情感识别系统,包括提取语音的基本声学特征,并将基本声学特征组合为语音情感特征;对语音情感特征进行加窗处理,得到全局语音情感特征;根据全局语音情感特征,预测语音的情感维度信息,并将全局语音情感特征与情感维度信息进行组合,得到新的语音情感特征;将新的语音情感特征输入到分类器中进行离散语音情感识别,得到语音情感识别结果。
本领域技术人员能够理解的是,本发明通过从帧级水平上提取语音的各种声学特征,并以一定的窗长对声学特征进行统计回归,其中包括计算语音声学特征的最大值、最小值、均值、方差以及变化范围等等,得到固定维度的全局语音情感特征,通过将情感维度信息的预测结果加入到全局语音情感特征中,增加了语音情感特征的维度,并且能够结合情感维度信息描述细腻复杂的情感状态与离散情感信息易于直观理解的优点,从而提高了离散语音情感识别的准确率。
附图说明
图1为本发明一种实施例的基于情感维度预测的离散语音情感识别方法的流程示意图;
图2为本发明一种实施例的基于情感维度预测的离散语音情感识别装置的结构示意图。
具体实施方式
下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本发明的技术原理,并非旨在限制本发明的保护范围。
如图1所示,为本发明一种实施例的基于情感维度预测的离散语音情感识别方法的流程示意图,包括:
步骤S1:提取语音的基本声学特征,并将基本声学特征组合为语音情感特征;
在实际应用中,为了能够更好地体现出语音所包含的特征,往往采用多个参数来作为语音的基本声学特征,其中,基本的声学特征包括短时能量抖动、基音频率、过零率、0~12阶镁尔倒谱参数、语速、谐波噪声比、共振峰、发音帧数、不发音帧数、发音区域数、不发音区域数、最长发音时间、最长不发音时间等,通过将一系列基本的声学特征进行组合,能够采集到语音中不同类型和方面的参数,更加全面和系统地描述语音所要表达的情感状态,并形成语音情感特征,即最小描述子,便于后续的进一步操作和分析。
步骤S2:对语音情感特征进行加窗处理,得到全局语音情感特征;
在语音情感特征处理过程中,可以将语音情感特征地处理视为信号处理,基于计算机本身的性能以及出于对处理效率的考虑,计算机只处理有限长度的信号,因此要将原始信号以一定的采样时间截断,即有限化。通过对语音情感特征进行加窗处理,能够以一定的窗长对连续几帧的语音情感特征进行计算,可以包括上下文的时序信息,对全部的语音情感特征进行加窗处理后,则可以得到全局语音情感特征。通过对语音情感特征进行加窗处理,可以减少帧起始处和结束处信号地不连续问题,使全局语音情感特征更加连续,并且加窗处理后,可以使原本没有周期性的语音信号呈现出周期函数的部分特征,更加有利于后续的分析处理。
步骤S3:根据全局语音情感特征,预测语音的情感维度信息,并将全局语音情感特征与情感维度信息进行组合,得到新的语音情感特征;
在实际应用中,情感维度能够描述细腻复杂的情感状态,以PAD三维情感模型为例,PAD三维情感模型包括愉悦度、激活度以及优势度3个维度,其中,P代表愉悦度(Pleasure-displeasure),表示个体情感状态的正负特性;A代表激活度(Arousal-nonarousal),表示个体的神经生理激活水平;D代表优势度(Dominance-submissiveness),表示个体对情景和他人的控制状态。具体的,可以通过3个维度的值来表示具体的情感,如愤怒的坐标为(-0.51,0.59,0.25),各维度上的数值范围为-1到+1,其中,-1表示在此维度上的值低,+1表示在此维度上的值高。因此,情感维度能够很好地描述情感的主观体验以及其与情感的外部表现、生理唤醒具有较好的映射关系。
通过将维度信息与全局语音情感特征进行结合,可以增加语音情感特征的维度,从而从更多的维度描述语音的情感特征,提高了语音情感识别的准确率。
步骤S4:将新的语音情感特征输入到分类器中进行离散语音情感识别,得到语音情感识别结果。
具体地,分类器是指在已有数据的基础上,学会一个分类函数或者构造出一个分类模型,分类器是数据挖掘中对样本进行分类方法的统称,包括决策树、逻辑回归、朴素贝叶斯、神经网络等算法。通过将新的语音情感特征输入到分类器中并进行离散语音情感识别,可以将语音情感特征分为直观易于理解的情感,最终得到语音情感识别的结果。
本发明通过提取语音的各种声学特征,并以一定的窗长对声学特征进行统计回归,得到固定维度的全局语音情感特征,通过将情感维度信息的预测结果加入到全局语音情感特征中,增加了语音情感特征的维度,并且能够结合情感维度信息描述细腻复杂的情感状态与离散情感信息易于直观理解的优点,从而提高了离散语音情感识别的准确率。
作为一种优选的实施例,提取语音的基本声学特征,其方法为:
以帧为单位提取语音的基本声学特征,其中,基本声学特征包括能量、基频以及共振峰。
在实际应用中,需要对语音进行处理和分析,需要对语音进行分帧,将语音分为多个一小段,其中,每一段称为一帧。经过分帧后,语音波形在时域上没有描述能力,根据人耳的生理特性,可以将每一帧波形变换为一个多维向量,可以简单理解为该向量包含了每帧语音的内容信息。其中,基本的声学特征包括但不限于语音的能量、基频以及共振峰。基本声学特征多包含的参数越多,越能体现语音的情感信息。
作为一种优选的实施例,对语音情感特征进行加窗处理,得到全局语音情感特征,其方法为:
以长度为N的窗长对语音情感特征进行统计回归,得到固定维度的全局语音情感特征,其中,N为不小于1的正整数。
具体地,以一句时长为1秒的语音为例解释说明加窗处理的过程。设定帧长为0.01秒,实际操作中存在帧长和帧移,为方便理解,省去帧移,则该语音共有100帧,设定选取基频和能量的二维特征描述语音的情感特征,则时长为1秒的语音可以表示为100*2的矩阵,设定窗长为10帧,实际操作中会有窗长和窗移,为方便理解,省去窗移,通过计算最大值和最小值的统计回归方式,即,在每一维特征上每10帧计算语音的最大值和最小值,因此,二维特征总共有6个,最后得到固定维度的全局语音情感特征,用矩阵表示为10*6的矩阵。
作为一种优选的实施例,全局语音情感特征包括韵律、频谱以及音质。
在实际应用中,韵律特征主要包括音高、能量、基频以及时长等特征,具有较强的情感辨别能力;频谱特征主要包括线性谱特征和倒谱特征,其中,线性谱特征包括LPC(Linear Predictor Cofficient,线性预测系数)以及LFPC(Log-Frequency PowerCofficient,对数频率功率系数)等,倒谱特征包括MFCC(Mel-Frequency CepstralCofficient,频率倒谱系数)以及LPCC(Linear Predictor Cepstral Cofficient,线性预测倒谱系数)等;音质特征主要为呼吸声、明亮度以及共振峰等,音质特征与语音情感特征具有较强的相关性。因此,韵律、频谱以及音质能够在不同语段长度的语音中体现该语音的情感特征。
具体地,本发明的基本的声学特征与其对应的统计回归方式如表1所示:
表1基本的声学特征与其对应的统计回归方式
在实际应用中,可以根据具体的基本的声学特征选取与其对应的统计回归方式,保证对各个基本的声学特征的统计回归效果最好,最后组合而成的语音情感特征有利于后续的计算分析。
作为一种优选的实施例,预测语音的情感维度信息,其方法为:
将全局语音情感特征输入到随机森林算法中进行计算,预测得到语音的情感维度信息。
随机森林是一种机器学习模型,在变量的使用和数据的使用上进行随机化,生成大量的分类树,再汇总分类树的结果。随机森林顾名思义,是用随机的方式建立一个森林,森林由很多的决策树组成,随机森林的每一决策树之间没有关联,在得到森林之后,当有一个新的输入样本进入的时候,让森林中的每一决策树进行判断,判断该样本属于哪一类,并且根据被选择最多的一类,预测样本属于该类。随机森林算法具有众多优点,包括:在数据集上表现良好、良好的抗噪声能力、既能处理离散型数据也能处理连续性数据、训练速度快等。除了可以使用随机森林算法以外,还可以使用逻辑回归算法、支持向量机算法,这里不做限定。
作为一种优选的实施例,将全局语音情感特征与情感维度信息进行组合,其方法为:
将情感维度信息加入全局语音情感特征,增加全局语音情感特征的维度。
以三维情感模型为例,若提取的语音情感特征维度为30维,三维情感模型的维度为3维,则将预测得到的情感维度信息当做补充特征增加到全局语音情感特征中,最后得到的新的语音情感特征的维度为33维,通过情感维度信息来辅助离散情感识别,可以增加离散情感识别的准确率。
作为一种优选的实施例,分类器为支持向量机分类器。
支持向量机是一种分类算法,通过寻求结构化风险最小来提高学习机泛化能力,实现经验风险和置信范围的最小化,从而达到在统计样本量较少的情况下,亦能获得良好统计规律的目的,其基本模型定义为特征空间上间隔最大的线性分类器,即支持向量机的学习策略便是间隔最大化,最终可转化为一个凸二次规划问题的求解。除了可以采用支持向量机分类器以外,还可以采用逻辑回归算法、随机森林算法,在此不做限定。
本发明通过多次实验得到只使用基本的语音声学特征预测离散情感的实验结果以及使用基本的语音声学特征和情感维度信息相结合预测离散情感的实验结果。本发明获取由10名专业演员录制的语音,为进一步保证实验数据的可靠,10名专业演员中男女各5名,选取四类具有代表性的离散情感作为实验对象,其中包括生气、高兴、忧伤、中性,实验数据共有5531句,其中生气所占比例为20.0%,高兴所占比例为29.6%,忧伤所占比例为19.6%,中性所占比例为30.8%,同时采用逻辑回归算法、随机森林算法以及支持向量机算法三种算法进行横向对比,具体实验结果如表2、表3所示:
表2基本的语音声学特征预测离散情感的实验结果
正确率 逻辑回归 随机森林 支持向量机
0.537 0.566 0.546
表3基本的语音声学特征和情感维度信息相结合预测离散情感的实验结果
正确率 逻辑回归 随机森林 支持向量机
0.602 0.624 0.644
通过对比表2和表3,在采用三种不同算法的情况下,结合情感维度信息的离散情感识别的实验结果均高于只使用基本的语音声学特征预测离散情感的实验结果,可见,采用本发明的方法可以有效地提高离散情感识别的效果。
结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
如图2所示,为本发明一种实施例的基于情感维度预测的离散语音情感识别装置的结构示意图,本发明还提供了一种基于情感维度预测的离散语音情感识别装置,应用于语音情感识别系统,包括:
声学特征提取模块1,用于提取语音的基本声学特征,并将基本声学特征组合为语音情感特征;
全局语音情感特征提取模块2,用于对语音情感特征进行加窗处理,得到全局语音情感特征;
情感特征组合模块3,用于根据全局语音情感特征,预测语音的情感维度信息,并将全局语音情感特征与情感维度信息进行组合,得到新的语音情感特征;
离散情感识别模块4,用于将新的语音情感特征输入到分类器中进行离散语音情感识别,得到语音情感识别结果。
所属技术领域的技术人员可以清楚地了解到,为描述的方便和简洁,本发明实施例的基于情感维度预测的离散语音情感识别装置的具体工作过程及有关说明,可以参考前述基于情感维度预测的离散语音情感识别方法实施例中的对应过程,且与上述方法具有相同的有益效果,在此不再赘述。
本发明一种实施例的语音情感识别系统,包括上述所述的基于情感维度预测的离散语音情感识别装置。
所属技术领域的技术人员可以清楚地了解到,为描述的方便和简洁,本发明实施例的语音情感识别系统的具体工作过程及有关说明,可以参考前述上述基于情感维度预测的离散语音情感识别方法实施例中的对应过程,且与上述装置具有相同的有益效果,在此不再赘述。
本领域技术人员应该能够意识到,结合本文中所公开的实施例描述的各示例的方法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明电子硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征作出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims (9)

1.一种基于情感维度预测的离散语音情感识别方法,应用于语音情感识别系统,其特征在于,包括:
提取语音的基本声学特征,并将所述基本声学特征组合为语音情感特征;
对所述语音情感特征进行加窗处理,得到全局语音情感特征;
根据所述全局语音情感特征,预测所述语音的情感维度信息,并将所述全局语音情感特征与所述情感维度信息进行组合,得到新的语音情感特征;
将所述新的语音情感特征输入到分类器中进行离散语音情感识别,得到语音情感识别结果。
2.根据权利要求1所述的基于情感维度预测的离散语音情感识别方法,其特征在于,所述提取语音的基本声学特征,其方法为:
以帧为单位提取所述语音的基本声学特征,其中,所述基本声学特征包括能量、基频以及共振峰。
3.根据权利要求2所述的基于情感维度预测的离散语音情感识别方法,其特征在于,所述“对所述语音情感特征进行加窗处理,得到全局语音情感特征”,其方法为:
以长度为N的窗长对所述语音情感特征进行统计回归,得到固定维度的全局语音情感特征,其中,N为不小于1的正整数。
4.根据权利要求3所述的基于情感维度预测的离散语音情感识别方法,其特征在于,所述全局语音情感特征包括韵律、频谱以及音质。
5.根据权利要求1-4任一项所述的基于情感维度预测的离散语音情感识别方法,其特征在于,所述预测所述语音的情感维度信息,其方法为:
将所述全局语音情感特征输入到随机森林算法中进行计算,预测得到所述语音的情感维度信息。
6.根据权利要求5所述的基于情感维度预测的离散语音情感识别方法,其特征在于,所述将所述全局语音情感特征与所述情感维度信息进行组合,其方法为:
将所述情感维度信息加入所述全局语音情感特征,增加所述全局语音情感特征的维度。
7.根据权利要求6所述的基于情感维度预测的离散语音情感识别方法,其特征在于,所述分类器为支持向量机分类器。
8.一种基于情感维度预测的离散语音情感识别装置,应用于语音情感识别系统,其特征在于,包括:
声学特征提取模块,用于提取语音的基本声学特征,并将所述基本声学特征组合为语音情感特征;
全局语音情感特征提取模块,用于对所述语音情感特征进行加窗处理,得到全局语音情感特征;
情感特征组合模块,用于根据所述全局语音情感特征,预测所述语音的情感维度信息,并将所述全局语音情感特征与所述情感维度信息进行组合,得到新的语音情感特征;
离散情感识别模块,用于将所述新的语音情感特征输入到分类器中进行离散语音情感识别,得到语音情感识别结果。
9.一种语音情感识别系统,其特征在于,包括如权利要求8所述的基于情感维度预测的离散语音情感识别装置。
CN201710640201.1A 2017-07-31 2017-07-31 基于情感维度预测的离散语音情感识别方法、装置及系统 Active CN107633851B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710640201.1A CN107633851B (zh) 2017-07-31 2017-07-31 基于情感维度预测的离散语音情感识别方法、装置及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710640201.1A CN107633851B (zh) 2017-07-31 2017-07-31 基于情感维度预测的离散语音情感识别方法、装置及系统

Publications (2)

Publication Number Publication Date
CN107633851A true CN107633851A (zh) 2018-01-26
CN107633851B CN107633851B (zh) 2020-07-28

Family

ID=61099126

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710640201.1A Active CN107633851B (zh) 2017-07-31 2017-07-31 基于情感维度预测的离散语音情感识别方法、装置及系统

Country Status (1)

Country Link
CN (1) CN107633851B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108682431A (zh) * 2018-05-09 2018-10-19 武汉理工大学 一种pad三维情感空间中的语音情感识别方法
CN108806724A (zh) * 2018-08-15 2018-11-13 太原理工大学 一种情感语音pad值预测方法及系统
CN109036466A (zh) * 2018-08-01 2018-12-18 太原理工大学 面向情感语音识别的情感维度pad预测方法
CN109087628A (zh) * 2018-08-21 2018-12-25 广东工业大学 一种基于轨迹的时间-空间光谱特征的语音情感识别方法
CN109493886A (zh) * 2018-12-13 2019-03-19 西安电子科技大学 基于特征选择和优化的语音情感识别方法
CN111415680A (zh) * 2020-03-26 2020-07-14 心图熵动科技(苏州)有限责任公司 一种基于语音的焦虑预测模型的生成方法和焦虑预测系统
CN111710349A (zh) * 2020-06-23 2020-09-25 长沙理工大学 一种语音情感识别方法、系统、计算机设备和存储介质
CN112489687A (zh) * 2020-10-28 2021-03-12 深兰人工智能芯片研究院(江苏)有限公司 一种基于序列卷积的语音情感识别方法及装置
CN113347491A (zh) * 2021-05-24 2021-09-03 北京格灵深瞳信息技术股份有限公司 一种视频剪辑方法、装置、电子设备和计算机存储介质

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101261832A (zh) * 2008-04-21 2008-09-10 北京航空航天大学 汉语语音情感信息的提取及建模方法
CN102637433A (zh) * 2011-02-09 2012-08-15 富士通株式会社 识别语音信号中所承载的情感状态的方法和系统
KR20130022165A (ko) * 2011-08-25 2013-03-06 성균관대학교산학협력단 유사 정서 사용자집단의 감응치에 기반한 감정예측 방법 및 시스템
CN103198827A (zh) * 2013-03-26 2013-07-10 合肥工业大学 基于韵律特征参数和情感参数关联性的语音情感修正方法
US20130254287A1 (en) * 2011-11-05 2013-09-26 Abhishek Biswas Online Social Interaction, Education, and Health Care by Analysing Affect and Cognitive Features
US8645128B1 (en) * 2012-10-02 2014-02-04 Google Inc. Determining pitch dynamics of an audio signal
US20140257820A1 (en) * 2013-03-10 2014-09-11 Nice-Systems Ltd Method and apparatus for real time emotion detection in audio interactions
CN104835507A (zh) * 2015-03-30 2015-08-12 渤海大学 一种串并结合的多模式情感信息融合与识别方法
CN104835508A (zh) * 2015-04-01 2015-08-12 哈尔滨工业大学 一种用于混合语音情感识别的语音特征筛选方法
CN105469065A (zh) * 2015-12-07 2016-04-06 中国科学院自动化研究所 一种基于递归神经网络的离散情感识别方法
CN105609116A (zh) * 2015-12-23 2016-05-25 东南大学 一种语音情感维度区域的自动识别方法
US20160350801A1 (en) * 2015-05-29 2016-12-01 Albert Charles VINCENT Method for analysing comprehensive state of a subject

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101261832A (zh) * 2008-04-21 2008-09-10 北京航空航天大学 汉语语音情感信息的提取及建模方法
CN102637433A (zh) * 2011-02-09 2012-08-15 富士通株式会社 识别语音信号中所承载的情感状态的方法和系统
KR20130022165A (ko) * 2011-08-25 2013-03-06 성균관대학교산학협력단 유사 정서 사용자집단의 감응치에 기반한 감정예측 방법 및 시스템
US20130254287A1 (en) * 2011-11-05 2013-09-26 Abhishek Biswas Online Social Interaction, Education, and Health Care by Analysing Affect and Cognitive Features
US8645128B1 (en) * 2012-10-02 2014-02-04 Google Inc. Determining pitch dynamics of an audio signal
US20140257820A1 (en) * 2013-03-10 2014-09-11 Nice-Systems Ltd Method and apparatus for real time emotion detection in audio interactions
CN103198827A (zh) * 2013-03-26 2013-07-10 合肥工业大学 基于韵律特征参数和情感参数关联性的语音情感修正方法
CN104835507A (zh) * 2015-03-30 2015-08-12 渤海大学 一种串并结合的多模式情感信息融合与识别方法
CN104835508A (zh) * 2015-04-01 2015-08-12 哈尔滨工业大学 一种用于混合语音情感识别的语音特征筛选方法
US20160350801A1 (en) * 2015-05-29 2016-12-01 Albert Charles VINCENT Method for analysing comprehensive state of a subject
CN105469065A (zh) * 2015-12-07 2016-04-06 中国科学院自动化研究所 一种基于递归神经网络的离散情感识别方法
CN105609116A (zh) * 2015-12-23 2016-05-25 东南大学 一种语音情感维度区域的自动识别方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
HATICE GUNES等: "Categorical and dimensional affect analysis in continuous input: Current trends and future directions", 《IMAGE AND VISION COMPUTING》 *
PEREZ-ESPINOSA,H等: "Acoustic feature selection and classification of emotions in speech using a 3D continuous emotion model", 《BIOMEDICAL SIGNAL PROCESSING&CONTROL》 *
TAO JIANHUA等: "Prosody conversion from neutral speech to emotional speech", 《IEEE TRANSACTIONS ON AUDIO SPEECH AND LANGUAGE PROCESSING》 *
宋静: "《中国优秀硕士学位论文全文数据库 信息科技辑》", 15 August 2016, 中国学术期刊(光盘版)电子杂志社 *
宋静等: "基于PAD情绪模型的情感语音识别", 《微电子学与计算机》 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108682431A (zh) * 2018-05-09 2018-10-19 武汉理工大学 一种pad三维情感空间中的语音情感识别方法
CN108682431B (zh) * 2018-05-09 2021-08-03 武汉理工大学 一种pad三维情感空间中的语音情感识别方法
CN109036466A (zh) * 2018-08-01 2018-12-18 太原理工大学 面向情感语音识别的情感维度pad预测方法
CN109036466B (zh) * 2018-08-01 2022-11-29 太原理工大学 面向情感语音识别的情感维度pad预测方法
CN108806724A (zh) * 2018-08-15 2018-11-13 太原理工大学 一种情感语音pad值预测方法及系统
CN109087628A (zh) * 2018-08-21 2018-12-25 广东工业大学 一种基于轨迹的时间-空间光谱特征的语音情感识别方法
CN109493886A (zh) * 2018-12-13 2019-03-19 西安电子科技大学 基于特征选择和优化的语音情感识别方法
CN111415680A (zh) * 2020-03-26 2020-07-14 心图熵动科技(苏州)有限责任公司 一种基于语音的焦虑预测模型的生成方法和焦虑预测系统
CN111710349A (zh) * 2020-06-23 2020-09-25 长沙理工大学 一种语音情感识别方法、系统、计算机设备和存储介质
CN112489687A (zh) * 2020-10-28 2021-03-12 深兰人工智能芯片研究院(江苏)有限公司 一种基于序列卷积的语音情感识别方法及装置
CN112489687B (zh) * 2020-10-28 2024-04-26 深兰人工智能芯片研究院(江苏)有限公司 一种基于序列卷积的语音情感识别方法及装置
CN113347491A (zh) * 2021-05-24 2021-09-03 北京格灵深瞳信息技术股份有限公司 一种视频剪辑方法、装置、电子设备和计算机存储介质

Also Published As

Publication number Publication date
CN107633851B (zh) 2020-07-28

Similar Documents

Publication Publication Date Title
CN107633851A (zh) 基于情感维度预测的离散语音情感识别方法、装置及系统
Yadav et al. Survey on machine learning in speech emotion recognition and vision systems using a recurrent neural network (RNN)
CN109817246A (zh) 情感识别模型的训练方法、情感识别方法、装置、设备及存储介质
CN109859772B (zh) 情绪识别方法、装置及计算机可读存储介质
CN104538024B (zh) 语音合成方法、装置及设备
CN108197115A (zh) 智能交互方法、装置、计算机设备和计算机可读存储介质
Pawar et al. Convolution neural network based automatic speech emotion recognition using Mel-frequency Cepstrum coefficients
Kaleem et al. Pathological speech signal analysis and classification using empirical mode decomposition
Swain et al. Study of feature combination using HMM and SVM for multilingual Odiya speech emotion recognition
Noroozi et al. Supervised vocal-based emotion recognition using multiclass support vector machine, random forests, and adaboost
Elbarougy et al. Cross-lingual speech emotion recognition system based on a three-layer model for human perception
Deb et al. Fourier model based features for analysis and classification of out-of-breath speech
Elbarougy et al. Speech emotion recognition system based on a dimensional approach using a three-layered model
Zbancioc et al. A study about the automatic recognition of the anxiety emotional state using Emo-DB
Dendukuri et al. Emotional speech analysis and classification using variational mode decomposition
Vasuki et al. Hierarchical classifier design for speech emotion recognition in the mixed-cultural environment
Tarng et al. Applications of support vector machines on smart phone systems for emotional speech recognition
Frühholz et al. The effect of narrow-band transmission on recognition of paralinguistic information from human vocalizations
CN116959464A (zh) 音频生成网络的训练方法、音频生成方法以及装置
Shchetinin et al. Deep neural networks for emotion recognition
Zhang et al. A new fuzzy cognitive map learning algorithm for speech emotion recognition
Bojanić et al. Application of dimensional emotion model in automatic emotional speech recognition
CN113327631A (zh) 一种情感识别模型的训练方法、情感识别方法及装置
Powroznik et al. Scalogram as a representation of emotional speech
Mohino et al. Detection of emotions and stress through speech analysis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20190505

Address after: 310000 Room 1105, 11/F, Building 4, No. 9, Jiuhuan Road, Jianggan District, Hangzhou City, Zhejiang Province

Applicant after: Limit element (Hangzhou) intelligent Polytron Technologies Inc

Address before: 100080 No. 95 East Zhongguancun Road, Beijing, Haidian District

Applicant before: Institute of Automation, Chinese Academy of Sciences

GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder
CP01 Change in the name or title of a patent holder

Address after: 310000 Room 1105, 11/F, Building 4, No. 9, Jiuhuan Road, Jianggan District, Hangzhou City, Zhejiang Province

Patentee after: Zhongke extreme element (Hangzhou) Intelligent Technology Co., Ltd

Address before: 310000 Room 1105, 11/F, Building 4, No. 9, Jiuhuan Road, Jianggan District, Hangzhou City, Zhejiang Province

Patentee before: Limit element (Hangzhou) intelligent Polytron Technologies Inc.