CN102411932A - 结合声门激励和声道调制信息的汉语语音情感提取及建模方法 - Google Patents

结合声门激励和声道调制信息的汉语语音情感提取及建模方法 Download PDF

Info

Publication number
CN102411932A
CN102411932A CN 201110301307 CN201110301307A CN102411932A CN 102411932 A CN102411932 A CN 102411932A CN 201110301307 CN201110301307 CN 201110301307 CN 201110301307 A CN201110301307 A CN 201110301307A CN 102411932 A CN102411932 A CN 102411932A
Authority
CN
China
Prior art keywords
speech
emotion
glottogram
recording
frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN 201110301307
Other languages
English (en)
Other versions
CN102411932B (zh
Inventor
毛峡
陈立江
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
Original Assignee
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University filed Critical Beihang University
Priority to CN 201110301307 priority Critical patent/CN102411932B/zh
Publication of CN102411932A publication Critical patent/CN102411932A/zh
Application granted granted Critical
Publication of CN102411932B publication Critical patent/CN102411932B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明一种结合声门激励和声道调制信息的汉语语音情感提取及建模方法,该汉语声门激励信息的提取方法为:制定电声门图情感语音数据库规范;收集电声门图情感语音数据;电声门图情感语音主观评测,即由至少十名评测者对电声门图情感语音进行评测。结合声门激励和声道调制信息的汉语情感建模方法为:首先根据电声门图提取声门激励信息;其次根据电声门图和语音信号的关系提取语音信号中的声道调制信息;最后,利用所有备选特征的Fisher比率为每种情感选择合适的情感特征,并训练一对多支持向量机模型。本发明通过电声门图信号提取声门激励信息,将语音信号中的声门激励信息和声道调制信息分离,更准确的反映语音中的情感信息。

Description

结合声门激励和声道调制信息的汉语语音情感提取及建模方法
(一)技术领域:
本发明涉及一种结合声门激励和声道调制信息的汉语语音情感提取及建模方法,属于信息技术领域。
(二)背景技术:
语音信号中包含有说话内容、说话人身份以及说话人的情感状态等信息,语音情感识别是从语音信号中提取说话人的情感状态。根据语音的激励调制模型,语音信号由声门激励和声道调制两部分组成。声门激励决定了语音韵律变化,对语音情感识别具有重要作用。例如,当说话人情绪激动时,语音信号基频均值会升高,基频变化范围会增加;当说话人表示疑问时,句子基频曲线上扬部分会增加。声门激励也包含了部分说话人身份信息,不同说话人在平静状态下的基频分布范围是不同的,但是该区别常因情感状态的改变而被屏蔽掉。另外,在有调语言中,例如汉语,声调的变化还和语义相关。声道调制主要决定了说话内容,每种元音对应不同的共振峰,反映不同的声道形状信息。不同说话人的声道形状(声道长度、声道截面积)是有区别的,该区别同样反映在声道调制的效果上。另外,当说话人的情绪状态发生改变时,即使在说同一内容,声道形状也会有所改变,该变化会导致语音能量的频域分布发生改变。可见语音中的说话内容、说话人身份以及说话人的情感状态之间的关系非常复杂。
在本发明之前,研究者主要采用各种信号处理方法从语音信号中提取声门激励和声道调制信息,由于算法本身的限制,无法做到声门激励和声道调制信息的完全分离。
(三)发明内容:
本发明的目的就在于解决上述背景技术中的缺陷,通过电声门图信号直接提取说话人的声门激励,再利用声门激励和声道调制的卷积关系提取语音中的声道调制信息,做到二者的完全分离,进行汉语语音情感识别。
本发明一种结合声门激励和声道调制信息的汉语语音情感提取及建模方法:其中
汉语声门激励信息的提取方法,其步骤如下:
步骤1:制定电声门图情感语音数据库规范;
步骤1.1:选择20名发音人员,年龄20至30周岁,职业为学生,其中包括10名女性,10名男性;
步骤1.2:选择20句没有明显情感倾向的汉语普通话语句作为录音脚本,平均每句脚本包含6.95个汉字,最少3个字(快点干),最多12个字(我在论文上看到你的名字了);
步骤1.3:文件名包含文件编号、情感类别、录音人性别、获取方式、语言类别、录音人编号、语音语句编号、录音语句次数标识等信息;
步骤2:收集电声门图情感语音数据;
步骤2.1:录音地点为一间空旷的实验室,录音时将门窗紧闭,录制时间选择在晚上,录音设备采用DELL OPTIPLEX 330电脑,TIGEX-EGG3电声门图仪,BE-8800驻极体电容式麦克风,录音软件采用的是GoldWave,录制双声道数据,左声道为麦克风采集的语音数据,右声道为电声门图仪采集的声门激励数据,录音时只有操作者和说话者在场,保持室内安静;
步骤2.2:记录说话者的个人信息及录音场地的温度、湿度等环境参数,并请说话者以最高音量发音,调整声卡增益以及麦克风与说话者嘴部距离,保证语音波形和电声门图波形不会出现削顶;
步骤2.3:请说话者以指定的情感朗读所有录音脚本,重复3遍;
步骤2.4:请说话者对录制语音进行个人评价,如符合本人的表达意愿,则将结果保存为采样率11025Hz,16Bit双声道PCM编码格式的WAV文件,否则重复步骤2.3;
步骤2.5:采用GoldWave软件对步骤2.4得到的语音文件进行拆分,得到60条电声门图情感语音数据;
步骤2.6:请说话者以悲伤、愤怒、惊奇、恐惧、喜悦、厌恶以及平静的情感重复步骤2.3至步骤2.5,得到420条电声门图情感语音数据;
步骤2.7:更换说话者重复步骤2.3至步骤2.6,得到20名说话者,包括10男10女,共8400条电声门图情感语音数据;
步骤3:设计基于.NET平台的网络情感点评测系统,邀请10位以上评测者对按照随机顺序播放的电声门图情感语音进行评测,据评测结果,从全部语音集中选择4套语音子集,其中每套语音子集中的语音被至少有p%的人正确识别(p=70,80,90和100);
结合声门激励和声道调制信息的汉语情感建模方法,其步骤如下:
步骤1:结合电声门图和语音信号进行浊音段、清音段和静音段划分;
步骤1.1:对电声门图信号进行带通滤波,然后对电声门图情感语音数据库中的电声门图和语音信号进行分帧处理,帧长256个采样点,帧移128个采样点;
步骤1.2:分别提取所有电声门图数据帧的对数能量Eegg和语音信号数据帧的对数能量Espeech,根据Eegg的统计结果设定阈值th0,根据Espeech的统计结果设定th1和th2
步骤1.3:若某数据帧Eegg大于th0并且Espeech大于th2,则该数据帧为浊音,若某数据帧不是浊音并且Espeech大于th1,则该数据帧为清音,其余数据帧为静音;
步骤2:提取浊音的声门激励信息;
步骤2.1:计算各浊音段持续时长的频数直方图,并对该频数直方图横纵坐标归一化之后取对数,以浊音段归一化对数持续时长为自变量,以持续时长的归一化对数频数为因变量,进行一元线性回归分析,得到浊音段持续时长频数的双对数分布参数;
步骤2.2:计算各浊音帧的基频,依照步骤2.1的方法分别计算基频曲线上升段和下降段的持续时长频数的双对数分布参数;
步骤3:提取浊音和清音的声道调制信息;
步骤3.1:对浊音帧的电声门图和语音信号进行快速傅立叶变换,对转换到频域的电声门图和语音信号进行能量归一化,利用频域相除法,将频域归一化语音信号与频域归一化电声门图信号相除,计算所得结果的10阶MEL频率倒谱系数、前3个共振峰、5个MEL子带能量、频谱质心、截止频率等基本特征及其对时间的一阶差分和二阶差分,并计算所有基本特征和差分特征的最大值、最小值、均值、标准差、峰度、偏度等衍生参数;
步骤3.2:计算清音的10阶MEL频率倒谱系数、前3个共振峰、5个MEL子带能量、频谱质心、截止频率等基本特征及其对时间的一阶差分和二阶差分,并计算所有基本特征和差分特征的最大值、最小值、均值、标准差、峰度、偏度等衍生参数;
步骤4:根据步骤1至步骤3得到的声门激励和声道调制特征参数建立六种情感支持向量机一对多分类模型;
步骤4.1:以电声门图情感语音数据库为基础,计算步骤1至步骤3提取的每种特征的6个Fisher比率,每个Fisher比率对应一种情感;
步骤4.2:根据步骤4.1得到的Fisher比率的排序选择适用于每种支持向量机模型的特征参数,为每种情感训练一对多支持向量机模型。
本发明的积极效果和优点在于:
1.首先建立了电声门图情感语音数据库,包含20名说话者(10男10女),共8400条电声门图情感语音数据,并为数据库中的情感语句进行了主观评测。
2.分别从电声门图和语音信号出发,彻底分离了声门激励和声道调制信息,提高了语音情感识别对说话内容和说话人身份信息的鲁棒性。
(四)附图附表说明:
图1结合声门激励和声调调制的汉语语音情感点的提取及识别方法流程图;
图2电声门图和语音数据的波形图;
图3清音浊音静音划分阈值的选定示意图;
图4浊音段持续时长频数的双对数分布参数;
图5基频曲线上升段和下降段的持续时长频数的双对数分布参数。
(五)具体实施方式:
下面结合附图,对本发明所述的技术方案作进一步阐述。
如图1所示,是结合声门激励和声调调制的汉语语音情感点的提取及识别方法流程图,主要分为两部分:汉语语音情感点的提取方法和汉语语音情感点的识别方法。
一、汉语语声门激励信息的提取方法,该方法步骤如下:
步骤1.制定电声门图情感语音数据库规范;
在语音库的整个制作过程中的每一步都应该遵从特定的规范,包括发音人规范、录音脚本设计规范、录音规范、音频文件命名规范及实验记录规范等。具体涉及到的制作规范和含义如表1所示。
Figure BDA0000094731410000051
表1
发音人规范:选择20名发音人员,年龄20至30周岁,职业为学生,其中包括10名女性,10名男性;
实验用录音脚本的选择主要考虑以下3个方面:1)、所选择的语句必须不包含某一方面的情感倾向;2)、必须具有较高的情感自由度,对同一个语句能施加各种情感进行分析比较;3)、是口语化的陈述句;
根据上述原则,我们选择了如表2所示的20个短句作为录音脚本。
Figure BDA0000094731410000052
Figure BDA0000094731410000061
表2
为了便于录音人表达语音情感,我们设计了情景上下文来辅助录音人来诱发情感。录音脚本的情景上下文直接关系到录音者的情感表达,它的设计标准如下:
1)、情景上下文必须符合录音者自身的心理环境或情感经历;
2)、情景上下文必须有鲜明的情感语义,并且是常用的口语化语言;
3)、情景上下文不宜过长;
例如我们选出了某文本句子以及相关的情景上下文,如下表3所示。
Figure BDA0000094731410000062
表3
为了方便情感语音数据的组织和检索,对单个情感语音的重要特征有直观的描述,我们设计了情感语音文件的命名规则。情感语音文件和语音原始特征文件都必须按照命名规则进行命名,文件命名规则如下表4所示.文件名由9位字符组成,分成7部分。
Figure BDA0000094731410000072
表4
1)、情感类别:情感类别标识占据1个字符,由情感类型拼音的第一个小写字母组成,b:悲伤;f:愤怒;j:惊奇;k:恐惧;x:喜悦;y:厌恶;p:平静。
2)、录音人性别:语音信号随说话人的性别不同,声学特征有着明显的差异。性别标识占据1个字符,F:女性;M:男性。
3)、获取方式:情感语音获取方式的不同使得它们在研究中的作用不同,获取方式分为2种,0为录音法,1为剪辑法。
4)、语言类别:C为中文,E为英文,为以后的情感语音数据上作了准备。
5)、录音人编号:我们对录音人信息加以记录并编号,根据现有录音人规模,录音人标示占据2个数字,范围从01~99。
6)、录音文本编号:我们将情感语音文本记录下来,并加以编号,根据现有语音文本的规模,录音文本标识占据2个数字,范围从01~99。
7)、录音次数:标识了一个录音文本一类情感表达的次数,占据1个数字,范围为1~9。
步骤2.收集电声门图情感语音数据
首先,进行语音情感诱导。语音情感的真实度可以分为自然、半自然和模仿3个等级。我们采用了以下的诱发方法:
导演给定录音脚本和情感类别,录音者随意联想后录音;导演给录音者描述真实的脚本场景,然后录音;导演给出相应的录音脚本范例,录音者听后进行模仿发音录音。这几种方法依次进行,情感的真实度会相对越来越差。因此我们在录音中从上面第一种方法开始诱发,一旦能录制符合要求的情感语音,即结束此人的录音。如果失败则启用第二种方法,以此类推,尽可能录制到情感真实度高的语音。
其次,进行录制;具体包括如下步骤:
步骤2.1:录音地点为一间空旷的实验室,录音时将门窗紧闭,录制时间选择在晚上,录音设备采用DELL OPTIPLEX 330电脑,TIGEX-EGG3电声门图仪,BE-8800驻极体电容式麦克风,录音软件采用的是GoldWave,录制双声道数据,左声道为麦克风采集的语音数据,右声道为电声门图仪采集的声门激励数据,录音时只有操作者和说话者在场,保持室内安静;
步骤2.2:记录说话者的个人信息及录音场地的温度、湿度等环境参数,并请说话者以最高音量发音,调整声卡增益以及麦克风与说话者嘴部距离,保证语音波形和电声门图波形不会出现削顶;
步骤2.3:请说话者以指定的情感朗读所有录音脚本,重复3遍;
步骤2.4:请说话者对录制语音进行个人评价,如符合本人的表达意愿,则将结果保存为采样率11025Hz,16Bit双声道PCM编码格式的WAV文件,否则重复步骤2.3;
步骤2.5:采用GoldWave软件对步骤2.4得到的语音文件进行拆分,得到60条电声门图情感语音数据;
步骤2.6:请说话者以悲伤、愤怒、惊奇、恐惧、喜悦、厌恶以及平静的情感重复步骤2.3至步骤2.5,得到420条电声门图情感语音数据;
步骤2.7:更换说话者重复步骤2.3至步骤2.6,得到20名说话者,包括10男10女,共8400条电声门图情感语音数据;
步骤3.电声门图情感语音主观评测
设计基于.NET平台的网络情感点评测系统,邀请10位以上评测者对按照随机顺序播放的电声门图情感语音进行评测,据评测结果,从全部语音集中选择4套语音子集,其中每套语音子集中的语音被至少有p%的人正确识别(p=70,80,90和100);
二、结合声门激励和声道调制信息的汉语情感建模方法,该方法步骤如下:
步骤1:结合电声门图和语音信号进行浊音段、清音段和静音段划分;
电声门图反映了声带的振动信息,但由于说话人的吞咽动作或说话时喉部肌肉动作会造成电极间的电阻发生改变,该变化也被电声门图仪记录下来,图2显示了男声“啊,你可真伟大呀”的电声门图和语音数据的波形图。
步骤1.1:对电声门图信号进行带通滤波,削弱肌肉运动对电声门图的干扰,然后对电声门图情感语音数据库中的电声门图和语音信号进行分帧处理,帧长256个采样点,帧移128个采样点;
步骤1.2:分别提取所有电声门图数据帧的对数能量Eegg和语音信号数据帧的对数能量Espeech。根据概率论中的大数定律,足够大量的无声段和有声段的能量均服从高斯分布,如图3所示。根据Eegg的统计结果设定阈值th0,根据Espeech的统计结果设定th1和th2
步骤1.3:若某数据帧Eegg大于th0并且Espeech大于th2,则该数据帧为浊音,若某数据帧不是浊音并且Espeech大于th1,则该数据帧为清音,其余数据帧为静音;
步骤2:提取浊音的声门激励信息;
步骤2.1:计算各浊音段持续时长的频数直方图,并对该频数直方图横纵坐标归一化之后取对数,以浊音段归一化对数持续时长为自变量,以持续时长的归一化对数频数为因变量,进行一元线性回归分析,得到浊音段持续时长频数的双对数分布参数,如图4所示;
步骤2.2:计算各浊音帧的基频,依照步骤2.1的方法分别计算基频曲线上升段和下降段的持续时长频数的双对数分布参数,如图5所示;
步骤3:提取浊音和清音的声道调制信息;
步骤3.1:对浊音帧的电声门图和语音信号进行快速傅立叶变换,对转换到频域的电声门图和语音信号进行能量归一化,利用频域相除法,将频域归一化语音信号与频域归一化电声门图信号相除,计算所得结果的10阶MEL频率倒谱系数、前3个共振峰、5个MEL子带能量、频谱质心、截止频率等基本特征及其对时间的一阶差分和二阶差分,并计算所有基本特征和差分特征的最大值、最小值、均值、标准差、峰度、偏度等衍生参数;
基频、能量、过零率、共振峰都属于传统的语音特征,其中能量和基频反应语音的低频韵律特性,过零率和共振峰反应高频信息。
频谱质心与频谱截止频率反映了语音信号的频率分布特性,均属于音质特征。首先对每帧数据进行快速Fourier变换:
F ( k ) = | | Σ i - 1 N x ( n ) × e - i 2 πk n N | | ( k = 1,2 , . . . N ) - - - ( 1 )
其中F(k)表示第k个频率点的幅值,x(n)表示输入语音信号,N为语音信号帧长(1024)。频谱质心Fcent定义为:
F cent = ( Σ k = 1 N / 2 k × F ( k ) ) / ( Σ j = 1 N / 2 F ( j ) ) - - - ( 2 )
频谱截止频率Fcut是指某一频率点,满足:
( Σ k = 1 F cut F ( k ) ) / ( Σ j = 1 N / 2 F ( j ) ) = 0.85 - - - ( 3 )
步骤3.2:计算清音的10阶MEL频率倒谱系数、前3个共振峰、5个MEL子带能量、频谱质心、截止频率等基本特征及其对时间的一阶差分和二阶差分,并计算所有基本特征和差分特征的最大值、最小值、均值、标准差、峰度、偏度等衍生参数;
步骤4:根据步骤1至步骤3得到的声门激励和声道调制特征参数建立六种情感支持向量机一对多分类模型;
Fisher准则是一种传统的线性判别方法,其基本原理是寻找特征空间的某个投影子空间,使得所有特征点在该子空间得到最好的分类。设样本集X={x1,x2,…,xn}中共有n个样本,分C类,每个样本xi均为L维列向量,定义类间离散度Sb和类内离散度Sw分别为:
S b = 1 n Σ j = 1 C n j ( m j - m ) ( m j - m ) T - - - ( 4 )
S w = 1 n Σ j = 1 C Σ x i ∈ X j ( m i - m j ) ( m i - m j ) T - - - ( 5 )
其中xj、nj和mj分别为第j类样本的子集、总个数和均值点,m为所有样本的均值点。
Fisher比率定义为:
Fr=diag(Sb./Sw)                (6)
其中符号“./”表示矩阵的对应元素分别相除,函数diag取矩阵对角线上的元素。Fr为L维列向量,其中每个元素反映了对应特征的二分类能力。
步骤4.1:以电声门图情感语音数据库为基础,计算步骤1至步骤3提取的每种特征的6个Fisher比率,每个Fisher比率对应一种情感;
步骤4.2:根据步骤4.1得到的Fisher比率的排序选择适用于每种支持向量机模型的特征参数,为每种情感训练一对多支持向量机模型。

Claims (2)

1.汉语声门激励信息的提取方法,其步骤如下:
步骤1:制定电声门图情感语音数据库规范;
步骤1.1:选择20名发音人员,年龄20至30周岁,职业为学生,其中包括10名女性,10名男性;
步骤1.2:选择20句没有明显情感倾向的汉语普通话语句作为录音脚本,平均每句脚本包含6.95个汉字,最少3个字(快点干),最多12个字(我在论文上看到你的名字了);
步骤1.3:文件名包含文件编号、情感类别、录音人性别、获取方式、语言类别、录音人编号、语音语句编号、录音语句次数标识等信息;
步骤2:收集电声门图情感语音数据;
步骤2.1:录音地点为一间空旷的实验室,录音时将门窗紧闭,录制时间选择在晚上,录音设备采用DELL OPTIPLEX 330电脑,TIGEX-EGG3电声门图仪,BE-8800驻极体电容式麦克风,录音软件采用的是GoldWave,录制双声道数据,左声道为麦克风采集的语音数据,右声道为电声门图仪采集的声门激励数据,录音时只有操作者和说话者在场,保持室内安静;
步骤2.2:记录说话者的个人信息及录音场地的温度、湿度等环境参数,并请说话者以最高音量发音,调整声卡增益以及麦克风与说话者嘴部距离,保证语音波形和电声门图波形不会出现削顶;
步骤2.3:请说话者以指定的情感朗读所有录音脚本,重复3遍;
步骤2.4:请说话者对录制语音进行个人评价,如符合本人的表达意愿,则将结果保存为采样率11025Hz,16Bit双声道PCM编码格式的WAV文件,否则重复步骤2.3;
步骤2.5:采用GoldWave软件对步骤2.4得到的语音文件进行拆分,得到60条电声门图情感语音数据;
步骤2.6:请说话者以悲伤、愤怒、惊奇、恐惧、喜悦、厌恶以及平静的情感重复步骤2.3至步骤2.5,得到420条电声门图情感语音数据;
步骤2.7:更换说话者重复步骤2.3至步骤2.6,得到20名说话者,包括10男10女,共8400条电声门图情感语音数据;
步骤3:设计基于.NET平台的网络情感点评测系统,邀请10位以上评测者对按照随机顺序播放的电声门图情感语音进行评测,据评测结果,从全部语音集中选择4套语音子集,其中每套语音子集中的语音被至少有p%的人正确识别(p=70,80,90和100);
2.结合声门激励和声道调制信息的汉语情感建模方法,其步骤如下:
步骤1:结合电声门图和语音信号进行浊音段、清音段和静音段划分;
步骤1.1:对电声门图信号进行带通滤波,然后对电声门图情感语音数据库中的电声门图和语音信号进行分帧处理,帧长256个采样点,帧移128个采样点;
步骤1.2:分别提取所有电声门图数据帧的对数能量Eegg和语音信号数据帧的对数能量Espeech,根据Eegg的统计结果设定阈值th0,根据Espeech的统计结果设定th1和th2
步骤1.3:若某数据帧Eegg大于th0并且Espeech大于th2,则该数据帧为浊音,若某数据帧不是浊音并且Espeech大于th1,则该数据帧为清音,其余数据帧为静音;
步骤2:提取浊音的声门激励信息;
步骤2.1:计算各浊音段持续时长的频数直方图,并对该频数直方图横纵坐标归一化之后取对数,以浊音段归一化对数持续时长为自变量,以持续时长的归一化对数频数为因变量,进行一元线性回归分析,得到浊音段持续时长频数的双对数分布参数;
步骤2.2:计算各浊音帧的基频,依照步骤2.1的方法分别计算基频曲线上升段和下降段的持续时长频数的双对数分布参数;
步骤3:提取浊音和清音的声道调制信息;
步骤3.1:对浊音帧的电声门图和语音信号进行快速傅立叶变换,对转换到频域的电声门图和语音信号进行能量归一化,利用频域相除法,将频域归一化语音信号与频域归一化电声门图信号相除,计算所得结果的10阶MEL频率倒谱系数、前3个共振峰、5个MEL子带能量、频谱质心、截止频率等基本特征及其对时间的一阶差分和二阶差分,并计算所有基本特征和差分特征的最大值、最小值、均值、标准差、峰度、偏度等衍生参数;
步骤3.2:计算清音的10阶MEL频率倒谱系数、前3个共振峰、5个MEL子带能量、频谱质心、截止频率等基本特征及其对时间的一阶差分和二阶差分,并计算所有基本特征和差分特征的最大值、最小值、均值、标准差、峰度、偏度等衍生参数;
步骤4:根据步骤1至步骤3得到的声门激励和声道调制特征参数建立六种情感支持向量机一对多分类模型;
步骤4.1:以电声门图情感语音数据库为基础,计算步骤1至步骤3提取的每种特征的6个Fisher比率,每个Fisher比率对应一种情感;
步骤4.2:根据步骤4.1得到的Fisher比率的排序选择适用于每种支持向量机模型的特征参数,为每种情感训练一对多支持向量机模型。
CN 201110301307 2011-09-30 2011-09-30 结合声门激励和声道调制信息的汉语语音情感提取及建模方法 Expired - Fee Related CN102411932B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 201110301307 CN102411932B (zh) 2011-09-30 2011-09-30 结合声门激励和声道调制信息的汉语语音情感提取及建模方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 201110301307 CN102411932B (zh) 2011-09-30 2011-09-30 结合声门激励和声道调制信息的汉语语音情感提取及建模方法

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN201210211283.5A Division CN102750950B (zh) 2011-09-30 2011-09-30 结合声门激励和声道调制信息的汉语语音情感提取及建模方法

Publications (2)

Publication Number Publication Date
CN102411932A true CN102411932A (zh) 2012-04-11
CN102411932B CN102411932B (zh) 2012-12-19

Family

ID=45913985

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 201110301307 Expired - Fee Related CN102411932B (zh) 2011-09-30 2011-09-30 结合声门激励和声道调制信息的汉语语音情感提取及建模方法

Country Status (1)

Country Link
CN (1) CN102411932B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103584859A (zh) * 2012-08-13 2014-02-19 泰亿格电子(上海)有限公司 一种电声门图仪
CN103690195A (zh) * 2013-12-11 2014-04-02 西安交通大学 一种电声门图同步的超声喉动态镜系统及其控制方法
CN104732981A (zh) * 2015-03-17 2015-06-24 北京航空航天大学 一种结合电声门图的汉语语音情感数据库的语音标注方法
CN104851421A (zh) * 2015-04-10 2015-08-19 北京航空航天大学 语音处理方法及装置
CN108154888A (zh) * 2017-12-26 2018-06-12 四川沐迪圣科技有限公司 一种基于语音特征的可穿戴设备监测心理健康方法
CN108154879A (zh) * 2017-12-26 2018-06-12 广西师范大学 一种基于倒谱分离信号的非特定人语音情感识别方法
CN109473106A (zh) * 2018-11-12 2019-03-15 平安科技(深圳)有限公司 声纹样本采集方法、装置、计算机设备及存储介质
CN111602194A (zh) * 2018-09-30 2020-08-28 微软技术许可有限责任公司 语音波形生成
CN113889148A (zh) * 2020-07-02 2022-01-04 正定仁运诚医药科技有限责任公司 一种基于语调识别情绪的方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2447263A (en) * 2007-03-05 2008-09-10 Cereproc Ltd Adding and controlling emotion within synthesised speech
KR20090063202A (ko) * 2009-05-29 2009-06-17 포항공과대학교 산학협력단 감정 인식 장치 및 방법
CN101620853A (zh) * 2008-07-01 2010-01-06 邹采荣 一种基于改进模糊矢量量化的语音情感识别方法
CN101620852A (zh) * 2008-07-01 2010-01-06 邹采荣 一种基于改进二次判别式的语音情感识别方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2447263A (en) * 2007-03-05 2008-09-10 Cereproc Ltd Adding and controlling emotion within synthesised speech
CN101620853A (zh) * 2008-07-01 2010-01-06 邹采荣 一种基于改进模糊矢量量化的语音情感识别方法
CN101620852A (zh) * 2008-07-01 2010-01-06 邹采荣 一种基于改进二次判别式的语音情感识别方法
KR20090063202A (ko) * 2009-05-29 2009-06-17 포항공과대학교 산학협력단 감정 인식 장치 및 방법

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103584859B (zh) * 2012-08-13 2015-10-21 上海泰亿格康复医疗科技股份有限公司 一种电声门图仪
CN103584859A (zh) * 2012-08-13 2014-02-19 泰亿格电子(上海)有限公司 一种电声门图仪
CN103690195A (zh) * 2013-12-11 2014-04-02 西安交通大学 一种电声门图同步的超声喉动态镜系统及其控制方法
CN104732981A (zh) * 2015-03-17 2015-06-24 北京航空航天大学 一种结合电声门图的汉语语音情感数据库的语音标注方法
CN104732981B (zh) * 2015-03-17 2018-01-12 北京航空航天大学 一种结合电声门图的汉语语音情感数据库的语音标注方法
CN104851421B (zh) * 2015-04-10 2018-08-17 北京航空航天大学 语音处理方法及装置
CN104851421A (zh) * 2015-04-10 2015-08-19 北京航空航天大学 语音处理方法及装置
CN108154888A (zh) * 2017-12-26 2018-06-12 四川沐迪圣科技有限公司 一种基于语音特征的可穿戴设备监测心理健康方法
CN108154879A (zh) * 2017-12-26 2018-06-12 广西师范大学 一种基于倒谱分离信号的非特定人语音情感识别方法
CN108154879B (zh) * 2017-12-26 2021-04-09 广西师范大学 一种基于倒谱分离信号的非特定人语音情感识别方法
CN111602194A (zh) * 2018-09-30 2020-08-28 微软技术许可有限责任公司 语音波形生成
US11869482B2 (en) 2018-09-30 2024-01-09 Microsoft Technology Licensing, Llc Speech waveform generation
CN109473106A (zh) * 2018-11-12 2019-03-15 平安科技(深圳)有限公司 声纹样本采集方法、装置、计算机设备及存储介质
CN109473106B (zh) * 2018-11-12 2023-04-28 平安科技(深圳)有限公司 声纹样本采集方法、装置、计算机设备及存储介质
CN113889148A (zh) * 2020-07-02 2022-01-04 正定仁运诚医药科技有限责任公司 一种基于语调识别情绪的方法

Also Published As

Publication number Publication date
CN102411932B (zh) 2012-12-19

Similar Documents

Publication Publication Date Title
CN102411932B (zh) 结合声门激励和声道调制信息的汉语语音情感提取及建模方法
CN101261832B (zh) 汉语语音情感信息的提取及建模方法
CN102893326B (zh) 结合情感点的汉语语音情感提取及建模方法
Sinith et al. Emotion recognition from audio signals using Support Vector Machine
Kandali et al. Emotion recognition from Assamese speeches using MFCC features and GMM classifier
CN102655003B (zh) 基于声道调制信号mfcc的汉语语音情感点识别方法
CN102332263B (zh) 一种基于近邻原则合成情感模型的说话人识别方法
Pao et al. Mandarin emotional speech recognition based on SVM and NN
Shaw et al. Emotion recognition and classification in speech using artificial neural networks
Chauhan et al. Speech to text converter using Gaussian Mixture Model (GMM)
CN114550706A (zh) 基于深度学习的智慧校园语音识别方法
CN102750950B (zh) 结合声门激励和声道调制信息的汉语语音情感提取及建模方法
Haque et al. Modification of energy spectra, epoch parameters and prosody for emotion conversion in speech
Qadri et al. A critical insight into multi-languages speech emotion databases
Farooq et al. Mispronunciation detection in articulation points of Arabic letters using machine learning
Chaudhari et al. Methodology for gender identification, classification and recognition of human age
Bansal et al. Emotional Hindi speech: Feature extraction and classification
Gautam et al. Developmental pattern analysis and age prediction by extracting speech features and applying various classification techniques
Lee et al. Speech emotion recognition using spectral entropy
Dumpala et al. Analysis of the Effect of Speech-Laugh on Speaker Recognition System.
Rupasinghe et al. Robust Speech Analysis Framework Using CNN
ChinnaRao et al. Emotion recognition system based on skew gaussian mixture model and MFCC coefficients
He et al. Emotion recognition in spontaneous speech within work and family environments
Agrima et al. Emotion recognition based on the energy distribution of plosive syllables
Zheng et al. The Extraction Method of Emotional Feature Based on Children's Spoken Speech

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20121219

Termination date: 20140930

EXPY Termination of patent right or utility model