CN102655003A - 基于声道调制信号mfcc的汉语语音情感点识别方法 - Google Patents

基于声道调制信号mfcc的汉语语音情感点识别方法 Download PDF

Info

Publication number
CN102655003A
CN102655003A CN2012100763070A CN201210076307A CN102655003A CN 102655003 A CN102655003 A CN 102655003A CN 2012100763070 A CN2012100763070 A CN 2012100763070A CN 201210076307 A CN201210076307 A CN 201210076307A CN 102655003 A CN102655003 A CN 102655003A
Authority
CN
China
Prior art keywords
emotion
data
signal
speaker
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2012100763070A
Other languages
English (en)
Other versions
CN102655003B (zh
Inventor
毛峡
魏鹏飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
Original Assignee
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University filed Critical Beihang University
Priority to CN2012100763070A priority Critical patent/CN102655003B/zh
Publication of CN102655003A publication Critical patent/CN102655003A/zh
Application granted granted Critical
Publication of CN102655003B publication Critical patent/CN102655003B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明提出了一种可以提高情感点平均识别率的方法,该方法为:制定电声门图情感数据和语音数据库规范;收集电声门图情感数据和语音数据;对收集的数据进行主观评测,选出其中一套数据子集作为研究对象。对数据子集中的电声门图信号和语音信号进行预处理,并提取语音信号中的短时特征及相应的统计特征和MEL倒谱系数SMFCC;再将电声门图信号和语音信号进行快速傅里叶变换后相除,计算相除后得到的声道信息的MEL倒谱系数TMFCC。分别用不同的特征组合进行实验,求解说话人相关和说话人无关时28个情感点在不同特征组合下的平均识别率。实验结果表明采用TMFCC特征组合可以提高情感点平均识别率。

Description

基于声道调制信号MFCC的汉语语音情感点识别方法
(一)技术领域:
本发明涉及一种基于声道调制信号MFCC的用于提高汉语语音情感点平均识别率的方法,属于信息技术领域。 
(二)背景技术:
语音情感识别是从语音信号中提取说话人的情感状态。根据语音激励调制模型,语音信号的产生包括声门激励和声道调制两部分。声门激励决定了语音韵律变化,对语音情感识别具有重要作用。声道调制主要决定了说话内容,每种元音对应不同的共振峰,反映不同的声道形状信息。汉语是有调语音,大部分音节由声母和韵母构成,相同声母和韵母构成的音节随声调的不同具有不同的意义也表达着不同的情感。汉语中的声调有5种,包括:阴平,阳平,上声,去声及轻声。在众多的音节中,有一些音节和情感密切相关,称这些音节为“情感点”,其特点是持续时间短但包含丰富的情感信息,如“啊”之类的感叹词以及“哈哈”之类的语气词。通过分析整句语音中情感点所代表的情感可有助于得到整句语音的情感状态。 
通过直接对语音数据进行特征提取,然后训练,建模,识别得到的情感点平均识别率低,本发明提出了一种提高汉语语音情感点平均识别率的方法。 
(三)发明内容:
本发明的目的在于提供一种提高情感点平均识别率的方法,通过电声门图信号直接提取说话人的声门激励,再利用声门激励和声道调制的卷积关系提取语音中的声道调制信息,从中获得MEL倒谱系数作为特征参数训练隐马尔科夫模型进行识别以提高情感点平均识别率。 
本发明基于声道调制信号MFCC提出了一种提高汉语语音情感点平均识别率的方法,其流程图见图1:其中 
1.汉语声门激励信息和语音信息提取,其步骤如下: 
步骤1:制定语音数据库规范; 
选择10名发音人员,年龄20至30周岁,职业为学生,其中包括5名女性,5名男性;选择28个常用的没有明显情感倾向的汉语普通话感叹词作为情感点用于录音脚本; 
步骤2:收集电声门图数据和情感语音数据; 
步骤2.1:录音地点为一间空旷的实验室,录制时间选择在晚上,录音设备采用DELL OPTIPLEX 330电脑,TIGEX-EGG3电声门图仪,BE-8800驻极体电容式麦克风,录音软件采用的是GOLDWAVE,录制双声道数据,左声道为麦克风采集的语音数据,右声道为电声门图仪采集的声门激励数据; 
步骤2.2:请说话者以指定的情感朗读所有录音脚本,重复3遍,并请说话者对录制语音进行个人评价,如符合本人的表达意愿,则将结果保存为采样率44100Hz,16Bit双声道PCM编码格式的WAV文件,否则重复步骤2.2; 
步骤2.3:更换说话者重复步骤2.2,得到10名说话者的电声门图数据和语音数据各840条,其中情感点“啊”的语音数据和电声门图数据如图2; 
步骤3:获得最终实验数据; 
邀请10位评测者对2.3中得到的电声门图数据和语音数据进行评测,据评测结果,从数据全集中选择1套数据子集,该数据子集中的电声门图数据和语音数据至少被7人正确识别,该子集包括3男2女共5名说话者的电声门图数据和语音数据各420条。 
2.结合声门激励信息和语音信息的情感点建模与识别,其步骤如下: 
步骤1:对语音信号进行特征提取; 
步骤1.1:对选取的数据子集中的电声门图信号和语音信号进行预处理操作,包括采样与量化,预加重,分帧与加窗,经过预处理过程,电声门图信号和语音信号被分割为短时信号; 
步骤1.2:对预处理过的语音信号计算短时特征参数,包括:基频,短时能量,自相关密度,分形维数,4阶共振峰,并计算这些短时特征参数的统计特征,包括:最大值,最小值,均值,均方值,峰度,偏度; 
步骤2:结合电声门图信号和语音信号提取SMFCC与TMFCC; 
步骤2.1:对预处理过的语音信号计算10阶MEL倒谱系数,记为SMFCC; 
步骤2.2:对预处理过的电声门图信号和语音信号分别进行快速傅里叶变 换,并对转换到频域的电声门图信号和语音信号进行能量归一化,然后用归一化的语音信号除以归一化的电声门图信号,并对结果求取10阶MEL倒谱系数,记为TMFCC,其详细求解方法如下: 
首先对语音信号和电声门图信号做FFT,分别记为F1(k)与F2(k): 
F 1 ( k ) = | | Σ i = 1 N x ( n ) × e - i 2 πk n N | | - - - ( 1 )
F 2 ( k ) = | | Σ i = 1 N y ( n ) × e - i 2 πk n N | | - - - ( 2 )
其中x(n)表示输入语音信号,y(n)表示输入电声门图信号,N为语音信号帧长(1024)。再利用频域相除得到声道调制信息,记为F3(k): 
F 3 ( k ) = F 1 ( k ) F 2 ( k ) - - - ( 3 )
求F3(k)平方,即能量谱,并用一组三角形滤波器在频域对能量进行带通滤波。这组带通滤波器的中心频率是按Mel频率刻度均匀排列的(间隔150Mel,带宽300Mel),每个三角形滤波器的两个底点的频率分别等于相邻的两个滤波器的中心频率,即每两个相邻的滤波器的过渡带互相搭接,且频率响应之和为1。滤波器的个数通常和临界带数相近,设滤波器数为M,滤波后得到的输出为:X(k),k=1,2,…M。 
再次,对滤波器组的输出取对数,然后作2M点逆傅里叶变换即可得到TMFCC。由于对称性,此变换式可简化为: 
C n = Σ k = 1 M log X ( k ) cos [ π ( k - 0.5 ) n / M ] , n = 1,2 , · · · L - - - ( 4 )
步骤3:利用步骤1和步骤2中得到的特征参数进行训练建模与识别; 
步骤3.1:对步骤1和步骤2中得到的所有特征参数利用LBG算法进行聚类量化; 
步骤3.2:进行说话人相关的对比实验,选取基频,短时能量,自相关密度,分形维数,4阶共振峰及相应的最大值,最小值,均值,均方值,峰度,偏 度构成语音信号特征组合,对于每一个情感点,任意选取5名说话者的两遍数据的语音信号特征组合和SMFCC进行训练建模,得到28个训练完成的隐马尔科夫模型,并对剩余的一遍数据进行识别,得到每个情感点的识别率P1和所有情感点的平均识别率AP1; 
步骤3.3:选取基频,短时能量,自相关密度,分形维数,4阶共振峰及相应的最大值,最小值,均值,均方值,峰度,偏度构成的语音信号特征组合和TMFCC重复步骤3.2中的实验,得到每个情感点的识别率P2和所有情感点的平均识别率AP2; 
步骤3.4:对比步骤3.2和步骤3.3中得到的P1与P2,AP1与AP2,总结结论,实验结果如图3和表1所示; 
表1 
Figure BDA0000145550240000041
步骤3.5:进行说话人无关的对比实验,选取基频,短时能量,自相关密度,分形维数,4阶共振峰及相应的最大值,最小值,均值,均方值,峰度,偏度构成语音信号特征组合,对于每一个情感点,任意选取4名说话者的三遍数据的语音信号特征组合和SMFCC进行训练建模,得到28个训练完成的隐马尔科夫模型,对剩余1名说话者的三遍数据进行识别,得到每个情感点的识别率P3和所有情感点的平均识别率AP3; 
步骤3.6:选取基频,短时能量,自相关密度,分形维数,4阶共振峰及相应的最大值,最小值,均值,均方值,峰度,偏度构成的语音信号特征组合和TMFCC重复步骤3.5中的实验得到每个情感点的识别率P4和所有情感点的平均识别率AP4; 
步骤3.7:对比步骤3.5和步骤3.6中得到的P3与P4,AP3与AP4,总结结论,实验结果表2所示; 
表2 
Figure BDA0000145550240000051
本发明的积极效果和优点在于: 
1.首先建立了电声门图和语音情感数据库,包含10名说话者(5男5女),共840条电声门图情感语音数据,并对数据库中的情感点进行了主观评测,筛选出最符合实验要求的数据子集。 
2.利用电声门图信号和语音信号分离出声道调制信息,并求出相应的MEL倒谱系数作为特征参数训练隐马尔科夫模型,提高了语音情感点的平均识别率。 
(四)附图说明:
图1利用电声门图信号和语音信号进行特征提取,训练模型并识别情感点流程图; 
图2情感点“啊”的电声门图数据和语音数据的波形图; 
图3说话人相关时分别使用SMFCC特征组合和TMFCC特征组合时的情感点识别率对比组图; 
(五)具体实施方式:
下面结合附图,对本发明所述的技术方案作进一步阐述。 
图1是利用电声门图信号和语音信号进行特征提取,训练模型并识别情感点的流程图,主要分为两部分:汉语语音情感点的获取和汉语语音情感点的识别。 
一、汉语语音情感点的获取,该方法步骤如下: 
步骤1.制定情感语音数据库录制规范,具体规则如下; 
(1)说话人:年龄在20~25岁之间,文化程度为大学本科,人数为5男5女共10人。 
(2)说话内容:选取28个感叹词作为情感点,实验时对每个情感点进行3遍录音。 
(3)情感分类:生气,高兴,悲伤,惊讶,恐惧,嫌恶。 
(4)录音实验规范: 
a.天气:选择温度和湿度分别为24度和50%左右的室内环境中进行录制,保证天气条件的连续性,并记录温度和湿度数据。
b.录音环境:录音实验在实验室进行,录音选择在晚上,尽量避免干扰。 
c.录音设备:DELL OPTIPLEX 330电脑,TIGEX-EGG3电声门图仪。 
d.录音软件:采用GOLDWAVE完成录音及音频文件的剪辑。 
e.录音格式:采样率为44100Hz,双通道、16Bit量化,格式为WAV,一个声道为电声门图数据,另一声道为音频数据。 
(5)样本文件保存格式 
录音样本文件格式: 
a.情感点编号_说话人性别_说话人编号_录音种类_录音次数编号。 
b.情感点编号对应于上表,为01~28。 
c.说话人性别(M,F),其中M是male(男性)的首字母,F是female(女性)的首字母。 
d.说话人编号为01~10。 
e录音次数编号为1~3。 
步骤2.收集电声门图情感数据和语音数据 
步骤2.1:进行语音情感诱导。给予录音者录音脚本和情感类别,并给出和情感类别相联系的语境诱导录音。 
步骤2.2:进行录制;具体包括如下步骤: 
步骤2.2.1:录音地点为一间空旷的实验室,录音时将门窗紧闭,录制时间选择在晚上,录音设备采用DELL OPTIPLEX 330电脑,TIGEX-EGG3电声门图仪,BE-8800驻极体电容式麦克风,录音软件采用的是GOLDWAVE,录制双声道数据,左声道为麦克风采集的语音数据,右声道为电声门图仪采集的声门激励数据,录音时只有操作者和说话者在场,保持室内安静; 
步骤2.2.2:记录说话者的个人信息及录音场地的温度、湿度等环境参数,并请说话者以最高音量发音,调整声卡增益以及麦克风和说话者嘴部距离,保证语音波形和电声门图波形不会出现削顶; 
步骤2.2.3:请说话者以指定的情感朗读所有录音脚本,重复3遍; 
步骤2.2.4:请说话者对录制语音进行个人评价,如符合本人的表达意愿,则将结果保存为采样率44100Hz,16Bit双声道PCM编码格式的WAV文件,否则重复步骤2.3; 
步骤2.2.5:更换说话者重复步骤2.3和步骤2.4,得到10名说话者电声门图数据和语音数据各840条。 
步骤3:获得最终实验数据; 
邀请10位评测者对2.3中得到的电声门图数据和语音数据进行评测,据评测结果,从数据全集中选择1套数据子集,该数据子集中的电声门图数据和语音数据至少被7人正确识别,该子集包括3男2女共5名说话者的电声门图数据和语音数据各420条。 
二、结合声门激励信息和语音信息的汉语语音情感点建模与识别,该方法步骤如下: 
步骤1:对语音信号进行特征提取; 
步骤1.1:对选取的数据子集中的电声门图信号和语音信号进行预处理操作,包括采样与量化,预加重,分帧与加窗,经过预处理过程,电声门图信号和语音信号被分割为短时信号; 
步骤1.2:对预处理过的语音信号计算短时特征参数,包括:基频,短时能量,自相关密度,分形维数,4阶共振峰,并计算这些短时特征参数的统计特征,包括:最大值,最小值,均值,均方值,峰度,偏度; 
步骤2:结合电声门图信号和语音信号提取SMFCC与TMFCC; 
步骤2.1:对预处理过的语音信号计算10阶MEL倒谱系数,记为SMFCC; 
步骤2.2:对预处理过的电声门图信号和语音信号分别进行快速傅里叶变换,并对转换到频域的电声门图信号和语音信号进行能量归一化,然后用归一化的语音信号除以归一化的电声门图信号,并对结果求取10阶MEL倒谱系数,记为TMFCC,其详细求解方法如下: 
首先对语音信号和电声门图信号做FFT,分别记为F1(k)与F2(k):: 
F 1 ( k ) = | | Σ N i = 1 x ( n ) × e - i 2 πk n N | | - - - ( 1 )
F 2 ( k ) = | | Σ i = 1 N y ( n ) × e - i 2 πk n N | | - - - ( 2 )
其中x(n)表示输入语音信号,y(n)表示输入电声门图信号,N为语音信号帧长(1024)。再利用频域相除得到声道调制信息,记为F3(k): 
F 3 ( k ) = F 1 ( k ) F 2 ( k ) - - - ( 3 )
求F3(k)平方,即能量谱,并用一组三角形滤波器在频域对能量进行带通滤波。这组带通滤波器的中心频率是按Mel频率刻度均匀排列的(间隔150Mel,带宽300Mel),每个三角形滤波器的两个底点的频率分别等于相邻的两个滤波器的中心频率,即每两个相邻的滤波器的过渡带互相搭接,且频率响应之和为1。滤波器的个数通常和临界带数相近,设滤波器数为M,滤波后得到的输出为:X(k),k=1,2,…M。 
再次,对滤波器组的输出取对数,然后作2M点逆傅里叶变换即可得到TMFCC。由于对称性,此变换式可简化为: 
C n = Σ k = 1 M log X ( k ) cos [ π ( k - 0.5 ) n / M ] , b = 1,2 , · · · L - - - ( 4 )
步骤3:利用步骤1和步骤2中得到的特征参数进行训练建模与识别; 
步骤3.1:对步骤1和步骤2中得到的所有特征参数利用LBG算法进行聚类量化; 
步骤3.2:进行说话人相关的对比实验,选取基频,短时能量,自相关密度,分形维数,4阶共振峰及相应的最大值,最小值,均值,均方值,峰度,偏度构成语音信号特征组合,对于每一个情感点,任意选取5名说话者的两遍数据的语音信号特征组合和SMFCC进行训练建模,得到28个训练完成的隐马尔科夫模型,并对剩余的一遍数据进行识别,得到每个情感点的识别率P1和所有情感点的平均识别率AP1; 
步骤3.3:选取基频,短时能量,自相关密度,分形维数,4阶共振峰及相应的最大值,最小值,均值,均方值,峰度,偏度构成的语音信号特征组合和 TMFCC重复步骤3.2中的实验,得到每个情感点的识别率P2和所有情感点的平均识别率AP2; 
步骤3.4:对比步骤3.2和步骤3.3中得到的P1与P2,AP1与AP2后可得到以下结论:在说话人相关对比实验中,利用TMFCC特征组合求得的情感点平均识别率比利用SMFCC特征组合求得的情感点平均识别率高出14.08%,因此利用TMFCC特征组合可以提高情感点的平均识别率; 
步骤3.5:进行说话人无关的对比实验,选取基频,短时能量,自相关密度,分形维数,4阶共振峰及相应的最大值,最小值,均值,均方值,峰度,偏度构成语音信号特征组合,对于每一个情感点,任意选取4名说话者的三遍数据的语音信号特征组合和SMFCC进行训练建模,得到28个训练完成的隐马尔科夫模型,对剩余1名说话者的三遍数据进行识别,得到每个情感点的识别率P3和所有情感点的平均识别率AP3; 
步骤3.6:选取基频,短时能量,自相关密度,分形维数,4阶共振峰及相应的最大值,最小值,均值,均方值,峰度,偏度构成的语音信号特征组合和TMFCC重复步骤3.5中的实验得到每个情感点的识别率P4和所有情感点的平均识别率AP4; 
步骤3.7:对比步骤3.5和步骤3.6中得到的P3与P4,AP3与AP4后可得到以下结论:在说话人无关对比实验中,利用TMFCC特征组合求得的情感点平均识别率比利用SMFCC特征组合求得的情感点平均识别率高出7.19%,因此利用TMFCC特征组合可以提高情感点的平均识别率。 

Claims (2)

1.汉语声门激励信息和语音信息提取,其步骤如下:
步骤1:制定语音数据库规范;
选择10名发音人员,年龄20至30周岁,职业为学生,其中包括5名女性,5名男性;选择28个常用的没有明显情感倾向的汉语普通话感叹词作为情感点用于录音脚本;
步骤2:收集电声门图数据和情感语音数据;
步骤2.1:录音地点为一间空旷的实验室,录制时间选择在晚上,录音设备采用DELLOPTIPLEX 330电脑,TIGEX-EGG3电声门图仪,BE-8800驻极体电容式麦克风,录音软件采用的是GOLDWAVE,录制双声道数据,左声道为麦克风采集的语音数据,右声道为电声门图仪采集的声门激励数据;
步骤2.2:请说话者以指定的情感朗读所有录音脚本,重复3遍,并请说话者对录制语音进行个人评价,如符合本人的表达意愿,则将结果保存为采样率44100Hz,16Bit双声道PCM编码格式的WAV文件,否则重复步骤2.2;
步骤2.3:更换说话者重复步骤2.2,得到10名说话者的电声门图数据和语音数据各840条;
步骤3:邀请10位评测者对2.3中得到的电声门图数据和语音数据进行评测,据评测结果,从数据全集中选择1套数据子集,该数据子集中的电声门图数据和语音数据至少被7人正确识别,该子集包括3男2女共5名说话者的电声门图数据和语音数据各420条。
2.结合声门激励信息和语音信息的情感点建模与识别,其步骤如下:
步骤1:对语音信号进行特征提取;
步骤1.1:对选取的数据子集中的电声门图信号和语音信号进行预处理操作,包括采样与量化,预加重,分帧与加窗,经过预处理过程,电声门图信号和语音信号被分割为短时信号;
步骤1.2:对预处理过的语音信号计算短时特征参数,包括:基频,短时能量,自相关密度,分形维数,4阶共振峰,并计算这些短时特征参数的统计特征,包括:最大值,最小值,均值,均方值,峰度,偏度;
步骤2:结合电声门图信号和语音信号提取SMFCC与TMFCC;
步骤2.1:对预处理过的语音信号计算10阶MEL倒谱系数,记为SMFCC;
步骤2.2:对预处理过的电声门图信号和语音信号分别进行快速傅里叶变换,并对转换到频域的电声门图信号和语音信号进行能量归一化,然后用归一化的语音信号除以归一化的电声门图信号,并对结果求取10阶MEL倒谱系数,记为TMFCC;
步骤3:利用步骤1和步骤2中得到的特征参数进行训练建模与识别;
步骤3.1:对步骤1和步骤2中得到的所有特征参数利用LBG算法进行聚类量化;
步骤3.2:进行说话人相关的对比实验,选取基频,短时能量,自相关密度,分形维数,4阶共振峰及相应的最大值,最小值,均值,均方值,峰度,偏度构成语音信号特征组合,对于每一个情感点,任意选取5名说话者的两遍数据的语音信号特征组合和SMFCC进行训练建模,得到28个训练完成的隐马尔科夫模型,并对剩余的一遍数据进行识别,得到每个情感点的识别率P1和所有情感点的平均识别率AP1;
步骤3.3:选取基频,短时能量,自相关密度,分形维数,4阶共振峰及相应的最大值,最小值,均值,均方值,峰度,偏度构成的语音信号特征组合和TMFCC重复步骤3.2中的实验,得到每个情感点的识别率P2和所有情感点的平均识别率AP2;
步骤3.4:对比步骤3.2和步骤3.3中得到的P1与P2,AP1与AP2,总结结论;
步骤3.5:进行说话人无关的对比实验,选取基频,短时能量,自相关密度,分形维数,4阶共振峰及相应的最大值,最小值,均值,均方值,峰度,偏度构成语音信号特征组合,对于每一个情感点,任意选取4名说话者的三遍数据的语音信号特征组合和SMFCC进行训练建模,得到28个训练完成的隐马尔科夫模型,对剩余1名说话者的三遍数据进行识别,得到每个情感点的识别率P3和所有情感点的平均识别率AP3;
步骤3.6:选取基频,短时能量,自相关密度,分形维数,4阶共振峰及相应的最大值,最小值,均值,均方值,峰度,偏度构成的语音信号特征组合和TMFCC重复步骤3.5中的实验得到每个情感点的识别率P4和所有情感点的平均识别率AP4;
步骤3.7:对比步骤3.5和步骤3.6中得到的P3与P4,AP3与AP4,总结结论。
CN2012100763070A 2012-03-21 2012-03-21 基于声道调制信号mfcc的汉语语音情感点识别方法 Expired - Fee Related CN102655003B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2012100763070A CN102655003B (zh) 2012-03-21 2012-03-21 基于声道调制信号mfcc的汉语语音情感点识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2012100763070A CN102655003B (zh) 2012-03-21 2012-03-21 基于声道调制信号mfcc的汉语语音情感点识别方法

Publications (2)

Publication Number Publication Date
CN102655003A true CN102655003A (zh) 2012-09-05
CN102655003B CN102655003B (zh) 2013-12-04

Family

ID=46730623

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2012100763070A Expired - Fee Related CN102655003B (zh) 2012-03-21 2012-03-21 基于声道调制信号mfcc的汉语语音情感点识别方法

Country Status (1)

Country Link
CN (1) CN102655003B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102930870A (zh) * 2012-09-27 2013-02-13 福州大学 利用抗噪幂归一化倒谱系数的鸟类声音识别方法
CN103584859A (zh) * 2012-08-13 2014-02-19 泰亿格电子(上海)有限公司 一种电声门图仪
CN104851421A (zh) * 2015-04-10 2015-08-19 北京航空航天大学 语音处理方法及装置
CN105810205A (zh) * 2014-12-29 2016-07-27 中国移动通信集团公司 一种语音处理方法及装置
CN108198562A (zh) * 2018-02-05 2018-06-22 中国农业大学 一种用于实时定位辨识动物舍内异常声音的方法及系统
CN109473106A (zh) * 2018-11-12 2019-03-15 平安科技(深圳)有限公司 声纹样本采集方法、装置、计算机设备及存储介质
CN110121633A (zh) * 2016-12-29 2019-08-13 三星电子株式会社 用于通过使用谐振器来识别说话者的方法及设备
CN110189767A (zh) * 2019-04-30 2019-08-30 上海大学 一种基于双声道音频的录制移动设备检测方法
CN113611326A (zh) * 2021-08-26 2021-11-05 中国地质大学(武汉) 一种实时语音情感识别方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007017853A1 (en) * 2005-08-08 2007-02-15 Nice Systems Ltd. Apparatus and methods for the detection of emotions in audio interactions
CN101261832A (zh) * 2008-04-21 2008-09-10 北京航空航天大学 汉语语音情感信息的提取及建模方法
EP1981021A1 (fr) * 2007-04-13 2008-10-15 France Telecom Procede d'estimation de l'etat mental d'une personne
EP2028647A1 (de) * 2007-08-24 2009-02-25 Deutsche Telekom AG Verfahren und Vorrichtung zur Sprecherklassifizierung

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007017853A1 (en) * 2005-08-08 2007-02-15 Nice Systems Ltd. Apparatus and methods for the detection of emotions in audio interactions
EP1981021A1 (fr) * 2007-04-13 2008-10-15 France Telecom Procede d'estimation de l'etat mental d'une personne
EP2028647A1 (de) * 2007-08-24 2009-02-25 Deutsche Telekom AG Verfahren und Vorrichtung zur Sprecherklassifizierung
CN101261832A (zh) * 2008-04-21 2008-09-10 北京航空航天大学 汉语语音情感信息的提取及建模方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
付丽琴等: "基于改进的排序式选举算法的语音情感融合识别", 《计算机应用》, 28 February 2009 (2009-02-28) *
黄程韦等: "实用语音情感的特征分析与识别的研究", 《电子与信息学报》, 31 January 2011 (2011-01-31) *

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103584859A (zh) * 2012-08-13 2014-02-19 泰亿格电子(上海)有限公司 一种电声门图仪
CN103584859B (zh) * 2012-08-13 2015-10-21 上海泰亿格康复医疗科技股份有限公司 一种电声门图仪
CN102930870B (zh) * 2012-09-27 2014-04-09 福州大学 利用抗噪幂归一化倒谱系数的鸟类声音识别方法
CN102930870A (zh) * 2012-09-27 2013-02-13 福州大学 利用抗噪幂归一化倒谱系数的鸟类声音识别方法
CN105810205A (zh) * 2014-12-29 2016-07-27 中国移动通信集团公司 一种语音处理方法及装置
CN104851421A (zh) * 2015-04-10 2015-08-19 北京航空航天大学 语音处理方法及装置
CN104851421B (zh) * 2015-04-10 2018-08-17 北京航空航天大学 语音处理方法及装置
US11341973B2 (en) 2016-12-29 2022-05-24 Samsung Electronics Co., Ltd. Method and apparatus for recognizing speaker by using a resonator
CN110121633A (zh) * 2016-12-29 2019-08-13 三星电子株式会社 用于通过使用谐振器来识别说话者的方法及设备
US11887606B2 (en) 2016-12-29 2024-01-30 Samsung Electronics Co., Ltd. Method and apparatus for recognizing speaker by using a resonator
CN108198562A (zh) * 2018-02-05 2018-06-22 中国农业大学 一种用于实时定位辨识动物舍内异常声音的方法及系统
CN109473106A (zh) * 2018-11-12 2019-03-15 平安科技(深圳)有限公司 声纹样本采集方法、装置、计算机设备及存储介质
CN109473106B (zh) * 2018-11-12 2023-04-28 平安科技(深圳)有限公司 声纹样本采集方法、装置、计算机设备及存储介质
CN110189767B (zh) * 2019-04-30 2022-05-03 上海大学 一种基于双声道音频的录制移动设备检测方法
CN110189767A (zh) * 2019-04-30 2019-08-30 上海大学 一种基于双声道音频的录制移动设备检测方法
CN113611326A (zh) * 2021-08-26 2021-11-05 中国地质大学(武汉) 一种实时语音情感识别方法及装置
CN113611326B (zh) * 2021-08-26 2023-05-12 中国地质大学(武汉) 一种实时语音情感识别方法及装置

Also Published As

Publication number Publication date
CN102655003B (zh) 2013-12-04

Similar Documents

Publication Publication Date Title
CN102655003B (zh) 基于声道调制信号mfcc的汉语语音情感点识别方法
CN102893326B (zh) 结合情感点的汉语语音情感提取及建模方法
CN102231278B (zh) 实现语音识别中自动添加标点符号的方法及系统
CN101261832B (zh) 汉语语音情感信息的提取及建模方法
CN102411932B (zh) 结合声门激励和声道调制信息的汉语语音情感提取及建模方法
CN104835498A (zh) 基于多类型组合特征参数的声纹识别方法
CN102982803A (zh) 基于hrsf及改进dtw算法的孤立词语音识别方法
CN102332263A (zh) 一种基于近邻原则合成情感模型的说话人识别方法
Murugappan et al. DWT and MFCC based human emotional speech classification using LDA
CN100543840C (zh) 基于情感迁移规则及语音修正的说话人识别方法
Chauhan et al. Speech to text converter using Gaussian Mixture Model (GMM)
CN109584904A (zh) 应用于基础音乐视唱教育的视唱音频唱名识别建模方法
CN110136746B (zh) 一种基于融合特征的加性噪声环境下手机来源识别方法
Eray et al. An application of speech recognition with support vector machines
Lanjewar et al. Speech emotion recognition: a review
Aroon et al. Speaker recognition system using Gaussian Mixture model
CN102750950B (zh) 结合声门激励和声道调制信息的汉语语音情感提取及建模方法
Verma et al. An Acoustic Analysis of Speech for Emotion Recognition using Deep Learning
Bansal et al. Emotional Hindi speech: Feature extraction and classification
Kumar et al. Text dependent speaker identification in noisy environment
Shan et al. Speaker identification under the changed sound environment
Ziółko et al. Combination of Fourier and wavelet transformations for detection of speech emotions
Suwannakhun et al. Characterizing Depressive Related Speech with MFCC
Prajapati et al. Feature extraction of isolated gujarati digits with mel frequency cepstral coefficients (mfccs)
Bansod et al. Speaker Recognition using Marathi (Varhadi) Language

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20131204

Termination date: 20140321