CN107492384B - 一种基于模糊最近邻算法的语音情感识别方法 - Google Patents

一种基于模糊最近邻算法的语音情感识别方法 Download PDF

Info

Publication number
CN107492384B
CN107492384B CN201710577204.5A CN201710577204A CN107492384B CN 107492384 B CN107492384 B CN 107492384B CN 201710577204 A CN201710577204 A CN 201710577204A CN 107492384 B CN107492384 B CN 107492384B
Authority
CN
China
Prior art keywords
nearest neighbor
method based
emotion recognition
recognition method
emotional
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710577204.5A
Other languages
English (en)
Other versions
CN107492384A (zh
Inventor
袁家政
刘宏哲
龚灵杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Union University
Original Assignee
Beijing Union University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Union University filed Critical Beijing Union University
Priority to CN201710577204.5A priority Critical patent/CN107492384B/zh
Publication of CN107492384A publication Critical patent/CN107492384A/zh
Application granted granted Critical
Publication of CN107492384B publication Critical patent/CN107492384B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/33Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using fuzzy logic

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Psychiatry (AREA)
  • Hospice & Palliative Care (AREA)
  • Child & Adolescent Psychology (AREA)
  • Automation & Control Theory (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)

Abstract

本发明提供一种基于模糊最近邻算法的语音情感识别方法,包括以下步骤:按照定义提取每一个样本的短时能量特征、基音频率特征、过零率特征和短时平均幅值特征,组成四维的特征向量;计算每一种情感特征对于区分不同情感的贡献度;以步骤1所述的方法提取测试样本的四个相同的特征,组成四维的特征向量;根据欧式距离和步骤2中所计算出来的贡献度加权,计算训练样本的特征向量和测试样本的特征向量间的距离;对距离排序,并确定k个最近邻的样本的情感,根据个数多少分类;对于步骤5中的k个情感样本,用FKNN方法进行再分类。本发明能够提高了语音情感识别的准确性。

Description

一种基于模糊最近邻算法的语音情感识别方法
技术领域
本发明涉及语音信号处理和模式识别的技术领域,特别是一种基于模糊最近邻算法的语音情感识别方法。
背景技术
随着信息技术的不断发展,社会发展对情感计算提出了更高的要求。例如在人机交互方面,一个拥有情感能力的计算机能够对人类情感进行获取、分类、识别和响应,进而帮助使用者获得高效而又亲切的感觉,并能有效减轻人们使用电脑的挫败感,甚至能帮助人们理解自己和他人的情感世界。例如采用此类技术探测驾驶司机的精力是否集中、感受到的压力水平等,并做出相应反应。此外,情感计算还能应用在机器人、智能玩具、游戏、电子商务等相关产业中,以构筑更加拟人化的风格和更加逼真的场景。情感也反映了人类的心理健康情况,情感计算的应用可以有效地帮助人们避免不良情绪,保持乐观健康的心理。传统的knn算法局限性很大,在获取k值时只能获取奇数,受到很大的限制。
公开号为CN106469560A的专利文件公开了一种基于无监督域适应的语音情感识别方法,提出的模型包括:特征提取,情感标签预测,域标签预测。特征提取:首先将原始输入数据分解成两块特征,情感判断特征和情感无关特征,然后将情感判断特征记性层次非线性转换得到高层情感特征。将高层情感特征用于情感标签和域标签的预测。利用梯度湘江发对整个模型的参数进行更新,得到特征提取层的各层权重,然后,进行特征提取,源域有标签样本通过训练好的特征提取层到高级情感特征。最后,进行分类器SVM的训练,将源域有标签样本的高层情感特征和相对应的情感标签输入到SVM中训练,训练好的SVM可用于目标域测试样本的分类。该方法虽然能够解决训练样本和测试样本数据分布不同的问题,但是运算复杂,极易出现错误,而且对于高兴和愤怒这两种情感的区分并不是很到位。
发明内容
为了解决上述的技术问题,本发明提出了一种基于深度学习的手势识别方法,分为训练阶段和识别阶段,在训练阶段,首先对训练样本的情感语音进行预处理操作,主要是对语音进行预加重、加窗、分帧等;然后提取语音情感特征参数,短时平均能量、基音频率、过零率和短时平均幅度。在识别阶段,测试语音通过预处理、特征提取和特征分析后,输入到FKNN分类器中进行识别判决。
本发明提供一种基于模糊最近邻算法的语音情感识别方法,包括以下步骤:
步骤1:按照定义提取每一个样本的短时能量特征、基音频率特征、过零率特征和短时平均幅值特征,组成四维的特征向量;
步骤2:计算每一种情感特征对于区分不同情感的贡献度;
步骤3:以步骤1所述的方法提取测试样本的四个相同的特征,组成四维的特征向量;
步骤4:根据欧式距离和步骤2中所计算出来的贡献度加权,计算训练样本的特征向量和测试样本的特征向量间的距离;
步骤5:对距离排序,并确定k个最近邻的样本的情感,根据个数多少分类;
步骤6:对于步骤5中的k个情感样本,用FKNN方法进行再分类。
优选的是,所述短时能量特征的定义如下:
Figure BDA0001351260500000021
其中,En表示在信号的第n个点开始加窗函数时的短时能量;x(n)是语音信号;ω(n)是窗函数;N为窗长。
在上述任一方案中优选的是,所述过零特征的定义如下:
Figure BDA0001351260500000022
其中,sgn[.]是符号函数,即
Figure BDA0001351260500000023
在上述任一方案中优选的是,所述短时平均振幅的定义如下:
Figure BDA0001351260500000024
其中,Mn是一帧语音信号能量大小的表征,w(n)为汉明窗,m为变量。
在上述任一方案中优选的是,所述Mn与所述En的区别在于其计算时小取样值和大取样值不会因取平方而造成较大差异。
在上述任一方案中优选的是,所述贡献度的计算方法如下:
步骤11:归一化特征参数;
步骤12:计算某种特定情感下该特征参数的离散度;
步骤13:计算某一情感特征对于不同的情感的中心矩;
步骤14:根据离散度和中心矩求出所述贡献度。
在上述任一方案中优选的是,所述归一化方法如下:
步骤21:对训练样本集X统计出C种不同情感状态下同一个特征参数的平均值,记为Mij
步骤22:分别对每一种情感状态下的每一句语音样本的每个特征参数Mijn
其中,{i=1,2,...,C},{j=1,2,...,N},N为情感特征参数的个数,n为该情感状态下的样本,n=1表示为第一句,以此类推。
在上述任一方案中优选的是,所述归一化的公式为:
Figure BDA0001351260500000031
Aijk表示第k句样本中的第i个情感的第j个特征参数做归一化后的值。。
在上述任一方案中优选的是,所述离散度的计算公式如下:
Figure BDA0001351260500000032
在上述任一方案中优选的是,所述中心矩的计算方法为不同的情感特征间的中心矩就是不同的点集的中心的距离。
在上述任一方案中优选的是,每一个所述情感特征可视为一个点,而n个样本的所述情感特征便构成了一个所述点集。
在上述任一方案中优选的是,所述点集的中心即是点集的均值。
在上述任一方案中优选的是,所述点集的均值的计算公式为:
Figure BDA0001351260500000033
其中,{i=1,2,...,C},{j=1,2,...,n},n为情感特征参数的个数,如N11就表示在n个样本中第一种情感的第一个情感特征参数的均值,Mijk表示第k句样本中统计出C种不同情感状态下同一个特征参数的平均值。
在上述任一方案中优选的是,某一所述情感特征对于不同的情感的所述中心矩Pij的计算公式为:
Figure BDA0001351260500000041
其中,{i=1,2,...,C},{j=1,2,...,n},n为情感特征参数的个数。
在上述任一方案中优选的是,根据所述离散度和所述中心矩计算每种情感下每个特征参数的贡献度。
在上述任一方案中优选的是,所述特征参数θij的贡献度uij的计算公式如下:
Figure BDA0001351260500000042
在上述任一方案中优选的是,所述FKNN方法是指对于愤怒和高兴的情感,k个样本中属于愤怒情感的个数记为Num_A,距离之和记为Dis_A,属于高兴情感的个数记为Num_H,距离之和记为Dis_H。若|Num_A-Num_H|=1,|Dis_A-Dis_H|<critical_value,则分别将其判断为A类情感和H类情感。其中critical_value为阈值。
本发明提出的方法能够提高语音情感识别的准确性,采用FKNN分类器不仅能够提高语音情感识别率,还能够较好的区分高兴和愤怒这两种原本较难区分的情感。
附图说明
图1为按照本发明的基于模糊最近邻算法的语音情感识别方法的一优选实施例的流程图。
图2为按照本发明的基于模糊最近邻算法的语音情感识别方法的如图1所示实施例的系统原理图。
具体实施方式
下面结合附图和具体的实施例对本发明做进一步的阐述。
实施例一
在本实施例中提出的基于模糊最近邻算法的语音情感识别方法,提高了语音情感识别的准确性,语音情感识别系统分为训练阶段和识别阶段。在训练阶段,首先对训练样本的情感语音进行预处理操作,主要是对语音进行预加重、加窗、分帧等;然后提取语音情感特征参数,短时平均能量、基音频率、过零率和短时平均幅度。在识别阶段,测试语音通过预处理、特征提取和特征分析后,输入到FKNN分类器中进行识别判决。FKNN不仅可以提高语音情感识别率,更可以较好的区分高兴和愤怒这两种原本较难区分的情感。再加上给不同的特征赋予不同的贡献率值,使得不同的特征在分别情感的时候起到不同的决定作用,这样最大限度的利用了情感特征区分情感的能力。不仅考虑测试样本周围k个样本不同情感的个数,也考虑它们距离测试样本的距离,这样能提高识别率,尤其是对于区分高兴和愤怒情感,识别率提升很大。
如图1所示,执行步骤100,训练语音样本,训练样本各种情感需要分别均匀。执行步骤110,提取情感特征,包括短时能量特征、基音频率特征、过零率特征和短时平均幅值特征,组成四维的特征向量。短时能量特征的定义及计算公式如下:
Figure BDA0001351260500000051
其中,En表示在信号的第n个点开始加窗函数时的短时能量;x(n)是语音信号;ω(n)是窗函数;N为窗长,m为变量。过零特征的定义及计算公式如下:
Figure BDA0001351260500000052
其中,sgn[.]是符号函数,即
Figure BDA0001351260500000053
所述短时平均振幅的定义及计算公式如下:
Figure BDA0001351260500000054
其中,Mn是一帧语音信号能量大小的表征,w(n)为汉明窗,Mn与所述En的区别在于其计算时小取样值和大取样值不会因取平方而造成较大差异。执行步骤102计算特征贡献度。贡献度的计算方法如下:(1)归一化特征参数;(2)步骤12:计算某种特定情感下该特征参数的离散度;(3)步骤13:计算某一情感特征对于不同的情感的中心矩;(4)步骤14:根据离散度和中心矩求出所述贡献度。其中,归一化方法如下:(1)对训练样本集X统计出C种不同情感状态下同一个特征参数的平均值,记为Mij;(2)步骤22:分别对每一种情感状态下的每一句语音样本的每个特征参数Mijn
其中,{i=1,2,...,C},{j=1,2,...,N},N为情感特征参数的个数,n为该情感状态下的样本,n=1表示为第一句,以此类推。所述归一化的公式为:
Figure BDA0001351260500000055
离散度计算公式如下:
Figure BDA0001351260500000061
Aijk表示第k句样本中的第i个情感的第j个特征参数。做归一化后的值中心矩计算方法如下:每一个情感特征可视为一个点,而n个样本的情感特征便构成了一个点集,因此,不同的情感特征间的中心矩就是不同的点集的中心的距离,而点集的中心即是点集的均值。点集的均值的计算公式为
Figure BDA0001351260500000062
Mijk表示第k句样本中统计出C种不同情感状态下同一个特征参数的平均值。因此某一情感特征对于不同的情感的中心矩Pij的计算公式为:
Figure BDA0001351260500000063
(i=1,2,...,C,j=1,2,...,n,n为情感特征参数的个数,如N11就表示在n个样本中第一种情感的第一个情感特征参数的均值)。离散度计算方法如下:求出每种情感下每个特征参数的离散度和中心矩后,根据离散度和中心矩的大小来计算每种情感下每个特征参数的贡献度的大小。特征参数θij的贡献度uij的计算公式如下:
Figure BDA0001351260500000064
在执行步骤100的同时执行步骤110,测试语音样本。执行步骤111,参照步骤101的方法提取情感特征,包括短时能量特征、基音频率特征、过零率特征和短时平均幅值特征,组成四维的特征向量。顺序执行步骤120和步骤130,根据欧式距离和步骤二中所计算出来的贡献度加权,计算训练样本的特征向量和测试样本的特征向量间的距离,并对距离进行排序。点a(x11,x12,...,x1n)和点b(x21,x22,...,x2n)之间的距离计算公式为
Figure BDA0001351260500000065
执行步骤140,确定k个最近邻的样本的情感,根据个数多少分类。意思就是确定本样本的情感类型的方法是根据在k个最近邻的样本情感中个数最多的情感类型确定为本样本的情感类型。执行步骤150,判断是否满足分类条件。如果不满足分类条件,则直接执行步骤170,得出识别结果。如果满足分类条件,则执行步骤160,使用FKNN算法重新进行分类。所述FKNN方法是指对于愤怒和高兴的情感,k个样本中属于愤怒情感的个数记为Num_A,距离之和记为Dis_A,属于高兴情感的个数记为Num_H,距离之和记为Dis_H。若|Num_A-Num_H|=1,|Dis_A-Dis_H|<critical_value,则分别将其判断为A类情感和H类情感。其中critical_value为阈值。执行步骤170,得出识别结果。
实施例二
如图2所示,语音情感识别系统分为训练阶段和识别阶段。在训练阶段,执行步骤200,对已知语音进行训练。执行步骤201,对训练样本的情感语音进行预处理操作,,主要是对语音进行预加重、加窗、分帧等。执行步骤202,提取已知语音情感特征参数。执行步骤203,进行已知语音特征计算。在测试阶段,执行步骤210,对未知语音记性测试。执行步骤211,对未知语音进行预处理操作,,主要是对语音进行预加重、加窗、分帧等。执行步骤212,提取未知语音情感特征参数。执行步骤213,进行未知语音特征计算分析。执行步骤220将已知语音情感特征参数和未知语音情感特征参数输入到FKNN分类器中进行识别判决。训练样本是首先已经知道他们的情感,提取到特征参数;测试样本的情感是未知的。在分类其中,通过上述方法,计算测试样本特征参数和训练样本参数的距离,判断出测试样本的情感。
实施例三
将本方法应用在智能机器人上。当机器人听到主人的声音后,将主人的语音设置为位置语音录入系统。通过调取主人以前的语音样本进行比对,判断出主人现在不高兴,机器人就可以做出相应的动作来哄主人开心,使机器人更加的智能化。
实施例四
将本方法应用在警察审理案件中,将嫌疑人的语音录入本系统,通过调取数据库中的语音样本进行对比,判断嫌疑人现在的情绪状态,根据嫌疑人情绪状态的变化引导嫌疑人说出事实真相,提高办案的效率。
实施例五
对于输入到系统的问题,具体流程图如下:
步骤A:选择好训练样本和测试样本,训练样本各种情感需要分别均匀。
步骤B:提取出短时能量特征、基音频率特征、过零率特征和短时平均幅值特征,组成四维的特征向量;
步骤C:根据公式一,计算出训练样本各种情感特征的贡献度,
Figure BDA0001351260500000081
步骤D:欧式距离和贡献度加权,以这个距离作为参考距离。
步骤E:对于计算出的距离,选取最小的前k个距离。
步骤F:计算k个样本中情感类别最多的那个情感,测试样本默认为此情感。
步骤G:对于高兴和愤怒样本,在步骤F的基础上再判断是否满足再分类条件。
步骤H:对于满足的样本进行再分类采用FKNN方法。对于愤怒和高兴的情感,k个样本中属于愤怒情感的个数记为Num_A,距离之和记为Dis_A,属于高兴情感的个数记为Num_H,距离之和记为Dis_H。若|Num_A-Num_H|=1,|Dis_A-Dis_H|<critical_value,则分别将其判断为A类情感和H类情感。其中critical_value为阈值。
为了更好地理解本发明,以上结合本发明的具体实施例做了详细描述,但并非是对本发明的限制。凡是依据本发明的技术实质对以上实施例所做的任何简单修改,均仍属于本发明技术方案的范围。本说明书中每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言,由于其与方法实施例基本对应,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
可能以许多方式来实现本发明的方法、装置和系统。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本发明的方法和系统。用于所述方法的步骤的上述顺序仅是为了进行说明,本发明的方法的步骤不限于以上具体描述的顺序,除非以其它方式特别说明。此外,在一些实施例中,还可将本发明实施为记录在记录介质中的程序,这些程序包括用于实现根据本发明的方法的机器可读指令。因而,本发明还覆盖存储用于执行根据本发明的方法的程序的记录介质。
本发明的描述是为了示例和描述起见而给出的,而并不是无遗漏的或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本发明的原理和实际应用,并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。

Claims (13)

1.一种基于模糊最近邻算法的语音情感识别方法,包括以下步骤:
步骤1:按照定义提取每一个样本的短时能量特征、基音频率特征、过零率特征和短时平均幅值特征,组成四维的特征向量;
步骤2:计算每一种情感特征对于区分不同情感的贡献度;所述贡献度的计算方法如下:
步骤11:归一化特征参数;
步骤12:计算某种特定情感下该特征参数的离散度;
步骤13:计算某一情感特征对于不同的情感的中心矩;
步骤14:根据离散度和中心矩求出所述贡献度;
步骤3:以步骤1所述的方法提取测试样本的四个相同的特征,组成四维的特征向量;
步骤4:根据欧式距离和步骤2中所计算出来的贡献度加权,计算训练样本的特征向量和测试样本的特征向量间的距离;
步骤5:对距离排序,并确定k个最近邻的样本的情感,根据个数多少分类;
步骤6:对于步骤5中的k个情感样本,用FKNN方法进行再分类。
2.如权利要求1所述的基于模糊最近邻算法的语音情感识别方法,其特征在于:所述短时能量特征的定义如下:
Figure FDA0002640734330000011
其中,En表示在信号的第n个点开始加窗函数时的短时能量;x(n)是语音信号;ω(n)是窗函数;N为窗长,m为变量。
3.如权利要求2所述的基于模糊最近邻算法的语音情感识别方法,其特征在于:所述过零率特征的定义如下:
Figure FDA0002640734330000012
其中,sgn[.]是符号函数,即
Figure FDA0002640734330000021
4.如权利要求3所述的基于模糊最近邻算法的语音情感识别方法,其特征在于:所述短时平均幅值特征的定义如下:
Figure FDA0002640734330000022
其中,Mn是一帧语音信号能量大小的表征,w(n)为汉明窗。
5.如权利要求4所述的基于模糊最近邻算法的语音情感识别方法,其特征在于:所述Mn与所述En的区别在于其计算时小取样值和大取样值不会因取平方而造成较大差异。
6.如权利要求1所述的基于模糊最近邻算法的语音情感识别方法,其特征在于:所述归一化方法如下:
步骤21:对训练样本集X统计出C种不同情感状态下同一个特征参数的平均值,记为Mij
步骤22:分别对每一种情感状态下的每一句语音样本的每个特征参数Mijn进行归一化;
其中,{i=1,2,...,C},{j=1,2,...,N},N为情感特征参数的个数,n为该情感状态下的样本,n=1表示为第一句,以此类推。
7.如权利要求6所述的基于模糊最近邻算法的语音情感识别方法,其特征在于:所述归一化的公式为:
Figure FDA0002640734330000023
8.如权利要求7所述的基于模糊最近邻算法的语音情感识别方法,其特征在于:所述离散度的计算公式如下:
Figure FDA0002640734330000024
Aijk表示第k句样本中的第i个情感的第j个特征参数做归一化后的值。
9.如权利要求8所述的基于模糊最近邻算法的语音情感识别方法,其特征在于:所述中心矩的计算方法为不同的情感特征间的中心矩就是不同的点集的中心的距离。
10.如权利要求9所述的基于模糊最近邻算法的语音情感识别方法,其特征在于:每一个所述情感特征可视为一个点,而n个样本的所述情感特征便构成了一个所述点集。
11.如权利要求10所述的基于模糊最近邻算法的语音情感识别方法,其特征在于:所述点集的中心即是点集的均值。
12.如权利要求11所述的基于模糊最近邻算法的语音情感识别方法,其特征在于:所述点集的均值的计算公式为:
Figure FDA0002640734330000031
其中,{i=1,2,...,C},{j=1,2,...,n},n为情感特征参数的个数,如N11就表示在n个样本中第一种情感的第一个情感特征参数的均值,Mijk表示第k句样本中统计出C种不同情感状态下同一个特征参数的平均值。
13.如权利要求12所述的基于模糊最近邻算法的语音情感识别方法,其特征在于:根据所述离散度和所述中心矩计算每种情感下每个特征参数的贡献度。
CN201710577204.5A 2017-07-14 2017-07-14 一种基于模糊最近邻算法的语音情感识别方法 Active CN107492384B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710577204.5A CN107492384B (zh) 2017-07-14 2017-07-14 一种基于模糊最近邻算法的语音情感识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710577204.5A CN107492384B (zh) 2017-07-14 2017-07-14 一种基于模糊最近邻算法的语音情感识别方法

Publications (2)

Publication Number Publication Date
CN107492384A CN107492384A (zh) 2017-12-19
CN107492384B true CN107492384B (zh) 2020-12-25

Family

ID=60644477

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710577204.5A Active CN107492384B (zh) 2017-07-14 2017-07-14 一种基于模糊最近邻算法的语音情感识别方法

Country Status (1)

Country Link
CN (1) CN107492384B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113870901B (zh) * 2021-09-26 2024-05-24 西北大学 一种基于svm-knn的语音情感识别方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20100128023A (ko) * 2009-05-27 2010-12-07 세종대학교산학협력단 생체신호 기반의 감정인식 시스템
CN103440863A (zh) * 2013-08-28 2013-12-11 华南理工大学 一种基于流形的语音情感识别方法
CN104978549A (zh) * 2014-04-03 2015-10-14 北京邮电大学 三维人脸图像特征提取方法和系统
CN105739688A (zh) * 2016-01-21 2016-07-06 北京光年无限科技有限公司 一种基于情感体系的人机交互方法、装置和交互系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20100128023A (ko) * 2009-05-27 2010-12-07 세종대학교산학협력단 생체신호 기반의 감정인식 시스템
CN103440863A (zh) * 2013-08-28 2013-12-11 华南理工大学 一种基于流形的语音情感识别方法
CN104978549A (zh) * 2014-04-03 2015-10-14 北京邮电大学 三维人脸图像特征提取方法和系统
CN105739688A (zh) * 2016-01-21 2016-07-06 北京光年无限科技有限公司 一种基于情感体系的人机交互方法、装置和交互系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
基于模糊K近邻的模糊支持向量机的语音情感识别;王吉林等;《微电子学与计算机》;20140430;第31卷(第4期);31-35 *
基于模糊k近邻的语音情感识别;纪正飚等;《微电子学与计算机》;20150331;第32卷(第3期);59-62 *
语音情感特征提取与识别方法研究;赵腊生;《中国博士学位论文全文数据库 工程科技Ⅱ辑》;20110531;C029-6 *

Also Published As

Publication number Publication date
CN107492384A (zh) 2017-12-19

Similar Documents

Publication Publication Date Title
Choi et al. A tutorial on deep learning for music information retrieval
Kong et al. Weakly labelled audioset tagging with attention neural networks
CN110532900B (zh) 基于U-Net和LS-CNN的人脸表情识别方法
Hamel et al. Temporal Pooling and Multiscale Learning for Automatic Annotation and Ranking of Music Audio.
Halkias et al. Classification of mysticete sounds using machine learning techniques
Ocquaye et al. Dual exclusive attentive transfer for unsupervised deep convolutional domain adaptation in speech emotion recognition
CN111400540B (zh) 一种基于挤压和激励残差网络的歌声检测方法
Alshamsi et al. Automated facial expression and speech emotion recognition app development on smart phones using cloud computing
CN112562741A (zh) 一种基于点积自注意力卷积神经网络的歌声检测方法
CN111984780A (zh) 多意图识别模型训练方法和多意图识别方法及相关装置
CN111899766B (zh) 基于深度特征与声学特征寻优融合的语音情感识别方法
CN102592593A (zh) 一种考虑语音中多线性群组稀疏特性的情绪特征提取方法
CN112329438A (zh) 基于域对抗训练的自动谎言检测方法及系统
CN107491729A (zh) 基于余弦相似度激活的卷积神经网络的手写数字识别方法
CN116842460A (zh) 基于注意力机制与残差神经网络的咳嗽关联疾病识别方法和系统
CN111191033A (zh) 一种基于分类效用的开集分类方法
CN110348482A (zh) 一种基于深度模型集成架构的语音情感识别系统
Krupa et al. Emotion aware smart music recommender system using two level CNN
CN107492384B (zh) 一种基于模糊最近邻算法的语音情感识别方法
CN105006231A (zh) 基于模糊聚类决策树的分布式大型人口语者识别方法
Kumar et al. Bird species classification from images using deep learning
CN117195148A (zh) 基于表情、脑电及语音多模态融合的矿工情绪识别方法
Trabelsi et al. Improved frame level features and SVM supervectors approach for the recogniton of emotional states from speech: Application to categorical and dimensional states
Matsane et al. The use of automatic speech recognition in education for identifying attitudes of the speakers
CN112948554B (zh) 基于强化学习和领域知识的实时多模态对话情感分析方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant