CN103531198B - 一种基于伪说话人聚类的语音情感特征规整化方法 - Google Patents

一种基于伪说话人聚类的语音情感特征规整化方法 Download PDF

Info

Publication number
CN103531198B
CN103531198B CN201310534319.8A CN201310534319A CN103531198B CN 103531198 B CN103531198 B CN 103531198B CN 201310534319 A CN201310534319 A CN 201310534319A CN 103531198 B CN103531198 B CN 103531198B
Authority
CN
China
Prior art keywords
speaker
pseudo
sample
clustering
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201310534319.8A
Other languages
English (en)
Other versions
CN103531198A (zh
Inventor
黄程韦
赵力
魏昕
王浩
查诚
余华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Lingluniao Internet Of Things Technology Co ltd
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN201310534319.8A priority Critical patent/CN103531198B/zh
Publication of CN103531198A publication Critical patent/CN103531198A/zh
Application granted granted Critical
Publication of CN103531198B publication Critical patent/CN103531198B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)

Abstract

本发明公开了一种基于伪说话人聚类的语音情感特征规整化方法,适合应用于非特定说话人情感识别。本发明首先提取出能够反映说话人信息的特征空间;接着在此特征空间内进行模糊聚类,自动获得情感语料中的说话人的身份信息,据此信息进行“伪说话人”分组,每一条样本按照其相似程度划分到不同的伪说话人分组中;而后根据每条样本的伪说话人组别信息,进行情感特征的规整化;最终在规整化后的数据中加入相应组别的模糊隶属度信息。通过上述处理过程,使得情感特征空间中的样本分布更加清晰有效,降低了大量说话人带来的特征差异,增强了说话人鲁棒性。

Description

一种基于伪说话人聚类的语音情感特征规整化方法
技术领域
本发明涉及一种语音情感识别方法,特别涉及一种基于伪说话人聚类的语音情感特征规整化方法。
背景技术
语音情感识别技术的研究正在从以往的实验室条件转向真实世界中的实际应用。以往的情感识别研究往往是依据表演方式采集的语料库,其中的情感类别数量较少,大部分为基本情感类别,说话人的数量也相对较少。而在一些实际应用中,需要涉及到大量非特定说话人的情感语音,这就需要情感识别系统具有非特定说话人的鲁棒性。
以话务中心的语音数据处理为例,在银行、电信等大型服务行业领域,客户的满意度是一个重要的业务指标,因此在话务中心需要对客服通话进行录音,以便于分析和考核服务质量。然而对于大量的情感语音,很难进行人工听辨,通过自动识别的方式则可以快速的对录音数据进行筛选,识别出客户的情感信息。在这样的应用中,涉及到大量的非特定说话人,由于情感的个性化差异较大,会导致情感特征的复杂度增加,情感建模的困难加大,因此有必要研究非特定说话人的特征规整化技术。
很多规整化技术都可以用于提高一个识别系统的性能,在说话人识别、语种识别和自动语音识别中有很多的应用。在说话人识别技术中,倒谱均值减法(CepstralMeanSubtraction,CMS)经常用于镁尔倒谱系数,以降低信道方差。还有些研究者在说话人识别中考虑了情感因素的影响,并且提出了情感规整化技术来提高说话人识别系统的性能。
基于性别差异的规整化也是一类常见的降低说话人之间的特征差异的规整化技术,近年来不少文献将性别规整化用于语音情感识别系统中,获得了较好的性能提升效果。
Sethu等人较早的研究了语音情感识别系统中的说话人规整化问题,他们提出的特征规整化技术使得识别率平均提高了百分之六左右。然而他们的实验中涉及到的说话人数量较少,仅有七人。Vlasenko等人,在SUSAS情感语音库和柏林库上的实验中应用了说话人规整化技术(SpeakerNormalization,SN)。SN技术在柏林库上获得了百分之五的识别率提升。然而在很多实际场合中,说话人的身份是未知的,这就给SN技术的应用带来了困难。
发明内容
本发明的目的就在于针对上述现有特征规整化技术的缺陷,设计一种基于伪说话人聚类的情感特征规整化方法。本发明的技术方案是:
一种基于伪说话人聚类的语音情感特征规整化方法,其主要技术步骤为:
提取出能够反映说话人信息的特征空间;在此说话人特征空间内进行模糊聚类,自动获得情感语料中的说话人的身份信息;据此信息进行“伪说话人”分组,每一条样本按照其相似程度划分到不同的伪说话人分组中;根据每条样本的伪说话人组别信息,进行情感特征的规整化;在规整化后的数据中加入相应组别的模糊隶属度信息。通过这样的说话人聚类规整化处理,情感特征空间中的样本分布更加清晰有效,降低了大量说话人带来的特征差异,适合应用于非特定说话人情感识别。
(1)对说话人敏感的特征空间的提取:
(1-1)从情感语料中提取481个基本声学特征参数,这里构造的特征参数,是针对语音情感识别的,并不是为说话人识别设计的。在整个语料上的统计特征,适合于语音情感识别。
(1-2)提取的这些特征参数,会受到说话人因素的影响,说话人数量的增加,会使得情感特征中的方差增大。将这些原始的声学特征变换到一个对说话人敏感的特征空间中,将说话人因素的影响体现出来。通过PCA与LDA变换,使得每个说话人之间的可区分度最大化,得到说话人敏感的特征空间。
(2)说话人模糊聚类
(2-1)在得到的对说话人敏感的特征空间中,情感数据样本的分布反映出其受到说话人因素影响的大小,样本聚合之处为同样的说话人的数据,样本分离之处代表了不同的说话人的数据。同过模糊聚类算法,在特征空间内进行的情感样本自动聚类,获得说话人身份信息。通过聚类得到的说话人身份信息有一定的错误分类存在,是一种“伪说话人聚类”。
(2-2)在完成了说话人的聚类后,将每条语料的聚类组别作为说话人身份的标识号。
(3)伪说话人情感特征规整化
(3-1)进行伪说话人情感特征的规整化处理:
f u , v ′ = f u , v ( n ) - f u , v ‾ 1 N u , v - 1 Σ m - 1 N u , v ( f u , v ( m ) - f u , v ‾ ) 2 - - - ( 1 )
其中u表示第u个特征值,v代表说话人聚类的组别,N为同一个说话人的样本数量,则是给定说话人的数据样本的中心,由下式得到:
f u , v ‾ = 1 N u , v - 1 Σ n = 1 N u , v f u , v ( n ) - - - ( 2 )
(3-2)在规整化后的样本的特征矢量中加入样本属于某个组别的模糊隶属度信息,对情感特征进行扩展。
本发明的优点和效果在于:
1.通过对特征样本的聚类,能够将无说话人标识的数据,自动划分为几个伪说话人组别,使得各组内部的样本具有高的说话人特征相似度。
2.通过基于伪说话人组别信息的情感特征的规整化算法,降低了大量非特定说话人带来的特征差异,增强了说话人鲁棒性。
3.在超过五十个说话人的大规模语音情感数据集上,进行了特征规整化和识别的实验,在非特定说话人测试方式下获得了高识别率。
本发明的其他优点和效果将在下面继续描述。
附图说明
图1——基于说话人模糊聚类的情感特征规整化算法流程图
图2——从情感特征中获得的说话人特征空间
图3——五十一个说话人的交叉验证的测试结果(特征规整化前)
图4——五十一个说话人的交叉验证的测试结果(特征规整化后)
图5——非特定说话人的测试结果(特征规整化前)
图6——非特定说话人的测试结果(特征规整化后)
图7——特征规整化前的情感样本分布
图8——特征规整化后的情感样本分布
具体实施方式
下面结合附图和实施例,对本发明所述的技术方案作进一步的阐述。
如图1所示,是语音情感特征的规整化系统框图,主要分为3大块:特征提取分析模块、特征空间变换模块、模糊聚类模块、特征规整化模块。此外,为了验证情感特征规整化效果,在基于高斯混合模型的识别器上进行效果验证。
一.情感特征的提取与构造
用于识别和建模的特征向量一般有两种构造方法,静态统计特征和短时动态特征。文本的变化会对情感特征有较大的影响。情感语音当中大致包含三种信息来源,说话人信息、语义信息和情感信息。在构造情感特征和选择特征的时候,不仅需要使得特征尽可能多的反映出情感信息,也就是随着情感的变化而发生明显的变化,而且还需要尽量保持特征不受到语义变化的影响。动态特征对音位信息的依赖性较强,为了建立与文本无关的情感识别系统,本发明中选用了静态统计特征:
1-6短时能量的均值、最大值、最小值、中值、范围和方差
7-12短时能量一阶差分的均值、最大值、最小值、中值、范围和方差
13-18短时能量二阶差分的均值、最大值、最小值、中值、范围和方差
19-24基音频率的均值、最大值、最小值、中值、范围和方差
25-30基音频率一阶差分的均值、最大值、最小值、中值、范围和方差
31-36基音频率二阶差分的均值、最大值、最小值、中值、范围和方差
37-42过零率的均值、最大值、最小值、中值、范围和方差
43-48过零率一阶差分的均值、最大值、最小值、中值、范围和方差
49-54过零率二阶差分的均值、最大值、最小值、中值、范围和方差
55语速
56-57基音频率一阶抖动、基音频率二阶抖动
58-610-250Hz频段能量占总能量的百分比、0-650Hz频段能量占总能量的百分比、4kHz以上能量占总能量的百分比、短时能量抖动
62-65发音帧数、不发音帧数、不发音帧数和发音帧数比、发音帧数和总帧数比
66-69发音区域数、不发音区域数、发音区域数和不发音区域数之比、发音区域数和总区域数之比
70-71最长发音时间、最长不发音时间
72-77谐波噪声比(HNR)的均值、最大值、最小值、中值、范围和方差
78-830-400Hz频段内谐波噪声比的均值、最大值、最小值、中值、范围和方差
84-89400-2000Hz频段内谐波噪声比的均值、最大值、最小值、中值、范围和方差
90-952000-5000Hz频段内谐波噪声比的均值、最大值、最小值、中值、范围和方差
96-101第一共振峰频率(F1)的均值、最大值、最小值、中值、范围和方差
102-107第二共振峰频率(F2)的均值、最大值、最小值、中值、范围和方差
108-113第三共振峰频率(F3)的均值、最大值、最小值、中值、范围和方差
114-119第四共振峰频率(F4)的均值、最大值、最小值、中值、范围和方差
120-125第一共振峰频率一阶差分的均值、最大值、最小值、中值、范围和方差
126-131第二共振峰频率一阶差分的均值、最大值、最小值、中值、范围和方差
132-137第三共振峰频率一阶差分的均值、最大值、最小值、中值、范围和方差
138-143第四共振峰频率一阶差分的均值、最大值、最小值、中值、范围和方差
144-149第一共振峰频率二阶差分的均值、最大值、最小值、中值、范围和方差
150-155第二共振峰频率二阶差分的均值、最大值、最小值、中值、范围和方差
156-161第三共振峰频率二阶差分的均值、最大值、最小值、中值、范围和方差
162-167第四共振峰频率二阶差分的均值、最大值、最小值、中值、范围和方差
168-171第一到第四共振峰频率的一阶抖动
172-175第一到第四共振峰频率的二阶抖动
176-181第一共振峰带宽的均值、最大值、最小值、中值、范围和方差
182-187第二共振峰带宽的均值、最大值、最小值、中值、范围和方差
188-193第三共振峰带宽的均值、最大值、最小值、中值、范围和方差
194-199第四共振峰带宽的均值、最大值、最小值、中值、范围和方差
200-205第一共振峰带宽一阶差分的均值、最大值、最小值、中值、范围和方差
206-211第二共振峰带宽一阶差分的均值、最大值、最小值、中值、范围和方差
212-217第三共振峰带宽一阶差分的均值、最大值、最小值、中值、范围和方差
218-223第四共振峰带宽一阶差分的均值、最大值、最小值、中值、范围和方差
224-229第一共振峰带宽二阶差分的均值、最大值、最小值、中值、范围和方差
230-235第二共振峰带宽二阶差分的均值、最大值、最小值、中值、范围和方差
236-241第三共振峰带宽二阶差分的均值、最大值、最小值、中值、范围和方差
242-247第四共振峰带宽二阶差分的均值、最大值、最小值、中值、范围和方差
248-3250-12阶镁尔倒谱参数(MFCC0-MFCC12)的均值、最大值、最小值、中值、范围和方差
326-4030-12阶镁尔倒谱参数一阶差分的均值、最大值、最小值、中值、范围和方差
404-4810-12阶镁尔倒谱参数二阶差分的均值、最大值、最小值、中值、范围和方差
二.特征空间的压缩变换
在原始的特征上通过PCA与LDA变换,使得每个说话人之间的可区分度最大化,我们可以得到说话人敏感的特征空间,如图2所示。在说话人特征空间中,情感数据样本的分布反映出其受到说话人因素影响的大小,样本聚合之处为同样的说话人的数据,样本分离之处代表了不同的说话人的数据。
三.模糊聚类算法
采用模糊说话人聚类的方法,以获得说话人聚类分组,以组别信息来代替规整化算法中的说话人身份。
聚类问题可以表示为一个非线性的优化问题:
min J ( W , P ) = Σ t = 1 k Σ j = 1 n w i j d 2 ( x j , p i ) - - - ( 3 )
s.t.W∈Mh
其中W是k-划分矩阵,wij是类别标号,P为k个聚类原型,Mh为硬划分空间。
P=(p1,p2,…,pk)T∈Rkn(4)
样本与聚类原型之间的距离为,
d2(xj,pi)=(xj-pi)A(xj-pi)T(5)
在这里采用欧式距离,A为单位阵。硬划分空间可以表示为:
M h = { W &Element; R k n | w i j &Element; { 0 , 1 } , &ForAll; i , j ; &Sigma; i = 1 k w i j = 1 ; 0 < &Sigma; j = 1 n w i j < n , &ForAll; i } - - - ( 6 )
将隶属度函数从离散的变量(0,1)扩展到连续的值域范围[0,1]中,得到了一个模糊划分空间:
M f = { W &Element; R k n | w i j &Element; &lsqb; 0 , 1 &rsqb; , &ForAll; i , j ; &Sigma; i = 1 k w i j = 1 ; 0 < &Sigma; j = 1 n w i j < n , &ForAll; i } - - - ( 7 )
由此可得,模糊K均值聚类问题可以表示为:
minJ &alpha; ( W , P ) = &Sigma; t = 1 k &Sigma; j = 1 n ( w i j ) &alpha; d 2 ( x j , p i ) - - - ( 8 )
s.t.W∈Mf
其中,α≥0,为平滑参数,通常在实验中设置为1到5之间。
四.情感特征的规整化
完成了说话人的聚类后,将每条语料的聚类组别代替说话人身份,在原始的481维特征空间中进行规整化处理:
f u , v &prime; = f u , v ( n ) - f u , v &OverBar; 1 N u , v - 1 &Sigma; m - 1 N u , v ( f u , v ( m ) - f u , v &OverBar; ) 2 - - - ( 9 )
其中u表示第u个特征值,v代表说话人聚类的组别,N为同一个说话人的样本数量,则是给定说话人的数据样本的中心,由下式得到:
f u , v &OverBar; = 1 N u , v - 1 &Sigma; n = 1 N u , v f u , v ( n ) - - - ( 10 )
五.基于高斯混合模型的识别器
高斯混合模型的基本定义可以通过(11)式定义:
p ( X i | &lambda; ) = &Sigma; i = 1 M a i b i ( X i ) - - - ( 11 )
这里X是语音样本的D维特征向量,t为其样本序号;bi(X),i=1,2,...,M是成员密度;ai,i=1,2,...,M是混合权值。每个成员密度是一D维变量的关于均值矢量Ui和协方差矩阵Σi的高斯函数,形式如下:
b i ( X t ) = 1 ( 2 &pi; ) D / 2 | &Sigma; i | 1 / 2 exp { - 1 2 ( X t - U i ) &prime; &Sigma; i - 1 ( X t - U i ) } - - - ( 12 )
其中混合权值满足条件:
&Sigma; i = 1 M a i = 1 - - - ( 13 )
完整的高斯混和密度由所有成员密度的均值矢量、协方差矩阵和混合权值参数化。这些参数聚集一起表示为:
λi={ai,Uii},i=1,2,...,M(14)
根据贝叶斯判决准则,基于GMM的情感识别可以通过最大后验概率来获得,
E m o t i o n L a b e l = arg max k ( p ( X t | &lambda; k ) ) - - - ( 15 )
其中k为情感类别序号。
六.规整化效果的对比评价
以往的情感数据库中所包含的说话人数量较少,既包含实用语音情感,又包含大量说话人的数据库更少。为了在大量的说话人中进行情感识别,实验数据集包括了51名说话人(其中28名为女性),说话人的年龄段为二十至三十五岁之间。文本内容为无情感倾向性的短句。由于说话人的数量较大,因此数据中包含了更为丰富的情感表达模式,反映了不同说话人之间的性格差异、说话习惯等因素带来的情感变化。语音数据的录制环境为:采样频率为48kHz,16比特量化,单声道录制。
在本发明的实验中,进行了烦躁、中性、悲伤和喜悦四种情感类型的识别,每种情感2000条样本,总计8000条样本,来自51个不同的说话人。实验中将数据集随机分成十份,训练数据集与测试数据集比例为9:1,轮换测试后求取平均值做为识别测试的结果,实验结果如图3和图4所示。
为了验证非特定说话人的鲁棒性,进行了非特定说话人“留一法”(“Leave-one-speaker-out”)的测试,实验结果如图5和图6所示。训练中,将被测试的说话人的数据剔除,将其余数据用于训练。在测试时,被测试的说话人没有在训练集中出现过,以达到非特定说话人的测试目的。训练数据集与测试数据集比例大约为50:1。
从识别率实验的结果可以看到,采用本发明中的特征规整化算法之后,识别率有了明显的提高。在特征空间中的样本分布中还可以进一步看到本发明中算法的效果,图7和图8所示,为规整化前后的四种情感的样本分布。可以看到通过在说话人空间中聚类并规整化后,四种情感的可区分度得到了提高。
本发明请求保护的范围并不仅仅局限于本具体实施方式的描述。

Claims (4)

1.一种基于伪说话人聚类的语音情感特征规整化方法,其特征在于包括以下步骤:
步骤1,语音情感特征参数空间的提取;
步骤2,说话人模糊聚类;
步骤3,伪说话人情感特征规整化。
2.根据权利要求1所述的基于伪说话人聚类的语音情感特征规整化方法,其特征在于,所述步骤1具体包括以下步骤:
步骤1-1,从情感语料中提取481个基本声学特征参数,这里构造的特征参数,是针对语音情感识别的,并不是为说话人识别设计的,在整个语料上的统计特征,适合于语音情感识别;
步骤1-2,提取的这些特征参数,会受到说话人因素的影响,说话人数量的增加,会使得情感特征中的方差增大;将这些原始的声学特征变换到一个对说话人敏感的特征空间中,将说话人因素的影响体现出来;通过PCA与LDA变换,使得每个说话人之间的可区分度最大化,得到说话人敏感的特征空间。
3.根据权利要求1所述的基于伪说话人聚类的语音情感特征规整化方法,其特征在于,所述步骤2具体包括以下步骤:
步骤2-1,在得到的对说话人敏感的特征空间中,情感数据样本的分布反映出其受到说话人因素影响的大小,样本聚合之处为同样的说话人的数据,样本分离之处代表了不同的说话人的数据;通过模糊聚类算法,在特征空间内进行的情感样本自动聚类,获得说话人身份信息;通过聚类得到的说话人身份信息有一定的错误分类存在,是一种“伪说话人聚类”;
步骤2-2,在完成了说话人的聚类后,将每条语料的聚类组别作为说话人身份的标识号。
4.根据权利要求1所述的基于伪说话人聚类的语音情感特征规整化方法,其特征在于,所述步骤3具体包括以下步骤:
步骤3-1,按照下面公式(1)进行伪说话人情感特征的规整化处理:
f u , v &prime; = f u , v ( n ) - f u , v &OverBar; 1 N u , v &Sigma; m = 1 N u , v ( f u , v ( m ) - f u , v &OverBar; ) 2 - - - ( 1 )
其中u表示第u个特征值,v代表说话人聚类的组别,Nu,v为同一个说话人的样本数量,fu,v(n)为每个说话人的数据样本值,则是给定说话人的数据样本的中心,由下式(2)得到:
f u , v &OverBar; = 1 N u , v - 1 &Sigma; m = 1 N u , v f u , v ( n ) - - - ( 2 )
步骤3-2,在规整化后的样本的特征矢量中加入样本属于某个组别的模糊隶属度信息,对情感特征进行扩展。
CN201310534319.8A 2013-11-01 2013-11-01 一种基于伪说话人聚类的语音情感特征规整化方法 Expired - Fee Related CN103531198B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310534319.8A CN103531198B (zh) 2013-11-01 2013-11-01 一种基于伪说话人聚类的语音情感特征规整化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310534319.8A CN103531198B (zh) 2013-11-01 2013-11-01 一种基于伪说话人聚类的语音情感特征规整化方法

Publications (2)

Publication Number Publication Date
CN103531198A CN103531198A (zh) 2014-01-22
CN103531198B true CN103531198B (zh) 2016-03-23

Family

ID=49933151

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310534319.8A Expired - Fee Related CN103531198B (zh) 2013-11-01 2013-11-01 一种基于伪说话人聚类的语音情感特征规整化方法

Country Status (1)

Country Link
CN (1) CN103531198B (zh)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106782505A (zh) * 2017-02-21 2017-05-31 南京工程学院 一种基于放电声音识别高压开关柜状态的方法
TWI654600B (zh) * 2017-11-29 2019-03-21 隆宸星股份有限公司 語音情緒辨識系統與方法以及使用其之智慧型機器人
CN108122552B (zh) * 2017-12-15 2021-10-15 上海智臻智能网络科技股份有限公司 语音情绪识别方法和装置
CN109961803A (zh) * 2017-12-18 2019-07-02 上海智臻智能网络科技股份有限公司 语音情绪识别系统
CN109935241A (zh) * 2017-12-18 2019-06-25 上海智臻智能网络科技股份有限公司 语音信息处理方法
CN109961776A (zh) * 2017-12-18 2019-07-02 上海智臻智能网络科技股份有限公司 语音信息处理装置
CN109935240A (zh) * 2017-12-18 2019-06-25 上海智臻智能网络科技股份有限公司 通过语音识别情绪的方法
CN110085220A (zh) * 2018-01-26 2019-08-02 上海智臻智能网络科技股份有限公司 智能交互装置
CN108197115B (zh) * 2018-01-26 2022-04-22 上海智臻智能网络科技股份有限公司 智能交互方法、装置、计算机设备和计算机可读存储介质
CN110085221A (zh) * 2018-01-26 2019-08-02 上海智臻智能网络科技股份有限公司 语音情感交互方法、计算机设备和计算机可读存储介质
CN110085262A (zh) * 2018-01-26 2019-08-02 上海智臻智能网络科技股份有限公司 语音情绪交互方法、计算机设备和计算机可读存储介质
CN108831450A (zh) * 2018-03-30 2018-11-16 杭州鸟瞰智能科技股份有限公司 一种基于用户情绪识别的虚拟机器人人机交互方法
CN112204657B (zh) * 2019-03-29 2023-12-22 微软技术许可有限责任公司 利用提前停止聚类的讲话者分离
CN113555038B (zh) * 2021-07-05 2023-12-29 东南大学 基于无监督领域对抗学习的说话人无关语音情感识别方法及系统
CN117171693B (zh) * 2023-10-30 2024-01-26 山东交通学院 一种木工打磨过程中的切割异常检测方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0146434A1 (en) * 1983-11-08 1985-06-26 TEXAS INSTRUMENTS FRANCE Société dite: A speaker independent speech recognition process
JP2003099084A (ja) * 2001-07-13 2003-04-04 Sony France Sa 音声による感情合成方法及び装置
CN102663432A (zh) * 2012-04-18 2012-09-12 电子科技大学 结合支持向量机二次识别的模糊核聚类语音情感识别方法
CN102779510A (zh) * 2012-07-19 2012-11-14 东南大学 基于特征空间自适应投影的语音情感识别方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0146434A1 (en) * 1983-11-08 1985-06-26 TEXAS INSTRUMENTS FRANCE Société dite: A speaker independent speech recognition process
JP2003099084A (ja) * 2001-07-13 2003-04-04 Sony France Sa 音声による感情合成方法及び装置
CN102663432A (zh) * 2012-04-18 2012-09-12 电子科技大学 结合支持向量机二次识别的模糊核聚类语音情感识别方法
CN102779510A (zh) * 2012-07-19 2012-11-14 东南大学 基于特征空间自适应投影的语音情感识别方法

Also Published As

Publication number Publication date
CN103531198A (zh) 2014-01-22

Similar Documents

Publication Publication Date Title
CN103531198B (zh) 一种基于伪说话人聚类的语音情感特征规整化方法
CN110491416B (zh) 一种基于lstm和sae的电话语音情感分析与识别方法
Doddington et al. The NIST speaker recognition evaluation–overview, methodology, systems, results, perspective
Heck et al. Robustness to telephone handset distortion in speaker recognition by discriminative feature design
CN108231067A (zh) 基于卷积神经网络与随机森林分类的声音场景识别方法
CN110111797A (zh) 基于高斯超矢量和深度神经网络的说话人识别方法
Yücesoy et al. A new approach with score-level fusion for the classification of a speaker age and gender
CN106531174A (zh) 基于小波包分解和声谱图特征的动物声音识别方法
Nassif et al. Emotional speaker identification using a novel capsule nets model
Chenchah et al. A bio-inspired emotion recognition system under real-life conditions
CN112562725A (zh) 基于语谱图和胶囊网络的混合语音情感分类方法
Revathi et al. Text independent speaker recognition and speaker independent speech recognition using iterative clustering approach
Ganchev Speaker recognition
Sinha et al. Acoustic-phonetic feature based dialect identification in Hindi Speech
CN105845143A (zh) 基于支持向量机的说话人确认方法及其系统
Nawas et al. Speaker recognition using random forest
Pao et al. A study on the search of the most discriminative speech features in the speaker dependent speech emotion recognition
Jalil et al. Speaker identification using convolutional neural network for clean and noisy speech samples
Hafen et al. Speech information retrieval: a review
CN105976819A (zh) 基于Rnorm得分归一化的说话人确认方法
Koolagudi et al. Speaker recognition in the case of emotional environment using transformation of speech features
CN116682463A (zh) 一种多模态情感识别方法及系统
Akinrinmade et al. Creation of a Nigerian voice corpus for indigenous speaker recognition
Dwijayanti et al. Speaker identification using a convolutional neural network
Karjigi et al. Speech intelligibility assessment of dysarthria using Fisher vector encoding

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20180608

Address after: 210037 Qixia district and Yanlu No. 408, Nanjing, Jiangsu

Patentee after: Nanjing Boke Electronic Technology Co.,Ltd.

Address before: 210096 No. four archway, 2, Jiangsu, Nanjing

Patentee before: Southeast University

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20180709

Address after: 211103 No. 1009 Tianyuan East Road, Jiangning District, Nanjing, Jiangsu.

Patentee after: LIXIN WIRELESS ELECTRONIC TECHNOLOGY Co.,Ltd.

Address before: 210037 Qixia district and Yanlu No. 408, Nanjing, Jiangsu

Patentee before: Nanjing Boke Electronic Technology Co.,Ltd.

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20201123

Address after: 212, 2 / F, building 9, xingzhihui business garden, No.19 Xinghuo Road, Jiangbei new district, Nanjing, Jiangsu Province, 210046

Patentee after: Nanjing Lizhi psychological big data Industry Research Institute Co.,Ltd.

Address before: 211103 No. 1009 Tianyuan East Road, Jiangning District, Nanjing, Jiangsu.

Patentee before: LIXIN WIRELESS ELECTRONIC TECHNOLOGY Co.,Ltd.

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20220112

Address after: 211513 Room 204, No. 38, Donghong Road, Donggou central community, Longpao street, Liuhe District, Nanjing, Jiangsu Province

Patentee after: Nanjing lingluniao Internet of things Technology Co.,Ltd.

Address before: 210046 212, 2nd floor, building 9, xingzhihui business garden, 19 Xinghuo Road, Jiangbei new district, Nanjing City, Jiangsu Province

Patentee before: Nanjing Lizhi psychological big data Industry Research Institute Co.,Ltd.

CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20160323