CN101178897A - 利用基频包络剔除情感语音的说话人识别方法 - Google Patents

利用基频包络剔除情感语音的说话人识别方法 Download PDF

Info

Publication number
CN101178897A
CN101178897A CNA2007101571344A CN200710157134A CN101178897A CN 101178897 A CN101178897 A CN 101178897A CN A2007101571344 A CNA2007101571344 A CN A2007101571344A CN 200710157134 A CN200710157134 A CN 200710157134A CN 101178897 A CN101178897 A CN 101178897A
Authority
CN
China
Prior art keywords
voice
model
feature
envelope
speaker
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2007101571344A
Other languages
English (en)
Other versions
CN101178897B (zh
Inventor
吴朝晖
杨莹春
黄挺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN2007101571344A priority Critical patent/CN101178897B/zh
Publication of CN101178897A publication Critical patent/CN101178897A/zh
Application granted granted Critical
Publication of CN101178897B publication Critical patent/CN101178897B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明涉及一种利用基频包络剔除情感语音的说话人识别,在说话人识别的测试中,一段语音先提取倒谱特征和基音频率,上述两种特征是一一对应的;再根据倒谱特征在预先训练好的性别模型进行测试得到性别信息,由性别信息确定剔除法中采用的阀值;接着,按阀值选出要剔除的基频包络,再根据要剔除的基频包络里各帧的序号对倒谱特征进行剔除,得到处理后的倒谱特征;最后,对处理后的倒谱特征进行GMM系统测试。本发明有益的效果是:克服了前人的方法中需要在训练时提供测试说话人的情感语音或者需要在测试时提供测试语音的情感状态信息给系统的使用带来的不便性,并在识别性能比传统的ASR系统提高8%。

Description

利用基频包络剔除情感语音的说话人识别方法
技术领域
本发明涉及生物特征识别技术,主要是一种利用基频包络剔除情感语音的说话人识别方法。
背景技术
生物特征识别技术是指通过计算机利用人类自身生理或行为特征进行身份认证的一种技术,它以人体唯一的、可靠的、稳定的生理特征(如指纹、虹膜、脸部、掌纹等)或行为特征(话音、击键、步态、签名等)为依据,采用计算机的强大功能和网络技术进行图像处理和模式识别,用以鉴别人的身份。声纹识别或说话人识别属于其中一种,是一项根据语音波形中反映说话人生理和行为特征的语音参数,自动识别说话人身份的技术。
人类的话语中不仅包含了文字信息,而且还包含了人们的情感信息,而说话人在不同的情绪下的说话方式变化很大,这些变化都会引起说话人自身的变化(Variability ofIntra-Speaker)。在传统的ASR(Automatic Speaker Recognition)系统中,并没有考虑说话人情绪的影响,因而导致情感差异性的语音上识别率会急剧下降。对于如何提高情感影响下的说话人识别系统的性能,现有的几种方法一般需要在训练时提供测试说话人的情感语音或者需要在测试时提供测试语音的情感状态信息,这个系统的使用带来一定的不便性。
发明内容
本发明要解决上述技术所存在的缺陷,提供一种利用基频包络剔除情感语音的说话人识别方法,通过剔除含有强烈情感的语音对应的声学特征部分,实现在情感因素影响下提高说话人识别的鲁棒性。
本发明解决其技术问题所采用的技术方案:这种利用基频包络剔除情感语音的说话人识别,在说话人识别的测试中,一段语音先提取倒谱特征和基音频率,上述两种特征是一一对应的;再根据倒谱特征在预先训练好的性别模型进行测试得到性别信息,由性别信息确定剔除法中采用的阀值;接着,按阀值选出要剔除的基频包络,再根据要剔除的基频包络里各帧的序号对倒谱特征进行剔除,得到处理后的倒谱特征;最后,对处理后的倒谱特征进行GMM系统测试。主要步骤是:1)、语音信号进行预处理:主要包括采样与量化、预加重处理和加窗;2)、语音帧上的特征提取:在说话人语音上提取倒谱特征MFCC和基音频率;3)、训练说话人模型和性别模型:对测试集说话人每人训练一个GMM模型和对男女性别分别训练一个性别GMM模型;4)、情感成分剔除:对于输入测试语音的倒谱特征,先用性别模型判断测试语音的性别,再根据性别选择所使用的剔除阀值。最后根据阀值剔除基频包络均值高于阀值的包络对应帧的倒谱特征,得到处理后的倒谱特征;5)、识别:把处理后的倒谱特征输入到相关用户模型参数的GMM中,得到相似度值并根据其给用户打分。
本发明解决技术问题所采用的技术方案还可以进一步完善。所述的情感成分剔除为将测试语音中含比较强烈的情感语音片断对应的MFCC特征剔除,弱化情感对说话人识别性能的影响。所述的剔除阀值为进行情感成分剔除时所使用的描述判别一个基频包络的对应的MFCC特征是否被剔除的阀值,男女说话人各有一个剔除阀值,可通过扩大训练阀值所用男女各自说话人覆盖面来获取最佳的阀值。所述的基频包络的划分是通过改善基频的提取算法,获取更准确的基频序列,来更加准确的划分语音片断的基频包络格局。
本发明有益的效果是:利用基频包络剔除情感语音的说话人识别方法,利用韵律特征在情感语音中的变化规律以及不同情感对说话人识别性能的影响程度,剔除语音片断里对说话人识别性能影响比较大的部分使说话人特征更具稳定性,以尽量减少情感对说话人识别性能的影响。使用该方法,克服了前人的方法中需要在训练时提供测试说话人的情感语音或者需要在测试时提供测试语音的情感状态信息给系统的使用带来的不便性,并在识别性能比传统的ASR系统提高8%。
附图说明
图1基频包络示意图;
图2是本发明的流程图;
具体实施方式
下面结合附图和实施例对本发明作进一步介绍:本发明的方法共分五步。
第一步:语音信号预处理
1、采样与量化
A)、用锐截止滤波器对语音信号进行滤波,使其奈奎斯特频率FN为4KHz;
B)、设置语音采样率F=2FN
C)、对语音信号sa(t)按周期进行采样,得到数字语音信号的振幅序列 s ( n ) = s a ( n F ) ;
D)、用脉冲编码调制(PCM)对s(n)进行量化编码,得到振幅序列的量化值表示s′(n)。
2、预加重处理
A)、设置数字滤波器的Z传递函数H(z)=1-az-1中的预加重系数a,a可取比1稍小的值;
B)、s′(n)通过数字滤波器,得到语音信号的高、中、低频幅度相当的振幅序列s″(n)。
3、加窗
A)、计算语音帧的帧长N,N需满足:
20 ≤ N F ≤ 30 ,
这里F是语音采样率,单位为Hz;
B)、以帧长为N、帧移量为N/2,把s″(n)划分成一系列的语音帧Fm,每一语音帧包含N个语音信号样本;
C)、计算哈明窗函数:
Figure S2007101571344D00033
D)、对每一语音帧Fm加哈明窗:
ω(n)×Fm(n){Fm′(n)|n=1,1,...,N-1}。
第二步:特征提取
语音帧上的特征提取包括基音频率(pitch)和梅尔倒谱系数(MFCC)的提取。
1、基音频率(pitch):
A)、设置语音的基音频率的取值范围fmin=93.75Hz,fmax=500Hz;这里,fmin表示语音基音频率取值的下限,fmax表示语音基音频率取值的上限
B)、做快速傅立叶变换FFT,将时域信号s(n)变成频域信号X(k)。这里,n表示时域信号所处的采样时刻,k表示频域信号的频域坐标取值
C)、通过短时自相关函数找出基音周期
R k ( τ ) = Σ m = 0 N - 1 - τ X ( k + m ) w ( m ) X ( k + m + τ ) w ( m + τ )
其中,τ为位移距离,w(m)为窗函数,N为窗长
短时自相关函数R(τ)在基音周期的整数倍点上有很大的峰值,通常取第一最大峰值点为基音周期点。
D)、最后对全部的Pitch值进行中值平滑滤波。
2、MFCC的提取:
A)、设置梅尔倒谱系数的阶数p;
B)、做快速傅立叶变换FFT,将时域信号s(n)变成频域信号X(k)。
C)、计算梅尔域刻度:
M i = i p × 2595 log ( 1 + 8000 / 2.0 700.0 ) , ( i = 0,1,2 , . . . , p )
D)、计算对应的频域刻度:
f i = 700 × e M i 2595 ln 10 - 1 , ( i = 0,1,2 , . . . , p )
E)、计算每个梅尔域通道φj上的对数能量谱:
E j = Σ k = 0 K 2 - 1 φ j ( k ) | X ( k ) | 2 ,
其中 Σ k = 0 K 2 - 1 φ j ( k ) = 1 ;
F)、做离散余弦变换DCT
第三步、训练说话人模型和性别模型
每一个说话人的语音特征在特征空间中都形成了特定的分布。高斯混合模型(GMM)是用多个高斯分布的线性组合来近似说话人的特征分布。性别模型跟说话人模型比较类似,用两个高阶的GMM分别近似男、女两类说话人的特征分布。
说话人模型和性别模型的概率密度函数的函数形式是相同的,所不同的只是函数中的参数。M阶高斯混合模型GMM用M个单高斯分布的线性组合来描述帧特征在特征空间中的分布,即:
p ( x ) = Σ i = 1 M P i b i ( x )
b i ( x ) = N ( x , μ i , R i ) = 1 ( 2 π ) p / 2 | p i | 1 / 2 exp { - 1 2 ( x - μ i ) T R i - 1 ( x - μ i ) }
其中,p是特征的维数,bi(x)为核函数,是均值矢量为μi、协方差矩阵为Ri的高斯分布函数,M(可选,说话人模型一般为16、32,而性别模型一般为512、1024)是GMM模型的阶数,在建立说话人模型以前设为一确定整数。 λ ≅ { P i , μ i , R i | i = 1,2 , . . . , M } 为说话人特征分布GMM中的参数。作为高斯混合分布的加权系数,Pi应满足使:
∫ - ∞ + ∞ p ( x / λ ) dx = 1
即有
Σ i = 1 M P i = 1
由于计算GMM中的p(x)需要求p×p维方阵Ri(i=1,2,...,M)的逆,运算量大。为此,将Rj设为对角阵,将求逆运算转化为求倒数运算,提高运算速度。
第四步、情感成分剔除
一段语音信号的基频序列J={jn|n=0,1,...,N-1},其对应的倒谱特征(MFCC)为
M={mn|n=0,1,...,N-1},以下为情感成分剔除的具体步骤:
A)、倒谱特征M分别在男性别模型Mm和女性别模型Mf进行测试,得到得分Gm和Gf
B)、若Gm>Gf,则把剔除阀值δg设为156;反之,设为250;
C)、根据J划分基频包络集合J*={(Sn,En)|n=0,1,...,K-1}(其中Sn为第n个包络的起始帧的序号,En为该包络的结束帧的序号);
D)、计算J*中各基频包络的对应的均值H={hn|n=0,1,...,K-1};
E)、根据δg选择要剔除的包络集合X={(Sn,En)|n=i0,i1,...,ip=1};
F)、根据X,剔除M里对应帧的倒谱特征,得到M’。
第五步、识别
用于语音输入后,经特征提取和情感成分剔除,得到一特征向量序列。该序列输入到相关用户模型参数的GMM中,得到相似度值并根据其给用户打分。
实验结果
本系统所做分析和研究都是基于MASC库。该库共68人,其中23名女说话人和45名男说话人。每个说话人的语音包括短语、句子和段落三部分(五个短语,二十个句子和两个短文),采用语言为中文普通话。其中短语和句子分别用五种不同的情感(中性,愤怒,高兴,惊慌和悲伤)录三遍音,段落只在中性情感状态下录一遍,整个语音库共包含25,636个语音片断——5100个短语,20400个句子以及136个段落。本文只用到该数据库全部68个人的句子和段落的语音。这些句子包含了汉语中所有韵母、韵母组合以及大部分的声母。句子的类型有:简单陈述句,用“是”或“不是”回答的一般疑问句,选择疑问句,祈使句,感叹句,特殊疑问句等。段落的原文为两个陈述普通事实的短文。库分为两部分:前15个人(7个女说话人和8个男说话人),作为训练库,余下的53人作为测试库。
我们在这个库上设计并完成了两组实验。第一组是使用经典MFCC-GMM的基准实验,使用普通的倒谱特征训练模型,GMM通过普通的EM算法训练,测试的特征使用没经过情感成分剔除的倒谱特征。这组实验作为对照组。
第二组实验,对测试特征进行情感成分剔除,去除对说话人识别性能影响比较大的部分,把剔除后的MFCC特征向量输入到相关用户模型参数的GMM中,得到相似度值并根据其给用户打分。
为了对说话人确认系统的性能进行评估,选用识别率(IR,Identification Rate)来作为实验结果的评估标准。
识别率IR的计算公式是:
Figure S2007101571344D00061
实验参数的设置如下:
  窗长   32ms
  步进   16ms
  预加重   0.97
  MFCC维数   32MFCC
  说话人GMM   32阶
  性别GMM   1024阶
实验结果如下:
  方法   IR(%)
  基准实验   33.8
  本方法   41.77
每种情感分别的实验结果如下表,同基准实验相比较,“+”表示该值有所升高,“-”表示减少:
  情感状态   相对IR(%)
  愤怒   +14.27
  高兴   +14.97
  中性   -0.97
  惊慌   +11.61
  悲伤   -0.03
实验用机器配置CPU为IntelXeonTM CPU 3.20GHZ*2,内存为2.00GB。
实验结果表明,本情感剔除方法能够剔除语音片断里对说话人性能影响比较大的部分,从而提高说话人识别的性能,使得其错误率降低,识别率升高。并且在情感库上的实验,表明了该方法对于各种情感状态均有较好的效果。
上述实施例用来解释说明本发明,而不是对本发明进行限制,在本发明的精神和权利要求的保护范围内,对本发明作出的任何修改和改变,都落入本发明的保护范围。

Claims (7)

1.一种利用基频包络剔除情感语音的说话人识别方法,其特征在于:在说话人识别的测试中,一段语音先提取倒谱特征和基音频率,上述两种特征是一一对应的;再根据倒谱特征在预先训练好的性别模型进行测试得到性别信息,由性别信息确定剔除法中采用的阀值;接着,按阀值选出要剔除的基频包络,再根据要剔除的基频包络里各帧的序号对倒谱特征进行剔除,得到处理后的倒谱特征;最后,对处理后的倒谱特征进行GMM系统测试。
2.根据权利要求1所述的利用基频包络剔除情感语音的说话人识别方法,其特征在于:包括如下步骤:
1)、语音信号进行预处理:主要包括采样与量化、预加重处理和加窗;
2)、语音帧上的特征提取:在说话人语音上提取倒谱特征MFCC和基音频率;
3)、训练说话人模型和性别模型:对测试集说话人每人训练一个GMM模型和对男女性别分别训练一个性别GMM模型;
4)、情感成分剔除:对于输入测试语音的倒谱特征,先用性别模型判断测试语音的性别,再根据性别选择所使用的剔除阀值;最后根据阀值剔除基频包络均值高于阀值的包络对应帧的倒谱特征,得到处理后的倒谱特征;
5)、识别:把处理后的倒谱特征输入到相关用户模型参数的GMM中,得到相似度值并根据其给用户打分。
3.根据权利要求2所述的利用基频包络剔除情感语音的说话人识别方法,其特征在于:所述的语音信号预处理具体步骤是:
1)、采样与量化
A)、用锐截止滤波器对语音信号进行滤波,使其奈奎斯特频率FN为4KHz;
B)、设置语音采样率F=2FN
C)、对语音信号sa(t)按周期进行采样,得到数字语音信号的振幅序列 s ( n ) = s a ( n F ) ;
D)、用脉冲编码调制(PCM)对s(n)进行量化编码,得到振幅序列的量化值表示s′(n);
2)、预加重处理
A)、设置数字滤波器的Z传递函数H(z)=1-az-1中的预加重系数a,a可取比1稍小的值;
B)、s′(n)通过数字滤波器,得到语音信号的高、中、低频幅度相当的振幅序列s″(n);
3)、加窗
A)、计算语音帧的帧长N,N需满足:
20 ≤ N F ≤ 30 ,
这里F是语音采样率,单位为Hz;
B)、以帧长为N、帧移量为N/2,把s″(n)划分成一系列的语音帧Fm,每一语音帧包含N个语音信号样本;
C)、计算哈明窗函数:
D)、对每一语音帧Fm加哈明窗:
ω(n)×Fm(n){Fm′(n)|n=1,1,...,N-1}。
4.根据权利要求2所述的利用基频包络剔除情感语音的说话人识别方法,其特征在于:所述语音帧上的特征提取的具体步骤是:
语音帧上的特征提取包括基音频率(pitch)和梅尔倒谱系数(MFCC)的提取;
1)、基音频率(pitch):
A)、设置语音的基音频率的取值范围fmin=93.75Hz,fmax=500Hz;这里,fmin表示语音基音频率取值的下限,fmax表示语音基音频率取值的上限;
B)、做快速傅立叶变换FFT,将时域信号s(n)变成频域信号X(k;这里,n表示时域信号所处的采样时刻,k表示频域信号的频域坐标取值;
C)、通过短时自相关函数找出基音周期;
R k ( τ ) = Σ m = 0 N - 1 - τ X ( k + m ) w ( m ) X ( k + m + τ ) w ( m + τ )
其中,τ为位移距离,w(m)为窗函数,N为窗长
短时自相关函数R(τ)在基音周期的整数倍点上有很大的峰值,取第一最大峰值点为基音周期点;
D)、最后对全部的Pitch值进行中值平滑滤波;
2)、MFCC的提取:
A)、设置梅尔倒谱系数的阶数p;
B)、做快速傅立叶变换FFT,将时域信号s(n)变成频域信号X(k);
C)、计算梅尔域刻度:
M i = i p × 2595 log ( 1 + 8000 / 2.0 700.0 ) , ( i = 0,1,2 , . . . , p )
D)、计算对应的频域刻度:
f i = 700 × e M i 2595 ln 10 - 1 , ( i = 0,1,2 , . . . , p )
E)、计算每个梅尔域通道φj上的对数能量谱:
E j = Σ k = 0 K 2 - 1 φ j ( k ) | X ( k ) | 2 ,
其中 Σ k = 0 K 2 - 1 φ j ( k ) = 1 ;
F)、做离散余弦变换DCT。
5.根据权利要求2所述的利用基频包络剔除情感语音的说话人识别方法,其特征在于:所述的训练说话人模型和性别模型具体步骤是:
性别模型用两个高阶的GMM分别近似男、女两类说话人的特征分布;说话人模型和性别模型的概率密度函数的函数形式是相同的,所不同的只是函数中的参数,M阶高斯混合模型GMM用M个单高斯分布的线性组合来描述帧特征在特征空间中的分布,即:
p ( x ) = Σ i = 1 M P i b i ( x )
b i ( x ) = N ( x , μ i , R i ) = 1 ( 2 π ) p / 2 | p i | 1 / 2 exp { - 1 2 ( x - μ i ) T R i - 1 ( x - μ i ) }
其中,p是特征的维数,bi(x)为核函数,是均值矢量为μi、协方差矩阵为Ri的高斯分布函数,M是GMM模型的阶数,在建立说话人模型以前设为一确定整数, λ ≅ { P i , μ i , R i | i = 1,2 , . . . , M } 为说话人特征分布GMM中的参数,作为高斯混合分布的加权系数,Pi应满足使:
∫ - ∞ + ∞ p ( x / λ ) dx = 1
即有
Σ i = 1 M P i = 1 .
6.根据权利要求2所述的利用基频包络剔除情感语音的说话人识别方法,其特征在于:所述的情感成分剔除具体步骤是:
一段语音信号的基频序列J={jn|n=0,1,...,N-1},其对应的倒谱特征(MFCC)为M={mn|n=0,1,...,N-1},以下为情感成分剔除的具体步骤:
A)、倒谱特征M分别在男性别模型Mm和女性别模型Mf进行测试,得到得分Gm和Gf
B)、若Gm>Gf,则把剔除阀值δg设为156;反之,设为250;
C)、根据J划分基频包络集合J*={(Sn,En)|n=0,1,...,K-1},其中Sn为第n个包络的起始帧的序号,En为该包络的结束帧的序号;
D)、计算J*中各基频包络的对应的均值H={hn|n=0,1,...,K-1};
E)、根据δg选择要剔除的包络集合X={(Sn,En)|n=i0,i1,...,ip=1};
F)、根据X,剔除M里对应帧的倒谱特征,得到M’。
7.根据权利要求2所述的利用基频包络剔除情感语音的说话人识别方法,其特征在于:所述的识别具体步骤是:
用于语音输入后,经特征提取和情感成分剔除,得到一特征向量序列,该序列输入到相关用户模型参数的GMM中,得到相似度值并根据其给用户打分。
CN2007101571344A 2007-12-05 2007-12-05 利用基频包络剔除情感语音的说话人识别方法 Expired - Fee Related CN101178897B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2007101571344A CN101178897B (zh) 2007-12-05 2007-12-05 利用基频包络剔除情感语音的说话人识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2007101571344A CN101178897B (zh) 2007-12-05 2007-12-05 利用基频包络剔除情感语音的说话人识别方法

Publications (2)

Publication Number Publication Date
CN101178897A true CN101178897A (zh) 2008-05-14
CN101178897B CN101178897B (zh) 2011-04-20

Family

ID=39405120

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2007101571344A Expired - Fee Related CN101178897B (zh) 2007-12-05 2007-12-05 利用基频包络剔除情感语音的说话人识别方法

Country Status (1)

Country Link
CN (1) CN101178897B (zh)

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102201237A (zh) * 2011-05-12 2011-09-28 浙江大学 基于模糊支持向量机的可靠性检测的情感说话人识别方法
CN102486922A (zh) * 2010-12-03 2012-06-06 株式会社理光 说话人识别方法、装置和系统
CN102546034A (zh) * 2012-02-07 2012-07-04 深圳市纽格力科技有限公司 一种语音信号处理方法及设备
CN103258537A (zh) * 2013-05-24 2013-08-21 安宁 利用特征结合对语音情感进行识别的方法及其装置
WO2013123747A1 (zh) * 2012-02-24 2013-08-29 中兴通讯股份有限公司 一种基于音频实现设备解锁的方法和系统
CN103456302A (zh) * 2013-09-02 2013-12-18 浙江大学 一种基于情感gmm模型权重合成的情感说话人识别方法
CN103680518A (zh) * 2013-12-20 2014-03-26 上海电机学院 基于虚拟仪器技术的语音性别识别方法及系统
CN102334348B (zh) * 2008-11-21 2014-12-31 奥罗技术公司 转换器及转换音频信号的方法
CN104900235A (zh) * 2015-05-25 2015-09-09 重庆大学 基于基音周期混合特征参数的声纹识别方法
CN105810198A (zh) * 2016-03-23 2016-07-27 广州势必可赢网络科技有限公司 基于特征域补偿的信道鲁棒的说话人辨识方法和装置
CN106782496A (zh) * 2016-11-15 2017-05-31 北京科技大学 一种基于语音和群智感知的人群数量监测方法
CN107358967A (zh) * 2017-06-08 2017-11-17 广东科学技术职业学院 一种基于wfst的老年人语音情感识别方法
CN107680599A (zh) * 2017-09-28 2018-02-09 百度在线网络技术(北京)有限公司 用户属性识别方法、装置及电子设备
CN108091323A (zh) * 2017-12-19 2018-05-29 想象科技(北京)有限公司 用于自语音中识别情感的方法与装置
CN109346105A (zh) * 2018-07-27 2019-02-15 南京理工大学 直接显示基音周期轨迹的基音周期谱图方法
CN112233680A (zh) * 2020-09-27 2021-01-15 科大讯飞股份有限公司 说话人角色识别方法、装置、电子设备及存储介质
CN112603266A (zh) * 2020-12-23 2021-04-06 新绎健康科技有限公司 一种用于获取目标五音特征的方法及系统
WO2021139772A1 (zh) * 2020-01-10 2021-07-15 阿里巴巴集团控股有限公司 一种音频信息处理方法、装置、电子设备以及存储介质
CN113205827A (zh) * 2021-05-05 2021-08-03 张茜 一种婴儿语音基频高精度提取方法、装置及计算机设备
CN113270111A (zh) * 2021-05-17 2021-08-17 广州国音智能科技有限公司 一种基于音频数据的身高预测方法、装置、设备和介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1159702C (zh) * 2001-04-11 2004-07-28 国际商业机器公司 具有情感的语音-语音翻译系统和方法
EP1298645A1 (en) * 2001-09-26 2003-04-02 Sony International (Europe) GmbH Method for detecting emotions in speech, involving linguistic correlation information
EP1336956B1 (en) * 2002-02-13 2006-07-19 Sony Deutschland GmbH Method, system and computer program for recognizing speech/speaker using emotional state change to govern unsupervised adaptation of the recognition process
CN101064104B (zh) * 2006-04-24 2011-02-02 中国科学院自动化研究所 基于语音转换的情感语音生成方法
CN1975856B (zh) * 2006-10-30 2011-11-09 邹采荣 一种基于支持向量机的语音情感识别方法

Cited By (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102334348B (zh) * 2008-11-21 2014-12-31 奥罗技术公司 转换器及转换音频信号的方法
CN102486922B (zh) * 2010-12-03 2014-12-03 株式会社理光 说话人识别方法、装置和系统
CN102486922A (zh) * 2010-12-03 2012-06-06 株式会社理光 说话人识别方法、装置和系统
CN102201237B (zh) * 2011-05-12 2013-03-13 浙江大学 基于模糊支持向量机的可靠性检测的情感说话人识别方法
CN102201237A (zh) * 2011-05-12 2011-09-28 浙江大学 基于模糊支持向量机的可靠性检测的情感说话人识别方法
CN102546034B (zh) * 2012-02-07 2013-12-18 深圳市纽格力科技有限公司 一种语音信号处理方法及设备
CN102546034A (zh) * 2012-02-07 2012-07-04 深圳市纽格力科技有限公司 一种语音信号处理方法及设备
WO2013123747A1 (zh) * 2012-02-24 2013-08-29 中兴通讯股份有限公司 一种基于音频实现设备解锁的方法和系统
CN103258537A (zh) * 2013-05-24 2013-08-21 安宁 利用特征结合对语音情感进行识别的方法及其装置
CN103456302A (zh) * 2013-09-02 2013-12-18 浙江大学 一种基于情感gmm模型权重合成的情感说话人识别方法
CN103456302B (zh) * 2013-09-02 2016-04-20 浙江大学 一种基于情感gmm模型权重合成的情感说话人识别方法
CN103680518A (zh) * 2013-12-20 2014-03-26 上海电机学院 基于虚拟仪器技术的语音性别识别方法及系统
CN104900235A (zh) * 2015-05-25 2015-09-09 重庆大学 基于基音周期混合特征参数的声纹识别方法
CN105810198A (zh) * 2016-03-23 2016-07-27 广州势必可赢网络科技有限公司 基于特征域补偿的信道鲁棒的说话人辨识方法和装置
CN106782496A (zh) * 2016-11-15 2017-05-31 北京科技大学 一种基于语音和群智感知的人群数量监测方法
CN106782496B (zh) * 2016-11-15 2019-08-20 北京科技大学 一种基于语音和群智感知的人群数量监测方法
CN107358967A (zh) * 2017-06-08 2017-11-17 广东科学技术职业学院 一种基于wfst的老年人语音情感识别方法
CN107680599A (zh) * 2017-09-28 2018-02-09 百度在线网络技术(北京)有限公司 用户属性识别方法、装置及电子设备
CN108091323A (zh) * 2017-12-19 2018-05-29 想象科技(北京)有限公司 用于自语音中识别情感的方法与装置
CN108091323B (zh) * 2017-12-19 2020-10-13 想象科技(北京)有限公司 用于自语音中识别情感的方法与装置
CN109346105A (zh) * 2018-07-27 2019-02-15 南京理工大学 直接显示基音周期轨迹的基音周期谱图方法
CN109346105B (zh) * 2018-07-27 2022-04-15 南京理工大学 直接显示基音周期轨迹的基音周期谱图方法
WO2021139772A1 (zh) * 2020-01-10 2021-07-15 阿里巴巴集团控股有限公司 一种音频信息处理方法、装置、电子设备以及存储介质
CN112233680A (zh) * 2020-09-27 2021-01-15 科大讯飞股份有限公司 说话人角色识别方法、装置、电子设备及存储介质
CN112233680B (zh) * 2020-09-27 2024-02-13 科大讯飞股份有限公司 说话人角色识别方法、装置、电子设备及存储介质
CN112603266A (zh) * 2020-12-23 2021-04-06 新绎健康科技有限公司 一种用于获取目标五音特征的方法及系统
CN112603266B (zh) * 2020-12-23 2023-02-24 新绎健康科技有限公司 一种用于获取目标五音特征的方法及系统
CN113205827A (zh) * 2021-05-05 2021-08-03 张茜 一种婴儿语音基频高精度提取方法、装置及计算机设备
CN113205827B (zh) * 2021-05-05 2022-02-15 张茜 一种婴儿语音基频高精度提取方法、装置及计算机设备
CN113270111A (zh) * 2021-05-17 2021-08-17 广州国音智能科技有限公司 一种基于音频数据的身高预测方法、装置、设备和介质

Also Published As

Publication number Publication date
CN101178897B (zh) 2011-04-20

Similar Documents

Publication Publication Date Title
CN101178897B (zh) 利用基频包络剔除情感语音的说话人识别方法
CN100440315C (zh) 基于倒谱特征线性情感补偿的说话人识别方法
Ramamohan et al. Sinusoidal model-based analysis and classification of stressed speech
CN108922541B (zh) 基于dtw和gmm模型的多维特征参数声纹识别方法
Pao et al. Mandarin emotional speech recognition based on SVM and NN
Farrús et al. Using jitter and shimmer in speaker verification
CN1808567A (zh) 验证真人在场状态的声纹认证设备和其认证方法
Shaw et al. Emotion recognition and classification in speech using artificial neural networks
Torres-Boza et al. Hierarchical sparse coding framework for speech emotion recognition
CN100543840C (zh) 基于情感迁移规则及语音修正的说话人识别方法
Zhong et al. DNN i-Vector Speaker Verification with Short, Text-Constrained Test Utterances.
Lukose et al. Music player based on emotion recognition of voice signals
Gaikwad et al. Feature extraction using fusion MFCC for continuous marathi speech recognition
Besbes et al. Multi-class SVM for stressed speech recognition
Gazeau et al. Automatic spoken language recognition with neural networks
Sinha et al. Acoustic-phonetic feature based dialect identification in Hindi Speech
CN100570712C (zh) 基于锚模型空间投影序数比较的快速说话人确认方法
Verma et al. An acoustic analysis of speech for emotion recognition using deep learning
Patil et al. Combining evidences from magnitude and phase information using VTEO for person recognition using humming
Bansal et al. Emotional Hindi speech: Feature extraction and classification
Waghmare et al. Raga identification techniques for classifying indian classical music: A survey
Lee et al. Speech emotion recognition using spectral entropy
Le et al. A non-uniform subband approach to speech-based cognitive load classification
Unnikrishnan et al. Mimicking voice recognition using MFCC-GMM framework
Bansod et al. Speaker Recognition using Marathi (Varhadi) Language

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20110420

Termination date: 20171205