CN101226743A - 基于中性和情感声纹模型转换的说话人识别方法 - Google Patents

基于中性和情感声纹模型转换的说话人识别方法 Download PDF

Info

Publication number
CN101226743A
CN101226743A CNA200710157133XA CN200710157133A CN101226743A CN 101226743 A CN101226743 A CN 101226743A CN A200710157133X A CNA200710157133X A CN A200710157133XA CN 200710157133 A CN200710157133 A CN 200710157133A CN 101226743 A CN101226743 A CN 101226743A
Authority
CN
China
Prior art keywords
model
sigma
neutral
emotion
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA200710157133XA
Other languages
English (en)
Inventor
吴朝晖
杨莹春
单振宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CNA200710157133XA priority Critical patent/CN101226743A/zh
Publication of CN101226743A publication Critical patent/CN101226743A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于中性和情感声纹模型转换的说话人识别方法,包括如下步骤:(1)语音特征的提取:先进行音频预处理,音频预处理分为采样量化,去零漂,预加重和加窗三个部分;然后进行提取倒谱特征MFCC;(2)建立情感模型库:进行高斯混合模型训练,对于每个用户的中性语音训练中性模型,进行中性-情感模型转化,通过中性情感语音转化算法得到情感语音模型;(3)测试语音打分,进行说话人识别。本发明有益的效果是:本技术采用中性-情感模型转换算法提高了情绪化说话人识别的识别率。本技术根据用户中性语音模型训练出用户的情感语音模型,提高了系统的识别率。

Description

基于中性和情感声纹模型转换的说话人识别方法
技术领域
本发明涉及生物特征识别技术,主要是一种基于中性和情感声纹模型转换的说话人识别方法。
背景技术
生物认证技术以人们自身的物理特征作为身份认证依据,从根本上区别于传统的基于“你所拥有的东西”或者“你所知道的东西”的认证技术,真正以人自身作为身份认证的依据,自己真正代表了自己。其中,根据人的语音进行身份认证的技术称为说话人识别技术。
说话人识别分为用户模型训练和用户语音测试两个步骤。在训练过程中,需要用户提供语音训练和用户身份匹配的用户模型。在测试过程中,需要用户提供语音进行身份确认。目前,说话人识别方法主要有GMM方法,GMM-UBM方法,SVM方法,HMM方法,VQ方法。
传统的说话人识别方法需要用户提供中性语音进行用户模型训练和用户测试,但在日常生活中,人们的语音会受到自身情感波动的影响,这会影响系统的识别性能。用户在各种情感状态下发出的语音被称为情感语音。在测试语音或者训练语音中含有情感语音的说话人识别方法,被称为情绪化的说话人识别。
发明内容
本发明要解决上述技术所存在的缺陷,提供一种基于中性和情感声纹模型转换的说话人识别方法,根据用户的中性语音分布情况得到用户的情感语音分布情况,以此来提高说话人识别的准确率。用户的语音特征分布用高斯混合模型(GMM)来建模,所以本发明重点解决的是中性语音模型和情感语音模型之间的转换。
本发明解决其技术问题所采用的技术方案:这种基于中性和情感声纹模型转换的说话人识别方法基于中性和情感声纹模型转换的说话人识别方法基于中性和情感声纹模型转换的说话人识别方法,包括如下步骤:(1)、语音特征的提取:先进行音频预处理,音频预处理分为采样量化,去零漂,预加重和加窗三个部分;然后进行提取倒谱特征MFCC;(2)、建立情感模型库:进行高斯混合模型训练,对于每个用户的中性语音训练中性模型,进行中性-情感模型转化,通过中性情感语音转化算法得到情感语音模型;(3)、测试语音打分,进行说话人识别。
第一步为创建情感语音模型数据库,采集大量用户的各种情感语音和中性语音训练GMM模型,并在中性语音模型和情感语音模型之间建立一一对应的关系;第二步根据用户的中性语音和情感语音数据集合训练用户的情感语音模型,其中该用户的语音并不包括在情感语音集合中。通过该过程可以训练出具有不同情感的用户语音模型。
本发明有益的效果是:本技术采用中性-情感模型转换算法提高了情绪化说话人识别的识别率。本技术根据用户中性语音模型训练出用户的情感语音模型,提高了系统的识别率。
附图说明
图1是本发明的基于中性-情感模型转化的情绪化的说话人识别技术的框架图;
图2是本发明的中性-情感模型转换的流程图;
具体实施方式
下面结合附图和实施例对本发明作进一步介绍:本发明的方法共分三步。
第一步 特征提取
I.音频预处理
音频预处理分为采样量化,去零漂,预加重和加窗三个部分。
A)、采样量化
用锐截止滤波器对音频信号进行滤波,使其奈奎斯特频率FN为4KHZ;
设置音频采样率F=2FN;对音频信号sa(t)按周期进行采样,得到数字音频信号的振幅序列 s ( n ) = sa ( n F ) ;
用脉冲编码调制(PCM)对s(n)进行量化编码,得到振幅序列的量化表示s’(n)。
B)、去零漂
计算量化的振幅序列的平均值
Figure S200710157133XD00022
将每个振幅值减去平均值,得到去零漂后平均值为0的振幅序列s”(n)。
C)、预加重
设置数字滤波器的Z传递函数H(z)=1-αz-1中的预加重系数α,α可取1或比1稍小的值;s”(n)通过数字滤波器,得到音频信号的高、中、低频幅度相当的振幅序列s(n)。
D)、加窗
计算音频帧的帧长N(32毫秒)和帧移量T(10毫秒),分别满足:
N F = 0.032
T F = 0.010
这里F是音频采样率,单位为Hz;
以帧长为N、帧移量为T,把s(n)划分成一系列的音频帧Fm,每一音频帧包含N个音频信号样本;
计算哈明窗函数:
Figure S200710157133XD00033
对每一音频帧Fm加哈明窗:
II.MFCC的提取:
A)、设置梅尔倒谱系数的阶数p;
B)、做快速傅立叶变换FFT,将时域信号s(n)变成频域信号X(k)。
C)、计算梅尔域刻度:
M i = i p × 2595 log ( 1 + 8000 / 2.0 700.0 ) , ( i = 0,1,2 , . . . , p )
D)、计算对应的频域刻度:
f i = 700 × e M i 2595 ln 10 - 1 , ( i = 0,1,2 , . . . , p )
E)、计算每个梅尔域通道φj上的对数能量谱:
E j = Σ k = 0 K 2 - 1 φ j ( k ) | X ( k ) | 2
其中 Σ k = 0 K 2 - 1 φ j ( k ) = 1 .
F)、离散余弦变换DCT。
第二步 模型训练
模型训练中包括两个部分,第一部分是采用似然估计法得到中型语音的高斯混合模型模型;第二部分采用中性-情感模型转化算法。
I.高斯混合模型模型的训练
迭代估计GMM参数的过程可分为两步,计算训练数据在第i阶时的概率,这一步称为Expectation;然后以局部最大准则用式估计GMM的参数,这一步被称为Maximization。
ω i ′ = Σ t = 1 T r t ( i ) Σ t = 1 T Σ i = 1 M r t ( i ) = 1 T Σ t = 1 T P ( i t = i / z t , λ )
μ i ′ = Σ t = 1 T r t ( i ) z t Σ t = 1 T r t ( i ) = Σ t = 1 T P ( i t = i / z t , λ ) z t Σ t = 1 T P ( i t = i / z t , λ )
R i ′ = Σ t = 1 T P ( i t = i / z t , λ ) ( z t - μ i ′ ) T ( z t - μ i ′ ) Σ t = 1 T P ( i t = i / z t , λ ) .
II.中性-情感模型转化算法
A)建立语音模型数据库。
分别采集用户的情感语音和中性语音训练高斯混合模型,在数据库中来至同一个说话人的中型模型和情感模型建立了对应关系(G,M)。
B)计算G和G’之间每个高斯分量的距离:
di,k,j=D(Gi′,Gk,j)    (k=1...n)            (1)
其中Gk,j表示语音模型数据库(E)中第k个中性语音模型(GMM)的第j个高斯分量,并且Gi′表示用户中性语音模型的第i个高斯分量。两个高斯分量N11,∑1)和N22,∑2)之间的距离表示如下:
KL ( N 1 | | N 2 ) = 1 2 ( log | Σ 2 | | Σ 1 | + Tr ( Σ 2 - 1 Σ 1 ) + ( μ 1 - μ 2 ) T Σ 2 - 1 ( μ 1 - μ 2 ) - D ) . . . ( 2 )
C)在语音模型数据库中寻找Gi′和Gk,j之间距离最短的m个高斯分量。
[ J i , K i ] = arg min 0 < j < = m , 0 < k < = nc ( d i , j , k ) . . . ( 3 )
其中,Ji和Ki保存了语音模型数据库中中性情感模型的索引。第一步和第二步的目标是在模型数据库中找到和Gi′距离最短得k个高斯分量。
D)采用下式把中性语音模型转换成情感语音模型:
M &prime; ( x ) = G ( x ) + &Sigma; i nc &Sigma; j k w i ' w j T w J ( j ) , K ( j ) M J ( j ) ( x ) &Sigma; i nc &Sigma; j k w i ' w j T w J ( j ) , K ( j ) + &Sigma; i nc w i ' . . . ( 4 )
其中wi’表示G’的第i个高斯分量的权重,wJ(j),K(j)表示搜索到的第J(j)个高斯混合模型的第K(j)个高斯分量对应的权重。如果,情感模型库中高斯混合模型的阶数为nc,那么最后得到的情感模型的阶数为k*nc*nc+nc。
第三步 识别算法
根据贝叶斯理论,在输入语音信号X下,符合模型λi的概率为:
P ( &lambda; i | X ) = P ( X | &lambda; i ) * P ( &lambda; i ) P ( X ) .
实验结果
实验中采用的数据库为中文情感语音数据库(MASC)。该数据库包括68人,其中女性23人。一共录制了5种情感的语音,分别为:中性,生气,高兴,痛苦和悲伤。每个说话人要在每种情感情况下说出5个单词和20句语句3遍。
在实验中,MASC被分成了两个部分。53个说话人的语音用于创建语音模型数据库,剩余的15人(6女9男)用于评价算法在说话人识别中的性能。数据库中的前5句话用来训练模型,后15句用来进行测试。因为每句话阅读三边,所以用于测试语音为每个人的45句话,用于训练的有15句。
用两组实验来表示该技术的性能。两组实验特征提取方法都是相同的,为13维的MFCC特征。用等错误率(EER)来表示系统的识别性能。在第一组实验中,测试语音为5种情感的语音,训练语音为中性语音,只训练中性语音模型用于测试过程。这是一个基准实验。在第二组实验中,测试语音和训练语音同第一组实验完全相同。只是在训练了中性语音模型后,还要根据该模型和情感语音模型数据库训练相应情感的模型。实验结果如下表所示:
  EER(%)   语句相应的情感模型
生气 悲伤 高兴 痛苦
  基准实验   22.05   14.32   14.94   18.75
  情感模型转换   13.24   14.02   10.92   11.92
从上表可以看出,采用了中性语音模型和情感语音模型转换的方法后,系统的识别性能得到了提高。测试语音有五种情感语音,增强了情感说话人识别系统的性能。
上述实施例用来解释说明本发明,而不是对本发明进行限制,在本发明的精神和权利要求的保护范围内,对本发明作出的任何修改和改变,都落入本发明的保护范围。

Claims (7)

1.一种基于中性和情感声纹模型转换的说话人识别方法,其特征在于:包括如下步骤:
(1)、语音特征的提取:先进行音频预处理,音频预处理分为采样量化,去零漂,预加重和加窗三个部分;然后进行提取倒谱特征MFCC;
(2)、建立情感模型库:进行高斯混合模型训练,对于每个用户的中性语音训练中性模型,进行中性-情感模型转化,通过中性情感语音转化算法得到情感语音模型;
(3)、测试语音打分,进行说话人识别。
2.根据权利要求1所述的基于中性和情感声纹模型转换的说话人识别方法,其特征在于:所述的音频预处理具体步骤是:
1)、采样量化:
A)、用锐截止滤波器对音频信号进行滤波,使其奈奎斯特频率FN为4KHZ;
B)、设置音频采样率F=2FN
C)、对音频信号sa(t)按周期进行采样,得到数字音频信号的振幅序列 s ( n ) = s a ( n F ) ;
D)、用脉冲编码调制(PCM)对s(n)进行量化编码,得到振幅序列的量化表示s’(n);
2)、去零漂:
A)、计算量化的振幅序列的平均值
Figure S200710157133XC00012
B)、将每个振幅值减去平均值,得到去零漂后平均值为0的振幅序列s”(n);
3)、预加重:
A)、设置数字滤波器的Z传递函数H(z)=1-αz-1中的预加重系数α,α可取1或比1稍小的值;
B)、s”(n)通过数字滤波器,得到音频信号的高、中、低频幅度相当的振幅序列s(n);
4)、加窗:
A)、计算音频帧的帧长N和帧移量T,其中N为32毫秒,T为10毫秒,分别满足:
N F = 0.032
T F = 0.010
这里F是音频采样率,单位为Hz;
B)、以帧长为N、帧移量为T,把s(n)划分成一系列的音频帧Fm,每一音频帧包含N个音频信号样本;
C)、计算哈明窗函数:
Figure S200710157133XC00023
D)、对每一音频帧Fm加哈明窗:
ω(n)×Fm(n){Fm′(n)|n=0,1,...N-1}。
3.根据权利要求1所述的基于中性和情感声纹模型转换的说话人识别方法,其特征在于:所述提取倒谱特征MFCC具体步骤是:
1)、能量的提取:
E = &Sigma; n = 1 N s 2 ( n )
2)、过零率的提取:
Zcr = 1 2 N - 1 &Sigma; n = 1 N - 1 | [ sgn ( s ( n + 1 ) ) - sgn ( s ( n ) ) ] |
3)、梅尔倒谱系数,即MFCC的提取:
A)、设置梅尔倒谱系数的阶数p;
B)、做快速傅立叶变换FFT,将时域信号s(n)变成频域信号X(k);
C)、计算梅尔域刻度:
M i = i p &times; 2595 log ( 1 + 8000 / 2.0 700.0 ) , ( i = 0,1,2 , . . . , p )
D)、计算对应的频域刻度:
f i = 700 &times; e M i 2595 ln 10 - 1 , ( i = 0,1,2 , . . . , p )
E)、计算每个梅尔域通道φj上的对数能量谱:
E j = &Sigma; k = 0 K 2 - 1 &phi; j ( k ) | X ( k ) | 2
其中 &Sigma; k = 0 K 2 - 1 &phi; j ( k ) = 1 ;
F)、离散余弦变换DCT。
4.根据权利要求1所述的基于中性和情感声纹模型转换的说话人识别方法,其特征在于:所述的高斯混合模型训练具体步骤是:
迭代估计GMM参数的过程可分为两步,计算训练数据在第i阶时的概率,这一步称为Expectation;然后以局部最大准则用式估计GMM的参数:
&omega; i &prime; = &Sigma; t = 1 T r t ( i ) &Sigma; t = 1 T &Sigma; i = 1 M r t ( i ) = 1 T &Sigma; t = 1 T P ( i t = i / z t , &lambda; )
&mu; i &prime; = &Sigma; t = 1 T r t ( i ) z t &Sigma; t = 1 T r t ( i ) = &Sigma; t = 1 T P ( i t = i / z t , &lambda; ) z t &Sigma; t = 1 T P ( i t = i / z t , &lambda; )
R i &prime; = &Sigma; t = 1 T P ( i t = i / z t , &lambda; ) ( z t - &mu; i &prime; ) T ( z t - &mu; i &prime; ) &Sigma; t = 1 T P ( i t = i / z t , &lambda; ) .
5.根据权利要求1所述的基于中性和情感声纹模型转换的说话人识别方法,其特征在于:所述的建立情感模型库具体步骤是:分别采集用户的情感语音和中性语音训练高斯混合模型,在数据库中来至同一个说话人的中型模型和情感模型建立了对应关系。
6.根据权利要求1所述的基于中性和情感声纹模型转换的说话人识别方法,其特征在于:所述的中性-情感模型转化具体步骤是:
A)计算G和G’之间每个高斯分量的距离:
di,k,j=D(Gi′,Gk,j)    (k=1...n)            (1)
其中Gk,j表示语音模型数据库(E)中第k个中性语音模型GMM的第j个高斯分量,并且Gi′表示用户中性语音模型的第i个高斯分量,两个高斯分量N11,∑1)和N22,∑2)之间的距离表示如下:
KL ( N 1 | | N 2 ) = 1 2 ( log | &Sigma; 2 | | &Sigma; 1 | + Tr ( &Sigma; 2 - 1 &Sigma; 1 ) + ( &mu; 1 - &mu; 2 ) T &Sigma; 2 - 1 ( &mu; 1 - &mu; 2 ) - D ) . . . ( 2 )
B)在语音模型数据库中寻找Gi′和Gk,j之间距离最短的m个高斯分量;
[ J i , K i ] = arg min 0 < j < = m , 0 < k < = nc ( d i , j , k ) . . . ( 3 )
其中,Ji和Ki保存了语音模型数据库中中性情感模型的索引,第一步和第二步的目标是在模型数据库中找到和Gi′距离最短得k个高斯分量;
C)采用下式把中性语音模型转换成情感语音模型:
M &prime; ( x ) = G ( x ) + &Sigma; i nc &Sigma; j k w i ' w j T w J ( j ) , K ( j ) M J ( j ) ( x ) &Sigma; i nc &Sigma; j k w i ' w j T w J ( j ) , K ( j ) + &Sigma; i nc w i ' . . . ( 4 )
其中wi’表示G’的第i个高斯分量的权重,wJ(j),K(j)表示搜索到的第J(j)个高斯混合模型的第K(j)个高斯分量对应的权重;如果,情感模型库中高斯混合模型的阶数为nc,那么最后得到的情感模型的阶数为k*nc*nc+nc。
7.根据权利要求1所述的基于中性和情感声纹模型转换的说话人识别方法,其特征在于:所述的测试语音打分具体步骤是:
在输入语音信号X下,符合模型λi的概率为: P ( &lambda; i | X ) = P ( X | &lambda; i ) * P ( &lambda; i ) P ( X ) .
CNA200710157133XA 2007-12-05 2007-12-05 基于中性和情感声纹模型转换的说话人识别方法 Pending CN101226743A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNA200710157133XA CN101226743A (zh) 2007-12-05 2007-12-05 基于中性和情感声纹模型转换的说话人识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNA200710157133XA CN101226743A (zh) 2007-12-05 2007-12-05 基于中性和情感声纹模型转换的说话人识别方法

Publications (1)

Publication Number Publication Date
CN101226743A true CN101226743A (zh) 2008-07-23

Family

ID=39858700

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA200710157133XA Pending CN101226743A (zh) 2007-12-05 2007-12-05 基于中性和情感声纹模型转换的说话人识别方法

Country Status (1)

Country Link
CN (1) CN101226743A (zh)

Cited By (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101833951A (zh) * 2010-03-04 2010-09-15 清华大学 用于说话人识别的多背景模型建立方法
CN102064937A (zh) * 2011-01-10 2011-05-18 杭州电子科技大学 基于声纹的通话双方语音加解密方法
CN102332263A (zh) * 2011-09-23 2012-01-25 浙江大学 一种基于近邻原则合成情感模型的说话人识别方法
CN102074234B (zh) * 2009-11-19 2012-07-25 财团法人资讯工业策进会 语音变异模型建立装置、方法及语音辨识系统和方法
WO2012151786A1 (zh) * 2011-05-11 2012-11-15 北京航空航天大学 结合情感点的汉语语音情感提取及建模方法
CN102799899A (zh) * 2012-06-29 2012-11-28 北京理工大学 基于svm和gmm的特定音频事件分层泛化识别方法
TWI391915B (zh) * 2009-11-17 2013-04-01 Inst Information Industry 語音變異模型建立裝置、方法及應用該裝置之語音辨識系統和方法
CN103456302A (zh) * 2013-09-02 2013-12-18 浙江大学 一种基于情感gmm模型权重合成的情感说话人识别方法
CN103680495A (zh) * 2012-09-26 2014-03-26 中国移动通信集团公司 语音识别模型训练方法和装置及终端
CN104221079A (zh) * 2012-02-21 2014-12-17 塔塔顾问服务有限公司 利用频谱特性进行声音分析的改进的梅尔滤波器组结构
CN104900232A (zh) * 2015-04-20 2015-09-09 东南大学 一种基于双层gmm结构和vts特征补偿的孤立词识别方法
CN105304087A (zh) * 2015-09-15 2016-02-03 北京理工大学 一种基于过零间隔点声纹识别方法
CN106033670A (zh) * 2015-03-19 2016-10-19 科大讯飞股份有限公司 声纹密码认证方法及系统
CN106688034A (zh) * 2014-09-11 2017-05-17 微软技术许可有限责任公司 具有情感内容的文字至语音转换
WO2018023516A1 (zh) * 2016-08-04 2018-02-08 易晓阳 一种语音交互识别控制方法
CN108269573A (zh) * 2017-01-03 2018-07-10 蓝盾信息安全技术有限公司 基于矢量量化和高斯混合模型的说话人识别系统
CN108577866A (zh) * 2018-04-03 2018-09-28 中国地质大学(武汉) 一种多维情感识别与缓解的系统及方法
CN109065071A (zh) * 2018-08-31 2018-12-21 电子科技大学 一种基于迭代k-means算法的歌曲聚类方法
CN109065069A (zh) * 2018-10-10 2018-12-21 广州市百果园信息技术有限公司 一种音频检测方法、装置、设备及存储介质
CN109410956A (zh) * 2018-12-24 2019-03-01 科大讯飞股份有限公司 一种音频数据的对象识别方法、装置、设备及存储介质
CN110232932A (zh) * 2019-05-09 2019-09-13 平安科技(深圳)有限公司 基于残差时延网络的说话人确认方法、装置、设备及介质
CN110335611A (zh) * 2019-07-15 2019-10-15 易诚高科(大连)科技有限公司 一种基于质量维度的声纹识别算法评估方法
CN112562738A (zh) * 2020-11-13 2021-03-26 江苏汉德天坤数字技术有限公司 一种语音情绪识别算法
CN112786050A (zh) * 2019-11-07 2021-05-11 王皓 一种语音识别的方法、装置及设备
CN113327620A (zh) * 2020-02-29 2021-08-31 华为技术有限公司 声纹识别的方法和装置
CN113361969A (zh) * 2021-07-07 2021-09-07 北京容联七陌科技有限公司 一种灵活可配置模板的智能质检系统

Cited By (46)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI391915B (zh) * 2009-11-17 2013-04-01 Inst Information Industry 語音變異模型建立裝置、方法及應用該裝置之語音辨識系統和方法
US8478591B2 (en) 2009-11-17 2013-07-02 Institute For Information Industry Phonetic variation model building apparatus and method and phonetic recognition system and method thereof
CN102074234B (zh) * 2009-11-19 2012-07-25 财团法人资讯工业策进会 语音变异模型建立装置、方法及语音辨识系统和方法
CN101833951B (zh) * 2010-03-04 2011-11-09 清华大学 用于说话人识别的多背景模型建立方法
CN101833951A (zh) * 2010-03-04 2010-09-15 清华大学 用于说话人识别的多背景模型建立方法
CN102064937A (zh) * 2011-01-10 2011-05-18 杭州电子科技大学 基于声纹的通话双方语音加解密方法
CN102893326B (zh) * 2011-05-11 2013-11-13 北京航空航天大学 结合情感点的汉语语音情感提取及建模方法
CN102893326A (zh) * 2011-05-11 2013-01-23 北京航空航天大学 结合情感点的汉语语音情感提取及建模方法
WO2012151786A1 (zh) * 2011-05-11 2012-11-15 北京航空航天大学 结合情感点的汉语语音情感提取及建模方法
WO2013040981A1 (zh) * 2011-09-23 2013-03-28 浙江大学 一种基于近邻原则合成情感模型的说话人识别方法
CN102332263B (zh) * 2011-09-23 2012-11-07 浙江大学 一种基于近邻原则合成情感模型的说话人识别方法
CN102332263A (zh) * 2011-09-23 2012-01-25 浙江大学 一种基于近邻原则合成情感模型的说话人识别方法
CN104221079A (zh) * 2012-02-21 2014-12-17 塔塔顾问服务有限公司 利用频谱特性进行声音分析的改进的梅尔滤波器组结构
US9704495B2 (en) 2012-02-21 2017-07-11 Tata Consultancy Services Limited Modified mel filter bank structure using spectral characteristics for sound analysis
CN104221079B (zh) * 2012-02-21 2017-03-01 塔塔顾问服务有限公司 利用频谱特性进行声音分析的改进的梅尔滤波器组结构
CN102799899B (zh) * 2012-06-29 2014-12-10 北京理工大学 基于svm和gmm的特定音频事件分层泛化识别方法
CN102799899A (zh) * 2012-06-29 2012-11-28 北京理工大学 基于svm和gmm的特定音频事件分层泛化识别方法
CN103680495A (zh) * 2012-09-26 2014-03-26 中国移动通信集团公司 语音识别模型训练方法和装置及终端
CN103456302B (zh) * 2013-09-02 2016-04-20 浙江大学 一种基于情感gmm模型权重合成的情感说话人识别方法
CN103456302A (zh) * 2013-09-02 2013-12-18 浙江大学 一种基于情感gmm模型权重合成的情感说话人识别方法
CN106688034B (zh) * 2014-09-11 2020-11-13 微软技术许可有限责任公司 具有情感内容的文字至语音转换
CN106688034A (zh) * 2014-09-11 2017-05-17 微软技术许可有限责任公司 具有情感内容的文字至语音转换
CN106033670A (zh) * 2015-03-19 2016-10-19 科大讯飞股份有限公司 声纹密码认证方法及系统
CN104900232A (zh) * 2015-04-20 2015-09-09 东南大学 一种基于双层gmm结构和vts特征补偿的孤立词识别方法
CN105304087B (zh) * 2015-09-15 2017-03-22 北京理工大学 一种基于过零间隔点声纹识别方法
CN105304087A (zh) * 2015-09-15 2016-02-03 北京理工大学 一种基于过零间隔点声纹识别方法
WO2018023516A1 (zh) * 2016-08-04 2018-02-08 易晓阳 一种语音交互识别控制方法
CN108269573A (zh) * 2017-01-03 2018-07-10 蓝盾信息安全技术有限公司 基于矢量量化和高斯混合模型的说话人识别系统
CN108577866A (zh) * 2018-04-03 2018-09-28 中国地质大学(武汉) 一种多维情感识别与缓解的系统及方法
CN109065071A (zh) * 2018-08-31 2018-12-21 电子科技大学 一种基于迭代k-means算法的歌曲聚类方法
CN109065071B (zh) * 2018-08-31 2021-05-14 电子科技大学 一种基于迭代k-means算法的歌曲聚类方法
CN109065069A (zh) * 2018-10-10 2018-12-21 广州市百果园信息技术有限公司 一种音频检测方法、装置、设备及存储介质
US11948595B2 (en) 2018-10-10 2024-04-02 Bigo Technology Pte. Ltd. Method for detecting audio, device, and storage medium
WO2020073743A1 (zh) * 2018-10-10 2020-04-16 广州市百果园信息技术有限公司 一种音频检测方法、装置、设备及存储介质
CN109065069B (zh) * 2018-10-10 2020-09-04 广州市百果园信息技术有限公司 一种音频检测方法、装置、设备及存储介质
CN109410956A (zh) * 2018-12-24 2019-03-01 科大讯飞股份有限公司 一种音频数据的对象识别方法、装置、设备及存储介质
CN109410956B (zh) * 2018-12-24 2021-10-08 科大讯飞股份有限公司 一种音频数据的对象识别方法、装置、设备及存储介质
CN110232932B (zh) * 2019-05-09 2023-11-03 平安科技(深圳)有限公司 基于残差时延网络的说话人确认方法、装置、设备及介质
CN110232932A (zh) * 2019-05-09 2019-09-13 平安科技(深圳)有限公司 基于残差时延网络的说话人确认方法、装置、设备及介质
CN110335611A (zh) * 2019-07-15 2019-10-15 易诚高科(大连)科技有限公司 一种基于质量维度的声纹识别算法评估方法
CN112786050A (zh) * 2019-11-07 2021-05-11 王皓 一种语音识别的方法、装置及设备
CN112786050B (zh) * 2019-11-07 2024-02-02 王皓 一种语音识别的方法、装置及设备
CN113327620A (zh) * 2020-02-29 2021-08-31 华为技术有限公司 声纹识别的方法和装置
CN112562738A (zh) * 2020-11-13 2021-03-26 江苏汉德天坤数字技术有限公司 一种语音情绪识别算法
CN113361969A (zh) * 2021-07-07 2021-09-07 北京容联七陌科技有限公司 一种灵活可配置模板的智能质检系统
CN113361969B (zh) * 2021-07-07 2022-03-08 北京容联七陌科技有限公司 一种灵活可配置模板的智能质检系统

Similar Documents

Publication Publication Date Title
CN101226743A (zh) 基于中性和情感声纹模型转换的说话人识别方法
CN108922541B (zh) 基于dtw和gmm模型的多维特征参数声纹识别方法
CN102820033B (zh) 一种声纹识别方法
CN102968986B (zh) 基于长时特征和短时特征的重叠语音与单人语音区分方法
CN102231278B (zh) 实现语音识别中自动添加标点符号的方法及系统
CN101136199B (zh) 语音数据处理方法和设备
CN101944359B (zh) 一种面向特定人群的语音识别方法
CN102483916B (zh) 声音特征量提取装置和声音特征量提取方法
CN102982803A (zh) 基于hrsf及改进dtw算法的孤立词语音识别方法
CN101923855A (zh) 文本无关的声纹识别系统
CN104078039A (zh) 基于隐马尔科夫模型的家用服务机器人语音识别系统
CN110265063B (zh) 一种基于固定时长语音情感识别序列分析的测谎方法
CN101930735A (zh) 语音情感识别设备和进行语音情感识别的方法
CN104900235A (zh) 基于基音周期混合特征参数的声纹识别方法
CN103456302B (zh) 一种基于情感gmm模型权重合成的情感说话人识别方法
CN101178897A (zh) 利用基频包络剔除情感语音的说话人识别方法
CN102655003B (zh) 基于声道调制信号mfcc的汉语语音情感点识别方法
CN104978507A (zh) 一种基于声纹识别的智能测井评价专家系统身份认证方法
CN102789779A (zh) 一种语音识别系统及其识别方法
CN100543840C (zh) 基于情感迁移规则及语音修正的说话人识别方法
CN102237083A (zh) 一种基于WinCE平台的便携式口语翻译系统及其语言识别方法
CN101419800B (zh) 基于频谱平移的情感说话人识别方法
Chauhan et al. Speech to text converter using Gaussian Mixture Model (GMM)
CN102592593A (zh) 一种考虑语音中多线性群组稀疏特性的情绪特征提取方法
CN102496366B (zh) 一种与文本无关的说话人识别方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Open date: 20080723