CN102332263B - 一种基于近邻原则合成情感模型的说话人识别方法 - Google Patents

一种基于近邻原则合成情感模型的说话人识别方法 Download PDF

Info

Publication number
CN102332263B
CN102332263B CN2011102849457A CN201110284945A CN102332263B CN 102332263 B CN102332263 B CN 102332263B CN 2011102849457 A CN2011102849457 A CN 2011102849457A CN 201110284945 A CN201110284945 A CN 201110284945A CN 102332263 B CN102332263 B CN 102332263B
Authority
CN
China
Prior art keywords
gaussian component
training
emotion
voice
neutral
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN2011102849457A
Other languages
English (en)
Other versions
CN102332263A (zh
Inventor
杨莹春
陈力
吴朝晖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN2011102849457A priority Critical patent/CN102332263B/zh
Publication of CN102332263A publication Critical patent/CN102332263A/zh
Priority to US14/346,960 priority patent/US9355642B2/en
Priority to PCT/CN2012/080959 priority patent/WO2013040981A1/zh
Application granted granted Critical
Publication of CN102332263B publication Critical patent/CN102332263B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/26Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training

Abstract

本发明公开了一种基于近邻原则合成情感模型的说话人识别方法,包括:(1)训练出参考语音和用户中性语音的模型;(2)提取GMM参考模型的中性-情感高斯分量映射集;(3)提取与用户的中性训练高斯分量邻近的若干中性参考高斯分量映射的情感参考高斯分量;(4)合成出用户的情感训练高斯分量,进而得到用户的情感训练模型;(5)合成出所有用户的GMM训练模型;(6)输入测试语音进行识别。本发明采用基于KL散度的近邻原则从语音库中提取若干与用户的中性训练语音相似的参考语音,用参考语音中的情感参考语音合成出用户的情感训练语音,改善了在训练语音与测试语音失配情况下说话人识别系统的性能,提高了说话人识别系统的鲁棒性。

Description

一种基于近邻原则合成情感模型的说话人识别方法
技术领域
本发明属于模式识别技术领域,具体涉及一种基于近邻原则合成情感模型的说话人识别方法。
背景技术
说话人识别技术是利用信号处理和模式识别的方法,根据说话人的语音识别其身份的技术,主要包括两个步骤:说话人模型训练和语音测试。
目前,说话人语音识别采用的主要特征包括梅尔倒谱系数(MFCC)、线性预测编码倒谱系数(LPCC)、感觉加权的线性预测系数(PLP)。说话人语音识别的算法主要包括矢量量化法(VQ)、通用背景模型法(GMM-UBM)、支持向量机法(SVM)等等。其中,GMM-UBM在整个说话人语音识别领域应用非常广泛。
然而,在说话人语音识别中,说话人的训练语音通常为中性语音,因为在现实应用中,用户一般情况下只会提供中性发音下的语音训练自己的模型,要求所有用户提供自己各种情感的语音在实际情况下并不太容易也不太方便实现,且对系统的数据库的承受负荷也是一种很高的要求。
但是,在实际测试时,说话人可能会根据当时的情绪发出富有情感的语音,如高兴的、悲伤的、愤怒的等。然而,现有的说话人识别方法并不能自适应这种训练语音与测试语音失配的情况,从而导致说话人识别系统性能下降,对于情感语音的识别成功率大打折扣。
发明内容
针对现有技术所存在的上述技术缺陷,本发明提供了一种基于近邻原则合成情感模型的说话人识别方法,合成出说话人的情感模型来降低模型的失配程度,提高对情感语音的识别成功率。
一种基于近邻原则合成情感模型的说话人识别方法,包括如下步骤:
(1)获取若干套参考语音以及用户的中性训练语音,对所有语音进行模型训练,对应得到若干套GMM(Gaussian Mixture Model)参考模型以及用户的中性训练模型;
所述的参考语音包括中性参考语音和m种情感参考语音;所述的GMM参考模型包括一个中性参考模型和m个情感参考模型,m为大于0的自然数;
(2)提取每套GMM参考模型的中性-情感高斯分量映射集;
(3)根据KL散度(Kullback-Leibler divergence)计算法,逐一计算中性训练模型中的每一中性训练高斯分量与所有中性参考模型中的中性参考高斯分量的KL散度,选取每一中性训练高斯分量对应的与之KL散度最小的n个中性参考高斯分量;进而根据所述的中性-情感高斯分量映射集,提取出n个中性参考高斯分量中每个中性参考高斯分量对应的m个情感参考高斯分量,n为大于0的自然数;
(4)将每一中性训练高斯分量对应的n×m个情感参考高斯分量合成出对应的m个情感训练高斯分量,进而得到用户的m个情感训练模型;
(5)根据步骤(1)至(4),合成得到所有用户的GMM训练模型,所述的GMM训练模型包括所述的中性训练模型和m个情感训练模型;
(6)输入某一用户的测试语音,将该测试语音与所有用户的GMM训练模型逐一进行得分计算,将得分最大的GMM训练模型所对应的用户作为识别出的用户。
所述的步骤(1)中,对所有语音进行模型训练的过程为:首先对语音依次进行采样量化、去零漂、预加重、加窗的预处理过程,然后采用基于MFCC的特征提取法或基于LPCC的特征提取法对预处理后的语音进行特征提取,提取出语音的特征向量集,通过EM(Expectation Maximization)法训练出特征向量集的UBM(Universal Background Model)模型,最后采用MAP(Maximum APosterior)法从UBM模型中训练出语音的GMM模型。
所述的中性-情感高斯分量映射集为中性参考模型中的中性参考高斯分量与各情感参考模型中的情感参考高斯分量的对应关系。
所述的KL散度计算法的方程表达式如下:
δ = 1 2 [ log | Σ 1 | | Σ 2 | + Tr ( Σ 2 - 1 Σ 1 ) + ( μ 1 - μ 2 ) T Σ 2 - 1 ( μ 1 - μ 2 ) ] - - - ( 1 )
式1中:δ为KL散度,μ1和∑1分别为第一个高斯分量的均值和方差,μ2和∑2分别为第二个高斯分量的均值和方差。
所述的步骤(4)中,将每一中性训练高斯分量对应的n×m个情感参考高斯分量利用基于近邻位置法或基于近邻变化法合成出对应的m个情感训练高斯分量;
所述的基于近邻位置法的方程表达式如下:
μ e = 1 n Σ i = 1 n μ e , i - - - ( 2 )
式2中:μe为中性训练高斯分量对应的任一情感训练高斯分量的均值,μe,i为n个对应的情感参考高斯分量中第i情感参考高斯分量的均值。
所述的基于近邻变化法的方程表达式如下:
μ e = μ k + 1 n Σ i = 1 n ( μ e , i - μ k , i ) - - - ( 3 )
式3中:μe为中性训练高斯分量对应的任一情感训练高斯分量的均值,μe,i为n个对应的情感参考高斯分量中第i情感参考高斯分量的均值,μk为中性训练高斯分量的均值,μk,i为n个对应的中性参考高斯分量中第i中性参考高斯分量的均值。
所述的步骤(6)中,将测试语音与所有用户的GMM训练模型逐一进行得分计算,该得分计算的公式为:
Score = 1 T Σ t = 1 T Σ k = 1 j ω k max [ P ( x t | C k ) , P ( x t | E k ) ] - - - ( 4 )
式4中:T为测试语音中的特征帧数,xt为测试语音中的第t帧特征,j为GMM训练模型的阶数,Ck为中性训练模型中的第k中性训练高斯分量,Ek为情感训练模型中的第k情感训练高斯分量,ωk为Ck和Ek的权重,P(xt|Ck)为xt在Ck上的得分,P(xt|Ek)为xt在Ek上的得分。
通过实验观察发现,在中性语音下的发音较相似的说话人,他们在情感语音下的发音也较相似;本发明采用基于KL散度的近邻原则从语音库中提取若干与用户的中性训练语音相似的参考语音,用参考语音中的情感参考语音合成出用户的情感训练语音,改善了在训练语音与测试语音失配情况下说话人识别系统的性能,提高了说话人识别系统的鲁棒性。
附图说明
图1为本发明的步骤流程示意图。
具体实施方式
为了更为具体地描述本发明,下面结合附图及具体实施方式对本发明的说话人识别方法进行详细说明。
如图1所示,一种基于近邻原则合成情感模型的说话人识别方法,包括如下步骤:
(1)训练出参考语音和用户中性语音的模型。
获取25套参考语音以及20位用户的中性训练语音。
25套参考语音以及20位用户的中性训练语音均是在安静的环境下采用奥林巴斯DM-20录音笔录制的,且分别为母语是汉语的25个说话人和20位用户的语音。一套参考语音包括说话人的5种情感的发音:中性参考语音、惊慌参考语音、高兴参考语音、愤怒参考语音和悲伤参考语音;每个说话人会在中性条件下朗读2段中性的段落,同时,会在每种情感下说出5个单词和20句语句各3遍。而中性训练语音只是用户在中性情感下的发音,即用户在中性条件下朗读2段中性的段落。
对所有采集到的语音进行模型训练,对应得到25套GMM参考模型以及20位用户的中性训练模型;一套GMM参考模型包括一个中性参考模型和4个情感参考模型;
对语音进行模型训练的过程为:首先对语音依次进行采样量化、去零漂、预加重、加窗的预处理过程,然后采用基于MFCC的特征提取法或基于LPCC的特征提取法对预处理后的语音进行特征提取,提取出语音的特征向量集X=[x1,x2,L,xT],其中每帧特征是一个p维的向量,T表示该语音中特征的总数;通过EM法训练出特征向量集的UBM模型,最后采用MAP法从UBM模型中训练出语音的GMM模型。以下为一参考语音的GMM参考模型中的中性参考模型和情感参考模型:
λ N = Σ k = 1 j ω k N ( μ N , k , Σ N , k )
(5)
λ E = Σ k = 1 j ω k N ( μ E , k , Σ E , k )
式5中,λN为参考语音的中性参考模型。ωk为中性参考模型中第k中性参考高斯分量的权重,由于MAP自适应时权重保持不变,所以各GMM模型的ωk和UBM模型中的ωk相同。μN,k和∑N,k分别为中性参考模型中第k中性参考高斯分量的均值和方差。同样地,λE为参考语音的情感参考模型,μE,k和∑E,k分别为高兴参考模型中第k情感参考高斯分量的均值和方差。
(2)提取GMM参考模型的中性-情感高斯分量映射集。
提取每套GMM参考模型的中性-情感高斯分量映射集;中性-情感高斯分量映射集为中性参考模型中的中性参考高斯分量与各情感参考模型中的情感参考高斯分量的对应关系: N ( μ N , k , Σ N , k ) ⇔ N ( μ E , k , Σ E , k )
(3)提取与用户的中性训练高斯分量邻近的若干中性参考高斯分量映射的情感参考高斯分量。
根据KL散度计算法,逐一计算中性训练模型中的每一中性训练高斯分量与所有中性参考模型中的中性参考高斯分量的KL散度;
KL散度计算法的方程表达式如下:
δ = 1 2 [ log | Σ 1 | | Σ 2 | + Tr ( Σ 2 - 1 Σ 1 ) + ( μ 1 - μ 2 ) T Σ 2 - 1 ( μ 1 - μ 2 ) ] - - - ( 1 )
式1中:δ为KL散度,μ1和∑1分别为第一个高斯分量的均值和方差,μ2和∑2分别为第二个高斯分量的均值和方差。
选取每一中性训练高斯分量对应的与之KL散度最小的10个中性参考高斯分量;进而根据中性-情感高斯分量映射集,提取出10个中性参考高斯分量中每个中性参考高斯分量对应的4个情感参考高斯分量;
(4)合成出用户的情感训练高斯分量,进而得到用户的情感训练模型。
将每一中性训练高斯分量对应的10×4个情感参考高斯分量利用基于近邻位置法合成出对应的4个情感训练高斯分量,进而得到用户的4个情感训练模型;
基于近邻位置法的方程表达式如下:
μ e = 1 n Σ i = 1 n μ e , i - - - ( 2 )
式2中:μe为中性训练高斯分量对应的任一情感训练高斯分量的均值,μe,i为n个对应的情感参考高斯分量中第i情感参考高斯分量的均值。
(5)合成出所有用户的GMM训练模型。
根据步骤(1)至(4),合成得到所有用户的GMM训练模型,本实施例中,一套GMM训练模型包括一个中性训练模型和4个情感训练模型。
(6)输入测试语音进行识别。
输入某一用户的测试语音,将该测试语音与所有用户的GMM训练模型逐一进行得分计算,将得分最大的GMM训练模型所对应的用户作为识别出的用户。
得分计算的公式为:
Score = 1 T Σ t = 1 T Σ k = 1 j ω k max [ P ( x t | C k ) , P ( x t | E k ) ] - - - ( 4 )
式4中:T为测试语音中的特征帧数,xt为测试语音中的第t帧特征,j为GMM训练模型的阶数,本实施例中阶数为1024,Ck为中性训练模型中的第k中性训练高斯分量,Ek为情感训练模型中的第k情感训练高斯分量,ωk为Ck和Ek的权重,P(xt|Ck)为xt在Ck上的得分,P(xt|Ek)为xt在Ek上的得分。
表1为通过相关实验测试出传统GMM-UBM方法与本实施方式分别对用户在中性、惊慌、高兴、愤怒和悲伤5种情感发音下的识别率。其中,所有的语料通过100ms的Hamming窗进行分帧,窗的步长设为80ms。每一帧语音信号提取出13维MFCC特征用于训练UBM模型,自适应说话人模型和说话人识别测试。
表1:传统GMM-UBM方法与本实施方式的识别率
  情感分类   GMM-UBM方法   本实施方式
  中性   96.47%   95.33%
  愤怒   34.87%   38.40%
  高兴   38.07%   45.20%
  惊慌   36.60%   40.07%
  悲伤   60.80%   61.80%
从上述实验结果可以看出,本实施方式可以有效地检测出语句中的可靠特征,在各情感状态下,识别的准确率得到了较大的提高。同时,总体的识别准确率也提高了2.81%,因此本实施方式对提高说话人识别系统的性能和鲁棒性有很大的帮助。

Claims (6)

1.一种基于近邻原则合成情感模型的说话人识别方法,包括如下步骤:
(1)获取若干套参考语音以及用户的中性训练语音,对所有语音进行模型训练,对应得到若干套GMM参考模型以及用户的中性训练模型;
所述的参考语音包括中性参考语音和m种情感参考语音;所述的GMM参考模型包括一个中性参考模型和m个情感参考模型,m为大于0的自然数;
(2)提取每套GMM参考模型的中性-情感高斯分量映射集;
(3)根据KL散度计算法,逐一计算中性训练模型中的每一中性训练高斯分量与所有中性参考模型中的中性参考高斯分量的KL散度,选取每一中性训练高斯分量对应的与之KL散度最小的n个中性参考高斯分量;进而根据所述的中性-情感高斯分量映射集,提取出n个中性参考高斯分量中每个中性参考高斯分量对应的m个情感参考高斯分量,n为大于0的自然数;
(4)将每一中性训练高斯分量对应的n×m个情感参考高斯分量合成出对应的m个情感训练高斯分量,进而得到用户的m个情感训练模型;
(5)根据步骤(1)至(4),合成得到所有用户的GMM训练模型;
(6)输入某一用户的测试语音,将该测试语音与所有用户的GMM训练模型逐一进行得分计算,将得分最大的GMM训练模型所对应的用户作为识别出的用户。
2.根据权利要求1所述的基于近邻原则合成情感模型的说话人识别方法,其特征在于:所述的步骤(1)中,对所有语音进行模型训练的过程为:首先对语音依次进行采样量化、去零漂、预加重、加窗的预处理过程,然后采用基于MFCC的特征提取法或基于LPCC的特征提取法对预处理后的语音进行特征提取,提取出语音的特征向量集,通过EM法训练出特征向量集的UBM模型,最后采用MAP法从UBM模型中训练出语音的GMM模型。
3.根据权利要求1所述的基于近邻原则合成情感模型的说话人识别方法,其特征在于:所述的中性-情感高斯分量映射集为中性参考模型中的中性参考高斯分量与各情感参考模型中的情感参考高斯分量的对应关系。
4.根据权利要求1所述的基于近邻原则合成情感模型的说话人识别方法,其特征在于:所述的KL散度计算法的方程表达式如下:
δ = 1 2 [ log | Σ 1 | | Σ 2 | + Tr ( Σ 2 - 1 Σ 1 ) + ( μ 1 - μ 2 ) T Σ 2 - 1 ( μ 1 - μ 2 ) ] - - - ( 1 )
式1中:δ为KL散度,μ1和∑1分别为第一个高斯分量的均值和方差,μ2和∑2分别为第二个高斯分量的均值和方差。
5.根据权利要求1所述的基于近邻原则合成情感模型的说话人识别方法,其特征在于:所述的步骤(4)中,将每一中性训练高斯分量对应的n×m个情感参考高斯分量利用基于近邻位置法或基于近邻变化法合成出对应的m个情感训练高斯分量;
所述的基于近邻位置法的方程表达式如下:
μ e = 1 n Σ i = 1 n μ e , i - - - ( 2 )
式2中:μe为中性训练高斯分量对应的任一情感训练高斯分量的均值,μe,i为n个对应的情感参考高斯分量中第i情感参考高斯分量的均值;
所述的基于近邻变化法的方程表达式如下:
μ e = μ k + 1 n Σ i = 1 n ( μ e , i - μ k , i ) - - - ( 3 )
式3中:μe为中性训练高斯分量对应的任一情感训练高斯分量的均值,μe,i为n个对应的情感参考高斯分量中第i情感参考高斯分量的均值,μk为中性训练高斯分量的均值,μk,i为n个对应的中性参考高斯分量中第i中性参考高斯分量的均值。
6.根据权利要求1所述的基于近邻原则合成情感模型的说话人识别方法,其特征在于:所述的步骤(6)中,将测试语音与所有用户的GMM训练模型逐一进行得分计算,该得分计算的公式为:
Score = 1 T Σ t = 1 T Σ k = 1 j ω k max [ P ( x t | C k ) , P ( x t | E k ) ] - - - ( 4 )
式4中:T为测试语音中的特征帧数,xt为测试语音中的第t帧特征,j为GMM训练模型的阶数,Ck为中性训练模型中的第k中性训练高斯分量,Ek为情感训练模型中的第k情感训练高斯分量,ωk为Ck和Ek的权重,P(xt|Ck)为xt在Ck上的得分,P(xt|Ek)为xt在Ek上的得分。
CN2011102849457A 2011-09-23 2011-09-23 一种基于近邻原则合成情感模型的说话人识别方法 Active CN102332263B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN2011102849457A CN102332263B (zh) 2011-09-23 2011-09-23 一种基于近邻原则合成情感模型的说话人识别方法
US14/346,960 US9355642B2 (en) 2011-09-23 2012-09-04 Speaker recognition method through emotional model synthesis based on neighbors preserving principle
PCT/CN2012/080959 WO2013040981A1 (zh) 2011-09-23 2012-09-04 一种基于近邻原则合成情感模型的说话人识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2011102849457A CN102332263B (zh) 2011-09-23 2011-09-23 一种基于近邻原则合成情感模型的说话人识别方法

Publications (2)

Publication Number Publication Date
CN102332263A CN102332263A (zh) 2012-01-25
CN102332263B true CN102332263B (zh) 2012-11-07

Family

ID=45484019

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2011102849457A Active CN102332263B (zh) 2011-09-23 2011-09-23 一种基于近邻原则合成情感模型的说话人识别方法

Country Status (3)

Country Link
US (1) US9355642B2 (zh)
CN (1) CN102332263B (zh)
WO (1) WO2013040981A1 (zh)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102332263B (zh) * 2011-09-23 2012-11-07 浙江大学 一种基于近邻原则合成情感模型的说话人识别方法
US9837078B2 (en) * 2012-11-09 2017-12-05 Mattersight Corporation Methods and apparatus for identifying fraudulent callers
CN103236260B (zh) * 2013-03-29 2015-08-12 京东方科技集团股份有限公司 语音识别系统
CN103280220B (zh) * 2013-04-25 2015-11-18 北京大学深圳研究生院 一种实时的婴儿啼哭声识别方法
CN103440863B (zh) * 2013-08-28 2016-01-06 华南理工大学 一种基于流形的语音情感识别方法
CN103745005A (zh) * 2014-01-24 2014-04-23 清华大学 基于疫苗移植的动态人工免疫故障诊断方法
WO2016095218A1 (en) 2014-12-19 2016-06-23 Dolby Laboratories Licensing Corporation Speaker identification using spatial information
CN107204193B (zh) * 2017-06-12 2020-05-29 山东师范大学 基于直方图统计和池化算法的音频场景识别方法及装置
JP7073640B2 (ja) * 2017-06-23 2022-05-24 カシオ計算機株式会社 電子機器、感情情報取得システム、プログラム及び感情情報取得方法
US10896682B1 (en) * 2017-08-09 2021-01-19 Apple Inc. Speaker recognition based on an inside microphone of a headphone
CN108597541B (zh) * 2018-04-28 2020-10-02 南京师范大学 一种增强愤怒与开心识别的语音情感识别方法及系统
EP3803863A4 (en) * 2018-05-30 2022-07-06 Tiktalk To Me Ltd. METHOD AND SYSTEMS FOR COMPUTER-ASSISTED LEARNING AND REFERENCE OF ORAL THERAPY
CN110362677B (zh) * 2019-05-31 2022-12-27 平安科技(深圳)有限公司 文本数据类别的识别方法及装置、存储介质、计算机设备
CN110992988B (zh) * 2019-12-24 2022-03-08 东南大学 一种基于领域对抗的语音情感识别方法及装置
CN113223537B (zh) * 2020-04-30 2022-03-25 浙江大学 一种基于阶段测试反馈的语音训练数据迭代更新方法
CN111968673A (zh) * 2020-07-29 2020-11-20 厦门快商通科技股份有限公司 一种音频事件检测方法及系统
CN112599116B (zh) * 2020-12-25 2022-07-08 思必驰科技股份有限公司 语音识别模型训练方法和语音识别联邦训练系统
CN113435970B (zh) * 2021-06-23 2023-02-28 平安银行股份有限公司 基于生物信息的产品推荐方法、装置、电子设备及介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101226743A (zh) * 2007-12-05 2008-07-23 浙江大学 基于中性和情感声纹模型转换的说话人识别方法
CN101887721A (zh) * 2010-07-19 2010-11-17 东南大学 一种基于心电信号与语音信号的双模态情感识别方法
CN101894550A (zh) * 2010-07-19 2010-11-24 东南大学 基于情感对特征优化的语音情感分类方法
CN101930735A (zh) * 2009-06-23 2010-12-29 富士通株式会社 语音情感识别设备和进行语音情感识别的方法

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080040110A1 (en) * 2005-08-08 2008-02-14 Nice Systems Ltd. Apparatus and Methods for the Detection of Emotions in Audio Interactions
CN100440315C (zh) * 2005-10-31 2008-12-03 浙江大学 基于倒谱特征线性情感补偿的说话人识别方法
CN100543840C (zh) * 2005-12-13 2009-09-23 浙江大学 基于情感迁移规则及语音修正的说话人识别方法
US8219404B2 (en) * 2007-08-09 2012-07-10 Nice Systems, Ltd. Method and apparatus for recognizing a speaker in lawful interception systems
JP2009086581A (ja) * 2007-10-03 2009-04-23 Toshiba Corp 音声認識の話者モデルを作成する装置およびプログラム
CN101685634B (zh) * 2008-09-27 2012-11-21 上海盛淘智能科技有限公司 一种儿童语音情感识别方法
CN101419800B (zh) * 2008-11-25 2011-12-14 浙江大学 基于频谱平移的情感说话人识别方法
US20100262423A1 (en) * 2009-04-13 2010-10-14 Microsoft Corporation Feature compensation approach to robust speech recognition
WO2012075640A1 (en) * 2010-12-10 2012-06-14 Panasonic Corporation Modeling device and method for speaker recognition, and speaker recognition system
JP5494468B2 (ja) * 2010-12-27 2014-05-14 富士通株式会社 状態検出装置、状態検出方法および状態検出のためのプログラム
CN102332263B (zh) * 2011-09-23 2012-11-07 浙江大学 一种基于近邻原则合成情感模型的说话人识别方法
US9113265B2 (en) * 2012-07-25 2015-08-18 International Business Machines Corporation Providing a confidence measure for speaker diarization
US9031293B2 (en) * 2012-10-19 2015-05-12 Sony Computer Entertainment Inc. Multi-modal sensor based emotion recognition and emotional interface

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101226743A (zh) * 2007-12-05 2008-07-23 浙江大学 基于中性和情感声纹模型转换的说话人识别方法
CN101930735A (zh) * 2009-06-23 2010-12-29 富士通株式会社 语音情感识别设备和进行语音情感识别的方法
CN101887721A (zh) * 2010-07-19 2010-11-17 东南大学 一种基于心电信号与语音信号的双模态情感识别方法
CN101894550A (zh) * 2010-07-19 2010-11-24 东南大学 基于情感对特征优化的语音情感分类方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
单振宇等.基于多项式拟合的中性-情感模型转换算法.《计算机工程与应用》.2008,第44卷(第21期),第206-208,221页.
基于多项式拟合的中性-情感模型转换算法;单振宇等;《计算机工程与应用》;20080731;第44卷(第21期);第206-208,221页 *

Also Published As

Publication number Publication date
CN102332263A (zh) 2012-01-25
WO2013040981A1 (zh) 2013-03-28
US20140236593A1 (en) 2014-08-21
US9355642B2 (en) 2016-05-31

Similar Documents

Publication Publication Date Title
CN102332263B (zh) 一种基于近邻原则合成情感模型的说话人识别方法
CN102231278B (zh) 实现语音识别中自动添加标点符号的方法及系统
CN104240706B (zh) 一种基于GMM Token配比相似度校正得分的说话人识别方法
Pao et al. Mandarin emotional speech recognition based on SVM and NN
Patel et al. Speech recognition and verification using MFCC & VQ
CN107369440A (zh) 一种针对短语音的说话人识别模型的训练方法及装置
CN102893326A (zh) 结合情感点的汉语语音情感提取及建模方法
CN104123933A (zh) 基于自适应非平行训练的语音转换方法
CN102411932B (zh) 结合声门激励和声道调制信息的汉语语音情感提取及建模方法
CN103456302B (zh) 一种基于情感gmm模型权重合成的情感说话人识别方法
Huang et al. Speech emotion recognition under white noise
CN102655003B (zh) 基于声道调制信号mfcc的汉语语音情感点识别方法
Aggarwal et al. Performance evaluation of sequentially combined heterogeneous feature streams for Hindi speech recognition system
CN104464724A (zh) 一种针对刻意伪装语音的说话人识别方法
Yin et al. Automatic cognitive load detection from speech features
Pao et al. Combining acoustic features for improved emotion recognition in mandarin speech
Parker et al. Adaptation of an expressive single speaker deep neural network speech synthesis system
He et al. Stress and emotion recognition using log-Gabor filter analysis of speech spectrograms
CN102750950B (zh) 结合声门激励和声道调制信息的汉语语音情感提取及建模方法
Cheng et al. A study on emotional feature analysis and recognition in speech signal
Kadiri et al. Discriminating neutral and emotional speech using neural networks
CN104240699A (zh) 一种简单有效的短语语音识别方法
Liu et al. Supra-Segmental Feature Based Speaker Trait Detection.
Rupasinghe et al. Robust Speech Analysis Framework Using CNN
Tesser et al. Two vocoder techniques for neutral to emotional timbre conversion.

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant