CN102332263A - 一种基于近邻原则合成情感模型的说话人识别方法 - Google Patents
一种基于近邻原则合成情感模型的说话人识别方法 Download PDFInfo
- Publication number
- CN102332263A CN102332263A CN201110284945A CN201110284945A CN102332263A CN 102332263 A CN102332263 A CN 102332263A CN 201110284945 A CN201110284945 A CN 201110284945A CN 201110284945 A CN201110284945 A CN 201110284945A CN 102332263 A CN102332263 A CN 102332263A
- Authority
- CN
- China
- Prior art keywords
- gaussian component
- training
- emotion
- voice
- neutral
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 230000002996 emotional effect Effects 0.000 title abstract description 10
- 230000002194 synthesizing effect Effects 0.000 title abstract 4
- 238000012549 training Methods 0.000 claims abstract description 99
- 230000007935 neutral effect Effects 0.000 claims abstract description 59
- 238000013507 mapping Methods 0.000 claims abstract description 12
- 230000008451 emotion Effects 0.000 claims description 77
- 238000000605 extraction Methods 0.000 claims description 12
- 239000000284 extract Substances 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000013139 quantization Methods 0.000 claims description 4
- 238000007781 pre-processing Methods 0.000 claims description 3
- 238000012360 testing method Methods 0.000 abstract description 5
- 239000000203 mixture Substances 0.000 abstract description 2
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000013095 identification testing Methods 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- NGVDGCNFYWLIFO-UHFFFAOYSA-N pyridoxal 5'-phosphate Chemical compound CC1=NC=C(COP(O)(O)=O)C(C=O)=C1O NGVDGCNFYWLIFO-UHFFFAOYSA-N 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/26—Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Probability & Statistics with Applications (AREA)
- Child & Adolescent Psychology (AREA)
- General Health & Medical Sciences (AREA)
- Hospice & Palliative Care (AREA)
- Psychiatry (AREA)
- Signal Processing (AREA)
- Electrically Operated Instructional Devices (AREA)
- Machine Translation (AREA)
- Artificial Intelligence (AREA)
- Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
Abstract
本发明公开了一种基于近邻原则合成情感模型的说话人识别方法,包括:(1)训练出参考语音和用户中性语音的模型;(2)提取GMM参考模型的中性-情感高斯分量映射集;(3)提取与用户的中性训练高斯分量邻近的若干中性参考高斯分量映射的情感参考高斯分量;(4)合成出用户的情感训练高斯分量,进而得到用户的情感训练模型;(5)合成出所有用户的GMM训练模型;(6)输入测试语音进行识别。本发明采用基于KL散度的近邻原则从语音库中提取若干与用户的中性训练语音相似的参考语音,用参考语音中的情感参考语音合成出用户的情感训练语音,改善了在训练语音与测试语音失配情况下说话人识别系统的性能,提高了说话人识别系统的鲁棒性。
Description
技术领域
本发明属于模式识别技术领域,具体涉及一种基于近邻原则合成情感模型的说话人识别方法。
背景技术
说话人识别技术是利用信号处理和模式识别的方法,根据说话人的语音识别其身份的技术,主要包括两个步骤:说话人模型训练和语音测试。
目前,说话人语音识别采用的主要特征包括梅尔倒谱系数(MFCC)、线性预测编码倒谱系数(LPCC)、感觉加权的线性预测系数(PLP)。说话人语音识别的算法主要包括矢量量化法(VQ)、通用背景模型法(GMM-UBM)、支持向量机法(SVM)等等。其中,GMM-UBM在整个说话人语音识别领域应用非常广泛。
然而,在说话人语音识别中,说话人的训练语音通常为中性语音,因为在现实应用中,用户一般情况下只会提供中性发音下的语音训练自己的模型,要求所有用户提供自己各种情感的语音在实际情况下并不太容易也不太方便实现,且对系统的数据库的承受负荷也是一种很高的要求。
但是,在实际测试时,说话人可能会根据当时的情绪发出富有情感的语音,如高兴的、悲伤的、愤怒的等。然而,现有的说话人识别方法并不能自适应这种训练语音与测试语音失配的情况,从而导致说话人识别系统性能下降,对于情感语音的识别成功率大打折扣。
发明内容
针对现有技术所存在的上述技术缺陷,本发明提供了一种基于近邻原则合成情感模型的说话人识别方法,合成出说话人的情感模型来降低模型的失配程度,提高对情感语音的识别成功率。
一种基于近邻原则合成情感模型的说话人识别方法,包括如下步骤:
(1)获取若干套参考语音以及用户的中性训练语音,对所有语音进行模型训练,对应得到若干套GMM(Gaussian Mixture Model)参考模型以及用户的中性训练模型;
所述的参考语音包括中性参考语音和m种情感参考语音;所述的GMM参考模型包括一个中性参考模型和m个情感参考模型,m为大于0的自然数;
(2)提取每套GMM参考模型的中性-情感高斯分量映射集;
(3)根据KL散度(Kullback-Leibler divergence)计算法,逐一计算中性训练模型中的每一中性训练高斯分量与所有中性参考模型中的中性参考高斯分量的KL散度,选取每一中性训练高斯分量对应的与之KL散度最小的n个中性参考高斯分量;进而根据所述的中性-情感高斯分量映射集,提取出n个中性参考高斯分量中每个中性参考高斯分量对应的m个情感参考高斯分量,n为大于0的自然数;
(4)将每一中性训练高斯分量对应的n×m个情感参考高斯分量合成出对应的m个情感训练高斯分量,进而得到用户的m个情感训练模型;
(5)根据步骤(1)至(4),合成得到所有用户的GMM训练模型,所述的GMM训练模型包括所述的中性训练模型和m个情感训练模型;
(6)输入某一用户的测试语音,将该测试语音与所有用户的GMM训练模型逐一进行得分计算,将得分最大的GMM训练模型所对应的用户作为识别出的用户。
所述的步骤(1)中,对所有语音进行模型训练的过程为:首先对语音依次进行采样量化、去零漂、预加重、加窗的预处理过程,然后采用基于MFCC的特征提取法或基于LPCC的特征提取法对预处理后的语音进行特征提取,提取出语音的特征向量集,通过EM(Expectation Maximization)法训练出特征向量集的UBM(Universal Background Model)模型,最后采用MAP(Maximum APosterior)法从UBM模型中训练出语音的GMM模型。
所述的中性-情感高斯分量映射集为中性参考模型中的中性参考高斯分量与各情感参考模型中的情感参考高斯分量的对应关系。
所述的KL散度计算法的方程表达式如下:
式1中:δ为KL散度,μ1和∑1分别为第一个高斯分量的均值和方差,μ2和∑2分别为第二个高斯分量的均值和方差。
所述的步骤(4)中,将每一中性训练高斯分量对应的n×m个情感参考高斯分量利用基于近邻位置法或基于近邻变化法合成出对应的m个情感训练高斯分量;
所述的基于近邻位置法的方程表达式如下:
式2中:μe为中性训练高斯分量对应的任一情感训练高斯分量的均值,μe,i为n个对应的情感参考高斯分量中第i情感参考高斯分量的均值。
所述的基于近邻变化法的方程表达式如下:
式3中:μe为中性训练高斯分量对应的任一情感训练高斯分量的均值,μe,i为n个对应的情感参考高斯分量中第i情感参考高斯分量的均值,μk为中性训练高斯分量的均值,μk,i为n个对应的中性参考高斯分量中第i中性参考高斯分量的均值。
所述的步骤(6)中,将测试语音与所有用户的GMM训练模型逐一进行得分计算,该得分计算的公式为:
式4中:T为测试语音中的特征帧数,xt为测试语音中的第t帧特征,j为GMM训练模型的阶数,Ck为中性训练模型中的第k中性训练高斯分量,Ek为情感训练模型中的第k情感训练高斯分量,ωk为Ck和Ek的权重,P(xt|Ck)为xt在Ck上的得分,P(xt|Ek)为xt在Ek上的得分。
通过实验观察发现,在中性语音下的发音较相似的说话人,他们在情感语音下的发音也较相似;本发明采用基于KL散度的近邻原则从语音库中提取若干与用户的中性训练语音相似的参考语音,用参考语音中的情感参考语音合成出用户的情感训练语音,改善了在训练语音与测试语音失配情况下说话人识别系统的性能,提高了说话人识别系统的鲁棒性。
附图说明
图1为本发明的步骤流程示意图。
具体实施方式
为了更为具体地描述本发明,下面结合附图及具体实施方式对本发明的说话人识别方法进行详细说明。
如图1所示,一种基于近邻原则合成情感模型的说话人识别方法,包括如下步骤:
(1)训练出参考语音和用户中性语音的模型。
获取25套参考语音以及20位用户的中性训练语音。
25套参考语音以及20位用户的中性训练语音均是在安静的环境下采用奥林巴斯DM-20录音笔录制的,且分别为母语是汉语的25个说话人和20位用户的语音。一套参考语音包括说话人的5种情感的发音:中性参考语音、惊慌参考语音、高兴参考语音、愤怒参考语音和悲伤参考语音;每个说话人会在中性条件下朗读2段中性的段落,同时,会在每种情感下说出5个单词和20句语句各3遍。而中性训练语音只是用户在中性情感下的发音,即用户在中性条件下朗读2段中性的段落。
对所有采集到的语音进行模型训练,对应得到25套GMM参考模型以及20位用户的中性训练模型;一套GMM参考模型包括一个中性参考模型和4个情感参考模型;
对语音进行模型训练的过程为:首先对语音依次进行采样量化、去零漂、预加重、加窗的预处理过程,然后采用基于MFCC的特征提取法或基于LPCC的特征提取法对预处理后的语音进行特征提取,提取出语音的特征向量集X=[x1,x2,L,xT],其中每帧特征是一个p维的向量,T表示该语音中特征的总数;通过EM法训练出特征向量集的UBM模型,最后采用MAP法从UBM模型中训练出语音的GMM模型。以下为一参考语音的GMM参考模型中的中性参考模型和情感参考模型:
(5)
式5中,λN为参考语音的中性参考模型。ωk为中性参考模型中第k中性参考高斯分量的权重,由于MAP自适应时权重保持不变,所以各GMM模型的ωk和UBM模型中的ωk相同。μN,k和∑N,k分别为中性参考模型中第k中性参考高斯分量的均值和方差。同样地,λE为参考语音的情感参考模型,μE,k和∑E,k分别为高兴参考模型中第k情感参考高斯分量的均值和方差。
(2)提取GMM参考模型的中性-情感高斯分量映射集。
提取每套GMM参考模型的中性-情感高斯分量映射集;中性-情感高斯分量映射集为中性参考模型中的中性参考高斯分量与各情感参考模型中的情感参考高斯分量的对应关系:
(3)提取与用户的中性训练高斯分量邻近的若干中性参考高斯分量映射的情感参考高斯分量。
根据KL散度计算法,逐一计算中性训练模型中的每一中性训练高斯分量与所有中性参考模型中的中性参考高斯分量的KL散度;
KL散度计算法的方程表达式如下:
式1中:δ为KL散度,μ1和∑1分别为第一个高斯分量的均值和方差,μ2和∑2分别为第二个高斯分量的均值和方差。
选取每一中性训练高斯分量对应的与之KL散度最小的10个中性参考高斯分量;进而根据中性-情感高斯分量映射集,提取出10个中性参考高斯分量中每个中性参考高斯分量对应的4个情感参考高斯分量;
(4)合成出用户的情感训练高斯分量,进而得到用户的情感训练模型。
将每一中性训练高斯分量对应的10×4个情感参考高斯分量利用基于近邻位置法合成出对应的4个情感训练高斯分量,进而得到用户的4个情感训练模型;
基于近邻位置法的方程表达式如下:
式2中:μe为中性训练高斯分量对应的任一情感训练高斯分量的均值,μe,i为n个对应的情感参考高斯分量中第i情感参考高斯分量的均值。
(5)合成出所有用户的GMM训练模型。
根据步骤(1)至(4),合成得到所有用户的GMM训练模型,本实施例中,一套GMM训练模型包括一个中性训练模型和4个情感训练模型。
(6)输入测试语音进行识别。
输入某一用户的测试语音,将该测试语音与所有用户的GMM训练模型逐一进行得分计算,将得分最大的GMM训练模型所对应的用户作为识别出的用户。
得分计算的公式为:
式4中:T为测试语音中的特征帧数,xt为测试语音中的第t帧特征,j为GMM训练模型的阶数,本实施例中阶数为1024,Ck为中性训练模型中的第k中性训练高斯分量,Ek为情感训练模型中的第k情感训练高斯分量,ωk为Ck和Ek的权重,P(xt|Ck)为xt在Ck上的得分,P(xt|Ek)为xt在Ek上的得分。
表1为通过相关实验测试出传统GMM-UBM方法与本实施方式分别对用户在中性、惊慌、高兴、愤怒和悲伤5种情感发音下的识别率。其中,所有的语料通过100ms的Hamming窗进行分帧,窗的步长设为80ms。每一帧语音信号提取出13维MFCC特征用于训练UBM模型,自适应说话人模型和说话人识别测试。
表1:传统GMM-UBM方法与本实施方式的识别率
情感分类 | GMM-UBM方法 | 本实施方式 |
中性 | 96.47% | 95.33% |
愤怒 | 34.87% | 38.40% |
高兴 | 38.07% | 45.20% |
惊慌 | 36.60% | 40.07% |
悲伤 | 60.80% | 61.80% |
从上述实验结果可以看出,本实施方式可以有效地检测出语句中的可靠特征,在各情感状态下,识别的准确率得到了较大的提高。同时,总体的识别准确率也提高了2.81%,因此本实施方式对提高说话人识别系统的性能和鲁棒性有很大的帮助。
Claims (6)
1.一种基于近邻原则合成情感模型的说话人识别方法,包括如下步骤:
(1)获取若干套参考语音以及用户的中性训练语音,对所有语音进行模型训练,对应得到若干套GMM参考模型以及用户的中性训练模型;
所述的参考语音包括中性参考语音和m种情感参考语音;所述的GMM参考模型包括一个中性参考模型和m个情感参考模型,m为大于0的自然数;
(2)提取每套GMM参考模型的中性-情感高斯分量映射集;
(3)根据KL散度计算法,逐一计算中性训练模型中的每一中性训练高斯分量与所有中性参考模型中的中性参考高斯分量的KL散度,选取每一中性训练高斯分量对应的与之KL散度最小的n个中性参考高斯分量;进而根据所述的中性-情感高斯分量映射集,提取出n个中性参考高斯分量中每个中性参考高斯分量对应的m个情感参考高斯分量,n为大于0的自然数;
(4)将每一中性训练高斯分量对应的n×m个情感参考高斯分量合成出对应的m个情感训练高斯分量,进而得到用户的m个情感训练模型;
(5)根据步骤(1)至(4),合成得到所有用户的GMM训练模型;
(6)输入某一用户的测试语音,将该测试语音与所有用户的GMM训练模型逐一进行得分计算,将得分最大的GMM训练模型所对应的用户作为识别出的用户。
2.根据权利要求1所述的基于近邻原则合成情感模型的说话人识别方法,其特征在于:所述的步骤(1)中,对所有语音进行模型训练的过程为:首先对语音依次进行采样量化、去零漂、预加重、加窗的预处理过程,然后采用基于MFCC的特征提取法或基于LPCC的特征提取法对预处理后的语音进行特征提取,提取出语音的特征向量集,通过EM法训练出特征向量集的UBM模型,最后采用MAP法从UBM模型中训练出语音的GMM模型。
3.根据权利要求1所述的基于近邻原则合成情感模型的说话人识别方法,其特征在于:所述的中性-情感高斯分量映射集为中性参考模型中的中性参考高斯分量与各情感参考模型中的情感参考高斯分量的对应关系。
4.根据权利要求1所述的基于近邻原则合成情感模型的说话人识别方法,其特征在于:所述的KL散度计算法的方程表达式如下:
式1中:δ为KL散度,μ1和∑1分别为第一个高斯分量的均值和方差,μ2和∑2分别为第二个高斯分量的均值和方差。
5.根据权利要求1所述的基于近邻原则合成情感模型的说话人识别方法,其特征在于:所述的步骤(4)中,将每一中性训练高斯分量对应的n×m个情感参考高斯分量利用基于近邻位置法或基于近邻变化法合成出对应的m个情感训练高斯分量;
所述的基于近邻位置法的方程表达式如下:
式2中:μe为中性训练高斯分量对应的任一情感训练高斯分量的均值,μe,i为n个对应的情感参考高斯分量中第i情感参考高斯分量的均值;
所述的基于近邻变化法的方程表达式如下:
式3中:μe为中性训练高斯分量对应的任一情感训练高斯分量的均值,μe,i为n个对应的情感参考高斯分量中第i情感参考高斯分量的均值,μk为中性训练高斯分量的均值,μk,i为n个对应的中性参考高斯分量中第i中性参考高斯分量的均值。
6.根据权利要求1所述的基于近邻原则合成情感模型的说话人识别方法,其特征在于:所述的步骤(6)中,将测试语音与所有用户的GMM训练模型逐一进行得分计算,该得分计算的公式为:
式4中:T为测试语音中的特征帧数,xt为测试语音中的第t帧特征,j为GMM训练模型的阶数,Ck为中性训练模型中的第k中性训练高斯分量,Ek为情感训练模型中的第k情感训练高斯分量,ωk为Ck和Ek的权重,P(xt|Ck)为xt在Ck上的得分,P(xt|Ek)为xt在Ek上的得分。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2011102849457A CN102332263B (zh) | 2011-09-23 | 2011-09-23 | 一种基于近邻原则合成情感模型的说话人识别方法 |
US14/346,960 US9355642B2 (en) | 2011-09-23 | 2012-09-04 | Speaker recognition method through emotional model synthesis based on neighbors preserving principle |
PCT/CN2012/080959 WO2013040981A1 (zh) | 2011-09-23 | 2012-09-04 | 一种基于近邻原则合成情感模型的说话人识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2011102849457A CN102332263B (zh) | 2011-09-23 | 2011-09-23 | 一种基于近邻原则合成情感模型的说话人识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102332263A true CN102332263A (zh) | 2012-01-25 |
CN102332263B CN102332263B (zh) | 2012-11-07 |
Family
ID=45484019
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2011102849457A Expired - Fee Related CN102332263B (zh) | 2011-09-23 | 2011-09-23 | 一种基于近邻原则合成情感模型的说话人识别方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US9355642B2 (zh) |
CN (1) | CN102332263B (zh) |
WO (1) | WO2013040981A1 (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013040981A1 (zh) * | 2011-09-23 | 2013-03-28 | 浙江大学 | 一种基于近邻原则合成情感模型的说话人识别方法 |
CN103280220A (zh) * | 2013-04-25 | 2013-09-04 | 北京大学深圳研究生院 | 一种实时的婴儿啼哭声识别方法 |
CN103440863A (zh) * | 2013-08-28 | 2013-12-11 | 华南理工大学 | 一种基于流形的语音情感识别方法 |
CN103745005A (zh) * | 2014-01-24 | 2014-04-23 | 清华大学 | 基于疫苗移植的动态人工免疫故障诊断方法 |
CN107204193A (zh) * | 2017-06-12 | 2017-09-26 | 山东师范大学 | 基于直方图统计和池化算法的音频场景识别方法及装置 |
CN113223537A (zh) * | 2020-04-30 | 2021-08-06 | 浙江大学 | 一种基于阶段测试反馈的语音训练数据迭代更新方法 |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9837078B2 (en) | 2012-11-09 | 2017-12-05 | Mattersight Corporation | Methods and apparatus for identifying fraudulent callers |
CN103236260B (zh) * | 2013-03-29 | 2015-08-12 | 京东方科技集团股份有限公司 | 语音识别系统 |
WO2016095218A1 (en) | 2014-12-19 | 2016-06-23 | Dolby Laboratories Licensing Corporation | Speaker identification using spatial information |
JP7073640B2 (ja) * | 2017-06-23 | 2022-05-24 | カシオ計算機株式会社 | 電子機器、感情情報取得システム、プログラム及び感情情報取得方法 |
US10896682B1 (en) * | 2017-08-09 | 2021-01-19 | Apple Inc. | Speaker recognition based on an inside microphone of a headphone |
CN108597541B (zh) * | 2018-04-28 | 2020-10-02 | 南京师范大学 | 一种增强愤怒与开心识别的语音情感识别方法及系统 |
WO2019229755A2 (en) * | 2018-05-30 | 2019-12-05 | Tiktalk To Me Ltd. | Method and systems for speech therapy computer-assisted training and repository |
CN110362677B (zh) * | 2019-05-31 | 2022-12-27 | 平安科技(深圳)有限公司 | 文本数据类别的识别方法及装置、存储介质、计算机设备 |
CN110992988B (zh) * | 2019-12-24 | 2022-03-08 | 东南大学 | 一种基于领域对抗的语音情感识别方法及装置 |
CN111968673A (zh) * | 2020-07-29 | 2020-11-20 | 厦门快商通科技股份有限公司 | 一种音频事件检测方法及系统 |
CN112599116B (zh) * | 2020-12-25 | 2022-07-08 | 思必驰科技股份有限公司 | 语音识别模型训练方法和语音识别联邦训练系统 |
CN113435970B (zh) * | 2021-06-23 | 2023-02-28 | 平安银行股份有限公司 | 基于生物信息的产品推荐方法、装置、电子设备及介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101226743A (zh) * | 2007-12-05 | 2008-07-23 | 浙江大学 | 基于中性和情感声纹模型转换的说话人识别方法 |
US20090094022A1 (en) * | 2007-10-03 | 2009-04-09 | Kabushiki Kaisha Toshiba | Apparatus for creating speaker model, and computer program product |
US20100262423A1 (en) * | 2009-04-13 | 2010-10-14 | Microsoft Corporation | Feature compensation approach to robust speech recognition |
CN101887721A (zh) * | 2010-07-19 | 2010-11-17 | 东南大学 | 一种基于心电信号与语音信号的双模态情感识别方法 |
CN101894550A (zh) * | 2010-07-19 | 2010-11-24 | 东南大学 | 基于情感对特征优化的语音情感分类方法 |
CN101930735A (zh) * | 2009-06-23 | 2010-12-29 | 富士通株式会社 | 语音情感识别设备和进行语音情感识别的方法 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2007017853A1 (en) * | 2005-08-08 | 2007-02-15 | Nice Systems Ltd. | Apparatus and methods for the detection of emotions in audio interactions |
CN100440315C (zh) * | 2005-10-31 | 2008-12-03 | 浙江大学 | 基于倒谱特征线性情感补偿的说话人识别方法 |
CN100543840C (zh) * | 2005-12-13 | 2009-09-23 | 浙江大学 | 基于情感迁移规则及语音修正的说话人识别方法 |
US8219404B2 (en) * | 2007-08-09 | 2012-07-10 | Nice Systems, Ltd. | Method and apparatus for recognizing a speaker in lawful interception systems |
CN101685634B (zh) * | 2008-09-27 | 2012-11-21 | 上海盛淘智能科技有限公司 | 一种儿童语音情感识别方法 |
CN101419800B (zh) * | 2008-11-25 | 2011-12-14 | 浙江大学 | 基于频谱平移的情感说话人识别方法 |
US9595260B2 (en) * | 2010-12-10 | 2017-03-14 | Panasonic Intellectual Property Corporation Of America | Modeling device and method for speaker recognition, and speaker recognition system |
JP5494468B2 (ja) * | 2010-12-27 | 2014-05-14 | 富士通株式会社 | 状態検出装置、状態検出方法および状態検出のためのプログラム |
CN102332263B (zh) * | 2011-09-23 | 2012-11-07 | 浙江大学 | 一种基于近邻原则合成情感模型的说话人识别方法 |
US9113265B2 (en) * | 2012-07-25 | 2015-08-18 | International Business Machines Corporation | Providing a confidence measure for speaker diarization |
US9031293B2 (en) * | 2012-10-19 | 2015-05-12 | Sony Computer Entertainment Inc. | Multi-modal sensor based emotion recognition and emotional interface |
-
2011
- 2011-09-23 CN CN2011102849457A patent/CN102332263B/zh not_active Expired - Fee Related
-
2012
- 2012-09-04 US US14/346,960 patent/US9355642B2/en not_active Expired - Fee Related
- 2012-09-04 WO PCT/CN2012/080959 patent/WO2013040981A1/zh active Application Filing
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090094022A1 (en) * | 2007-10-03 | 2009-04-09 | Kabushiki Kaisha Toshiba | Apparatus for creating speaker model, and computer program product |
CN101226743A (zh) * | 2007-12-05 | 2008-07-23 | 浙江大学 | 基于中性和情感声纹模型转换的说话人识别方法 |
US20100262423A1 (en) * | 2009-04-13 | 2010-10-14 | Microsoft Corporation | Feature compensation approach to robust speech recognition |
CN101930735A (zh) * | 2009-06-23 | 2010-12-29 | 富士通株式会社 | 语音情感识别设备和进行语音情感识别的方法 |
CN101887721A (zh) * | 2010-07-19 | 2010-11-17 | 东南大学 | 一种基于心电信号与语音信号的双模态情感识别方法 |
CN101894550A (zh) * | 2010-07-19 | 2010-11-24 | 东南大学 | 基于情感对特征优化的语音情感分类方法 |
Non-Patent Citations (1)
Title |
---|
单振宇等: "基于多项式拟合的中性-情感模型转换算法", 《计算机工程与应用》 * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013040981A1 (zh) * | 2011-09-23 | 2013-03-28 | 浙江大学 | 一种基于近邻原则合成情感模型的说话人识别方法 |
CN103280220A (zh) * | 2013-04-25 | 2013-09-04 | 北京大学深圳研究生院 | 一种实时的婴儿啼哭声识别方法 |
CN103280220B (zh) * | 2013-04-25 | 2015-11-18 | 北京大学深圳研究生院 | 一种实时的婴儿啼哭声识别方法 |
CN103440863A (zh) * | 2013-08-28 | 2013-12-11 | 华南理工大学 | 一种基于流形的语音情感识别方法 |
CN103440863B (zh) * | 2013-08-28 | 2016-01-06 | 华南理工大学 | 一种基于流形的语音情感识别方法 |
CN103745005A (zh) * | 2014-01-24 | 2014-04-23 | 清华大学 | 基于疫苗移植的动态人工免疫故障诊断方法 |
CN107204193A (zh) * | 2017-06-12 | 2017-09-26 | 山东师范大学 | 基于直方图统计和池化算法的音频场景识别方法及装置 |
CN107204193B (zh) * | 2017-06-12 | 2020-05-29 | 山东师范大学 | 基于直方图统计和池化算法的音频场景识别方法及装置 |
CN113223537A (zh) * | 2020-04-30 | 2021-08-06 | 浙江大学 | 一种基于阶段测试反馈的语音训练数据迭代更新方法 |
CN113223537B (zh) * | 2020-04-30 | 2022-03-25 | 浙江大学 | 一种基于阶段测试反馈的语音训练数据迭代更新方法 |
Also Published As
Publication number | Publication date |
---|---|
US9355642B2 (en) | 2016-05-31 |
WO2013040981A1 (zh) | 2013-03-28 |
US20140236593A1 (en) | 2014-08-21 |
CN102332263B (zh) | 2012-11-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102332263B (zh) | 一种基于近邻原则合成情感模型的说话人识别方法 | |
CN102231278B (zh) | 实现语音识别中自动添加标点符号的方法及系统 | |
Pao et al. | Mandarin emotional speech recognition based on SVM and NN | |
Patel et al. | Speech recognition and verification using MFCC & VQ | |
CN104240706B (zh) | 一种基于GMM Token配比相似度校正得分的说话人识别方法 | |
CN102893326A (zh) | 结合情感点的汉语语音情感提取及建模方法 | |
CN102411932B (zh) | 结合声门激励和声道调制信息的汉语语音情感提取及建模方法 | |
Huang et al. | Speech emotion recognition under white noise | |
Aggarwal et al. | Performance evaluation of sequentially combined heterogeneous feature streams for Hindi speech recognition system | |
CN103456302B (zh) | 一种基于情感gmm模型权重合成的情感说话人识别方法 | |
CN102655003B (zh) | 基于声道调制信号mfcc的汉语语音情感点识别方法 | |
CN104464724A (zh) | 一种针对刻意伪装语音的说话人识别方法 | |
Yin et al. | Automatic cognitive load detection from speech features | |
Pao et al. | Combining acoustic features for improved emotion recognition in mandarin speech | |
Parker et al. | Adaptation of an expressive single speaker deep neural network speech synthesis system | |
He et al. | Stress and emotion recognition using log-Gabor filter analysis of speech spectrograms | |
CN102750950B (zh) | 结合声门激励和声道调制信息的汉语语音情感提取及建模方法 | |
Cheng et al. | A study on emotional feature analysis and recognition in speech signal | |
Mary et al. | Evaluation of mimicked speech using prosodic features | |
Mansour et al. | A comparative study in emotional speaker recognition in noisy environment | |
CN104240699A (zh) | 一种简单有效的短语语音识别方法 | |
Liu et al. | Supra-Segmental Feature Based Speaker Trait Detection. | |
Rupasinghe et al. | Robust Speech Analysis Framework Using CNN | |
Tesser et al. | Two vocoder techniques for neutral to emotional timbre conversion. | |
Percybrooks et al. | Voice conversion with linear prediction residual estimaton |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20121107 |
|
CF01 | Termination of patent right due to non-payment of annual fee |