CN101833951A - 用于说话人识别的多背景模型建立方法 - Google Patents

用于说话人识别的多背景模型建立方法 Download PDF

Info

Publication number
CN101833951A
CN101833951A CN201010118149A CN201010118149A CN101833951A CN 101833951 A CN101833951 A CN 101833951A CN 201010118149 A CN201010118149 A CN 201010118149A CN 201010118149 A CN201010118149 A CN 201010118149A CN 101833951 A CN101833951 A CN 101833951A
Authority
CN
China
Prior art keywords
ubm
gmm
model
feature
speaker
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201010118149A
Other languages
English (en)
Other versions
CN101833951B (zh
Inventor
张卫强
刘加
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN2010101181491A priority Critical patent/CN101833951B/zh
Publication of CN101833951A publication Critical patent/CN101833951A/zh
Application granted granted Critical
Publication of CN101833951B publication Critical patent/CN101833951B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

用于说话人识别的多背景模型建立方法涉及一种说话人识别中背景模型建模方法,其特征在于所述方法首先根据语音的声道长度弯折系数对训练数据进行划分,每组数据分别训练UBM模型,然后由每个背景模型自适应得到目标说话人GMM模型,得到多组GMM和UBM模型,说话人识别时对测试数据,由每组GMM和UBM模型计算对数似然比分数,最后从中选取最小的一个作为分数输出。本发明可对背景模型进行细致刻画,从而提高说话人识别的准确率。

Description

用于说话人识别的多背景模型建立方法
技术领域
本发明属于语音识别领域,具体地说,涉及一种多背景模型建立方法,可用于说话人识别。
背景技术
说话人识别是指使用机器从一段语音信号中识别出其说话人的身份信息。说话人识别技术主要用于基于语音的身份确认、语音侦听、法庭物证鉴定等领域。
说话人识别的方法主要包括VQ(矢量量化)、GMM-UBM(高斯混合模型-通用背景模型)、SVM(支持矢量机)等等。其中GMM-UBM实现简单且性能优良,在整个说话人识别领域应用非常广泛。
在GMM-UBM系统中,UBM描述了一般人的特征分布,而GMM描述了目标说话人的特征分布。在训练阶段,UBM由大量人的数据训练得到一个无偏向的模型,GMM由目标说话人的数据训练偏向目标说话人的模型;在测试阶段,对于未知语音,分别由GMM和UBM给出对数似然度,然后两者相减得到对数似然比分数,进而进行说话人识别。
通常意义上讲,UBM应该是通用的不偏向任何人的模型,但是实验表明,选择和目标说话人相近的数据训练得到的UBM性能更好,比如通常采用的性别相关的UBM,对男声和女生分别训练UBM,比性别无关的UBM性能更好。
显然,按性别对所有说话人进行划分是一种自然而外在的划分,对于语音信号来讲,这种划分不一定准确。首先,有的男声声音可能更像女声,而有的女声声音可能更像男声,应该按照声音去划分,而不是简单的按照说话人的性别划分;其次,把所有说话人分成两类仍然比较粗糙,可能分成多类更有利于说话人识别。
发明内容
为了解决现有GMM-UBM系统的不足,本发明提供一种根据说话人声道长度进行多背景模型建模的方法。在背景模型训练阶段,首先通过语音计算出说话人的声道长度,然后按照声道长度将所有训练UBM的语音分成多类,每类训练一个UBM。在说话人模型训练阶段,采用目标说话人语音,从每一个UBM自适应得到一个GMM,形成多组GMM和UBM。在识别阶段,对于测试语音,分别由每一组GMM和UBM,计算得到对数似然比分数,最后从多个分数中选择最小值进行说话人识别。本发明采用并行数字集成电路实现,等错率相对降低17%。
本发明的特征在于所述方法是在数字集成电路芯片中按以下步骤实现的:
步骤(1):采用Baum-Welch算法,用训练通用背景模型UBM的所有数据训练一个高斯混合模型GMM Λ0
步骤(2):求取每段语音的声道长度弯折系数,具体做法为:
步骤(2.1):声道长度弯折系数α从0.88以步长0.02变化到1.12,对信号频谱进行“弯折”,设弯折前后的频率为f,fα,频谱的低通和高通截止频率为fl,fu,则弯折公式为
f α = f + 2 ( f u - f l ) π arctan ( ( 1 - α ) sin θ 1 - ( 1 - α ) cos θ ) ,
其中 θ = f - f l f u - f l π ;
步骤(2.2):对步骤(2.1)中每个弯折系数对应的频谱求取Mel频率倒谱系数MFCC特征
Figure GSA00000038315800032
搜索使所述特征对模型Λ0的似然度最大的弯折系数:
Figure GSA00000038315800033
α*即为该段语音的声道长度弯折系数;
步骤(3):将训练UBM的数据按声道长度弯折系数分成8份,其中α*=0.88的为第1份,α*=0.90的为第2份,α*=0.92的为第3份,α*=0.94的为第4份,α*=0.96,0.98的为第5份,α*=1.00,1.02的为第6份,α*=1.04,1.06的为第7份,α*=1.08,1.10,1.12的为第8份,这样划分是由于考虑各份中数据量的平衡,采用所述Baum-Welch算法用每份数据训练一个UBM模型;
步骤(4):用目标说话人的训练语音提取所述MFCC特征,并对8个UBM模型分别进行最大后验概率MAP自适应,得到8个GMM模型,具体自适应方法为:
步骤(4.1):假设其中一个UBM的参数为
Figure GSA00000038315800034
wm、μm和σm 2分别表示权重、均值和方差,其数值由步骤(3)中的Baum-Welch算法得到,权重满足
Figure GSA00000038315800035
下标m表示高斯分量标号,共含M个高斯分量,假设训练语音共含T帧特征,其中第t帧特征为ot,则ot属于第m个高斯分量的后验概率为:
γ m ( t ) = w m N ( o t ; μ m , σ m 2 ) Σ m ′ = 1 M w m ′ N ( o t ; μ m ′ , σ m ′ 2 ) ,
其中
Figure GSA00000038315800037
表示高斯分布的概率密度,对t=1,...,T,m=1,...,M进行循环,计算每帧特征属于每个高斯分量的后验概率;
步骤(4.2):将后验概率以及后验概率与特征的乘积对所有帧进行累加,计算零阶和一阶统计量:
n m = Σ t = 1 T γ m ( t ) ,
Figure GSA00000038315800042
对m=1,...,M进行循环,计算每个高斯分量的零阶和一阶统计量;
步骤(4.3):对一阶统计量和UBM的均值进行线性插值,得到自适应后的GMM模型的均值:
Figure GSA00000038315800043
其中插值系数为λm=nm/(nm+r),r为常数,取值为16,对m=1,...,M进行循环,计算GMM模型的每个高斯分量的均值,其权重和方差直接采用UBM的对应的权重和方差;
步骤(5):对于测试语音提取MFCC特征,然后分别用8组GMM和UBM模型求取对数似然比分数,从中选取最小的一个作为分数输出,具体方法为:
步骤(5.1):假设测试语音共含Te帧特征,则一组GMM和UBM模型的对数似然比分数为:
s = Σ t = 1 T e log Σ m = 1 M w m N ( o t ; μ ^ m , σ m 2 ) - Σ t = 1 T e log Σ m = 1 M w m N ( o t ; μ m , σ m 2 ) ,
步骤(5.2):按步骤(5.1)所述求取8组的对数似然比分数,从中选取最小的一个作为输出。
本发明的有益效果是,根据声道长度弯折系数对背景数据进行划分并分别训练UBM模型,是对性别相关的UBM的一种自然推广,能够克服数据划分不准以及不够精细的缺陷。采用多背景模型方法,可以针对不同的说话人选择相近的UBM模型,这样更有利于对“反模型”进行细致刻画,从而提高说话人识别的准确率。
附图说明
图1是本发明进行多背景模型建模的硬件结构和步骤框图。
图2是本发明使用多背景模型进行说话人训练的硬件结构和步骤框图。
图3是本发明使用多背景模型进行说话人测试的硬件结构和步骤框图。
具体实施方式
GMM-UBM系统中,UBM模型建立是至关重要的一个步骤,但如何选取UBM训练数据至今仍没有一套完整的理论指导,研究者们只能凭经验按最终的实验效果来选取。一般来讲,目前常用的有性别无关的UBM和性别相关的UBM两种,其中性别相关的UBM性能能更加优越。本发明对性别相关的UBM进行推广,按声道长度对训练数据进行划分,得到多个背景模型,具体实施可分成三个模块。
第1模块:多背景模型训练模块
首先需要求取训练UBM数据的声道长度弯折系数,这一步中采用最大似然准则求取。先用所有训练数据采用Baum-Welch算法训练一个“中性”的GMM模型,然后对每段数据进行特征“弯折”,对每一个弯折的特征都用GMM模型计算似然度,选择似然度最高的特征所对应的弯折系数,即为该段数据的声道长度弯折系数。
特征的弯折采用语音识别中常用的VTLN(声道长度归一化)技术,在求取MFCC特征时,首先需要求取信号频谱,设频谱的低通和高通截止频率为fl和fu,则频谱弯折公式为
f α = f + 2 ( f u - f l ) π arctan ( ( 1 - α ) sin θ 1 - ( 1 - α ) cos θ ) ,
其中
Figure GSA00000038315800062
f和fα为弯折前后的频率。对弯折后的频谱采用Mel滤波器组计算子带能量,求对数后再进行DCT(离散余弦变化),即得到弯折的MFCC特征。由频谱到MFCC特征的具体过程可参考一般的语音识别教材。
具体实施时,对声道长度弯折系数α从0.88变化到1.12,步长0.02,共13步量化。这样,每段训练UBM的语音数据就获得了一个声道长度弯折系数的标签。接下来,按照标签对数据进行划分,由于每个声道长度的数据量并不相等,我们按照每组数据大致相等的原则将数据分成8份,其中α*=0.88的为第1份,α*=0.90的为第2份,α*=0.92的为第3份,α*=0.94的为第4份,α*=0.96,0.98的为第5份,α*=1.00,1.02的为第6份,α*=1.04,1.06的为第7份,α*=1.08,1.10,1.12的为第8份。
对每份数据,直接提取MFCC特征(注意这里不需要进行特征弯折),然后用每份特征采用Baum-Welch算法训练一个UBM模型,这样就得到了8个UBM模型。
第2模块:说话人模型训练模块
由于前一模块中得到了8个UBM模型,对于给定的目标说话人训练数据,首先提取MFCC特征,然后用该特征从每个UBM模型自适应得到GMM模型,这样就得到了8组GMM和UBM模型。
在自适应GMM模型时,采用均值MAP自适应方法,即GMM模型的均值为
Figure GSA00000038315800063
其中μm为UBM模型的均值,Em
Figure GSA00000038315800064
为一阶统计量,λm为插值系数。统计量的计算公式为:
n m = Σ t = 1 T γ m ( t ) ,
Figure GSA00000038315800072
插值系数的计算公式为:
λ m = n m n m + r ,
其中γm(t)是第t帧特征ot属于UBM的第m个高斯分量的后验概率,,r为常数,取值为16。
第3模块:说话人识别模块
前一模块得到了8组GMM和UBM,对于给定的测试数据,首先提取MFCC特征,然后分别用8组GMM和UBM模型求取对数似然比分数:
s = Σ t = 1 T e log Σ m = 1 M w m N ( o t ; μ ^ m , σ m 2 ) - Σ t = 1 T e log Σ m = 1 M w m N ( o t ; μ m , σ m 2 ) ,
由于GMM自适应时只改变了均值,所以其权重和方差与对应的UBM相同。
得到8组分数后,从中选取最小的一个作为分数输出,然后可与门限比较进行判决,大于等于门限的即为说话人,小于门限的即为冒充者。
本发明实验采用国际上标准的NIST 2008说话人识别男生电话评测数据,训练和测试语音长约为3分钟。UBM训练数据采用NIST 2002、2003和2004年数据,共1116段。特征矢量采用13维的MFCC(Mel频率倒谱系数)加上其一阶和二阶差分共39维特征。
将NIST规定的测试段对每个目标说话人进行说话人确认,调节虚警率和漏报率相等时,可以得到系统的等错率,等错率越低,表明系统性能越好。
实验中,采用GMM作为分类器,每个GMM由256个高斯分量构成。UBM训练时采用Bauman-Welch算法迭代8次,MAP自适应时只适应均值,迭代1次。
实验表明:采用性别无关的UBM模型,说话人识别等错率为13.58%;采用性别相关的UBM模型,说话人识别等错率为11.76%;采用本发明所提多背景模型建模方法,说话人识别等错率为11.21%,相对降低17%。可见,本发明提出的多背景模型建立方法用于说话人识别可使其性能有较大提高。

Claims (1)

1.用于说话人识别的多背景模型建立方法,其特征在于,所述方法是在数字集成电路芯片中依次按以下步骤实现的:
步骤(1):采用Baum-Welch算法,用训练通用背景模型UBM的所有数据训练一个高斯混合模型GMMΛ0
步骤(2):求取每段语音的声道长度弯折系数,具体做法为:
步骤(2.1):声道长度弯折系数α从0.88以步长0.02变化到1.12,对信号频谱进行“弯折”,设弯折前后的频率为f,fα,频谱的低通和高通截止频率为fl,fu,则弯折公式为
f α = f + 2 ( f u - f l ) π arctan ( ( 1 - α ) sin θ 1 - ( 1 - α ) cos θ ) ,
其中 θ = f - f l f u - f l π ;
步骤(2.2):对步骤(2.1)中每个弯折系数对应的频谱求取Mel频率倒谱系数MFCC特征搜索使所述特征对模型Λ0的似然度最大的弯折系数:
Figure FSA00000038315700014
α*即为该段语音的声道长度弯折系数;
步骤(3):将训练UBM的数据按声道长度弯折系数分成8份,其中α*=0.88的为第1份,α*=0.90的为第2份,α*=0.92的为第3份,α*=0.94的为第4份,α*=0.96,0.98的为第5份,α*=1.00,1.02的为第6份,α*=1.04,1.06的为第7份,α*=1.08,1.10,1.12的为第8份,这样划分是由于考虑各份中数据量的平衡,采用所述Baum-Welch算法用每份数据训练一个UBM模型;
步骤(4):用目标说话人的训练语音提取所述MFCC特征,并对8个UBM模型分别进行最大后验概率MAP自适应,得到8个GMM模型,具体自适应方法为:
步骤(4.1):假设其中一个UBM的参数为wm、μm和σm 2分别表示权重、均值和方差,其数值由步骤(3)中的Baum-Welch算法得到,权重满足
Figure FSA00000038315700022
下标m表示高斯分量标号,共含M个高斯分量,假设训练语音共含T帧特征,其中第t帧特征为ot,则ot属于第m个高斯分量的后验概率为:
Figure FSA00000038315700023
其中
Figure FSA00000038315700024
(·)表示高斯分布的概率密度,对t=1,...,T,m=1,...,M进行循环,计算每帧特征属于每个高斯分量的后验概率;
步骤(4.2):将后验概率以及后验概率与特征的乘积对所有帧进行累加,计算零阶和一阶统计量:
n m = Σ t = 1 T γ m ( t ) ,
Figure FSA00000038315700026
对m=1,...,M进行循环,计算每个高斯分量的零阶和一阶统计量;
步骤(4.3):对一阶统计量和UBM的均值进行线性插值,得到自适应后的GMM模型的均值:
Figure FSA00000038315700027
其中插值系数为λm=nm/(nm+r),r为常数,取值为16,对m=1,...,M进行循环,计算GMM模型的每个高斯分量的均值,其权重和方差直接采用UBM的对应的权重和方差;
步骤(5):对于测试语音提取MFCC特征,然后分别用8组GMM和UBM模型求取对数似然比分数,从中选取最小的一个作为分数输出,具体方法为:
步骤(5.1):假设测试语音共含Te帧特征,则一组GMM和UBM模型的对数似然比分数为:
步骤(5.2):按步骤(5.1)所述求取8组的对数似然比分数,从中选取最小的一个作为输出。
CN2010101181491A 2010-03-04 2010-03-04 用于说话人识别的多背景模型建立方法 Expired - Fee Related CN101833951B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2010101181491A CN101833951B (zh) 2010-03-04 2010-03-04 用于说话人识别的多背景模型建立方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2010101181491A CN101833951B (zh) 2010-03-04 2010-03-04 用于说话人识别的多背景模型建立方法

Publications (2)

Publication Number Publication Date
CN101833951A true CN101833951A (zh) 2010-09-15
CN101833951B CN101833951B (zh) 2011-11-09

Family

ID=42718004

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2010101181491A Expired - Fee Related CN101833951B (zh) 2010-03-04 2010-03-04 用于说话人识别的多背景模型建立方法

Country Status (1)

Country Link
CN (1) CN101833951B (zh)

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102238190A (zh) * 2011-08-01 2011-11-09 安徽科大讯飞信息科技股份有限公司 身份认证方法及系统
CN102270451A (zh) * 2011-08-18 2011-12-07 安徽科大讯飞信息科技股份有限公司 说话人识别方法及系统
CN102664011A (zh) * 2012-05-17 2012-09-12 吉林大学 一种快速说话人识别方法
CN102779510A (zh) * 2012-07-19 2012-11-14 东南大学 基于特征空间自适应投影的语音情感识别方法
CN102968986A (zh) * 2012-11-07 2013-03-13 华南理工大学 基于长时特征和短时特征的重叠语音与单人语音区分方法
WO2013086736A1 (zh) * 2011-12-16 2013-06-20 华为技术有限公司 说话人识别方法及设备
CN103221996A (zh) * 2010-12-10 2013-07-24 松下电器产业株式会社 用于验证说话人的口令建模的设备和方法、以及说话人验证系统
CN104167208A (zh) * 2014-08-08 2014-11-26 中国科学院深圳先进技术研究院 一种说话人识别方法和装置
CN104240706A (zh) * 2014-09-12 2014-12-24 浙江大学 一种基于GMM Token配比相似度校正得分的说话人识别方法
CN104361891A (zh) * 2014-11-17 2015-02-18 科大讯飞股份有限公司 特定人群的个性化彩铃自动审核方法及系统
CN104517066A (zh) * 2014-12-16 2015-04-15 上海师范大学 一种文件夹加密方法
CN105656887A (zh) * 2015-12-30 2016-06-08 百度在线网络技术(北京)有限公司 基于人工智能的声纹认证方法以及装置
CN103985381B (zh) * 2014-05-16 2016-09-21 清华大学 一种基于参数融合优化决策的音频索引方法
CN106062871A (zh) * 2014-03-28 2016-10-26 英特尔公司 使用所选择的群组样本子集来训练分类器
CN106601238A (zh) * 2015-10-14 2017-04-26 阿里巴巴集团控股有限公司 一种应用操作的处理方法和装置
CN107358945A (zh) * 2017-07-26 2017-11-17 谢兵 一种基于机器学习的多人对话音频识别方法及系统
CN107358947A (zh) * 2017-06-23 2017-11-17 武汉大学 说话人重识别方法及系统
CN108766465A (zh) * 2018-06-06 2018-11-06 华中师范大学 一种基于enf通用背景模型的数字音频篡改盲检测方法
CN109378014A (zh) * 2018-10-22 2019-02-22 华中师范大学 一种基于卷积神经网络的移动设备源识别方法及系统
CN109545227A (zh) * 2018-04-28 2019-03-29 华中师范大学 基于深度自编码网络的说话人性别自动识别方法及系统
CN110364182A (zh) * 2019-08-01 2019-10-22 腾讯音乐娱乐科技(深圳)有限公司 一种声音信号处理方法及装置
CN110631064A (zh) * 2018-05-31 2019-12-31 宁波方太厨具有限公司 一种声音识别方法及应用有该声音识别方法的吸油烟机的自动控制方法
US10902850B2 (en) 2017-08-31 2021-01-26 Interdigital Ce Patent Holdings Apparatus and method for residential speaker recognition

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040128131A1 (en) * 2002-12-26 2004-07-01 Motorola, Inc. Identification apparatus and method
US20040260552A1 (en) * 2003-06-23 2004-12-23 International Business Machines Corporation Method and apparatus to compensate for fundamental frequency changes and artifacts and reduce sensitivity to pitch information in a frame-based speech processing system
US20070106511A1 (en) * 2005-11-04 2007-05-10 Advanced Telecommunications Research Institute International Speaker identifying apparatus and computer program product
CN101053015A (zh) * 2004-10-30 2007-10-10 国际商业机器公司 话音分组识别
US20080082331A1 (en) * 2006-09-29 2008-04-03 Kabushiki Kaisha Toshiba Method and apparatus for enrollment and evaluation of speaker authentification
CN101226743A (zh) * 2007-12-05 2008-07-23 浙江大学 基于中性和情感声纹模型转换的说话人识别方法
EP1989701A1 (en) * 2006-02-20 2008-11-12 Microsoft Corporation Speaker authentication
CN101419799A (zh) * 2008-11-25 2009-04-29 浙江大学 基于混合t模型的说话人识别方法
CN101447188A (zh) * 2007-11-27 2009-06-03 北京金运昭德数字科技有限公司 数字声纹鉴定系统及确认和辨认方法
US7567903B1 (en) * 2005-01-12 2009-07-28 At&T Intellectual Property Ii, L.P. Low latency real-time vocal tract length normalization

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040128131A1 (en) * 2002-12-26 2004-07-01 Motorola, Inc. Identification apparatus and method
US20040260552A1 (en) * 2003-06-23 2004-12-23 International Business Machines Corporation Method and apparatus to compensate for fundamental frequency changes and artifacts and reduce sensitivity to pitch information in a frame-based speech processing system
CN101053015A (zh) * 2004-10-30 2007-10-10 国际商业机器公司 话音分组识别
US7567903B1 (en) * 2005-01-12 2009-07-28 At&T Intellectual Property Ii, L.P. Low latency real-time vocal tract length normalization
US20070106511A1 (en) * 2005-11-04 2007-05-10 Advanced Telecommunications Research Institute International Speaker identifying apparatus and computer program product
EP1989701A1 (en) * 2006-02-20 2008-11-12 Microsoft Corporation Speaker authentication
US20080082331A1 (en) * 2006-09-29 2008-04-03 Kabushiki Kaisha Toshiba Method and apparatus for enrollment and evaluation of speaker authentification
CN101447188A (zh) * 2007-11-27 2009-06-03 北京金运昭德数字科技有限公司 数字声纹鉴定系统及确认和辨认方法
CN101226743A (zh) * 2007-12-05 2008-07-23 浙江大学 基于中性和情感声纹模型转换的说话人识别方法
CN101419799A (zh) * 2008-11-25 2009-04-29 浙江大学 基于混合t模型的说话人识别方法

Cited By (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9257121B2 (en) 2010-12-10 2016-02-09 Panasonic Intellectual Property Corporation Of America Device and method for pass-phrase modeling for speaker verification, and verification system
CN103221996B (zh) * 2010-12-10 2015-09-30 松下电器(美国)知识产权公司 用于验证说话人的口令建模的设备和方法、以及说话人验证系统
CN103221996A (zh) * 2010-12-10 2013-07-24 松下电器产业株式会社 用于验证说话人的口令建模的设备和方法、以及说话人验证系统
CN102238190B (zh) * 2011-08-01 2013-12-11 安徽科大讯飞信息科技股份有限公司 身份认证方法及系统
CN102238190A (zh) * 2011-08-01 2011-11-09 安徽科大讯飞信息科技股份有限公司 身份认证方法及系统
CN102270451A (zh) * 2011-08-18 2011-12-07 安徽科大讯飞信息科技股份有限公司 说话人识别方法及系统
CN103562993B (zh) * 2011-12-16 2015-05-27 华为技术有限公司 说话人识别方法及设备
US9142210B2 (en) 2011-12-16 2015-09-22 Huawei Technologies Co., Ltd. Method and device for speaker recognition
WO2013086736A1 (zh) * 2011-12-16 2013-06-20 华为技术有限公司 说话人识别方法及设备
CN103562993A (zh) * 2011-12-16 2014-02-05 华为技术有限公司 说话人识别方法及设备
CN102664011B (zh) * 2012-05-17 2014-03-12 吉林大学 一种快速说话人识别方法
CN102664011A (zh) * 2012-05-17 2012-09-12 吉林大学 一种快速说话人识别方法
CN102779510A (zh) * 2012-07-19 2012-11-14 东南大学 基于特征空间自适应投影的语音情感识别方法
CN102968986B (zh) * 2012-11-07 2015-01-28 华南理工大学 基于长时特征和短时特征的重叠语音与单人语音区分方法
CN102968986A (zh) * 2012-11-07 2013-03-13 华南理工大学 基于长时特征和短时特征的重叠语音与单人语音区分方法
CN106062871A (zh) * 2014-03-28 2016-10-26 英特尔公司 使用所选择的群组样本子集来训练分类器
CN103985381B (zh) * 2014-05-16 2016-09-21 清华大学 一种基于参数融合优化决策的音频索引方法
CN104167208B (zh) * 2014-08-08 2017-09-15 中国科学院深圳先进技术研究院 一种说话人识别方法和装置
CN104167208A (zh) * 2014-08-08 2014-11-26 中国科学院深圳先进技术研究院 一种说话人识别方法和装置
CN104240706B (zh) * 2014-09-12 2017-08-15 浙江大学 一种基于GMM Token配比相似度校正得分的说话人识别方法
CN104240706A (zh) * 2014-09-12 2014-12-24 浙江大学 一种基于GMM Token配比相似度校正得分的说话人识别方法
CN104361891A (zh) * 2014-11-17 2015-02-18 科大讯飞股份有限公司 特定人群的个性化彩铃自动审核方法及系统
CN104517066A (zh) * 2014-12-16 2015-04-15 上海师范大学 一种文件夹加密方法
CN106601238A (zh) * 2015-10-14 2017-04-26 阿里巴巴集团控股有限公司 一种应用操作的处理方法和装置
US10699716B2 (en) 2015-12-30 2020-06-30 Baidu Online Network Technology (Beijing) Co., Ltd. Artificial intelligence-based method and device for voiceprint authentication
CN105656887A (zh) * 2015-12-30 2016-06-08 百度在线网络技术(北京)有限公司 基于人工智能的声纹认证方法以及装置
CN107358947A (zh) * 2017-06-23 2017-11-17 武汉大学 说话人重识别方法及系统
CN107358945A (zh) * 2017-07-26 2017-11-17 谢兵 一种基于机器学习的多人对话音频识别方法及系统
US10902850B2 (en) 2017-08-31 2021-01-26 Interdigital Ce Patent Holdings Apparatus and method for residential speaker recognition
US11763810B2 (en) 2017-08-31 2023-09-19 Interdigital Madison Patent Holdings, Sas Apparatus and method for residential speaker recognition
CN109545227A (zh) * 2018-04-28 2019-03-29 华中师范大学 基于深度自编码网络的说话人性别自动识别方法及系统
CN110631064A (zh) * 2018-05-31 2019-12-31 宁波方太厨具有限公司 一种声音识别方法及应用有该声音识别方法的吸油烟机的自动控制方法
CN110631064B (zh) * 2018-05-31 2021-01-15 宁波方太厨具有限公司 一种声音识别方法及应用有该声音识别方法的吸油烟机的自动控制方法
CN108766465A (zh) * 2018-06-06 2018-11-06 华中师范大学 一种基于enf通用背景模型的数字音频篡改盲检测方法
CN108766465B (zh) * 2018-06-06 2020-07-28 华中师范大学 一种基于enf通用背景模型的数字音频篡改盲检测方法
CN109378014A (zh) * 2018-10-22 2019-02-22 华中师范大学 一种基于卷积神经网络的移动设备源识别方法及系统
CN110364182A (zh) * 2019-08-01 2019-10-22 腾讯音乐娱乐科技(深圳)有限公司 一种声音信号处理方法及装置

Also Published As

Publication number Publication date
CN101833951B (zh) 2011-11-09

Similar Documents

Publication Publication Date Title
CN101833951B (zh) 用于说话人识别的多背景模型建立方法
CN107610707B (zh) 一种声纹识别方法及装置
CN102737633B (zh) 一种基于张量子空间分析的说话人识别方法及其装置
CN102820033B (zh) 一种声纹识别方法
CN102270451B (zh) 说话人识别方法及系统
CN103440873B (zh) 一种基于相似性的音乐推荐方法
CN104392718B (zh) 一种基于声学模型阵列的鲁棒语音识别方法
CN105261367B (zh) 一种说话人识别方法
CN106952643A (zh) 一种基于高斯均值超矢量与谱聚类的录音设备聚类方法
CN103456302B (zh) 一种基于情感gmm模型权重合成的情感说话人识别方法
CN102486922B (zh) 说话人识别方法、装置和系统
CN104240706B (zh) 一种基于GMM Token配比相似度校正得分的说话人识别方法
CN102968986A (zh) 基于长时特征和短时特征的重叠语音与单人语音区分方法
CN101640043A (zh) 基于多坐标序列内核的说话人识别方法和系统
CN109767776B (zh) 一种基于密集神经网络的欺骗语音检测方法
CN104123933A (zh) 基于自适应非平行训练的语音转换方法
CN102789779A (zh) 一种语音识别系统及其识别方法
CN102968990A (zh) 说话人识别方法和系统
CN104485108A (zh) 一种基于多说话人模型的噪声与说话人联合补偿方法
CN103280224A (zh) 基于自适应算法的非对称语料库条件下的语音转换方法
CN110047504B (zh) 身份矢量x-vector线性变换下的说话人识别方法
CN103323532A (zh) 一种基于心理声学参量的鱼类识别方法及系统
CN103219008B (zh) 基于基状态矢量加权的短语音说话人识别方法
CN104392719B (zh) 一种用于语音识别系统的中心子带模型自适应方法
CN103578480A (zh) 负面情绪检测中的基于上下文修正的语音情感识别方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20161216

Address after: 100084 Zhongguancun Haidian District East Road No. 1, building 8, floor 8, A803B,

Patentee after: Beijing Hua Chong Chong Information Technology Co., Ltd.

Address before: 100084 Beijing 100084-82 mailbox

Patentee before: Qinghua UNiversity

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20200330

Address after: 100084 Tsinghua University, Beijing, Haidian District

Patentee after: TSINGHUA University

Address before: 100084 Zhongguancun Haidian District East Road No. 1, building 8, floor 8, A803B,

Patentee before: BEIJING HUA KONG CHUANG WEI INFORMATION TECHNOLOGY Co.,Ltd.

CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20111109

Termination date: 20210304