CN110148417A - 基于总变化空间与分类器联合优化的说话人身份识别方法 - Google Patents
基于总变化空间与分类器联合优化的说话人身份识别方法 Download PDFInfo
- Publication number
- CN110148417A CN110148417A CN201910439064.4A CN201910439064A CN110148417A CN 110148417 A CN110148417 A CN 110148417A CN 201910439064 A CN201910439064 A CN 201910439064A CN 110148417 A CN110148417 A CN 110148417A
- Authority
- CN
- China
- Prior art keywords
- speaker
- mean value
- vector
- classifier
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 63
- 238000005457 optimization Methods 0.000 title claims abstract description 18
- 238000012360 testing method Methods 0.000 claims abstract description 46
- 238000012549 training Methods 0.000 claims abstract description 29
- 238000004458 analytical method Methods 0.000 claims description 42
- 239000011159 matrix material Substances 0.000 claims description 30
- 239000000203 mixture Substances 0.000 claims description 4
- 238000005065 mining Methods 0.000 claims description 3
- 230000017105 transposition Effects 0.000 claims description 3
- 230000006870 function Effects 0.000 claims description 2
- 238000005516 engineering process Methods 0.000 abstract description 7
- 241000208340 Araliaceae Species 0.000 description 3
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 3
- 235000003140 Panax quinquefolius Nutrition 0.000 description 3
- 235000008434 ginseng Nutrition 0.000 description 3
- 238000013480 data collection Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
- G10L17/12—Score normalisation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Business, Economics & Management (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Game Theory and Decision Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Image Analysis (AREA)
- Machine Translation (AREA)
Abstract
基于总变化空间与分类器联合优化的说话人身份识别方法,它属于说话人识别技术领域。本发明解决了目前的总变化空间估计方法对说话人身份识别的等错误率高的问题。本发明首先求得训练集均值超矢量在初始总变化空间上的表示;然后对该表示进行长度规整,并输入分类器PLDA;接着在分类器PLDA的监督下,更新分类器的参数与总变化空间的参数,重复上述步骤,直至达到设置的最大迭代次数,获得最终的分类器参数与总变化空间参数;测试时,利用测试语音的均值超矢量和目标说话人的均值超矢量,计算其在总变化空间上的表示,然后对该表示进行长度规整,并计算其在分类器上的联合概率密度作为最终分类的依据。本发明可以应用于说话人识别技术领域。
Description
技术领域
本发明属于说话人识别技术领域,具体涉及一种基于总变化空间与分类器联合优化的说话人身份识别方法。
背景技术
语音是人类之间交流情感与认知的重要信息载体,是在生活与工作中最基本、最自然的交流方式。随着信息技术的发展,使得通过分析语音信号中的个人特征来识别说话人身份成为可能。说话人身份识别技术也因其良好的准确性、经济性和可扩展性,拥有着广阔的发展空间。在众多说话人身份识别技术中,基于身份-向量(i-vector)框架的说话人身份识别方法,由于其优异的性能与较高的效率,应用最为广泛。
I-vector框架的核心技术为总变化空间的估计,在估计过程中,通过对大量说话人数据的分析,从中找出能够对说话人身份起解释作用的主要因子,从而进行特征提取并用于识别任务。可见,总变化空间的估计过程服务于说话人身份识别任务。但目前的总变化空间估计方法均未考虑任务的需求,这不利于身份识别任务的进行,进而影响系统的识别性能,导致说话人身份识别的等错误率较高。因此,在总变化空间估计的过程中,同时兼顾识别任务的研究,具有重要的研究意义与应用价值。
发明内容
本发明的目的是为解决目前的总变化空间估计方法对说话人身份识别的等错误率高的问题,而提出了一种基于总变化空间与分类器联合优化的说话人身份识别方法。
本发明为解决上述技术问题采取的技术方案是:基于总变化空间与分类器联合优化的说话人身份识别方法,该方法包括以下步骤:
步骤一、将训练集中每段语音的梅尔倒谱系数输入通用背景模型(UniversalBackground Model,UBM),并在通用背景模型上采用最大后验概率方法进行自适应,获得每段语音对应的高斯混合模型,利用高斯混合模型获得训练集中每段语音对应的均值超矢量;
则训练集中每段语音对应的均值超矢量组成均值超矢量集合;
步骤二、计算训练集中全部段语音对应的均值超矢量的均值m及训练集中全部段语音对应的均值超矢量的协方差矩阵Φ;
步骤三、随机初始化分类器概率线性判别分析模型(Probabilistic LinearDiscriminant Analysis,PLDA)和总变化空间的参数分别为{Λ,Ψ}和T;
步骤四、利用均值超矢量集合、均值超矢量的均值m、均值超矢量的协方差矩阵Φ以及总变化空间参数T,计算总变化空间中训练集的每段语音对应的i-vector特征的后验精度矩阵Lw与后验均值
步骤五、分别对每段语音对应的i-vector特征的后验均值进行长度规整,获得长度规整后每段语音对应的i-vector特征;
步骤六、利用长度规整后每段语音对应的i-vector特征以及分类器概率线性判别分析模型的参数{Λ,Ψ},计算出分类器概率线性判别分析模型中隐变量θs的后验精度矩阵Lθ,s、后验均值和后验相关矩阵
步骤七、利用长度规整后每段语音对应的i-vector特征、分类器概率线性判别分析模型中隐变量θs的后验均值和后验相关矩阵获得更新后的分类器概率线性判别分析模型的参数{Λ′,Ψ′};
步骤八、利用均值超矢量集合、均值超矢量的均值m、每段语音对应的i-vector特征的后验均值长度规整后每段语音对应的i-vector特征、更新后的分类器概率线性判别分析模型的参数{Λ′,Ψ′}以及分类器概率线性判别分析模型中隐变量θs的后验均值计算更新后的总变化空间的参数T′;
步骤九、利用更新后的分类器概率线性判别分析模型参数{Λ′,Ψ′}替换步骤六中的分类器概率线性判别分析模型参数{Λ,Ψ},利用更新后的总变化空间参数T′替换步骤四中的总变化空间参数T,来重复步骤四至步骤八的过程,直至达到设置的最大迭代次数时停止迭代,获得最终的分类器概率线性判别分析模型的参数{Λ0,Ψ0}和总变化空间的参数T0;
步骤十:对于测试集中的任意一段语音,假设该段测试语音对应的均值超矢量为Mtest;目标说话人对应的均值超矢量为Mtarget;
则分别计算出均值超矢量Mtest与均值超矢量Mtarget在总变化空间上的表示,获得该段测试语音对应的i-vector特征wtest以及目标说话人对应的i-vector特征wtarget;
步骤十一:分别对步骤十获得的i-vector特征wtest与wtarget进行长度规整,获得长度规整后的i-vector特征与
步骤十二:计算长度规整后的i-vector特征和在分类器概率线性判别分析模型上的联合概率密度,将求得的联合概率密度作为匹配得分Stest,target;
步骤十三:将步骤十二的匹配得分Stest,target与阈值S′进行比较,若匹配得分Stest,target大于等于阈值S′,则长度规整后的i-vector特征对应的测试集语音段来自于目标说话人,若匹配得分Stest,target小于阈值S′,则长度规整后的i-vector特征对应的测试集语音段不是来自于目标说话人;
同理,即判断出测试集中的其他段语音是否来自于目标说话人。
本发明的有益效果是:本发明提出了一种基于总变化空间与分类器联合优化的说话人身份识别方法,本发明首先求得训练集均值超矢量在初始总变化空间上的表示;然后对该表示进行长度规整,并输入分类器PLDA;接着在分类器PLDA的监督下,更新分类器的参数与总变化空间的参数;最后重复上述步骤,直至达到设置的最大迭代次数,获得最终的分类器参数与总变化空间参数;测试时,将测试语音的均值超矢量和目标说话人的均值超矢量作为输入,得到其在总变化空间上的表示,然后对该表示进行长度规整,并计算其在分类器上的联合概率密度作为最终分类的依据。实验结果表明,本发明方法在两个不同数据集上的等错误率分别达到2.17%和7.10%,相比于经典方法中性能最好的方法,相对等错误率分别降低了6.87%和6.95%。
附图说明
图1是本发明的基于总变化空间与分类器联合优化的说话人身份识别方法的流程图;
图2为在数据库King-ASR-010上,本发明方法(对应TDVM柱)与TVM方法、CDS方法、LDA方法以及PLDA方法的等错误率对比图;
图3为在数据库VoxCeleb上,本发明方法(对应TDVM柱)与TVM方法、CDS方法、LDA方法以及PLDA方法的等错误率对比图。
具体实施方式
具体实施方式一:如图1所示,本实施方式所述的基于总变化空间与分类器联合优化的说话人身份识别方法,该方法包括以下步骤:
步骤一、将训练集中每段语音的梅尔倒谱系数输入通用背景模型,并在通用背景模型上采用最大后验概率方法进行自适应,获得每段语音对应的高斯混合模型,利用高斯混合模型获得训练集中每段语音对应的均值超矢量;
则训练集中每段语音对应的均值超矢量组成均值超矢量集合;
步骤二、计算训练集中全部段语音对应的均值超矢量的均值m及训练集中全部段语音对应的均值超矢量的协方差矩阵Φ;
步骤三、随机初始化分类器概率线性判别分析模型和总变化空间的参数分别为{Λ,Ψ}和T;
步骤四、利用均值超矢量集合、均值超矢量的均值m、均值超矢量的协方差矩阵Φ以及总变化空间参数T,计算总变化空间中训练集的每段语音对应的i-vector特征的后验精度矩阵Lw与后验均值
步骤五、分别对每段语音对应的i-vector特征的后验均值进行长度规整,获得长度规整后每段语音对应的i-vector特征;
步骤六、利用长度规整后每段语音对应的i-vector特征以及分类器概率线性判别分析模型的参数{Λ,Ψ},计算出分类器概率线性判别分析模型中隐变量θs的后验精度矩阵Lθ,s、后验均值和后验相关矩阵
步骤七、利用长度规整后每段语音对应的i-vector特征、分类器概率线性判别分析模型中隐变量θs的后验均值和后验相关矩阵获得更新后的分类器概率线性判别分析模型的参数{Λ′,Ψ′};
步骤八、利用均值超矢量集合、均值超矢量的均值m、每段语音对应的i-vector特征的后验均值长度规整后每段语音对应的i-vector特征、更新后的分类器概率线性判别分析模型的参数{Λ′,Ψ′}以及分类器概率线性判别分析模型中隐变量θs的后验均值计算更新后的总变化空间的参数T′;
步骤九、利用更新后的分类器概率线性判别分析模型参数{Λ′,Ψ′}替换步骤六中的分类器概率线性判别分析模型参数{Λ,Ψ},利用更新后的总变化空间参数T′替换步骤四中的总变化空间参数T,来重复步骤四至步骤八的过程,直至达到设置的最大迭代次数时停止迭代,获得最终的分类器概率线性判别分析模型的参数{Λ0,Ψ0}和总变化空间的参数T0;
步骤十:对于测试集中的任意一段语音,假设该段测试语音对应的均值超矢量为Mtest;目标说话人对应的均值超矢量为Mtarget;
则分别计算出均值超矢量Mtest与均值超矢量Mtarget在总变化空间上的表示,获得该段测试语音对应的i-vector特征wtest以及目标说话人对应的i-vector特征wtarget;
步骤十一:分别对步骤十获得的i-vector特征wtest与wtarget进行长度规整,获得长度规整后的i-vector特征与
步骤十二:计算长度规整后的i-vector特征和在分类器概率线性判别分析模型上的联合概率密度,将求得的联合概率密度作为匹配得分Stest,target;
步骤十三:将步骤十二的匹配得分Stest,target与阈值S′进行比较,若匹配得分Stest,target大于等于阈值S′,则长度规整后的i-vector特征对应的测试集语音段来自于目标说话人,若匹配得分Stest,target小于阈值S′,则长度规整后的i-vector特征对应的测试集语音段不是来自于目标说话人;
同理,即判断出测试集中的其他段语音是否来自于目标说话人。
本发明通过提出一个双层框架来联合优化总变化空间与后端分类器PLDA,来增强两个阶段之间的关联性,最终达到降低说话人身份识别等错误率的目的。
具体实施方式二:本实施方式与具体实施方式一不同的是:所述利用高斯混合模型获得训练集中每段语音对应的均值超矢量,其具体过程为:
假设训练集中共包含S0个说话人的语音,且包含第s个说话人的语音段总数为Hs,s=1,2,…,S0;
根据第s个说话人的第h段语音对应的所有高斯分量的均值μc,c=1,2,...,C,获得第s个说话人的第h段语音对应的均值超矢量Ms,h,Ms,h的表达式为:
其中:C代表第s个说话人的第h段语音对应的高斯分量的均值的个数,μ1代表第s个说话人的第h段语音对应的第一个高斯分量的均值;
则训练集中每段语音对应的均值超矢量组成的均值超矢量集合为其中:s为说话人编号,S0为说话人总数;h为说话人的第h段语音。
具体实施方式三:本实施方式与具体实施方式二不同的是:所述步骤二的具体过程为:
具体实施方式四:本实施方式与具体实施方式三不同的是:所述总变化空间中训练集的每段语音对应的i-vector特征的后验精度矩阵Lw与后验均值的表达式分别为:
其中,代表第s个说话人的第h段语音对应的i-vector特征的后验均值,Iw为单位矩阵;上角标T代表矩阵的转置,上角标-1代表矩阵的逆。
具体实施方式五:本实施方式与具体实施方式四不同的是:所述步骤五的具体过程为:
其中,为长度规整后,第s个说话人的第h段语音对应的i-vector特征;μ为训练集中全部段语音对应的i-vector特征的后验均值的均值;<·>为内积;
具体实施方式六:本实施方式与具体实施方式五不同的是:所述分类器概率线性判别分析模型中隐变量θs的后验精度矩阵Lθ,s、后验均值和后验相关矩阵的表达式分别为:
其中,Iθ为单位阵。
具体实施方式七:本实施方式与具体实施方式六不同的是:所述步骤七的具体过程为:
其中:{Λ′,Ψ′}代表更新后的分类器概率线性判别分析模型的参数。
具体实施方式八:本实施方式与具体实施方式七不同的是:所述步骤八的具体过程为:
其中:T′代表更新后的总变化空间的参数,I代表单位矩阵,fU代表fU对的导数,代表对fU的结果进行转置,fU代表目标函数,fU的表达式如下:
δs,h代表的内积,|·|代表行列式。
具体实施方式九:本实施方式与具体实施方式八不同的是:所述步骤九中的最大迭代次数的取值为5~10次。
具体实施方式十:本实施方式与具体实施方式九不同的是:所述步骤十的具体过程为:
对于测试集中的任意一段语音,假设该段测试语音对应的均值超矢量为Mtest;目标说话人对应的均值超矢量为Mtarget;
则分别计算出均值超矢量Mtest与均值超矢量Mtarget在总变化空间上的表示,获得该段测试语音对应的i-vector特征以及目标说话人对应的i-vector特征;
其中:wtest代表该段测试语音对应的i-vector特征,wtarget代表目标说话人对应的i-vector特征,T0代表最终的总变化空间的参数。
具体实施方式十一:本实施方式与具体实施方式十不同的是:所述步骤二的具体过程为:所述步骤十一中长度规整后的i-vector特征与的表达式分别为:
具体实施方式十二:本实施方式与具体实施方式十一不同的是:所述步骤十二的具体过程为:
其中:Q和P均为中间变量,且Q和P的表达式分别为:
其中:中间变量Σtot和Σac的表达式分别为:
Σtot=Λ0Λ0 T+Ψ0 (15)
Σac=Λ0Λ0 T (16)
其中:{Λ0,Ψ0}代表最终的分类器概率线性判别分析模型参数。
图2和图3是本发明方法与其他经典方法在两个不同数据库(King-ASR-010,VoxCeleb)上的性能(等错误率)对比柱状图。通过图2和图3的柱状图可以看出,本发明(对应TDVM柱)的等错误率低于其他经典方法。其中,TVM为传统总变化空间估计方法;CDS为余弦距离打分;LDA为线性判别分析;PLDA为概率线性判别分析分类器。实验结果表明,本发明方法在两个不同数据集上等错误率分别达到2.17%和7.10%,相比于经典方法中性能最好的方法,相对等错误率分别降低了6.87%和6.95%。
本发明的上述算例仅为详细地说明本发明的计算模型和计算流程,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动,这里无法对所有的实施方式予以穷举,凡是属于本发明的技术方案所引伸出的显而易见的变化或变动仍处于本发明的保护范围之列。
Claims (12)
1.基于总变化空间与分类器联合优化的说话人身份识别方法,其特征在于,该方法包括以下步骤:
步骤一、将训练集中每段语音的梅尔倒谱系数输入通用背景模型,并在通用背景模型上采用最大后验概率方法进行自适应,获得每段语音对应的高斯混合模型,利用高斯混合模型获得训练集中每段语音对应的均值超矢量;
则训练集中每段语音对应的均值超矢量组成均值超矢量集合;
步骤二、计算训练集中全部段语音对应的均值超矢量的均值m及训练集中全部段语音对应的均值超矢量的协方差矩阵Φ;
步骤三、随机初始化分类器概率线性判别分析模型和总变化空间的参数分别为{Λ,Ψ}和T;
步骤四、利用均值超矢量集合、均值超矢量的均值m、均值超矢量的协方差矩阵Φ以及总变化空间参数T,计算总变化空间中训练集的每段语音对应的i-vector特征的后验精度矩阵Lw与后验均值
步骤五、分别对每段语音对应的i-vector特征的后验均值进行长度规整,获得长度规整后每段语音对应的i-vector特征;
步骤六、利用长度规整后每段语音对应的i-vector特征以及分类器概率线性判别分析模型的参数{Λ,Ψ},计算出分类器概率线性判别分析模型中隐变量θs的后验精度矩阵Lθ,s、后验均值和后验相关矩阵
步骤七、利用长度规整后每段语音对应的i-vector特征、分类器概率线性判别分析模型中隐变量θs的后验均值和后验相关矩阵获得更新后的分类器概率线性判别分析模型的参数{Λ′,Ψ′};
步骤八、利用均值超矢量集合、均值超矢量的均值m、每段语音对应的i-vector特征的后验均值长度规整后每段语音对应的i-vector特征、更新后的分类器概率线性判别分析模型的参数{Λ′,Ψ′}以及分类器概率线性判别分析模型中隐变量θs的后验均值计算更新后的总变化空间的参数T′;
步骤九、利用更新后的分类器概率线性判别分析模型参数{Λ′,Ψ′}替换步骤六中的分类器概率线性判别分析模型参数{Λ,Ψ},利用更新后的总变化空间参数T′替换步骤四中的总变化空间参数T,来重复步骤四至步骤八的过程,直至达到设置的最大迭代次数时停止迭代,获得最终的分类器概率线性判别分析模型的参数{Λ0,Ψ0}和总变化空间的参数T0;
步骤十:对于测试集中的任意一段语音,假设该段测试语音对应的均值超矢量为Mtest;目标说话人对应的均值超矢量为Mtarget;
则分别计算出均值超矢量Mtest与均值超矢量Mtarget在总变化空间上的表示,获得该段测试语音对应的i-vector特征wtest以及目标说话人对应的i-vector特征wtarget;
步骤十一:分别对步骤十获得的i-vector特征wtest与wtarget进行长度规整,获得长度规整后的i-vector特征与
步骤十二:计算长度规整后的i-vector特征和在分类器概率线性判别分析模型上的联合概率密度,将求得的联合概率密度作为匹配得分Stest,target;
步骤十三:将步骤十二的匹配得分Stest,target与阈值S′进行比较,若匹配得分Stest,target大于等于阈值S′,则长度规整后的i-vector特征对应的测试集语音段来自于目标说话人,若匹配得分Stest,target小于阈值S′,则长度规整后的i-vector特征对应的测试集语音段不是来自于目标说话人;
同理,即判断出测试集中的其他段语音是否来自于目标说话人。
2.根据权利要求1所述的基于总变化空间与分类器联合优化的说话人身份识别方法,其特征在于,所述利用高斯混合模型获得训练集中每段语音对应的均值超矢量,其具体过程为:
假设训练集中共包含S0个说话人的语音,且包含第s个说话人的语音段总数为Hs,s=1,2,…,S0;
根据第s个说话人的第h段语音对应的所有高斯分量的均值μc,c=1,2,...,C,获得第s个说话人的第h段语音对应的均值超矢量Ms,h,Ms,h的表达式为:
其中:C代表第s个说话人的第h段语音对应的高斯分量的均值的个数,μ1代表第s个说话人的第h段语音对应的第一个高斯分量的均值;
则训练集中每段语音对应的均值超矢量组成的均值超矢量集合为其中:s为说话人编号,S0为说话人总数;h为说话人的第h段语音。
3.根据权利要求2所述的基于总变化空间与分类器联合优化的说话人身份识别方法,其特征在于,所述步骤二的具体过程为:
4.根据权利要求3所述的基于总变化空间与分类器联合优化的说话人身份识别方法,其特征在于,所述总变化空间中训练集的每段语音对应的i-vector特征的后验精度矩阵Lw与后验均值的表达式分别为:
其中,代表第s个说话人的第h段语音对应的i-vector特征的后验均值,Iw为单位矩阵;上角标T代表矩阵的转置,上角标-1代表矩阵的逆。
5.根据权利要求4所述的基于总变化空间与分类器联合优化的说话人身份识别方法,其特征在于,所述步骤五的具体过程为:
其中,为长度规整后,第s个说话人的第h段语音对应的i-vector特征;μ为训练集中全部段语音对应的i-vector特征的后验均值的均值;<·>为内积;
6.根据权利要求5所述的基于总变化空间与分类器联合优化的说话人身份识别方法,其特征在于,所述分类器概率线性判别分析模型中隐变量θs的后验精度矩阵Lθ,s、后验均值和后验相关矩阵的表达式分别为:
其中,Iθ为单位阵。
7.根据权利要求6所述的基于总变化空间与分类器联合优化的说话人身份识别方法,其特征在于,所述步骤七的具体过程为:
其中:{Λ′,Ψ′}代表更新后的分类器概率线性判别分析模型的参数。
8.根据权利要求7所述的基于总变化空间与分类器联合优化的说话人身份识别方法,其特征在于,所述步骤八的具体过程为:
其中:T′代表更新后的总变化空间的参数,I代表单位矩阵,代表fU对的导数,fU代表目标函数,fU的表达式如下:
δs,h代表的内积,|·|代表行列式。
9.根据权利要求8所述的基于总变化空间与分类器联合优化的说话人身份识别方法,其特征在于,所述步骤九中的最大迭代次数的取值为5~10次。
10.根据权利要求9所述的基于总变化空间与分类器联合优化的说话人身份识别方法,其特征在于,所述步骤十的具体过程为:
对于测试集中的任意一段语音,假设该段测试语音对应的均值超矢量为Mtest;目标说话人对应的均值超矢量为Mtarget;
则分别计算出均值超矢量Mtest与均值超矢量Mtarget在总变化空间上的表示,获得该段测试语音对应的i-vector特征以及目标说话人对应的i-vector特征;
其中:wtest代表该段测试语音对应的i-vector特征,wtarget代表目标说话人对应的i-vector特征,T0代表最终的总变化空间的参数。
11.根据权利要求10所述的基于总变化空间与分类器联合优化的说话人身份识别方法,其特征在于,所述步骤十一中长度规整后的i-vector特征与的表达式分别为:
12.根据权利要求11所述的基于总变化空间与分类器联合优化的说话人身份识别方法,其特征在于,所述步骤十二的具体过程为:
其中:Q和P均为中间变量,且Q和P的表达式分别为:
其中:中间变量Σtot和Σac的表达式分别为:
Σtot=Λ0Λ0 T+Ψ0 (15)
Σac=Λ0Λ0 T (16)
其中:{Λ0,Ψ0}代表最终的分类器概率线性判别分析模型参数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910439064.4A CN110148417B (zh) | 2019-05-24 | 2019-05-24 | 基于总变化空间与分类器联合优化的说话人身份识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910439064.4A CN110148417B (zh) | 2019-05-24 | 2019-05-24 | 基于总变化空间与分类器联合优化的说话人身份识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110148417A true CN110148417A (zh) | 2019-08-20 |
CN110148417B CN110148417B (zh) | 2021-03-23 |
Family
ID=67593198
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910439064.4A Active CN110148417B (zh) | 2019-05-24 | 2019-05-24 | 基于总变化空间与分类器联合优化的说话人身份识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110148417B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111028847A (zh) * | 2019-12-17 | 2020-04-17 | 广东电网有限责任公司 | 一种基于后端模型的声纹识别优化方法和相关装置 |
CN116129911A (zh) * | 2023-02-09 | 2023-05-16 | 东北林业大学 | 一种基于概率球面判别分析信道补偿的说话人识别方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105261367A (zh) * | 2014-07-14 | 2016-01-20 | 中国科学院声学研究所 | 一种说话人识别方法 |
US9373330B2 (en) * | 2014-08-07 | 2016-06-21 | Nuance Communications, Inc. | Fast speaker recognition scoring using I-vector posteriors and probabilistic linear discriminant analysis |
CN107146601A (zh) * | 2017-04-07 | 2017-09-08 | 南京邮电大学 | 一种用于说话人识别系统的后端i‑vector增强方法 |
CN107342077A (zh) * | 2017-05-27 | 2017-11-10 | 国家计算机网络与信息安全管理中心 | 一种基于因子分析的说话人分段聚类方法及系统 |
CN107369440A (zh) * | 2017-08-02 | 2017-11-21 | 北京灵伴未来科技有限公司 | 一种针对短语音的说话人识别模型的训练方法及装置 |
CN107452403A (zh) * | 2017-09-12 | 2017-12-08 | 清华大学 | 一种说话人标记方法 |
WO2019053898A1 (en) * | 2017-09-15 | 2019-03-21 | Nec Corporation | PATTERN RECOGNITION APPARATUS, PATTERN RECOGNITION METHOD, AND STORAGE MEDIUM |
-
2019
- 2019-05-24 CN CN201910439064.4A patent/CN110148417B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105261367A (zh) * | 2014-07-14 | 2016-01-20 | 中国科学院声学研究所 | 一种说话人识别方法 |
US9373330B2 (en) * | 2014-08-07 | 2016-06-21 | Nuance Communications, Inc. | Fast speaker recognition scoring using I-vector posteriors and probabilistic linear discriminant analysis |
CN107146601A (zh) * | 2017-04-07 | 2017-09-08 | 南京邮电大学 | 一种用于说话人识别系统的后端i‑vector增强方法 |
CN107342077A (zh) * | 2017-05-27 | 2017-11-10 | 国家计算机网络与信息安全管理中心 | 一种基于因子分析的说话人分段聚类方法及系统 |
CN107369440A (zh) * | 2017-08-02 | 2017-11-21 | 北京灵伴未来科技有限公司 | 一种针对短语音的说话人识别模型的训练方法及装置 |
CN107452403A (zh) * | 2017-09-12 | 2017-12-08 | 清华大学 | 一种说话人标记方法 |
WO2019053898A1 (en) * | 2017-09-15 | 2019-03-21 | Nec Corporation | PATTERN RECOGNITION APPARATUS, PATTERN RECOGNITION METHOD, AND STORAGE MEDIUM |
Non-Patent Citations (5)
Title |
---|
CHEN CHEN: "Partial Least Squares Based Total Variability Space Modeling for I-Vector Speaker Verification", 《CHINESE JOURNAL OF ELECTRONICS》 * |
CHEN CHEN: "Speaker Verification via Estimating Total Variability Space Using Probabilistic Partial Least Squares", 《INTERSPEECH 2017》 * |
ZHENG TIERAN: "DEEP NEURAL NETWORK BASED DISCRIMINATIVE TRAINING FOR I-VECTOR/PLDA SPEAKER VERIFICATION", 《2018 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS,SPEECH AND SIGNAL PROCESSING》 * |
李湾湾: "说话人声纹识别的算法研究", 《中国优秀硕士学位论文全文数据库》 * |
陈晨: "I-VECTOR说话人识别中基于偏最小二乘的总变化空间估计方法", 《中国优秀硕士学位论文全文数据库》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111028847A (zh) * | 2019-12-17 | 2020-04-17 | 广东电网有限责任公司 | 一种基于后端模型的声纹识别优化方法和相关装置 |
CN116129911A (zh) * | 2023-02-09 | 2023-05-16 | 东北林业大学 | 一种基于概率球面判别分析信道补偿的说话人识别方法 |
CN116129911B (zh) * | 2023-02-09 | 2023-11-17 | 东北林业大学 | 一种基于概率球面判别分析信道补偿的说话人识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110148417B (zh) | 2021-03-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Liu et al. | Speaker embedding extraction with phonetic information | |
Wang et al. | Data augmentation using deep generative models for embedding based speaker recognition | |
CN105261367B (zh) | 一种说话人识别方法 | |
CN109671442A (zh) | 基于STARGAN与x向量的多对多说话人转换方法 | |
CN104217721B (zh) | 基于说话人模型对齐的非对称语音库条件下的语音转换方法 | |
CN108962247B (zh) | 基于渐进式神经网络多维语音信息识别系统及其方法 | |
Fang et al. | Channel adversarial training for cross-channel text-independent speaker recognition | |
Chang et al. | A Segment-based Speech Recognition System for Isolated Mandarin Syllables | |
CN104240706B (zh) | 一种基于GMM Token配比相似度校正得分的说话人识别方法 | |
CN109599091A (zh) | 基于STARWGAN-GP和x向量的多对多说话人转换方法 | |
CN110309343A (zh) | 一种基于深度哈希的声纹检索方法 | |
CN103456302B (zh) | 一种基于情感gmm模型权重合成的情感说话人识别方法 | |
CN110047504B (zh) | 身份矢量x-vector线性变换下的说话人识别方法 | |
CN103280224A (zh) | 基于自适应算法的非对称语料库条件下的语音转换方法 | |
CN106971180A (zh) | 一种基于语音字典稀疏迁移学习的微表情识别方法 | |
CN110148417A (zh) | 基于总变化空间与分类器联合优化的说话人身份识别方法 | |
CN104464738B (zh) | 一种面向智能移动设备的声纹识别方法 | |
Dey et al. | End-to-end Text-dependent Speaker Verification Using Novel Distance Measures. | |
Lin et al. | Mixture representation learning for deep speaker embedding | |
Mackova et al. | A study of acoustic features for emotional speaker recognition in I-vector representation | |
Ng et al. | Teacher-student training for text-independent speaker recognition | |
Tan et al. | Denoised senone i-vectors for robust speaker verification | |
Mao et al. | Speech emotion recognition based on a hybrid of HMM/ANN | |
Stadelmann et al. | Dimension-decoupled Gaussian mixture model for short utterance speaker recognition | |
CN110085236A (zh) | 一种基于自适应语音帧加权的说话人识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |