CN116129911A - 一种基于概率球面判别分析信道补偿的说话人识别方法 - Google Patents
一种基于概率球面判别分析信道补偿的说话人识别方法 Download PDFInfo
- Publication number
- CN116129911A CN116129911A CN202310089702.0A CN202310089702A CN116129911A CN 116129911 A CN116129911 A CN 116129911A CN 202310089702 A CN202310089702 A CN 202310089702A CN 116129911 A CN116129911 A CN 116129911A
- Authority
- CN
- China
- Prior art keywords
- speaker
- vector
- probability
- distribution
- discriminant analysis
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 49
- 238000000034 method Methods 0.000 title claims abstract description 42
- 238000009826 distribution Methods 0.000 claims abstract description 81
- 230000008569 process Effects 0.000 claims abstract description 16
- 230000001131 transforming effect Effects 0.000 claims abstract description 10
- 230000006870 function Effects 0.000 claims description 48
- 238000012549 training Methods 0.000 claims description 15
- 238000004422 calculation algorithm Methods 0.000 claims description 9
- 230000009466 transformation Effects 0.000 claims description 9
- 238000007476 Maximum Likelihood Methods 0.000 claims description 6
- 238000009432 framing Methods 0.000 claims description 4
- 238000007781 pre-processing Methods 0.000 claims description 4
- 238000012935 Averaging Methods 0.000 claims description 2
- 238000010606 normalization Methods 0.000 abstract description 7
- 238000005516 engineering process Methods 0.000 description 6
- NCGICGYLBXGBGN-UHFFFAOYSA-N 3-morpholin-4-yl-1-oxa-3-azonia-2-azanidacyclopent-3-en-5-imine;hydrochloride Chemical compound Cl.[N-]1OC(=N)C=[N+]1N1CCOCC1 NCGICGYLBXGBGN-UHFFFAOYSA-N 0.000 description 4
- 238000012360 testing method Methods 0.000 description 3
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000013145 classification model Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000000556 factor analysis Methods 0.000 description 1
- 238000012821 model calculation Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Stereophonic System (AREA)
Abstract
一种基于概率球面判别分析信道补偿的说话人识别方法,本发明涉及一种概率球面判别分析信道补偿的说话人识别方法。本发明的目的是为了解决现有线性概率判别分析模型的高斯假设使得长度归一化会破坏说话人的特征分布从而影响识别结果的问题。过程为:1、获取说话人的音频数据构建数据集,并对说话人进行编号同时确定说话人和音频数据的对应关系;2、获得说话人的身份矢量i‑vector特征;3、将说话人的身份矢量i‑vector特征分布变换为冯米塞斯VonMises‑Fisher分布;4、得到训练好的CC‑PSDA;5、将待测音频数据输入训练好的CC‑PSDA,判断是否为同一个人的音频数据。本发明用于声纹识别领域。
Description
技术领域
本发明涉及声纹识别领域,尤其涉及一种概率球面判别分析信道补偿的说话人识别方法。
背景技术
说话人识别技术也被称为声纹识别技术,是指通过分析处理采集到的语音信号来识别相关说话人的身份,是语音处理领域最重要的技术之一。经过50余年的研究与发展,说话人识别技术得到了很大的发展,研究者们相继提出了联合因子分析、说话人身份矢量(i-vector)和基于深度学习的说话人识别等技术。i-vector识别系统是目前最有效的说话人识别技术之一,该方法可以将语音对应的均值超矢量映射成低维度的i-vector特征,这在很大程度上减少了与说话人无关的信道空间信息,并采用总变化空间来代替JAF的说话人空间和信道空间,使得i-vector在建模过程中不会严格区分说话人信息和信道信息对说话人身份的影响。
当前主流的i-vector框架会使用线性概率判别分析(PLDA)来对提取的i-vector说话人特征进行打分分类,其中鉴于PLDA模型中高斯分布的假设,在将说话人特征输入到PLDA模型时会使用长度归一化算法对语音特征进行预处理来提高系统识别效率,该方法将空间Rd上的说话人特征通过高斯长度归一化到低维空间Sd-1上,通过多次迭代不断地对i-vector特征进行高斯化规整使得i-vector分布不断趋向于高斯分布,在PLDA区分模型中有不错的表现。线性概率判别分析模型假设本征音和本征信道服从高斯分布,但由于i-vector特征分布存在很多非高斯行为,因此在基于长度归一化会的信道补偿时模型的高斯假设会破坏说话人特征的类内分布情况,降低类内特征分布与说话人的相关性。
发明内容
本发明的目的是为了解决现有线性概率判别分析模型的高斯假设使得长度归一化会破坏说话人的特征分布从而影响识别结果的问题,从而提出一种基于概率球面判别分析信道补偿的说话人识别方法。该方法通过引入VonMises-Fisher分布代替高斯分布假设,以避免信道补偿对说话人特征类内分布的影响。
一种基于概率球面判别分析信道补偿的说话人识别方法具体过程为:
步骤1、获取说话人的音频数据构建数据集,并对说话人进行编号同时确定说话人和音频数据的对应关系;
步骤2、对音频数据进行预处理,获得说话人的身份矢量i-vector特征;
步骤3、用双曲正弦函数反双曲正弦函数sinh-arcsinh分布将说话人的身份矢量i-vector特征分布变换为冯米塞斯Von Mises-Fisher分布;
步骤4、训练信道补偿概率球面判别分析模型CC-PSDA,得到训练好的信道补偿概率球面判别分析模型CC-PSDA;
步骤5、将待测音频数据输入训练好的信道补偿概率球面判别分析模型CC-PSDA,判断是否为同一个人的音频数据。
本发明的有益效果为:
信道补偿概率球面判别分析模型(Channel Compensation ProbabilisticSpherical Discriminant Analysis,CC-PSDA)通过引入Von Mises-Fisher(VMF)分布代替高斯分布来保证进行特征归一化信道补偿时说话人特征分布不受模型影响,并且将特征定义到特定维度的超球面上来最大化特征类间距离。同时为了使i-vector能更好的拟合球面概率判别分析模型,该模型利用非线性转换对特征的分布进行变换,使其更符合VonMises-Fisher分布。经过变换的特征分布与模型先验假设分布相似,使模型能更好的对特征进行分类,从而可以获得更好的性能。实验表明,该算法的区分性能较PLDA算法有了较好的提升。
线性概率判别分析(PLDA)是当前主流的说话人识别分类模型,但该模型的高斯分布假设会使得在进行基于长度归一化的信道补偿时在径向上破坏说话人的特征分布,本发明信道补偿概率球面判别分析模型(CC-PSDA)通过引入Von Mises-Fisher分布先验假设并且将说话人特征定义到特定维度的超球面上避免了这一情况,本发明方法相较于传统主流方法提高了识别准确率,解决了线性概率判别分析模型中高斯性假设对说话人特征破坏的问题。
附图说明
图1为本发明方法流程图;
图2为模型计算流程图;
图3a为Voxceleb1数据集下本发明方法对100维度的说话人特征变换情况图;
图3b为Voxceleb1数据集下本发明方法对200维度的说话人特征变换情况图;
图3c为Voxceleb1数据集下本发明方法对400维度的说话人特征变换情况图。
具体实施方式
具体实施方式一:本实施方式一种基于球面概率判别分析信道补偿的说话人识别方法具体过程为:
本发明总共两个部分:
球面概率判别分析模型(PSDA);
在PSDA基础上对特征分布进行仿射变化;
两个步骤统称为信道补偿球面概率判别分析模型(CC-PSDA)
步骤1、获取说话人的音频数据构建数据集,并对说话人进行编号同时确定说话人和音频数据的对应关系;
步骤2、对音频数据进行预处理,获得说话人的身份矢量i-vector特征;
步骤3、用双曲正弦函数反双曲正弦函数sinh-arcsinh分布将说话人的身份矢量i-vector特征分布变换为冯米塞斯Von Mises-Fisher分布;
步骤4、训练信道补偿概率球面判别分析模型CC-PSDA,得到训练好的信道补偿概率球面判别分析模型CC-PSDA;
步骤5、将待测音频数据输入训练好的信道补偿概率球面判别分析模型CC-PSDA,判断是否为同一个人的音频数据。
具体实施方式二:本实施方式与具体实施方式一不同的是,所述步骤2中对音频数据进行预处理,获得说话人的身份矢量i-vector特征;具体过程为:
步骤21、对音频数据(格式为.wav)进行分帧;
步骤22、对步骤21分帧后的每帧音频计算梅尔频率倒谱系数(MFCC);
步骤23、基于步骤22计算的梅尔频率倒谱系数(MFCC),提取说话人的身份矢量i-vector特征。
其它步骤及参数与具体实施方式一相同。
具体实施方式三:本实施方式与具体实施方式一或二不同的是,所述步骤3中用双曲正弦函数反双曲正弦函数sinh-arcsinh分布将说话人的身份矢量i-vector特征分布变换为冯米塞斯Von Mises-Fisher分布;具体过程为:
利用双曲正弦函数sinh-反双曲正弦函数arcsinh(sinh-arcsinh)分布对说话人的身份矢量(i-vector)进行特征变换,双曲正弦函数sinh-反双曲正弦函数arcsinh(sinh-arcsinh)分布中δ、ε分别是用来控制分布的重尾以及变量的偏度(两个参数可以取任意值来拟合不同的分布,取最优的δ、ε的值使双曲正弦函数sinh-反双曲正弦函数arcsinh分布拟合Von Mises-Fisher分布);因此,可以通过实验改变两个参数来实现对预期分布的仿射变换;
通过改变双曲正弦函数sinh-反双曲正弦函数arcsin h(sin h-arcsin h)相应的参数将步骤2获得的说话人的身份矢量i-vector特征分布变换为VonMises-Fisher分布,从而在分类模型中发挥更好的性能;
步骤31、sin h-arcsin h的表达式为:
F=g(x,δ,ε)≡sinh{ε+δsinh-1(x)}
其中:sin h-arcsin h为双曲正弦函数sinh-反双曲正弦函数arcsinh;
sin h-arcsin h的概率密度函数为:
式中,δ代表重尾系数,ε代表偏度系数,S代表特征空间,g(x,δ,ε)是双曲正弦函数反双曲正弦函数sin h-arcsin h的表达式,x代表自变量,sinh-1(x)代表反双曲正弦函数;
步骤32、通过最大似然估计sin h-arcsin h中参数δ、ε更新sin h-arcsin h,使用更新后的sin h-arcsin h将说话人的身份矢量i-vector特征分布变换为冯米塞斯VonMises-Fisher分布(变换为冯米塞斯VonMises-Fisher分布就知道说话人的身份矢量i-vector特征分布了)。
其它步骤及参数与具体实施方式一或二相同。
具体实施方式四:本实施方式与具体实施方式一至三之一不同的是,所述步骤32中通过最大似然估计sin h-arcsin h中参数δ、ε,使用参数δ、ε更新sin h-arcsin h,使用更新后的sin h-arcsin h将说话人的身份矢量i-vector特征分布变换为冯米塞斯VonMises-Fisher分布(变换为冯米塞斯VonMises-Fisher分布就知道说话人的身份矢量i-vector特征分布了);具体过程为:
步骤321、通过最大似然估计求解参数时用对数概率密度函数G(x)=logl(x)
作为目标函数;
步骤322、计算待估计的参数的梯度,具体过程为:
先根据目标函数构建雅可比行列式的对数行列式:
式中,Φ(x,δ,ε)代表F的雅可比行列式的对数行列式,cosh()代表sin h-arcsinh的余弦变换;
Φ(x,δ,ε)中每个参数x、δ、ε的梯度通过欧拉法给出,表达式为:
DδF=cosh(δsinh-1(x)+ε)sinh-1(x)
DεF=cosh(δsinh-1(x)+ε)
式中,δ代表重尾系数,ε代表偏度系数,DxF代表参数x的梯度,DδF代表参数δ的梯度,DεF代表参数ε的梯度;
步骤323、将DxF、DδF、DεF及目标函数G(x)传递给L-BFGS优化器,从而获得参数δ、ε的对数似然求最大值,不断重复L-BFGS直至参数的对数似然不再改变,L-BFGS优化器输出参数δ、ε,完成参数估计;
使用输出参数δ、ε更新sin h-arcsin h,使用更新后的sin h-arcsin h将说话人的身份矢量i-vector特征分布变换为冯米塞斯Von Mises-Fisher分布(变换为冯米塞斯Von Mises-Fisher分布就知道说话人的身份矢量i-vector特征分布了)。
其它步骤及参数与具体实施方式一至三之一相同。
具体实施方式五:本实施方式与具体实施方式一至四之一不同的是,所述步骤4中训练信道补偿概率球面判别分析模型CC-PSDA,得到训练好的信道补偿概率球面判别分析模型CC-PSDA;具体过程为:
步骤41、冯米塞斯Von Mises-Fisher分布下的说话人的身份矢量i-vector特征分布服从:
其中,μ表示冯米塞斯VonMises-Fisher分布下的说话人特征向量均值方向,V(x|μ,κ)表示冯米塞斯先验;κ代表分布集中度,Kd代表空间维度分布常量只与维度相关,μ′代表μ的一阶导数,通过贝塞尔函数描述了集中度与特征空间维度的关系:
步骤42、对于每个说话人设置一个身份隐变量z(z∈Sd-1),说话人的身份隐变量z具有冯米塞斯先验V(z|μ,b),μ表示特征变换后说话人特征向量均值方向,b表示说话人类内集中度(b≥0),Sd-1代表特征空间;z|μ,b表示已知μ,b求说话人的身份隐变量z;μ,b可以通过训练数据学习得到;
步骤43、来自相同说话人的特征分布是独立的,来自不同说话人的特征是条件独立的,给定说话人的身份隐变量z,代表说话人的语音数据的特征集合,对每个说话人i的语音数据的特征求均值获得说话人的语音数据的特征均值,说话人数量为S′;
那么说话人的身份隐变量z的似然函数:
其中w表示说话人类间集中度(w>0);X代表说话人的语音数据的特征集合,xi代表第i个说话人的语音数据的特征,S′代表训练数据中说话人总数,P(X|z)代表说话人的身份隐变量z的似然函数,V(xi|z,w)代表(xi|z,w)服从冯米塞斯先验,∝代表正相关,exp[]代表以e为底指数函数,z′代表对说话人的身份隐变量z求一阶导数,代表第i个说话人的语音数据的特征均值;
其中:集中度b,ω的作用类似于高斯PLDA中的类间、类内方差。但二者不同的是,在高斯PLDA中,后验精度只与观测数据的数量有关,而CC-PSDA中如果数据大都集中在同一象限内,数据越多那么集中度增长越多,相反,若数据分布大于90°,则部分数据会抵消,这样集中度就会变小。
步骤44、将所有说话人的语音条数N(N=Σini)作为训练数据输入信道补偿概率球面判别分析模型CC-PSDA(步骤41、步骤42、步骤43是信道补偿概率球面判别分析模型CC-PSDA,是个概率模型);用EM算法来更新参数μ,b,ω,模型参数收敛后得到训练好的信道补偿概率球面判别分析模型CC-PSDA。
其它步骤及参数与具体实施方式一至四之一相同。
具体实施方式六:本实施方式与具体实施方式一至五之一不同的是,所述步骤44中将所有说话人的语音条数N(N=Σini)作为训练数据输入信道补偿概率球面判别分析模型CC-PSDA;用EM算法来更新参数μ,b,ω,模型参数收敛后得到训练好的信道补偿概率球面判别分析模型CC-PSDA;
具体过程为:
E步骤:
式中,const代表常量,w代表说话人特征类间集中度,b代表说话人特征类内集中度,μ代表说话人特征均值,Q(w,b,μ)代表EM算法中Q函数,P(xi|z,w)代表说话人的身份隐变量z的似然函数,P(z|μ,b)代表说话人的身份隐变量z的后验概率,代表P(z|xi)的后验期望,代表集中度与特征空间维度的关系,代表集中度与特征空间维度的关系,ni代表第i个说话人的语音条数,代表第i个说话人所有语音数据的特征均值,代表的一阶导数,μ′代表μ的一阶导数,<z>i代表第i条语音数据的特征的后验期望,S′代表训练数据中说话人总数;
M步骤:最大化Q函数,更新参数μ,b,ω:
其它步骤及参数与具体实施方式一至五之一相同。
判别打分;具体过程为:
信道补偿概率球面判别分析模型CC-PSDA的打分公式是似然比的形式;
具体过程为:
基于步骤5得到的训练完成的信道补偿概率球面判别分析模型CC-PSDA模型(参数集为{μ,b,ω}),假设E={e1,e2,…,em}表示某一说话人的注册集、T={t1,t2,…,tn}表示某一说话人的测试集,打分似然比公式可以表示为:
其中H1代表语音段来自同一说话人,H2代表语音段来自不同说话人,P(E,T|H1)代表注册集和测试集数据都来自同一说话人的概率,P(E,T|H2)代表注册集和测试集数据来自不同说话人的概率,P(E|H1)代表结果来自同一说话人情况下注册语音特征的后验概率,P(T|H1)代表结果来自同一说话人情况下测试语音特征的后验概率。
本发明还可有其它多种实施例,在不背离本发明精神及其实质的情况下,本领域技术人员当可根据本发明作出各种相应的改变和变形,但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。
Claims (6)
1.一种基于球面概率判别分析信道补偿的说话人识别方法,其特征在于:所述方法具体过程为:
步骤1、获取说话人的音频数据构建数据集,并对说话人进行编号同时确定说话人和音频数据的对应关系;
步骤2、对音频数据进行预处理,获得说话人的身份矢量i-vector特征;
步骤3、用双曲正弦函数反双曲正弦函数sin h-arcsin h分布将说话人的身份矢量i-vector特征分布变换为冯米塞斯Von Mises-Fisher分布;
步骤4、训练信道补偿概率球面判别分析模型CC-PSDA,得到训练好的信道补偿概率球面判别分析模型CC-PSDA;
步骤5、将待测音频数据输入训练好的信道补偿概率球面判别分析模型CC-PSDA,判断是否为同一个人的音频数据。
2.根据权利要求1所述的一种基于球面概率判别分析信道补偿的说话人识别方法,其特征在于:所述步骤2中对音频数据进行预处理,获得说话人的身份矢量i-vector特征;具体过程为:
步骤21、对音频数据进行分帧;
步骤22、对步骤21分帧后的每帧音频计算梅尔频率倒谱系数;
步骤23、基于步骤22计算的梅尔频率倒谱系数,提取说话人的身份矢量i-vector特征。
3.根据权利要求2所述的一种基于球面概率判别分析信道补偿的说话人识别方法,其特征在于:所述步骤3中用双曲正弦函数反双曲正弦函数sin h-arcsin h分布将说话人的身份矢量i-vector特征分布变换为冯米塞斯Von Mises-Fisher分布;具体过程为:
步骤31、sin h-arcsin h的表达式为:
F=g(x,δ,ε)≡sinh{ε+δsinh-1(x)}
其中:sin h-arcsin h为双曲正弦函数sinh-反双曲正弦函数arcsinh;
sin h-arcsin h的概率密度函数为:
式中,δ代表重尾系数,ε代表偏度系数,S代表特征空间,g(x,δ,ε)是双曲正弦函数反双曲正弦函数sin h-arcsin h的表达式,x代表自变量,sin h-1(x)代表反双曲正弦函数;
步骤32、通过最大似然估计sin h-arcsin h中参数δ、ε更新sin h-arcsin h,使用更新后的sin h-arcsin h将说话人的身份矢量i-vector特征分布变换为冯米塞斯Von Mises-Fisher分布。
4.根据权利要求3所述的一种基于球面概率判别分析信道补偿的说话人识别方法,其特征在于:所述步骤32中通过最大似然估计sin h-arcsin h中参数δ、ε更新sin h-arcsinh,使用更新后的sin h-arcsin h将说话人的身份矢量i-vector特征分布变换为冯米塞斯Von Mises-Fisher分布;具体过程为:
步骤321、通过最大似然估计求解参数时用对数概率密度函数G(x)=logl(x)
作为目标函数;
步骤322、计算待估计的参数的梯度,具体过程为:
先根据目标函数构建雅可比行列式的对数行列式:
式中,Φ(x,δ,ε)代表F的雅可比行列式的对数行列式,cosh()代表sin h-arcsin h的余弦变换;
Φ(x,δ,ε)中每个参数x、δ、ε的梯度通过欧拉法给出,表达式为:
DδF=cosh(δsinh-1(x)+ε)sinh-1(x)
DεF=cosh(δsinh-1(x)+ε)
式中,δ代表重尾系数,ε代表偏度系数,DxF代表参数x的梯度,DδF代表参数δ的梯度,DεF代表参数ε的梯度;
步骤323、将DxF、DδF、DεF及目标函数G(x)传递给L-BFGS优化器,L-BFGS优化器输出参数δ、ε,完成参数估计;
使用输出参数δ、ε更新sin h-arcsin h,使用更新后的sin h-arcsin h将说话人的身份矢量i-vector特征分布变换为冯米塞斯Von Mises-Fisher分布。
5.根据权利要求4所述的一种基于球面概率判别分析信道补偿的说话人识别方法,其特征在于:所述步骤4中训练信道补偿概率球面判别分析模型CC-PSDA,得到训练好的信道补偿概率球面判别分析模型CC-PSDA;具体过程为:
步骤41、冯米塞斯Von Mises-Fisher分布下的说话人的身份矢量i-vector特征分布服从:
其中,V(x|μ,κ)表示冯米塞斯先验;μ表示冯米塞斯Von Mises-Fisher分布下的说话人特征向量均值方向,κ代表分布集中度,Kd代表空间维度分布常量,μ′代表μ的一阶导数,通过贝塞尔函数描述了集中度与特征空间维度的关系:
步骤42、对于每个说话人设置一个身份隐变量z,说话人的身份隐变量z具有冯米塞斯先验V(z|μ,b),μ表示特征变换后说话人特征向量均值方向,b表示说话人类内集中度;z|μ,b表示已知μ,b求说话人的身份隐变量z;
那么说话人的身份隐变量z的似然函数:
其中w表示说话人类间集中度;X代表说话人的语音数据的特征集合,xi代表第i个说话人的语音数据的特征,S′代表训练数据中说话人总数,P(X|z)代表说话人的身份隐变量z的似然函数,V(xi|z,w)代表(xi|z,w)服从冯米塞斯先验,∝代表正相关,exp[]代表以e为底指数函数,z′代表对说话人的身份隐变量z求一阶导数,代表第i个说话人的语音数据的特征均值;
步骤44、将所有说话人的语音条数N作为训练数据输入信道补偿概率球面判别分析模型CC-PSDA;用EM算法来更新参数μ,b,ω,模型参数收敛后得到训练好的信道补偿概率球面判别分析模型CC-PSDA。
6.根据权利要求5所述的一种基于球面概率判别分析信道补偿的说话人识别方法,其特征在于:所述步骤44中将所有说话人的语音条数N作为训练数据输入信道补偿概率球面判别分析模型CC-PSDA;用EM算法来更新参数μ,b,ω,模型参数收敛后得到训练好的信道补偿概率球面判别分析模型CC-PSDA;
具体过程为:
E步骤:
式中,const代表常量,w代表说话人特征类间集中度,b代表说话人特征类内集中度,μ代表说话人特征均值,Q(w,b,μ)代表EM算法中Q函数,P(xi|z,w)代表说话人的身份隐变量z的似然函数,P(z|μ,b)代表说话人的身份隐变量z的后验概率,代表P(z|xi)的后验期望,代表集中度与特征空间维度的关系,代表集中度与特征空间维度的关系,ni代表第i个说话人的语音条数,代表第i个说话人所有语音数据的特征均值,代表的一阶导数,μ′代表μ的一阶导数,zi代表第i条语音数据的特征的后验期望,S′代表训练数据中说话人总数;
M步骤:最大化Q函数,更新参数μ,b,ω:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310089702.0A CN116129911B (zh) | 2023-02-09 | 2023-02-09 | 一种基于概率球面判别分析信道补偿的说话人识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310089702.0A CN116129911B (zh) | 2023-02-09 | 2023-02-09 | 一种基于概率球面判别分析信道补偿的说话人识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116129911A true CN116129911A (zh) | 2023-05-16 |
CN116129911B CN116129911B (zh) | 2023-11-17 |
Family
ID=86302581
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310089702.0A Active CN116129911B (zh) | 2023-02-09 | 2023-02-09 | 一种基于概率球面判别分析信道补偿的说话人识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116129911B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110148417A (zh) * | 2019-05-24 | 2019-08-20 | 哈尔滨工业大学 | 基于总变化空间与分类器联合优化的说话人身份识别方法 |
CN111724794A (zh) * | 2020-06-17 | 2020-09-29 | 哈尔滨理工大学 | 一种说话人识别方法 |
CN112967726A (zh) * | 2021-02-01 | 2021-06-15 | 上海海事大学 | 基于t分布概率线性判别的深度神经网络模型短语音说话人确认方法 |
-
2023
- 2023-02-09 CN CN202310089702.0A patent/CN116129911B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110148417A (zh) * | 2019-05-24 | 2019-08-20 | 哈尔滨工业大学 | 基于总变化空间与分类器联合优化的说话人身份识别方法 |
CN111724794A (zh) * | 2020-06-17 | 2020-09-29 | 哈尔滨理工大学 | 一种说话人识别方法 |
CN112967726A (zh) * | 2021-02-01 | 2021-06-15 | 上海海事大学 | 基于t分布概率线性判别的深度神经网络模型短语音说话人确认方法 |
Non-Patent Citations (2)
Title |
---|
HAO TANG, ETC.: "Partically Supervised Speaker Clustering", IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE, vol. 34, no. 5, pages 959 - 971 * |
蒲莉娟: ":值域空间超球面上的判别分析", 《信号处理》, vol. 29, no. 8, pages 933 - 941 * |
Also Published As
Publication number | Publication date |
---|---|
CN116129911B (zh) | 2023-11-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Tamura et al. | Audio-visual speech recognition using deep bottleneck features and high-performance lipreading | |
US5684925A (en) | Speech representation by feature-based word prototypes comprising phoneme targets having reliable high similarity | |
Soltane et al. | Face and speech based multi-modal biometric authentication | |
CN105206270B (zh) | 一种组合pca和rbm的孤立数字语音识别分类系统及方法 | |
CN109903774A (zh) | 一种基于角度间隔损失函数的声纹识别方法 | |
CN111161744B (zh) | 同时优化深度表征学习与说话人类别估计的说话人聚类方法 | |
CN111370003B (zh) | 一种基于孪生神经网络的声纹比对方法 | |
KR100307623B1 (ko) | 엠.에이.피 화자 적응 조건에서 파라미터의 분별적 추정 방법 및 장치 및 이를 각각 포함한 음성 인식 방법 및 장치 | |
CN104167208A (zh) | 一种说话人识别方法和装置 | |
CN108520752B (zh) | 一种声纹识别方法和装置 | |
CN110047504B (zh) | 身份矢量x-vector线性变换下的说话人识别方法 | |
CN111462729A (zh) | 基于音素对数似然比和稀疏表征的快速语种识别方法 | |
JP2018194828A (ja) | マルチビューベクトルの処理方法及び装置 | |
CN112863521B (zh) | 一种基于互信息估计的说话人识别方法 | |
EP1005019A2 (en) | Segment-based similarity measurement method for speech recognition | |
Lee et al. | The estimating optimal number of Gaussian mixtures based on incremental k-means for speaker identification | |
CN111028847B (zh) | 一种基于后端模型的声纹识别优化方法和相关装置 | |
CN110148417B (zh) | 基于总变化空间与分类器联合优化的说话人身份识别方法 | |
CN116129911B (zh) | 一种基于概率球面判别分析信道补偿的说话人识别方法 | |
Tang et al. | Generative model-based speaker clustering via mixture of von mises-fisher distributions | |
KR101094763B1 (ko) | 사용자 인증을 위한 특징벡터 추출장치 및 방법 | |
WO2002029785A1 (en) | Method, apparatus, and system for speaker verification based on orthogonal gaussian mixture model (gmm) | |
CN115083433A (zh) | 一种基于dnn的文本无关表征音色聚类方法 | |
CN114358191A (zh) | 一种基于深度自动编码器的基因表达数据聚类方法 | |
Wu et al. | Research on voiceprint recognition based on weighted clustering recognition SVM algorithm |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |