CN116129911A - 一种基于概率球面判别分析信道补偿的说话人识别方法 - Google Patents

一种基于概率球面判别分析信道补偿的说话人识别方法 Download PDF

Info

Publication number
CN116129911A
CN116129911A CN202310089702.0A CN202310089702A CN116129911A CN 116129911 A CN116129911 A CN 116129911A CN 202310089702 A CN202310089702 A CN 202310089702A CN 116129911 A CN116129911 A CN 116129911A
Authority
CN
China
Prior art keywords
speaker
vector
probability
distribution
discriminant analysis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310089702.0A
Other languages
English (en)
Other versions
CN116129911B (zh
Inventor
罗辉
肖庆欣
景维鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northeast Forestry University
Original Assignee
Northeast Forestry University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northeast Forestry University filed Critical Northeast Forestry University
Priority to CN202310089702.0A priority Critical patent/CN116129911B/zh
Publication of CN116129911A publication Critical patent/CN116129911A/zh
Application granted granted Critical
Publication of CN116129911B publication Critical patent/CN116129911B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Stereophonic System (AREA)

Abstract

一种基于概率球面判别分析信道补偿的说话人识别方法,本发明涉及一种概率球面判别分析信道补偿的说话人识别方法。本发明的目的是为了解决现有线性概率判别分析模型的高斯假设使得长度归一化会破坏说话人的特征分布从而影响识别结果的问题。过程为:1、获取说话人的音频数据构建数据集,并对说话人进行编号同时确定说话人和音频数据的对应关系;2、获得说话人的身份矢量i‑vector特征;3、将说话人的身份矢量i‑vector特征分布变换为冯米塞斯VonMises‑Fisher分布;4、得到训练好的CC‑PSDA;5、将待测音频数据输入训练好的CC‑PSDA,判断是否为同一个人的音频数据。本发明用于声纹识别领域。

Description

一种基于概率球面判别分析信道补偿的说话人识别方法
技术领域
本发明涉及声纹识别领域,尤其涉及一种概率球面判别分析信道补偿的说话人识别方法。
背景技术
说话人识别技术也被称为声纹识别技术,是指通过分析处理采集到的语音信号来识别相关说话人的身份,是语音处理领域最重要的技术之一。经过50余年的研究与发展,说话人识别技术得到了很大的发展,研究者们相继提出了联合因子分析、说话人身份矢量(i-vector)和基于深度学习的说话人识别等技术。i-vector识别系统是目前最有效的说话人识别技术之一,该方法可以将语音对应的均值超矢量映射成低维度的i-vector特征,这在很大程度上减少了与说话人无关的信道空间信息,并采用总变化空间来代替JAF的说话人空间和信道空间,使得i-vector在建模过程中不会严格区分说话人信息和信道信息对说话人身份的影响。
当前主流的i-vector框架会使用线性概率判别分析(PLDA)来对提取的i-vector说话人特征进行打分分类,其中鉴于PLDA模型中高斯分布的假设,在将说话人特征输入到PLDA模型时会使用长度归一化算法对语音特征进行预处理来提高系统识别效率,该方法将空间Rd上的说话人特征通过高斯长度归一化到低维空间Sd-1上,通过多次迭代不断地对i-vector特征进行高斯化规整使得i-vector分布不断趋向于高斯分布,在PLDA区分模型中有不错的表现。线性概率判别分析模型假设本征音和本征信道服从高斯分布,但由于i-vector特征分布存在很多非高斯行为,因此在基于长度归一化会的信道补偿时模型的高斯假设会破坏说话人特征的类内分布情况,降低类内特征分布与说话人的相关性。
发明内容
本发明的目的是为了解决现有线性概率判别分析模型的高斯假设使得长度归一化会破坏说话人的特征分布从而影响识别结果的问题,从而提出一种基于概率球面判别分析信道补偿的说话人识别方法。该方法通过引入VonMises-Fisher分布代替高斯分布假设,以避免信道补偿对说话人特征类内分布的影响。
一种基于概率球面判别分析信道补偿的说话人识别方法具体过程为:
步骤1、获取说话人的音频数据构建数据集,并对说话人进行编号同时确定说话人和音频数据的对应关系;
步骤2、对音频数据进行预处理,获得说话人的身份矢量i-vector特征;
步骤3、用双曲正弦函数反双曲正弦函数sinh-arcsinh分布将说话人的身份矢量i-vector特征分布变换为冯米塞斯Von Mises-Fisher分布;
步骤4、训练信道补偿概率球面判别分析模型CC-PSDA,得到训练好的信道补偿概率球面判别分析模型CC-PSDA;
步骤5、将待测音频数据输入训练好的信道补偿概率球面判别分析模型CC-PSDA,判断是否为同一个人的音频数据。
本发明的有益效果为:
信道补偿概率球面判别分析模型(Channel Compensation ProbabilisticSpherical Discriminant Analysis,CC-PSDA)通过引入Von Mises-Fisher(VMF)分布代替高斯分布来保证进行特征归一化信道补偿时说话人特征分布不受模型影响,并且将特征定义到特定维度的超球面上来最大化特征类间距离。同时为了使i-vector能更好的拟合球面概率判别分析模型,该模型利用非线性转换对特征的分布进行变换,使其更符合VonMises-Fisher分布。经过变换的特征分布与模型先验假设分布相似,使模型能更好的对特征进行分类,从而可以获得更好的性能。实验表明,该算法的区分性能较PLDA算法有了较好的提升。
线性概率判别分析(PLDA)是当前主流的说话人识别分类模型,但该模型的高斯分布假设会使得在进行基于长度归一化的信道补偿时在径向上破坏说话人的特征分布,本发明信道补偿概率球面判别分析模型(CC-PSDA)通过引入Von Mises-Fisher分布先验假设并且将说话人特征定义到特定维度的超球面上避免了这一情况,本发明方法相较于传统主流方法提高了识别准确率,解决了线性概率判别分析模型中高斯性假设对说话人特征破坏的问题。
附图说明
图1为本发明方法流程图;
图2为模型计算流程图;
图3a为Voxceleb1数据集下本发明方法对100维度的说话人特征变换情况图;
图3b为Voxceleb1数据集下本发明方法对200维度的说话人特征变换情况图;
图3c为Voxceleb1数据集下本发明方法对400维度的说话人特征变换情况图。
具体实施方式
具体实施方式一:本实施方式一种基于球面概率判别分析信道补偿的说话人识别方法具体过程为:
本发明总共两个部分:
球面概率判别分析模型(PSDA);
在PSDA基础上对特征分布进行仿射变化;
两个步骤统称为信道补偿球面概率判别分析模型(CC-PSDA)
步骤1、获取说话人的音频数据构建数据集,并对说话人进行编号同时确定说话人和音频数据的对应关系;
步骤2、对音频数据进行预处理,获得说话人的身份矢量i-vector特征;
步骤3、用双曲正弦函数反双曲正弦函数sinh-arcsinh分布将说话人的身份矢量i-vector特征分布变换为冯米塞斯Von Mises-Fisher分布;
步骤4、训练信道补偿概率球面判别分析模型CC-PSDA,得到训练好的信道补偿概率球面判别分析模型CC-PSDA;
步骤5、将待测音频数据输入训练好的信道补偿概率球面判别分析模型CC-PSDA,判断是否为同一个人的音频数据。
具体实施方式二:本实施方式与具体实施方式一不同的是,所述步骤2中对音频数据进行预处理,获得说话人的身份矢量i-vector特征;具体过程为:
步骤21、对音频数据(格式为.wav)进行分帧;
步骤22、对步骤21分帧后的每帧音频计算梅尔频率倒谱系数(MFCC);
步骤23、基于步骤22计算的梅尔频率倒谱系数(MFCC),提取说话人的身份矢量i-vector特征。
其它步骤及参数与具体实施方式一相同。
具体实施方式三:本实施方式与具体实施方式一或二不同的是,所述步骤3中用双曲正弦函数反双曲正弦函数sinh-arcsinh分布将说话人的身份矢量i-vector特征分布变换为冯米塞斯Von Mises-Fisher分布;具体过程为:
利用双曲正弦函数sinh-反双曲正弦函数arcsinh(sinh-arcsinh)分布对说话人的身份矢量(i-vector)进行特征变换,双曲正弦函数sinh-反双曲正弦函数arcsinh(sinh-arcsinh)分布中δ、ε分别是用来控制分布的重尾以及变量的偏度(两个参数可以取任意值来拟合不同的分布,取最优的δ、ε的值使双曲正弦函数sinh-反双曲正弦函数arcsinh分布拟合Von Mises-Fisher分布);因此,可以通过实验改变两个参数来实现对预期分布的仿射变换;
通过改变双曲正弦函数sinh-反双曲正弦函数arcsin h(sin h-arcsin h)相应的参数将步骤2获得的说话人的身份矢量i-vector特征分布变换为VonMises-Fisher分布,从而在分类模型中发挥更好的性能;
步骤31、sin h-arcsin h的表达式为:
F=g(x,δ,ε)≡sinh{ε+δsinh-1(x)}
其中:sin h-arcsin h为双曲正弦函数sinh-反双曲正弦函数arcsinh;
sin h-arcsin h的概率密度函数为:
Figure BDA0004069891010000041
式中,δ代表重尾系数,ε代表偏度系数,S代表特征空间,g(x,δ,ε)是双曲正弦函数反双曲正弦函数sin h-arcsin h的表达式,x代表自变量,sinh-1(x)代表反双曲正弦函数;
步骤32、通过最大似然估计sin h-arcsin h中参数δ、ε更新sin h-arcsin h,使用更新后的sin h-arcsin h将说话人的身份矢量i-vector特征分布变换为冯米塞斯VonMises-Fisher分布(变换为冯米塞斯VonMises-Fisher分布就知道说话人的身份矢量i-vector特征分布了)。
其它步骤及参数与具体实施方式一或二相同。
具体实施方式四:本实施方式与具体实施方式一至三之一不同的是,所述步骤32中通过最大似然估计sin h-arcsin h中参数δ、ε,使用参数δ、ε更新sin h-arcsin h,使用更新后的sin h-arcsin h将说话人的身份矢量i-vector特征分布变换为冯米塞斯VonMises-Fisher分布(变换为冯米塞斯VonMises-Fisher分布就知道说话人的身份矢量i-vector特征分布了);具体过程为:
步骤321、通过最大似然估计求解参数时用对数概率密度函数G(x)=logl(x)
作为目标函数;
步骤322、计算待估计的参数的梯度,具体过程为:
先根据目标函数构建雅可比行列式的对数行列式:
Figure BDA0004069891010000042
式中,Φ(x,δ,ε)代表F的雅可比行列式的对数行列式,cosh()代表sin h-arcsinh的余弦变换;
Φ(x,δ,ε)中每个参数x、δ、ε的梯度通过欧拉法给出,表达式为:
Figure BDA0004069891010000051
DδF=cosh(δsinh-1(x)+ε)sinh-1(x)
DεF=cosh(δsinh-1(x)+ε)
式中,δ代表重尾系数,ε代表偏度系数,DxF代表参数x的梯度,DδF代表参数δ的梯度,DεF代表参数ε的梯度;
步骤323、将DxF、DδF、DεF及目标函数G(x)传递给L-BFGS优化器,从而获得参数δ、ε的对数似然求最大值,不断重复L-BFGS直至参数的对数似然不再改变,L-BFGS优化器输出参数δ、ε,完成参数估计;
使用输出参数δ、ε更新sin h-arcsin h,使用更新后的sin h-arcsin h将说话人的身份矢量i-vector特征分布变换为冯米塞斯Von Mises-Fisher分布(变换为冯米塞斯Von Mises-Fisher分布就知道说话人的身份矢量i-vector特征分布了)。
其它步骤及参数与具体实施方式一至三之一相同。
具体实施方式五:本实施方式与具体实施方式一至四之一不同的是,所述步骤4中训练信道补偿概率球面判别分析模型CC-PSDA,得到训练好的信道补偿概率球面判别分析模型CC-PSDA;具体过程为:
步骤41、冯米塞斯Von Mises-Fisher分布下的说话人的身份矢量i-vector特征分布服从:
Figure BDA0004069891010000052
其中,μ表示冯米塞斯VonMises-Fisher分布下的说话人特征向量均值方向,V(x|μ,κ)表示冯米塞斯先验;κ代表分布集中度,Kd代表空间维度分布常量只与维度相关,μ′代表μ的一阶导数,
Figure BDA0004069891010000053
通过贝塞尔函数描述了集中度与特征空间维度的关系:
Figure BDA0004069891010000054
其中,
Figure BDA0004069891010000061
代表第一类贝塞尔函数;Γ表示卡方分布;i取整数;
Figure BDA0004069891010000062
与特征空间维度相关:
Figure BDA0004069891010000063
d代表特征空间维度;
其中
Figure BDA0004069891010000064
满足:
Figure BDA0004069891010000065
步骤42、对于每个说话人设置一个身份隐变量z(z∈Sd-1),说话人的身份隐变量z具有冯米塞斯先验V(z|μ,b),μ表示特征变换后说话人特征向量均值方向,b表示说话人类内集中度(b≥0),Sd-1代表特征空间;z|μ,b表示已知μ,b求说话人的身份隐变量z;μ,b可以通过训练数据学习得到;
步骤43、来自相同说话人的特征分布是独立的,来自不同说话人的特征是条件独立的,给定说话人的身份隐变量z,
Figure BDA0004069891010000066
代表说话人的语音数据的特征集合,对每个说话人i的语音数据的特征求均值获得说话人的语音数据的特征均值
Figure BDA0004069891010000067
,说话人数量为S′;
那么说话人的身份隐变量z的似然函数:
Figure BDA0004069891010000068
其中w表示说话人类间集中度(w>0);X代表说话人的语音数据的特征集合,xi代表第i个说话人的语音数据的特征,S′代表训练数据中说话人总数,P(X|z)代表说话人的身份隐变量z的似然函数,V(xi|z,w)代表(xi|z,w)服从冯米塞斯先验,∝代表正相关,exp[]代表以e为底指数函数,z′代表对说话人的身份隐变量z求一阶导数,
Figure BDA0004069891010000069
代表第i个说话人的语音数据的特征均值;
给定说话人的语音数据的特征集合
Figure BDA00040698910100000610
身份隐变量z的后验概率为:
Figure BDA00040698910100000611
式中,
Figure BDA00040698910100000612
代表后验集中度,
Figure BDA00040698910100000613
P(z|X)代表说话人的身份隐变量z的后验概率,(bμ+wΣixi)′代表对(bμ+wΣixi)求一阶导数,
Figure BDA0004069891010000071
代表求
Figure BDA0004069891010000072
的范数,
Figure BDA0004069891010000073
代表
Figure BDA0004069891010000074
服从冯米塞斯先验;
其中:
Figure BDA0004069891010000075
集中度b,ω的作用类似于高斯PLDA中的类间、类内方差。但二者不同的是,在高斯PLDA中,后验精度只与观测数据的数量有关,而CC-PSDA中如果数据大都集中在同一象限内,数据越多那么集中度增长越多,相反,若数据分布大于90°,则部分数据会抵消,这样集中度就会变小。
步骤44、将所有说话人的语音条数N(N=Σini)作为训练数据输入信道补偿概率球面判别分析模型CC-PSDA(步骤41、步骤42、步骤43是信道补偿概率球面判别分析模型CC-PSDA,是个概率模型);用EM算法来更新参数μ,b,ω,模型参数收敛后得到训练好的信道补偿概率球面判别分析模型CC-PSDA。
其它步骤及参数与具体实施方式一至四之一相同。
具体实施方式六:本实施方式与具体实施方式一至五之一不同的是,所述步骤44中将所有说话人的语音条数N(N=Σini)作为训练数据输入信道补偿概率球面判别分析模型CC-PSDA;用EM算法来更新参数μ,b,ω,模型参数收敛后得到训练好的信道补偿概率球面判别分析模型CC-PSDA;
具体过程为:
E步骤:
Figure BDA0004069891010000076
式中,const代表常量,w代表说话人特征类间集中度,b代表说话人特征类内集中度,μ代表说话人特征均值,Q(w,b,μ)代表EM算法中Q函数,P(xi|z,w)代表说话人的身份隐变量z的似然函数,P(z|μ,b)代表说话人的身份隐变量z的后验概率,
Figure BDA0004069891010000077
代表P(z|xi)的后验期望,
Figure BDA0004069891010000081
代表集中度与特征空间维度的关系,
Figure BDA0004069891010000082
代表集中度与特征空间维度的关系,ni代表第i个说话人的语音条数,
Figure BDA0004069891010000083
代表第i个说话人所有语音数据的特征均值,
Figure BDA0004069891010000084
代表
Figure BDA0004069891010000085
的一阶导数,μ′代表μ的一阶导数,<z>i代表第i条语音数据的特征的后验期望,S′代表训练数据中说话人总数;
M步骤:最大化Q函数,更新参数μ,b,ω:
Figure BDA0004069891010000086
其中
Figure BDA0004069891010000087
代表中间变量,
Figure BDA0004069891010000088
式中,S′代表训练数据中说话人总数,N代表所有说话人的语音条数、<z>代表说话人的后验期望,
Figure BDA0004069891010000089
代表中间变量,
Figure BDA00040698910100000810
代表中间变量,
Figure BDA00040698910100000811
Figure BDA00040698910100000812
代表第一类贝塞尔函数,
Figure BDA00040698910100000813
代表第一类贝塞尔函数,
Figure BDA00040698910100000814
代表
Figure BDA00040698910100000815
的范数。
其它步骤及参数与具体实施方式一至五之一相同。
判别打分;具体过程为:
信道补偿概率球面判别分析模型CC-PSDA的打分公式是似然比的形式;
具体过程为:
基于步骤5得到的训练完成的信道补偿概率球面判别分析模型CC-PSDA模型(参数集为{μ,b,ω}),假设E={e1,e2,…,em}表示某一说话人的注册集、T={t1,t2,…,tn}表示某一说话人的测试集,打分似然比公式可以表示为:
Figure BDA00040698910100000816
其中H1代表语音段来自同一说话人,H2代表语音段来自不同说话人,P(E,T|H1)代表注册集和测试集数据都来自同一说话人的概率,P(E,T|H2)代表注册集和测试集数据来自不同说话人的概率,P(E|H1)代表结果来自同一说话人情况下注册语音特征的后验概率,P(T|H1)代表结果来自同一说话人情况下测试语音特征的后验概率。
本发明还可有其它多种实施例,在不背离本发明精神及其实质的情况下,本领域技术人员当可根据本发明作出各种相应的改变和变形,但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

Claims (6)

1.一种基于球面概率判别分析信道补偿的说话人识别方法,其特征在于:所述方法具体过程为:
步骤1、获取说话人的音频数据构建数据集,并对说话人进行编号同时确定说话人和音频数据的对应关系;
步骤2、对音频数据进行预处理,获得说话人的身份矢量i-vector特征;
步骤3、用双曲正弦函数反双曲正弦函数sin h-arcsin h分布将说话人的身份矢量i-vector特征分布变换为冯米塞斯Von Mises-Fisher分布;
步骤4、训练信道补偿概率球面判别分析模型CC-PSDA,得到训练好的信道补偿概率球面判别分析模型CC-PSDA;
步骤5、将待测音频数据输入训练好的信道补偿概率球面判别分析模型CC-PSDA,判断是否为同一个人的音频数据。
2.根据权利要求1所述的一种基于球面概率判别分析信道补偿的说话人识别方法,其特征在于:所述步骤2中对音频数据进行预处理,获得说话人的身份矢量i-vector特征;具体过程为:
步骤21、对音频数据进行分帧;
步骤22、对步骤21分帧后的每帧音频计算梅尔频率倒谱系数;
步骤23、基于步骤22计算的梅尔频率倒谱系数,提取说话人的身份矢量i-vector特征。
3.根据权利要求2所述的一种基于球面概率判别分析信道补偿的说话人识别方法,其特征在于:所述步骤3中用双曲正弦函数反双曲正弦函数sin h-arcsin h分布将说话人的身份矢量i-vector特征分布变换为冯米塞斯Von Mises-Fisher分布;具体过程为:
步骤31、sin h-arcsin h的表达式为:
F=g(x,δ,ε)≡sinh{ε+δsinh-1(x)}
其中:sin h-arcsin h为双曲正弦函数sinh-反双曲正弦函数arcsinh;
sin h-arcsin h的概率密度函数为:
Figure FDA0004069891000000011
式中,δ代表重尾系数,ε代表偏度系数,S代表特征空间,g(x,δ,ε)是双曲正弦函数反双曲正弦函数sin h-arcsin h的表达式,x代表自变量,sin h-1(x)代表反双曲正弦函数;
步骤32、通过最大似然估计sin h-arcsin h中参数δ、ε更新sin h-arcsin h,使用更新后的sin h-arcsin h将说话人的身份矢量i-vector特征分布变换为冯米塞斯Von Mises-Fisher分布。
4.根据权利要求3所述的一种基于球面概率判别分析信道补偿的说话人识别方法,其特征在于:所述步骤32中通过最大似然估计sin h-arcsin h中参数δ、ε更新sin h-arcsinh,使用更新后的sin h-arcsin h将说话人的身份矢量i-vector特征分布变换为冯米塞斯Von Mises-Fisher分布;具体过程为:
步骤321、通过最大似然估计求解参数时用对数概率密度函数G(x)=logl(x)
作为目标函数;
步骤322、计算待估计的参数的梯度,具体过程为:
先根据目标函数构建雅可比行列式的对数行列式:
Figure FDA0004069891000000021
式中,Φ(x,δ,ε)代表F的雅可比行列式的对数行列式,cosh()代表sin h-arcsin h的余弦变换;
Φ(x,δ,ε)中每个参数x、δ、ε的梯度通过欧拉法给出,表达式为:
Figure FDA0004069891000000022
DδF=cosh(δsinh-1(x)+ε)sinh-1(x)
DεF=cosh(δsinh-1(x)+ε)
式中,δ代表重尾系数,ε代表偏度系数,DxF代表参数x的梯度,DδF代表参数δ的梯度,DεF代表参数ε的梯度;
步骤323、将DxF、DδF、DεF及目标函数G(x)传递给L-BFGS优化器,L-BFGS优化器输出参数δ、ε,完成参数估计;
使用输出参数δ、ε更新sin h-arcsin h,使用更新后的sin h-arcsin h将说话人的身份矢量i-vector特征分布变换为冯米塞斯Von Mises-Fisher分布。
5.根据权利要求4所述的一种基于球面概率判别分析信道补偿的说话人识别方法,其特征在于:所述步骤4中训练信道补偿概率球面判别分析模型CC-PSDA,得到训练好的信道补偿概率球面判别分析模型CC-PSDA;具体过程为:
步骤41、冯米塞斯Von Mises-Fisher分布下的说话人的身份矢量i-vector特征分布服从:
Figure FDA0004069891000000039
其中,V(x|μ,κ)表示冯米塞斯先验;μ表示冯米塞斯Von Mises-Fisher分布下的说话人特征向量均值方向,κ代表分布集中度,Kd代表空间维度分布常量,μ′代表μ的一阶导数,
Figure FDA00040698910000000310
通过贝塞尔函数描述了集中度与特征空间维度的关系:
Figure FDA0004069891000000031
其中,
Figure FDA0004069891000000032
代表第一类贝塞尔函数;Γ表示卡方分布;i取整数;
Figure FDA0004069891000000033
与特征空间维度相关:
Figure FDA0004069891000000034
d代表特征空间维度;
其中
Figure FDA0004069891000000035
满足:
Figure FDA0004069891000000036
步骤42、对于每个说话人设置一个身份隐变量z,说话人的身份隐变量z具有冯米塞斯先验V(z|μ,b),μ表示特征变换后说话人特征向量均值方向,b表示说话人类内集中度;z|μ,b表示已知μ,b求说话人的身份隐变量z;
步骤43、给定说话人的身份隐变量z,
Figure FDA0004069891000000037
代表说话人的语音数据的特征集合,对每个说话人i的语音数据的特征求均值获得说话人的语音数据的特征均值
Figure FDA00040698910000000311
说话人数量为S′;
那么说话人的身份隐变量z的似然函数:
Figure FDA0004069891000000038
其中w表示说话人类间集中度;X代表说话人的语音数据的特征集合,xi代表第i个说话人的语音数据的特征,S′代表训练数据中说话人总数,P(X|z)代表说话人的身份隐变量z的似然函数,V(xi|z,w)代表(xi|z,w)服从冯米塞斯先验,∝代表正相关,exp[]代表以e为底指数函数,z′代表对说话人的身份隐变量z求一阶导数,
Figure FDA00040698910000000312
代表第i个说话人的语音数据的特征均值;
给定说话人的语音数据的特征集合
Figure FDA0004069891000000041
身份隐变量z的后验概率为:
Figure FDA0004069891000000042
式中,
Figure FDA0004069891000000043
代表后验集中度,
Figure FDA0004069891000000044
P(z|X)代表说话人的身份隐变量z的后验概率,(bμ+w∑ixi)′代表对(bμ+w∑ixi)求一阶导数,
Figure FDA0004069891000000045
代表求
Figure FDA0004069891000000046
的范数,
Figure FDA0004069891000000047
代表
Figure FDA0004069891000000048
服从冯米塞斯先验;
步骤44、将所有说话人的语音条数N作为训练数据输入信道补偿概率球面判别分析模型CC-PSDA;用EM算法来更新参数μ,b,ω,模型参数收敛后得到训练好的信道补偿概率球面判别分析模型CC-PSDA。
6.根据权利要求5所述的一种基于球面概率判别分析信道补偿的说话人识别方法,其特征在于:所述步骤44中将所有说话人的语音条数N作为训练数据输入信道补偿概率球面判别分析模型CC-PSDA;用EM算法来更新参数μ,b,ω,模型参数收敛后得到训练好的信道补偿概率球面判别分析模型CC-PSDA;
具体过程为:
E步骤:
Figure FDA0004069891000000049
式中,const代表常量,w代表说话人特征类间集中度,b代表说话人特征类内集中度,μ代表说话人特征均值,Q(w,b,μ)代表EM算法中Q函数,P(xi|z,w)代表说话人的身份隐变量z的似然函数,P(z|μ,b)代表说话人的身份隐变量z的后验概率,
Figure FDA00040698910000000410
代表P(z|xi)的后验期望,
Figure FDA00040698910000000411
代表集中度与特征空间维度的关系,
Figure FDA00040698910000000412
代表集中度与特征空间维度的关系,ni代表第i个说话人的语音条数,
Figure FDA0004069891000000051
代表第i个说话人所有语音数据的特征均值,
Figure FDA0004069891000000052
代表
Figure FDA0004069891000000053
的一阶导数,μ′代表μ的一阶导数,zi代表第i条语音数据的特征的后验期望,S′代表训练数据中说话人总数;
M步骤:最大化Q函数,更新参数μ,b,ω:
Figure FDA0004069891000000054
Figure FDA0004069891000000055
Figure FDA0004069891000000056
其中
Figure FDA0004069891000000057
代表中间变量,
Figure FDA0004069891000000058
式中,S′代表训练数据中说话人总数,N代表所有说话人的语音条数,z代表说话人的后验期望,
Figure FDA0004069891000000059
代表中间变量,
Figure FDA00040698910000000510
代表中间变量,
Figure FDA00040698910000000511
Figure FDA00040698910000000512
代表第一类贝塞尔函数,
Figure FDA00040698910000000513
代表第一类贝塞尔函数,
Figure FDA00040698910000000514
代表z的范数。
CN202310089702.0A 2023-02-09 2023-02-09 一种基于概率球面判别分析信道补偿的说话人识别方法 Active CN116129911B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310089702.0A CN116129911B (zh) 2023-02-09 2023-02-09 一种基于概率球面判别分析信道补偿的说话人识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310089702.0A CN116129911B (zh) 2023-02-09 2023-02-09 一种基于概率球面判别分析信道补偿的说话人识别方法

Publications (2)

Publication Number Publication Date
CN116129911A true CN116129911A (zh) 2023-05-16
CN116129911B CN116129911B (zh) 2023-11-17

Family

ID=86302581

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310089702.0A Active CN116129911B (zh) 2023-02-09 2023-02-09 一种基于概率球面判别分析信道补偿的说话人识别方法

Country Status (1)

Country Link
CN (1) CN116129911B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110148417A (zh) * 2019-05-24 2019-08-20 哈尔滨工业大学 基于总变化空间与分类器联合优化的说话人身份识别方法
CN111724794A (zh) * 2020-06-17 2020-09-29 哈尔滨理工大学 一种说话人识别方法
CN112967726A (zh) * 2021-02-01 2021-06-15 上海海事大学 基于t分布概率线性判别的深度神经网络模型短语音说话人确认方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110148417A (zh) * 2019-05-24 2019-08-20 哈尔滨工业大学 基于总变化空间与分类器联合优化的说话人身份识别方法
CN111724794A (zh) * 2020-06-17 2020-09-29 哈尔滨理工大学 一种说话人识别方法
CN112967726A (zh) * 2021-02-01 2021-06-15 上海海事大学 基于t分布概率线性判别的深度神经网络模型短语音说话人确认方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
HAO TANG, ETC.: "Partically Supervised Speaker Clustering", IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE, vol. 34, no. 5, pages 959 - 971 *
蒲莉娟: ":值域空间超球面上的判别分析", 《信号处理》, vol. 29, no. 8, pages 933 - 941 *

Also Published As

Publication number Publication date
CN116129911B (zh) 2023-11-17

Similar Documents

Publication Publication Date Title
Tamura et al. Audio-visual speech recognition using deep bottleneck features and high-performance lipreading
US5684925A (en) Speech representation by feature-based word prototypes comprising phoneme targets having reliable high similarity
Soltane et al. Face and speech based multi-modal biometric authentication
CN105206270B (zh) 一种组合pca和rbm的孤立数字语音识别分类系统及方法
CN109903774A (zh) 一种基于角度间隔损失函数的声纹识别方法
CN111161744B (zh) 同时优化深度表征学习与说话人类别估计的说话人聚类方法
CN111370003B (zh) 一种基于孪生神经网络的声纹比对方法
KR100307623B1 (ko) 엠.에이.피 화자 적응 조건에서 파라미터의 분별적 추정 방법 및 장치 및 이를 각각 포함한 음성 인식 방법 및 장치
CN104167208A (zh) 一种说话人识别方法和装置
CN108520752B (zh) 一种声纹识别方法和装置
CN110047504B (zh) 身份矢量x-vector线性变换下的说话人识别方法
CN111462729A (zh) 基于音素对数似然比和稀疏表征的快速语种识别方法
JP2018194828A (ja) マルチビューベクトルの処理方法及び装置
CN112863521B (zh) 一种基于互信息估计的说话人识别方法
EP1005019A2 (en) Segment-based similarity measurement method for speech recognition
Lee et al. The estimating optimal number of Gaussian mixtures based on incremental k-means for speaker identification
CN111028847B (zh) 一种基于后端模型的声纹识别优化方法和相关装置
CN110148417B (zh) 基于总变化空间与分类器联合优化的说话人身份识别方法
CN116129911B (zh) 一种基于概率球面判别分析信道补偿的说话人识别方法
Tang et al. Generative model-based speaker clustering via mixture of von mises-fisher distributions
KR101094763B1 (ko) 사용자 인증을 위한 특징벡터 추출장치 및 방법
WO2002029785A1 (en) Method, apparatus, and system for speaker verification based on orthogonal gaussian mixture model (gmm)
CN115083433A (zh) 一种基于dnn的文本无关表征音色聚类方法
CN114358191A (zh) 一种基于深度自动编码器的基因表达数据聚类方法
Wu et al. Research on voiceprint recognition based on weighted clustering recognition SVM algorithm

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant