CN105632502A - 一种基于加权成对约束度量学习算法的说话人识别方法 - Google Patents
一种基于加权成对约束度量学习算法的说话人识别方法 Download PDFInfo
- Publication number
- CN105632502A CN105632502A CN201510917128.9A CN201510917128A CN105632502A CN 105632502 A CN105632502 A CN 105632502A CN 201510917128 A CN201510917128 A CN 201510917128A CN 105632502 A CN105632502 A CN 105632502A
- Authority
- CN
- China
- Prior art keywords
- sample
- speaker
- collection
- vector
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 61
- 239000011159 matrix material Substances 0.000 claims abstract description 75
- 238000012360 testing method Methods 0.000 claims abstract description 17
- 238000012549 training Methods 0.000 claims description 76
- 230000006870 function Effects 0.000 claims description 74
- 239000013598 vector Substances 0.000 claims description 44
- 238000000926 separation method Methods 0.000 claims description 19
- 238000013507 mapping Methods 0.000 claims description 9
- 238000005457 optimization Methods 0.000 claims description 7
- 230000017105 transposition Effects 0.000 claims description 5
- 238000011478 gradient descent method Methods 0.000 claims description 4
- 230000008569 process Effects 0.000 description 14
- 238000002474 experimental method Methods 0.000 description 4
- 206010008190 Cerebrovascular accident Diseases 0.000 description 3
- 208000006011 Stroke Diseases 0.000 description 3
- 238000010276 construction Methods 0.000 description 3
- 230000004069 differentiation Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 230000009977 dual effect Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 241001269238 Data Species 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 238000011946 reduction process Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/16—Hidden Markov models [HMM]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种基于加权成对约束度量学习算法的说话人识别方法,该方法包括以下步骤:根据加权约束对度量学习算法(WPCML),最小化同类样本间距离,同时最大化非同类样本间距离,获得用于计算样本间马氏距离的半正定矩阵;根据半正定矩阵计算说话人语音测试样本和目标样本间的马氏距离,根据马氏距离判断说话人样本间的相似度。本发明基于加权约束对度量学习(WPCML)算法应用于说话人识别方法简单有效,存在全局最优解,能快速求得满足条件的度量矩阵,该度量矩阵可有效反映说话人空间中的相似性和区分性,将该度量矩阵用于测试目标说话人语音样本的马氏距离得分分类器,进一步提高了说话人识别系统的性能。
Description
技术领域
本发明是一种基于加权成对约束度量学习算法的说话人识别方法,属于说话人识别技术领域。
背景技术
说话人识别(SpeakerRecognition,SR)又称话者识别,是一种通过对说话人的语音进行处理和分析,从而对说话人身份进行鉴别的技术。如何有效衡量说话人样本语音间的相似度,是目前说话人识别研究领域的热点问题之一。说话人识别系统一般通过度量语音样本间的距离来判断相似度,样本间距离越小表示样本越相似,反之样本越不相似。不同的距离度量方法得到的距离是不同的。
常用作相似度度量的距离有余弦距离(cosinedistance)和马氏距离(Mahalanobisdistance)等。
余弦距离(cosinedistance)通过计算样本向量(xi,xj)内积空间的夹角余弦值来衡量样本间的相似度,余弦距离的计算公式为:
其中,T表示转置。
但是采用余弦距离衡量样本间的相似度,只能根据向量方向上的差异进行区分,无法衡量向量维度上数值的差异。
印度统计学家马哈拉诺比斯提出的马氏距离(Mahalanobisdistance)考虑样本向量各属性间区分的关系,表示在样本空间中的协方差距离。
两个向量(xi,xj)之间的马氏距离定义为:
其中,T表示转置。
也可用(xi-xj)TM(xi-xj)来表示马氏距离,其中半正定度量矩阵M可看成两个变换矩阵W的积:M=WTW,样本向量x通过变换矩阵W映射到新的空间中:x%=Wx,故M也称为度量变换矩阵,变换后的新空间中同类样本和非同类样本更易区分。
不同样本空间中,若总体样本的度量矩阵M不同,计算的马氏距离也不同,因此马氏距离的计算不稳定。只有获得能反映样本空间同类样本相似性、非同类样本区分性的度量矩阵M,计算的马氏距离才能有效衡量样本相似度。但训练样本有限使获得这种度量矩阵有难度。
发明人在研究的过程中发现,训练样本对集的构造是度量学习研究中的一个关键问题。合适的训练样本对含有的有效信息能正确指导训练过程,含无效信息较多的训练样本对会对度量矩阵的训练产生不利影响。现有技术中大部分度量学习算法采用以下方法来构造度量学习训练样本对集。
相似训练样本对集S的构造方法:首先随机从所有训练语音样本数据库中任选一说话人样本类,从该样本类中随机选择两个样本,若它们不是同一样本或未被选择过,则可作为相似样本对加入相似训练样本对集S中。整个过程重复执行直至一定数量的相似样本对被选择。
非相似样本对集的构造方法:从所有训练语音样本数据库中随机选择两个不同样本类,从每个样本类中选择一个样本,若它们没被选择过,则作为非相似样本对加入非相似样本对集中。整个过程重复执行直至一定数量满足条件的非样本对被选择。
上述训练样本对集的构建方法简单有效,但随机构建出来的相似样本对集和非相似样本对集中的样本对不固定,训练出来的马氏距离度量矩阵也不同,说话人识别率低。
发明内容
本发明的目的在于提供一种基于加权成对约束度量学习算法的说话人识别方法,该方法将加权约束对度量学习(WPCML)算法应用于说话人识别系统,存在全局最优解,能快速求得满足条件的度量矩阵。该算法在训练样本加权约束对信息的指导下训练一个马氏距离度量矩阵,该度量矩阵可有效反映说话人空间中的相似性和区分性。
本发明的目的通过以下技术方案来具体实现:
一种基于加权成对约束度量学习算法的说话人识别方法,该方法包括以下步骤:
根据加权约束对度量学习算法(WPCML),最小化同类样本间距离,同时最大化非同类样本间距离,通过最优化求解说话人样本空间区分性的目标函数获得用于计算样本间马氏距离的半正定矩阵;
根据半正定矩阵计算说话人语音测试样本和目标样本间的马氏距离,根据马氏距离判断说话人样本间的相似度。
进一步的,所述根据加权约束对度量学习算法(WPCML),最小化同类样本间距离,同时最大化非同类样本间距离,具体包括:
根据训练语音样本数据库的样本标签信息构建说话人训练样本约束对集;
所述说话人训练样本约束对集包括同一说话人相似语音样本对集和不同说话人非相似语音样本对集;
构造出所有不同说话人非相似语音样本对组合,计算样本对的欧式距离;
根据欧式距离值从小到大的顺序筛选出与相似语音样本对集数量一致的非相似语音样本对集,与相似语音样本对集共同用于计算样本间马氏距离的半正定矩阵M。
进一步的,非相似语音样本对集与相似语音样本对集共同用于计算样本间马氏距离的半正定矩阵M,具体包括:
映射说话人类内子空间,去除同类说话人样本语音间相关性的相互影响;
度量学习目标函数,对相似样本与非相似样本进行区分;
加权约束权衡损失函数对相似样本对与非相似样本对在求解过程中对目标函数的影响;
目标函数的求解,计算样本间马氏距离的半正定矩阵M。
进一步的,映射类内子空间具体包括:
定义用于训练度量矩阵的说话人语音i-vector样本集{w1,w2,…,wn},根据样本的标签信息构建说话人训练样本约束对集PSD。S表示同一说话人相似语音样本对集,D表示不同说话人非相似语音样本对集。根据同一说话人相似语音样本集中的样本彼此间的相关性,基于WPCML算法构建一个说话人类内子空间,将训练语音样本数据库中所有的样本向量映射到说话人类内子空间中,去除同类说话人样本语音间相关性的相互影响。
进一步的,所述去除同类说话人样本语音间相关性的相互影响的类内协方差矩阵Cs为:
类内协方差矩阵Cs的特征值L和特征向量V分别求解为L={l1,L,lk},V=(v1,L,vk);
样本向量w映射进说话人类内子空间:w%=diag(l1 -1/2,L,lk -1/2)VTw;
其中,w%为映射后的新向量,T为转置。
进一步的,所述度量学习目标函数具体包括:
目标函数f(M)用于对同一说话人相似语音样本和不同说话人非相似语音样本进行区分,具体为:
其中,度量矩阵M描述的样本空间满足同类样本间距离小的同时非同类样本间距离大的条件,目标函数f(M)的值最大;求解目标函数f(M)最大值来求解满足条件的度量矩阵M。进一步的,所述加权约束对损失函数具体包括:为求解目标函数f(M),定义损失函数eemp(M)为:
其中,S表示同一说话人相似语音样本对集,D表示不同说话人非相似语音样本对集,dM(wi,wj)表示向量(wi,wj)间的马氏距离。
进一步的,基于加权成对约束度量学习算法在损失函数eemp(M)中引入权衡因子l30,用于权衡相似训练样本对与非相似训练样本对在求解过程中对目标函数的影响,损失函数eemp(M)为:
加权成对约束度量学习算法WPCML通过最小化损失函数来求解得到度量矩阵M。
进一步的,所述目标函数的求解,包括:
提高损失函数的泛化能力;
引入规整项在损失函数出现拟合时对其进行修正;
引入平衡因子,平衡目标函数求解过程中规整项对损失函数项的影响;
引入松弛变量,将损失函数eemp(M)的求解等价于标准的凸优化求解问题;
引入拉格朗日乘子,定义拉格朗日函数,通过梯度下降法求解出唯一最优解,作为最终所要求解的度量矩阵,用于计算说话人语音测试样本和目标样本间的马氏距离,根据该距离判断说话人样本间的相似度。
本发明提供的一种基于加权成对约束度量学习算法的说话人识别方法,提出的加权成对约束度量学习算法(WPCML)利用成对训练样本的加权约束信息训练一个马氏距离度量矩阵,利用了成对训练样本对的约束信息来指导度量学习过程,对已标记的相似样本对和非相似样本对进行度量矩阵训练时有效利用了训练样本数据间相似性与非相似性的指导信息,得到的度量矩阵更能反映的说话人空间的区分性,使得马氏距离得分分类器对未知说话人语音样本间的相似性进行较好的预测。在度量矩阵训练过程中,对相似样本对和非相似样本对在指导训练过程的影响程度进行加权,训练出来的度量矩阵用于说话人识别系统。本发明还提出选择训练样本对方法用于构造度量学习训练样本对集,欧氏距离最小的那部分非相似样本对含有的突变信息相对更少,且其含有的区分信息更具有代表性。用这部分非相似样本对构建的训练样本非相似对集用于训练马氏距离度量矩阵,使说话人识别系统的性能有所提高。
具体实施方式
本发明实施例提供的一种基于加权成对约束度量学习算法的说话人识别方法,该方法包括以下步骤:
根据加权约束对度量学习算法(WPCML),最小化同类样本间距离,同时最大化非同类样本间距离,通过最优化求解说话人样本空间区分性的目标函数获得用于计算样本间马氏距离的半正定矩阵;
根据半正定矩阵计算说话人语音测试样本和目标样本间的马氏距离,根据马氏距离判断说话人样本间的相似度。
加权约束对度量学习(WPCML)算法简单有效,存在全局最优解,能快速求得满足条件的度量矩阵,用于训练的样本对只需知道是否属于同类。该算法在训练样本加权约束对信息的指导下训练一个马氏距离度量矩阵。该度量矩阵可有效反映说话人空间中的相似性和区分性,将该度量矩阵用于测试目标说话人语音样本的马氏距离得分分类器,使说话人识别系统取得了很好的识别效果。
进一步的,所述根据加权约束对度量学习算法(WPCML),最小化同类样本间距离,同时最大化非同类样本间距离,具体包括:
根据训练语音样本数据库的样本标签信息构建说话人训练样本约束对集;
定义用于训练度量矩阵的说话人语音i-vector样本集{w1,w2,…,wn},根据样本的标签信息构建说话人训练样本约束对集P=SUD。S表示来自同一说话人的相似语音样本对组成的集合,D表示来自不同说话人的非相似语音样本对组成的集合。
所述说话人训练样本约束对集包括同一说话人相似语音样本对集和不同说话人非相似语音样本对集;
相似训练样本对集的构造方法与传统方法相同。
构造出所有不同说话人非相似语音样本对组合,计算样本对的欧式距离;欧式距离的计算公式如下:
根据欧式距离dE值从小到大的顺序筛选出与相似语音样本对集数量一致的非相似语音样本对集,与相似语音样本对集共同用于计算样本间马氏距离的半正定矩阵M。
本发明还对训练样本对集的构造方法进行了创新,通过对训练样本相似对和非相似对的选择,使得得到的度量矩阵唯一,且进一步提高了说话人识别系统的性能。
进一步的,非相似语音样本对集与相似语音样本对集共同用于计算样本间马氏距离的半正定矩阵M,具体包括:
映射说话人类内子空间,去除同类说话人样本语音间相关性的相互影响;
度量学习目标函数,对相似样本与非相似样本进行区分;
加权约束权衡损失函数对相似样本对与非相似样本对在求解过程中对目标函数的影响;
目标函数的求解,计算样本间马氏距离的半正定矩阵M。
进一步的,映射类内子空间具体包括:
根据同一说话人相似语音样本集中的样本彼此间的相关性,基于WPCML算法构建一个说话人类内子空间,将训练语音样本数据库中所有的样本向量映射到说话人类内子空间中,去除同类说话人样本语音间相关性的相互影响。
进一步的,所述去除同类说话人样本语音间相关性的相互影响的类内协方差矩阵Cs为:
类内协方差矩阵Cs的特征值L和特征向量V分别求解为L={l1,L,lk},V=(v1,L,vk);
样本向量w映射进说话人类内子空间:w%=diag(l1 -1/2,L,lk -1/2)VTw;
其中,
进一步的,所述度量学习目标函数具体包括:
目标函数f(M)用于对同一说话人相似语音样本和不同说话人非相似语音样本进行区分,具体为:
其中,度量矩阵M描述的样本空间满足同类样本间距离小的同时非同类样本间距离大的条件,目标函数f(M)的值最大;求解目标函数f(M)最大值来求解满足条件的度量矩阵M。
进一步的,所述加权约束对损失函数具体包括:为求解目标函数f(M),定义损失函数eemp(M)为:
其中,
进一步的,基于加权成对约束度量学习算法在损失函数eemp(M)中引入权衡因子l30,用于权衡相似训练样本对与非相似训练样本对在求解过程中对目标函数的影响,损失函数eemp(M)为:
加权成对约束度量学习算法WPCML通过最小化损失函数来求解得到度量矩阵M。
为表示方便,损失函数定义样本对来自同一说话人时,mij=1,yij=-1,否则mij=l,yij=1。则损失函数eemp(M)表示为:
进一步的,所述目标函数的求解,包括:
提高损失函数的泛化能力;
引入规整项在损失函数出现拟合时对其进行修正;
引入平衡因子,平衡目标函数求解过程中规整项对损失函数项的影响;
引入松弛变量,将损失函数eemp(M)的求解等价于标准的凸优化求解问题;
引入拉格朗日乘子,定义拉格朗日函数,通过梯度下降法求解出唯一最优解,作为最终所要求解的度量矩阵,用于计算说话人语音测试样本和目标样本间的马氏距离,根据该距离判断说话人样本间的相似度。具体为:
求解过程为提高损失函数的泛化能力,引入规整项规整项在训练过程中,当损失函数出现过拟合时对其进行修正。P×PF表示弗罗贝尼乌斯范数。损失函数最小化求解可表示为:
平衡因子g用于平衡目标函数求解过程中规整项对损失函数项的影响。引入松弛变量,式(26)的求解等价于标准的凸优化求解问题:
式(27)的求解过程是一个典型的二次规划问题。引入拉格朗日乘子a,b30,定义式(27)的拉格朗日函数:
1对M和求偏导,令偏导为0,可解出M和bij:
bij=1-aij,且0#a1.(30)
将M和bij代入式(28),得到:
为方便求解,式(31)转化成其对偶形式:
通过梯度下降法求解出满足式(32)的at,代入式(29)求得满足目标函数区分性目标的全局近似最优解M*,作为最终所要求解的度量矩阵,用于计算说话人语音测试样本和目标样本间的马氏距离,根据该距离判断说话人样本间的相似度。
将本发明的技术方案实验在MATLAB环境下进行,所有实验语音数据均来自于美国国家标准与技术局(NIST)说话人评测(SRE)04、05、06、08年核心语音库。说话人识别系统首先对原始语音进行去冗余和降噪处理,将语音模拟信号转换离散语音数字信号。用帧长20ms的窗函数将语音信号交叠分帧(帧移10ms)。提取13维梅尔频率倒谱系数(MFCC)与其一阶、二阶差分组合成39维特征向量对语音信号进行表示。采用NISTSRE04、05和06年语音数据集训练出512阶性别相关的UBM,在此基础上训练出所有说话人语音样本的i-vector向量(400维),并对i-vector向量进行LDA、WCCN和长度规整等鲁棒性处理,用于后续过程。其中08年语音数据作为说话人目标语音样本和测试语音样本进行相似度评测。
进行度量学习实验前,需构造用于训练的相似样本对集和非相似样本对集。本文使用NISTSRE04、05、06年语音集中的491个男性6609条语音,及703个女性9136条语音来构造相似样本对集S与非相似样本对集D。实验采用本文提出的选择训练样本对集构建方法构造相似样本对集和非相似样本对集。相似样本对集的构建方法首先从所有训练样本中任选一说话人样本类,从该样本类中随机选择两个样本,若它们不是同一样本或未被选择过,则可作为相似样本对加入相似训练样本对集S中。整个过程重复执行直至一定数量的相似样本对被选择。非相似训练样本对集D构造方法的步骤:构造出非相似样本对所有可能的组合;计算所有非相似样本对的欧式距离:dE=(wi-wj)(wi-wj)T,按dE值的大小挑选出其中最小的那些非相似样本对,构成与相似样本对集S等大小的非相似样本对集D,与相似样本对集S一起作为训练样本对集P,用于马氏距离度量矩阵的训练。
利用说话人训练语音同类样本构建一个说话人类内子空间,将所有样本i-vector向量映射到此空间中,从而去除同类说话人样本语音间相关性的相互影响。再构造描述说话人样本空间区分性的目标函数f(M):
求解目标函数f(M),定义损失函数eemp(M)为:
WPCML算法在损失函数eemp(M)中引入权衡因子l30,用于权衡相似样本对与非相似样本对在求解过程中对目标函数的影响:
为表示方便,损失函数定义样本对(wi,wj)来自同一说话人时,mij=1,yij=-1,否则mij=l,yij=1:
最优化求解损失函数得到马氏距离度量矩阵,用于计算测试样本与目标说话人样本间的马氏距离得分:
scoreM=-(wtarget-wtest)TM(wtarget-wtest)
根据马氏距离得分判断测试语言与目标语言的相似度。
本发明提供的一种基于加权成对约束度量学习算法的说话人识别方法,提出的加权成对约束度量学习算法(WPCML)利用成对训练样本的加权约束信息训练一个马氏距离度量矩阵,利用了成对训练样本对的约束信息来指导度量学习过程,对已标记的相似样本对和非相似样本对进行度量矩阵训练时有效利用了训练样本数据间相似性与非相似性的指导信息,得到的度量矩阵更能反映的说话人空间的区分性,使得马氏距离得分分类器对未知说话人语音样本间的相似性进行较好的预测。在度量矩阵训练过程中,对相似样本对和非相似样本对在指导训练过程的影响程度进行加权,训练出来的度量矩阵用于说话人识别系统。本发明还提出选择训练样本对方法用于构造度量学习训练样本对集,欧氏距离最小的那部分非相似样本对含有的突变信息相对更少,且其含有的区分信息更具有代表性。用这部分非相似样本对构建的训练样本非相似对集用于训练马氏距离度量矩阵,使说话人识别系统的性能有所提高。
Claims (9)
1.一种基于加权成对约束度量学习算法的说话人识别方法,其特征在于,该方法包括以下步骤:
根据加权约束对度量学习算法(WPCML),最小化同类样本间距离,同时最大化非同类样本间距离,获得用于计算样本间马氏距离的半正定矩阵;
根据半正定矩阵计算说话人语音测试样本和目标样本间的马氏距离,根据马氏距离判断说话人样本间的相似度。
2.如权利要求1所述的方法,其特征在于,所述根据加权约束对度量学习算法(WPCML),最小化同类样本间距离,同时最大化非同类样本间距离,具体包括:
根据训练语音样本数据库的样本标签信息构建说话人训练样本约束对集;
所述说话人训练样本约束对集包括同一说话人相似语音样本对集和不同说话人非相似语音样本对集;
构造出所有不同说话人非相似语音样本对组合,计算样本对的欧式距离;
根据欧式距离值从小到大的顺序筛选出与相似语音样本对集数量一致的非相似语音样本对集,与相似语音样本对集共同用于计算样本间马氏距离的半正定矩阵M。
3.如权利要求2所述的方法,其特征在于,非相似语音样本对集与相似语音样本对集共同用于计算样本间马氏距离的半正定矩阵M,具体包括:
映射说话人类内子空间,去除同类说话人样本语音间相关性的相互影响;
度量学习目标函数,对相似样本与非相似样本进行区分;
加权约束权衡损失函数对相似样本对与非相似样本对在求解过程中对目标函数的影响;
目标函数的求解,计算样本间马氏距离的半正定矩阵M。
4.如权利要求3所述的方法,其特征在于,所述映射说话人类内子空间,具体包括:
根据同一说话人相似语音样本集中的样本彼此间的相关性,基于WPCML算法构建一个说话人类内子空间,将训练语音样本数据库中所有的样本向量映射到说话人类内子空间中,去除同类说话人样本语音间相关性的相互影响。
5.如权利要求4所述的方法,其特征在于,还包括,定义用于训练度量矩阵的说话人语音(i-vector)样本集{w1,w2,…,wn};
其中wi表示第i条语音的i-vector向量,根据样本的标签信息构建说话人训练样本约束对集P,使得P=SUD;
其中,S表示同一说话人相似语音样本对集,D表示不同说话人非相似语音样本对集;
所述去除同类说话人样本语音间相关性的相互影响的类内协方差矩阵Cs为:
其中,wi表示第i条语音的i-vector向量,表示语音对(wi,wj)来自同一说话人相似语音样本对集,类内协方差矩阵Cs的特征值L和特征向量V分别求解为L={l1,L,lk},V=(v1,L,vk),T为转置;
样本向量w映射进说话人类内子空间:
其中,为映射后的新向量,T为转置,其中w表示语音的i-vector向量,L={l1,L,lk},V=(v1,L,vk)分别为类内协方差矩阵Cs的特征值和特征向量,diag表示对角线矩阵。
6.如权利要求3所述的方法,其特征在于,所述度量学习目标函数具体包括:
目标函数f(M)用于对同一说话人相似语音样本和不同说话人非相似语音样本进行区分,具体为:
其中,wi表示第i条语音的i-vector向量,表示语音对(wi,wj)来自同一说话人相似语音样本对集,表示语音对(wi,wj)来自不同说话人非相似语音样本对集,dM(wi,wj)表示语音向量(wi,wj)间的马氏距离。度量矩阵M描述的样本空间满足同类样本间距离小的同时非同类样本间距离大的条件,目标函数f(M)的值最大;通过求解目标函数f(M)最大值来求解满足条件的度量矩阵M。
7.如权利要求6所述的方法,其特征在于,所述加权约束对损失函数具体包括:为求解目标函数f(M),定义损失函数eemp(M)为:
其中,wi表示第i条语音的i-vector向量,表示语音对(wi,wj)来自同一说话人相似语音样本对集,表示语音对(wi,wj)来自不同说话人非相似语音样本对集,dM(wi,wj)表示语音向量(wi,wj)间的马氏距离。
8.如权利要求7所述的方法,其特征在于,基于加权成对约束度量学习算法在损失函数eemp(M)中引入权衡因子l30,用于权衡相似训练样本对与非相似训练样本对在求解过程中对目标函数的影响,损失函数eemp(M)为:
其中,损失函数eemp(M),权衡因子l30,wi表示第i条语音的i-vector向量,表示语音对(wi,wj)来自同一说话人相似语音样本对集,表示语音对(wi,wj)来自不同说话人非相似语音样本对集,dM(wi,wj)表示语音向量(wi,wj)间的马氏距离。加权成对约束度量学习算法WPCML通过最小化损失函数来求解得到度量矩阵M。
9.如权利要求3-8中任意一项权利要求所述的方法,其特征在于,所述目标函数的求解,包括:
提高损失函数的泛化能力;
引入规整项在损失函数出现拟合时对其进行修正;
引入平衡因子,平衡目标函数求解过程中规整项对损失函数项的影响;
引入松弛变量,将损失函数eemp(M)的求解等价于标准的凸优化求解问题;
引入拉格朗日乘子,定义拉格朗日函数,通过梯度下降法求解出唯一最优解,作为最终所要求解的度量矩阵,用于计算说话人语音测试样本和目标样本间的马氏距离,根据该距离判断说话人样本间的相似度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510917128.9A CN105632502A (zh) | 2015-12-10 | 2015-12-10 | 一种基于加权成对约束度量学习算法的说话人识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510917128.9A CN105632502A (zh) | 2015-12-10 | 2015-12-10 | 一种基于加权成对约束度量学习算法的说话人识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105632502A true CN105632502A (zh) | 2016-06-01 |
Family
ID=56047345
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510917128.9A Pending CN105632502A (zh) | 2015-12-10 | 2015-12-10 | 一种基于加权成对约束度量学习算法的说话人识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105632502A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108417226A (zh) * | 2018-01-09 | 2018-08-17 | 平安科技(深圳)有限公司 | 语音对比方法、终端及计算机可读存储介质 |
CN109002792A (zh) * | 2018-07-12 | 2018-12-14 | 西安电子科技大学 | 基于分层多模型度量学习的sar图像变化检测方法 |
CN109377984A (zh) * | 2018-11-22 | 2019-02-22 | 北京中科智加科技有限公司 | 一种基于ArcFace的语音识别方法及装置 |
CN110147843A (zh) * | 2019-05-22 | 2019-08-20 | 哈尔滨工程大学 | 基于度量学习的语音时序数据相似性度量方法 |
CN112150059A (zh) * | 2020-06-23 | 2020-12-29 | 国网天津市电力公司电力科学研究院 | 一种基于乌鸦算法的计量器具智能仓库调度优化方法 |
CN113936103A (zh) * | 2021-12-14 | 2022-01-14 | 星际空间(天津)科技发展有限公司 | 激光点云图模型的构建方法及设备 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102810311A (zh) * | 2011-06-01 | 2012-12-05 | 株式会社理光 | 说话人估计方法和说话人估计设备 |
CN104538035A (zh) * | 2014-12-19 | 2015-04-22 | 深圳先进技术研究院 | 一种基于Fisher超向量的说话人识别方法及系统 |
-
2015
- 2015-12-10 CN CN201510917128.9A patent/CN105632502A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102810311A (zh) * | 2011-06-01 | 2012-12-05 | 株式会社理光 | 说话人估计方法和说话人估计设备 |
CN104538035A (zh) * | 2014-12-19 | 2015-04-22 | 深圳先进技术研究院 | 一种基于Fisher超向量的说话人识别方法及系统 |
Non-Patent Citations (1)
Title |
---|
罗剑 等: ""加权成对约束度量学习在说话人识别中的应用"", 《计算机工程与应用》 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108417226A (zh) * | 2018-01-09 | 2018-08-17 | 平安科技(深圳)有限公司 | 语音对比方法、终端及计算机可读存储介质 |
CN109002792A (zh) * | 2018-07-12 | 2018-12-14 | 西安电子科技大学 | 基于分层多模型度量学习的sar图像变化检测方法 |
CN109002792B (zh) * | 2018-07-12 | 2021-07-20 | 西安电子科技大学 | 基于分层多模型度量学习的sar图像变化检测方法 |
CN109377984A (zh) * | 2018-11-22 | 2019-02-22 | 北京中科智加科技有限公司 | 一种基于ArcFace的语音识别方法及装置 |
CN109377984B (zh) * | 2018-11-22 | 2022-05-03 | 北京中科智加科技有限公司 | 一种基于ArcFace的语音识别方法及装置 |
CN110147843A (zh) * | 2019-05-22 | 2019-08-20 | 哈尔滨工程大学 | 基于度量学习的语音时序数据相似性度量方法 |
CN112150059A (zh) * | 2020-06-23 | 2020-12-29 | 国网天津市电力公司电力科学研究院 | 一种基于乌鸦算法的计量器具智能仓库调度优化方法 |
CN112150059B (zh) * | 2020-06-23 | 2022-09-02 | 国网天津市电力公司电力科学研究院 | 一种基于乌鸦算法的计量器具智能仓库调度优化方法 |
CN113936103A (zh) * | 2021-12-14 | 2022-01-14 | 星际空间(天津)科技发展有限公司 | 激光点云图模型的构建方法及设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105632502A (zh) | 一种基于加权成对约束度量学习算法的说话人识别方法 | |
Meng et al. | Mixspeech: Data augmentation for low-resource automatic speech recognition | |
EP3438973B1 (en) | Method and apparatus for constructing speech decoding network in digital speech recognition, and storage medium | |
CN109829430B (zh) | 基于异构层次化注意机制的跨模态行人再识别方法及系统 | |
CN105261367B (zh) | 一种说话人识别方法 | |
CN112349297B (zh) | 一种基于麦克风阵列的抑郁症检测方法 | |
TWI395201B (zh) | 情緒語音辨識方法及系統 | |
Milton et al. | Class-specific multiple classifiers scheme to recognize emotions from speech signals | |
Cai et al. | Analysis of length normalization in end-to-end speaker verification system | |
US20140236593A1 (en) | Speaker recognition method through emotional model synthesis based on neighbors preserving principle | |
CN103456302B (zh) | 一种基于情感gmm模型权重合成的情感说话人识别方法 | |
Fang et al. | Channel adversarial training for cross-channel text-independent speaker recognition | |
CN102592593B (zh) | 一种考虑语音中多线性群组稀疏特性的情绪特征提取方法 | |
CN104978507A (zh) | 一种基于声纹识别的智能测井评价专家系统身份认证方法 | |
CN110211594A (zh) | 一种基于孪生网络模型和knn算法的说话人识别方法 | |
CN109377981A (zh) | 音素对齐的方法及装置 | |
CN102237083A (zh) | 一种基于WinCE平台的便携式口语翻译系统及其语言识别方法 | |
CN115457966B (zh) | 基于改进ds证据理论多分类器融合的猪咳嗽声识别方法 | |
CN104464738B (zh) | 一种面向智能移动设备的声纹识别方法 | |
CN114387997B (zh) | 一种基于深度学习的语音情感识别方法 | |
CN111243621A (zh) | 一种用于合成语音检测的gru-svm深度学习模型的构造方法 | |
Michalevsky et al. | Speaker identification using diffusion maps | |
Ghaemmaghami et al. | Speakers in the wild (SITW): The QUT speaker recognition system | |
Tobing et al. | Cyclic Spectral Modeling for Unsupervised Unit Discovery into Voice Conversion with Excitation and Waveform Modeling. | |
Stadelmann et al. | Dimension-decoupled Gaussian mixture model for short utterance speaker recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20160601 |