CN107452403B - 一种说话人标记方法 - Google Patents
一种说话人标记方法 Download PDFInfo
- Publication number
- CN107452403B CN107452403B CN201710817534.7A CN201710817534A CN107452403B CN 107452403 B CN107452403 B CN 107452403B CN 201710817534 A CN201710817534 A CN 201710817534A CN 107452403 B CN107452403 B CN 107452403B
- Authority
- CN
- China
- Prior art keywords
- speaker
- probability
- fragment
- vector
- segments
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 71
- 239000013598 vector Substances 0.000 claims abstract description 51
- 238000004458 analytical method Methods 0.000 claims abstract description 8
- 238000005354 coacervation Methods 0.000 claims abstract description 5
- 239000012634 fragment Substances 0.000 claims description 48
- 239000011159 matrix material Substances 0.000 claims description 15
- 230000007704 transition Effects 0.000 claims description 13
- 238000004364 calculation method Methods 0.000 claims description 11
- 230000008859 change Effects 0.000 claims description 11
- 239000000126 substance Substances 0.000 claims description 6
- 238000004220 aggregation Methods 0.000 claims description 3
- 230000005540 biological transmission Effects 0.000 claims description 3
- 238000004422 calculation algorithm Methods 0.000 claims description 3
- 238000001514 detection method Methods 0.000 claims description 3
- 230000002776 aggregation Effects 0.000 claims description 2
- 238000009833 condensation Methods 0.000 claims description 2
- 230000005494 condensation Effects 0.000 claims description 2
- 238000010801 machine learning Methods 0.000 abstract description 2
- 238000003909 pattern recognition Methods 0.000 abstract description 2
- 238000002372 labelling Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 238000012804 iterative process Methods 0.000 description 3
- NGVDGCNFYWLIFO-UHFFFAOYSA-N pyridoxal 5'-phosphate Chemical compound CC1=NC=C(COP(O)(O)=O)C(C=O)=C1O NGVDGCNFYWLIFO-UHFFFAOYSA-N 0.000 description 3
- 239000000203 mixture Substances 0.000 description 2
- 230000003321 amplification Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提出一种说话人标记方法,属于声纹识别、模式识别与机器学习技术领域。本方法包括三个阶段:在第一阶段,通过i‑vector概率线性鉴别分析凝聚层次聚类方法将待测语音数据分为长度相等的片段,然后将片段聚为与说话人总数相等的类;在第二阶段,利用第一阶段的聚类结果,得到片段属于说话人的先验概率;在第三阶段,通过基于软判决的变分贝叶斯隐马尔科夫方法进行迭代,当系统收敛时,计算片段所属的说话人,说话人标记结束。本发明结合了两种说话人标记方法的优点,可有效地提高说话人标记的准确率。
Description
技术领域
本发明属于声纹识别、模式识别与机器学习技术领域,特别地涉及一种基于Ivec-PLDA-AHC和VB-HMM的说话人标记方法。
背景技术
说话人标记就是对一段多人说话的语音进行处理,把同一个说话人的语音片段聚到一起,也就是标记谁在什么时候说话。说话人标记的意义在于,应用到电话会议、国际会议中时,可以作为会议记录的资料被保存,同时对说话人的准确识别也自然会有助于后续的语音处理与语义识别。另外,在监控领域,说话人标记可以对被监控对象的声音语言进行记录,应用至公安领域或是军事领域,对保卫治安乃至国家安全都有所贡献。
现有的说话人标记常用的方法是I vector概率线性鉴别分析凝聚层次聚类方法(ivector-probabilistic linear discriminant analysis-agglomerativehierarchical clustering(Ivec-PLDA-AHC))。该方法将语音分割成均匀的,长度相等的短片段。由于片段足够短,可认为每个片段只含一个说话人。Ivec-PLDA-AHC方法首先将每个片段当成一类,为每个片段提取一个i-vector(说话人识别中常用的特征向量),利用PLDA打分计算i-vector两两之间的距离,然后将距离最近的两个类聚到一起,形成新的类。重复这一过程直到类别数等于说话人个数,说话人标记结束。
Ivec-PLDA-AHC说话人标记方法的缺点是没有考虑片段与片段之间的时序信息,最终标记结果可能会出现短时间内说话人频繁跳变的现象。除此之外,该方法迭代过程将距离最近的两个类强制聚到一起,属于硬判决,迭代过程出现的错误不能在后续进行更改,而且可能导致一步错步步错。
为了解决这个问题,学者们引入了基于软判决的变分贝叶斯隐马尔科夫(variational Bayes hidden Markov model(VB-HMM))方法。VB-HMM方法将片段是否属于说话人用一个概率表示,而不是像Ivec-PLDA-AHC方法用绝对的是或不是。VB-HMM方法首先随机初始化每个片段属于说话人的概率和HMM模型,然后迭代更新说话人因子,发射概率,片段属于说话人的概率,转移概率,直到收敛输出结果。但是这个系统对初始化很敏感,特别是当待测语音中某个说话人占主导地位,而其余说话人说的语音很少时,VB-HMM方法很容易将待测语音均匀地分配到每个说话人,导致标记结果很差。
发明内容
本发明的目的是为克服传统VB-HMM说话人标记方法对系统初始化敏感的问题,提出了一种说话人标记方法。本发明结合了Ivec-PLDA-AHC和VB-HMM说话人标记方法的优点,通过Ivec-PLDA-AHC说话人标记方法,为VB-HMM方法提供一个稳健的初始值,可有效地提高说话人标记的准确率。
本发明提出的一种说话人标记方法,其特征在于,分为i-vector概率线性鉴别分析凝聚层次聚类说话人标记阶段、先验概率初始化阶段和基于软判决的变分贝叶斯隐马尔科夫说话人标记阶段三个阶段,该方法包括以下步骤:
1)i-vector概率线性鉴别分析凝聚层次聚类说话人标记阶段;具体步骤如下:
1-1)获取一条待测语音数据X,待测语音数据中总共的说话人个数S已知,S≥2;
1-2)对待测语音数据X提取维数F=40的感知线性预测特征,并进行活动语音检测,将待测语音数据中的静音段删除;
1-3)将去除静音段后的待测语音数据X均匀分割成长度固定为1s的片段记为x1,…xm…,xM;其中M代表片段总数;每个片段xm包含N帧,xmt表示片段xm的第t帧的特征,t=1…N;
1-4)对于每个片段xm,提取该片段相应的i-vector记为ω′m,表达式如下:
μm=μubm+Tω′m
其中,μm是根据xm计算得到的均值超向量,μubm为通用背景模型的均值超向量,通用背景模型的高斯总个数为C=512,说话人因子维数为D=300,T为CF×D=512*40×300维的总体变化子空间矩阵;
1-5)利用概率线性鉴别分析对步骤1-4)得到的任意两个i-vector进行打分,得到所有片段i-vector两两之间的距离;具体步骤如下:
1-5-1)每个片段的i-vectorω′m表达式如下:
ω′m=μ+Φpm+εm
1-5-2)通过计算对数似然比,求得任意两个i-vectorω′i和ω′j之间的相似度:
其中θtar表示ω′i和ω′j来自同一个说话人,θnon表示ω′i和ω′j来自不同的说话人;
1-5-3)通过步骤1-5-2)得到的对数似然比R(ω′i,ω′j),计算ω′i和ω′j之间的距离为:
1-6)对所有片段i-vector两两之间的距离进行凝聚层次聚类;具体步骤如下:
1-6-1)将每个片段的i-vector当作一个独立的类,共得到M个类;
1-6-2)将所有距离dij中最小值对应的两个片段的i-vector的类聚在一起,合并成一个新类;
1-6-3)计算步骤1-6-2)得到的新类中所有i-vector的均值,用该均值表示新类的i-vector,然后重复步骤1-5-2)和1-5-3),分别计算该新类的i-vector到其他每个类的的i-vector的距离;
1-6-4)判断类的个数是否等于说话人个数S:如果不相等,则重新返回步骤1-6-2);如果相等,则凝聚层次聚类结束,最后聚成S个类代表S个说话人,每个类代表一个说话人,将S个类随机编号为1,2,..s,..S,如果片段xm属于类s,那么xm就属于说话人s,即xm∈s;
2)先验概率初始化阶段;分为硬先验计算和软先验计算两种方法,具体如下:
2-1)硬先验计算;
根据步骤1)的结果,如果xm∈s,则赋予片段m属于说话人s的先验概率qms的概率值为q,0.5<q<1,即:
其中I(·)为指示函数;
2-2)软先验计算;
根据步骤1)聚类得到的S个类,计算每个说话人s的中心点,表达式如下:
如果片段xm∈s,则片段xm距离中心点的距离为:
dms=||ω′m-centers||2
将片段xm属于说话人s的先验概率qms定义为:
而片段xm属于说话人其他说话人的先验概率为:
3)基于软判决的变分贝叶斯隐马尔科夫说话人标记阶段;具体步骤如下:
3-1)隐马尔科夫模型初始化;
隐马尔科夫模型中,每个状态代表一个说话人,状态数等于说话人的总个数S;转移概率为aij,初始值为表示从说话人i转移到说话人j的概率;发射概率P(xm|ys),初始值为表示给定一个说话人因子ys,片段xm产生的概率;隐马尔科夫模型的初始概率,即初始时刻位于每个状态的概率
3-2)更新说话人因子ys;具体步骤如下:
3-2-1)提取每个片段xm的Baum-Welch统计量,表达式如下:
其中分别表示片段xm对应第c个高斯的零阶、一阶、二阶统计量;μubm,c,c=1,…,512,是通用背景模型均值超向量μubm中对应第c个高斯的子向量;γml(c)是xmt属于第c个高斯的后验概率,diag表示对角化;
3-2-2)提取每个说话人的Baum-Welch统计量;
说话人s的Baum-Welch统计量表达式为:
其中,∑是维数为CF×CF的协方差矩阵,对角块为{∑1,…,∑C],∑c为通用背景模型第c个高斯的协方差矩阵;
3-3)更新发射概率P(xm|ys):
lnP(xm|ys)=Gm+Hms
其中,
3-4)根据隐马尔科夫模型的参数包括:转移概率aij,发射概率P(xm|ys)和初始概率π,利用前后项算法计算更新qms;
3-5)更新转移概率aij;
定义说话人s转移到自身的概率为一个常数const,0.8<const<1,则:
aii=const
3-6)判断迭代是否收敛;
如果是第一次迭代,则直接判断不收敛,重新返回步骤3-2)进行下一次迭代;如果不是第一次迭代,则将本次迭代中,由步骤3-2-3)得到的说话人因子ys的均值ωs记为将上一次迭代中,由步骤3-2-3)得到的说话人因子ys的均值ωs记为计算两次迭代中说话人因子均值的相对改变量,表达式如下:
如果相对改变量大于设定阈值,则判断基于软判决的变分贝叶斯隐马尔科夫系统不收敛,重新进行步骤3-2)至3-6)进行下一次迭代;如果相对改变量小于等于设定阈值,则判断基于软判决的变分贝叶斯隐马尔科夫系统收敛,迭代完成,片段xm所属的说话人通过计算arg maxs qms给出,说话人标记结束。
本发明的特点及有益效果在于:
本发明提出了一种说话人标记方法,基于Ivec-PLDA-AHC和VB-HMM两种方法,相比于传统的Ivec-PLDA-AHC方法,本发明中采用概率的方法进行片段到说话人的归类,属于软判决而不是硬判决,避免了因为前期分类错误而导致后面错误放大的可能。与传统VB-HMM说话人标记方法相比,利用Ivec-PLDA-AHC说话人标记结果,为VB-HMM方法提供一个稳健的初始值。本发明的方法,解决了VB-HMM说话人标记方法对初值敏感的问题,可提高系统的稳健性,提高说话人标记的准确率。
附图说明
图1是本发明方法的整体流程图。
图2是本发明方法的HMM模型示意图。
图3是本发明实施例中的HMM模型示意图。
图4是本发明中说话人因子更新流程图。
具体实施方式
本发明提出的一种说话人标记方法,下面结合附图和具体实施例进一步详细说明。
本发明提出的一种说话人标记方法,分为Ivec-PLDA-AHC说话人标记阶段,先验概率初始化阶段和VB-HMM说话人标记阶段三个阶段。本实施例所用待测(待标记)语音数据的说话人个数S=2。本方法整体流程如图1所示,该方法包括以下步骤:
1)Ivec-PLDA-AHC说话人标记阶段;具体步骤如下:
1-1)获取一条待测语音数据X,待测语音数据中总共的说话人个数S已知(S≥2)。待测语音数据需要有多人对话,可以是电话语音、会议语音、广播新闻语音,数据来源可以自己录制,也可以直接从NIST RT 09中选择一条(待测语音数据的长短无特殊要求。本实施例中,采用自己用手机录制的多人会议语音,总共的说话人S=2。
1-2)对待测语音数据X提取维数F=40的感知线性预测(Perceptual linearpredictive,PLP)特征,并进行活动语音检测,将待测语音数据中的静音段删除。
1-3)将去除静音段后的待测语音数据X均匀分割成长度固定为1s的短片段x1,…,xm…,xM。其中M是片段总数。每个片段xm由(xm1,…,xmt,…,xmN)组成,其中N表示每个片段的总帧数,xmt表示片段xm的第t帧的40×1维的特征。
1-4)对于每个片段xm,提取该片段相应的i-vector记为ω′m,表达式如下:
μm=μubm+T′m
其中μm是根据xm计算得到的均值超向量,μubm为通用背景模型(UBM)(UBM模型是高斯混合模型(GMM),通过大量不同说话人的语音,用GMM模型的训练方法得到,是说话人识别领域中常用的模型)的均值超向量,UBM的高斯总个数为C=512,说话人因子维数为D=300,T为CF×D=512*40×300维的总体变化子空间矩阵。F=40是PLP特征的维数。
1-5)用PLDA对步骤1-4)得到的任意两个i-vector进行打分,得到所有片段i-vector两两之间的距离;具体步骤如下:
1-5-1)每个片段的i-vectorω′m,可以由简化的PLDA模型产生,表达式如下:
ω′m=μ+Φpm+εm
1-5-2)通过计算对数似然比,求得任意两个i-vectorω′i和ω′j之间的相似度:
其中θlar表示ω′i和ω′j来自同一个说话人,θnon表示ω′i和ω′j来自不同的说话人;
1-5-3)通过步骤1-5-2)得到的对数似然比R(ω′i,ω′j),计算ω′i和ω′j之间的距离为:
1-6)对所有片段i-vector两两之间的距离进行AHC聚类;具体步骤如下:
1-6-1)将每个片段的i-vector当作一个独立的类,共得到M个类;
1-6-2)将所有距离dij中最小值对应的两个片段的i-vector的类聚在一起,合并成一个新类。
1-6-3)计算步骤1-6-2)得到的新类中所有i-vector的均值,用该均值表示新类的i-vector,然后重复步骤1-5-2)和1-5-3),分别计算该新类的i-vector到其他每个类的的i-vector的距离;
1-6-4)判断类的个数是否等于说话人个数S:如果不相等,则重新返回步骤1-6-2);如果相等,则AHC聚类结束。
第1阶段Ivec-PLDA-AHC是一个独立的说话人标记系统,该阶段最终的结果就是将所有片段聚成S个类。最后聚成S个类就代表S个说话人,每个类代表一个说话人,把这S个类随机编号为1,2,..s,..S。如果片段xm属于类s,那么xm就属于说话人s,即xm∈s。我们利用这个结果给VB-HMM系统需要用到的qms设置初值,也就是第2阶段的先验。
2)先验概率初始化阶段;
本发明中,我们提出两种先验计算方法,硬先验和软先验。
2-1)硬先验计算:根据步骤1)的结果,如果片段xm被归类为说话人s,即xm∈s,我们就赋予qms(片段m属于说话人s的先验概率)一个较大的概率值q(0.5<q<1,本实施例中q=0.7),即:
其中I(·)为指示函数,q为概率值,S为待测语音数据中总共的说话人个数
2-2)软先验计算:根据Ivec-PLDA-AHC聚类得到的S(本实施例中S=2)个类(每个类代表一个说话人),计算每个说话人s的中心点,表达式如下:
其中xm∈s表示片段xm被归类为说话人s,I(·)为指示函数。
如果片段xm被Ivec-PLDA-AHC归类为说话人s,则片段xm距离中心点的距离为:
dms=||ω′m-centers||2
将片段xm属于说话人s的先验qms定义为:
3)VB-HMM说话人标记阶段;具体步骤如下:
3-1)HMM模型初始化;
本发明的隐马尔科夫模型(HMM)示意图如图2所示。图2中,每个状态代表一个说话人,状态数等于说话人的总个数S;转移概率为aij,初始值为(本实施例为),表示从说话人i转移到说话人j的概率;发射概率P(xm|ys),初始值为(本实施例为),表示给定一个说话人因子ys,片段xm产生的概率。说话人与说话人之间的连线表示线前端的说话人可以以一定的概率(即转移概率)转移到线末端(带箭头)的说话人。说话人与片段之间的连线表示该说话人可以以一定的概率(即发射概率)产生该片段。HMM模型的初始概率(初始时刻位于每个状态的概率)
3-2)更新说话人因子ys;流程如图4所示,具体步骤如下:
3-2-1)提取每个片段xm的Baum-Welch统计量,表达式如下:
其中分别表示片段xm对应第c个高斯的零阶、一阶、二阶统计量;μubm,c(c=1,…,512)是UBM模型均值超向量μubm中对应第c个高斯的子向量;γml(c)是xmt属于第c个高斯的后验概率,diag表示对角化。
3-2-2)提取每个说话人的Baum-Welch统计量;
其中∑是维数为CF×CF的协方差矩阵,对角块为{∑1,…,∑C},∑c为UBM模型第c个高斯的协方差矩阵。
3-3)更新发射概率P(xm|ys):
lnP(xm|ys)=Gm+Hms
其中,
3-4)根据HMM的参数包括:转移概率aij,发射概率P(xm|ys)和初始概率π,利用前后项算法计算更新qms;
3-5)更新转移概率aij。由于每个片段都很短,说话人s转移到自身的概率会比转移到别人的概率大,定义说话人s转移到自身的概率为一个常数const(0.8<const<1),所以:
aii=const
本实施例中,说话人个数S=2,取const=0.998,所以转移概率为:
a11=a22=const=0.998
3-6)判断是否收敛。如果是第一次迭代,则直接判断不收敛,重新返回步骤3-2)至3-6)进行下一次迭代。如果不是第一次迭代,则将本次迭代中,由步骤3-2-3)得到的说话人因子ys的均值ωs记为将上一次迭代中,由步骤3-2-3)得到的说话人因子ys的均值ωs记为计算两次迭代中说话人因子均值的相对改变量,表达式如下:
如果相对改变量大于设定阈值(阈值的取值范围为5%至10%,本实施例中采用
7%),则判断VB-HMM系统不收敛,重新进行步骤3-2)至3-6)进行下一次迭代;如果相对改变量小于等于设定阈值,则判断VB-HMM系统收敛,迭代完成,片段xm所属的说话人通过计算arg maxs qms给出,说话人标记结束。
第3阶段的VB-HMM说话人标记方法就是个迭代的过程,见图1的第3阶段。判断是否收敛,如果不收敛则进行下一次迭代,每次迭代全过程即进行步骤3-2)至3-6)。
本发明所述方法,本领域普通技术人员可以理解为,上述说话人识别的方法可以通过程序来完成的,所述的程序可以存储于一种计算机可读存储介质中。
以上所述的仅为本发明的一个具体实施例而已,显然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。
Claims (1)
1.一种说话人标记方法,其特征在于,分为i-vector概率线性鉴别分析凝聚层次聚类说话人标记阶段、先验概率初始化阶段和基于软判决的变分贝叶斯隐马尔科夫说话人标记阶段三个阶段,该方法包括以下步骤:
1)i-vector概率线性鉴别分析凝聚层次聚类说话人标记阶段;具体步骤如下:
1-1)获取一条待测语音数据X,待测语音数据中总共的说话人个数S已知,S≥2;
1-2)对待测语音数据X提取维数F=40的感知线性预测特征,并进行活动语音检测,将待测语音数据中的静音段删除;
1-3)将去除静音段后的待测语音数据X均匀分割成长度固定为1s的片段记为x1,…xm…,xM;其中M代表片段总数;每个片段xm包含N帧,xmt表示片段xm的第t帧的特征,t=1…N;
1-4)对于每个片段xm,提取该片段相应的i-vector记为w′m,表达式如下:
μm=μubm+Tω′m
其中,μm是根据xm计算得到的均值超向量,μubm为通用背景模型的均值超向量,通用背景模型的高斯总个数为C=512,说话人因子维数为D=300,T为CF×D=512*40×300维的总体变化子空间矩阵;
1-5)利用概率线性鉴别分析对步骤1-4)得到的任意两个i-vector进行打分,得到所有片段i-vector两两之间的距离;具体步骤如下:
1-5-1)每个片段的i-vectorw′m表达式如下:
w′m=μ+Φpm+εm
1-5-2)通过计算对数似然比,求得任意两个i-vectorw′i和w′j之间的相似度:
其中θtar表示w′i和w′j来自同一个说话人,θnon表示w′i和w′j来自不同的说话人;
1-5-3)通过步骤1-5-2)得到的对数似然比R(ω′i,ω′j),计算w′i和w′j之间的距离为:
1-6)对所有片段i-vector两两之间的距离进行凝聚层次聚类;具体步骤如下:
1-6-1)将每个片段的i-vector当作一个独立的类,共得到M个类;
1-6-2)将所有距离dij中最小值对应的两个片段的i-vector的类聚在一起,合并成一个新类;
1-6-3)计算步骤1-6-2)得到的新类中所有i-vector的均值,用该均值表示新类的i-vector,然后重复步骤1-5-2)和1-5-3),分别计算该新类的i-vector到其他每个类的的i-vector的距离;
1-6-4)判断类的个数是否等于说话人个数S:如果不相等,则重新返回步骤1-6-2);如果相等,则凝聚层次聚类结束,最后聚成S个类代表S个说话人,每个类代表一个说话人,将S个类随机编号为1,2,..s,..S,如果片段xm属于类s,那么xm就属于说话人s,即xm∈s;
2)先验概率初始化阶段;分为硬先验计算和软先验计算两种方法,具体如下:
2-1)硬先验计算;
根据步骤1)的结果,如果xm∈s,则赋予片段m属于说话人s的先验概率qms的概率值为q,0.5<q<1,即:
其中I(·)为指示函数;
2-2)软先验计算;
根据步骤1)聚类得到的S个类,计算每个说话人s的中心点,表达式如下:
如果片段xm∈s,则片段xm距离中心点的距离为:
dms=||w′m-centers||2
将片段xm属于说话人s的先验概率qms定义为:
而片段xm属于说话人其他说话人的先验概率为:
3)基于软判决的变分贝叶斯隐马尔科夫说话人标记阶段;具体步骤如下:
3-1)隐马尔科夫模型初始化;
隐马尔科夫模型中,每个状态代表一个说话人,状态数等于说话人的总个数S;转移概率为aij,初始值为表示从说话人i转移到说话人j的概率;发射概率P(xm|ys),初始值为表示给定一个说话人因子ys,片段xm产生的概率;隐马尔科夫模型的初始概率,即初始时刻位于每个状态的概率
3-2)更新说话人因子ys;具体步骤如下:
3-2-1)提取每个片段xm的Baum-Welch统计量,表达式如下:
γmt(c)是xmt属于第c个高斯的后验概率,diag表示对角化;
3-2-2)提取每个说话人的Baum-Welch统计量;
说话人s的Baum-Welch统计量表达式为:
其中,∑是维数为CF×CF的协方差矩阵,对角块为{∑1,…,∑C},∑c为通用背景模型第c个高斯的协方差矩阵;
3-3)更新发射概率P(xm|ys):
lnP(xm|ys)=Gm+Hms
其中,
3-4)根据隐马尔科夫模型的参数包括:转移概率aij,发射概率P(xm|ys)和初始概率π,利用前后项算法计算更新qms;
3-5)更新转移概率aij;
定义说话人s转移到自身的概率为一个常数const,0.8<const<1,则:
aii=const
3-6)判断迭代是否收敛;
如果是第一次迭代,则直接判断不收敛,重新返回步骤3-2)进行下一次迭代;如果不是第一次迭代,则将本次迭代中,由步骤3-2-3)得到的说话人因子ys的均值ws记为将上一次迭代中,由步骤3-2-3)得到的说话人因子ys的均值ws记为计算两次迭代中说话人因子均值的相对改变量,表达式如下:
如果相对改变量大于设定阈值,则判断基于软判决的变分贝叶斯隐马尔科夫系统不收敛,重新进行步骤3-2)至3-6)进行下一次迭代;如果相对改变量小于等于设定阈值,则判断基于软判决的变分贝叶斯隐马尔科夫系统收敛,迭代完成,片段xm所属的说话人通过计算arg maxsqms给出,说话人标记结束。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710817534.7A CN107452403B (zh) | 2017-09-12 | 2017-09-12 | 一种说话人标记方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710817534.7A CN107452403B (zh) | 2017-09-12 | 2017-09-12 | 一种说话人标记方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107452403A CN107452403A (zh) | 2017-12-08 |
CN107452403B true CN107452403B (zh) | 2020-07-07 |
Family
ID=60495273
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710817534.7A Active CN107452403B (zh) | 2017-09-12 | 2017-09-12 | 一种说话人标记方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107452403B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108417226A (zh) * | 2018-01-09 | 2018-08-17 | 平安科技(深圳)有限公司 | 语音对比方法、终端及计算机可读存储介质 |
CN109360572B (zh) * | 2018-11-13 | 2022-03-11 | 平安科技(深圳)有限公司 | 通话分离方法、装置、计算机设备及存储介质 |
CN110148417B (zh) * | 2019-05-24 | 2021-03-23 | 哈尔滨工业大学 | 基于总变化空间与分类器联合优化的说话人身份识别方法 |
CN114970695B (zh) * | 2022-01-06 | 2024-03-22 | 西北工业大学深圳研究院 | 一种基于非参贝叶斯模型的说话人分割聚类方法 |
CN114550728B (zh) * | 2022-02-15 | 2024-03-01 | 北京有竹居网络技术有限公司 | 用于标记说话人的方法、装置和电子设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103219008A (zh) * | 2013-05-16 | 2013-07-24 | 清华大学 | 基于基状态矢量加权的短语音说话人识别方法 |
CN104732978A (zh) * | 2015-03-12 | 2015-06-24 | 上海交通大学 | 基于联合深度学习的文本相关的说话人识别方法 |
CN105469784A (zh) * | 2014-09-10 | 2016-04-06 | 中国科学院声学研究所 | 概率线性鉴别分析模型生成方法和说话人聚类方法及系统 |
CN105845141A (zh) * | 2016-03-23 | 2016-08-10 | 广州势必可赢网络科技有限公司 | 基于信道鲁棒的说话人确认模型及说话人确认方法和装置 |
CN106971713A (zh) * | 2017-01-18 | 2017-07-21 | 清华大学 | 基于密度峰值聚类和变分贝叶斯的说话人标记方法与系统 |
CN107146601A (zh) * | 2017-04-07 | 2017-09-08 | 南京邮电大学 | 一种用于说话人识别系统的后端i‑vector增强方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TW477964B (en) * | 1998-04-22 | 2002-03-01 | Ibm | Speech recognizer for specific domains or dialects |
US20030236663A1 (en) * | 2002-06-19 | 2003-12-25 | Koninklijke Philips Electronics N.V. | Mega speaker identification (ID) system and corresponding methods therefor |
CN103377651B (zh) * | 2012-04-28 | 2015-12-16 | 北京三星通信技术研究有限公司 | 语音自动合成装置及方法 |
CN103236260B (zh) * | 2013-03-29 | 2015-08-12 | 京东方科技集团股份有限公司 | 语音识别系统 |
US9514753B2 (en) * | 2013-11-04 | 2016-12-06 | Google Inc. | Speaker identification using hash-based indexing |
-
2017
- 2017-09-12 CN CN201710817534.7A patent/CN107452403B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103219008A (zh) * | 2013-05-16 | 2013-07-24 | 清华大学 | 基于基状态矢量加权的短语音说话人识别方法 |
CN105469784A (zh) * | 2014-09-10 | 2016-04-06 | 中国科学院声学研究所 | 概率线性鉴别分析模型生成方法和说话人聚类方法及系统 |
CN104732978A (zh) * | 2015-03-12 | 2015-06-24 | 上海交通大学 | 基于联合深度学习的文本相关的说话人识别方法 |
CN105845141A (zh) * | 2016-03-23 | 2016-08-10 | 广州势必可赢网络科技有限公司 | 基于信道鲁棒的说话人确认模型及说话人确认方法和装置 |
CN106971713A (zh) * | 2017-01-18 | 2017-07-21 | 清华大学 | 基于密度峰值聚类和变分贝叶斯的说话人标记方法与系统 |
CN107146601A (zh) * | 2017-04-07 | 2017-09-08 | 南京邮电大学 | 一种用于说话人识别系统的后端i‑vector增强方法 |
Non-Patent Citations (6)
Title |
---|
《Normalization of total variability matrix for i-vector/PLDA speaker verification》;Wei Rao et al.;《2015 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)》;20150806;全文 * |
《Scalable I-vector concatenation for PLDA based language identification system》;Saad Irtra et al.;《IEEE 2015 Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA)》;20160225;全文 * |
《Sentence-HMM state-based i-vector/PLDA modelling for improved performance in text dependent single utterance speaker verification》;Osman Büyük et al.;《IEEE》;20161031;全文 * |
《基于核函数的IVEC-SVM说话人识别系统研究》;栗志意等;《自动化学报》;20140430;第40卷(第4期);全文 * |
《基于深度神经网络和Bottleneck特征的说话人识别系统》;田垚等;《清华大学学报(自然科学版)》;20161115;第56卷(第11期);全文 * |
《基于鉴别性i-vector局部距离保持映射的说话人识别》;栗志意等;《清华大学学报(自然科学版)》;20120515;第52卷(第5期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN107452403A (zh) | 2017-12-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107452403B (zh) | 一种说话人标记方法 | |
Sell et al. | Diarization is Hard: Some Experiences and Lessons Learned for the JHU Team in the Inaugural DIHARD Challenge. | |
US11636860B2 (en) | Word-level blind diarization of recorded calls with arbitrary number of speakers | |
US10109280B2 (en) | Blind diarization of recorded calls with arbitrary number of speakers | |
Shum et al. | Exploiting intra-conversation variability for speaker diarization | |
Shum et al. | Unsupervised methods for speaker diarization: An integrated and iterative approach | |
CN112204657A (zh) | 利用提前停止聚类的讲话者分离 | |
Tong et al. | A comparative study of robustness of deep learning approaches for VAD | |
Huang et al. | An investigation of augmenting speaker representations to improve speaker normalisation for dnn-based speech recognition | |
WO2014029099A1 (en) | I-vector based clustering training data in speech recognition | |
Reynolds et al. | A study of new approaches to speaker diarization. | |
CN111524527A (zh) | 话者分离方法、装置、电子设备和存储介质 | |
Sun et al. | Speaker diarization system for RT07 and RT09 meeting room audio | |
CN103793447A (zh) | 音乐与图像间语义相识度的估计方法和估计系统 | |
Singh et al. | LEAP diarization system for the second DIHARD challenge | |
KR102406512B1 (ko) | 음성인식 방법 및 그 장치 | |
Soldi et al. | Adaptive and online speaker diarization for meeting data | |
Cord-Landwehr et al. | Frame-wise and overlap-robust speaker embeddings for meeting diarization | |
Viñals et al. | ViVoLAB Speaker Diarization System for the DIHARD 2019 Challenge. | |
CN107507627B (zh) | 语音数据热度分析方法及系统 | |
Vaquero et al. | Confidence measures for speaker segmentation and their relation to speaker verification. | |
CN110875044B (zh) | 一种基于字相关得分计算的说话人识别方法 | |
Le Lan et al. | Speaker diarization with unsupervised training framework | |
CN114547264A (zh) | 一种基于马氏距离和对比学习的新意图数据识别方法 | |
Mathur et al. | Unsupervised domain adaptation under label space mismatch for speech classification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |