CN107452403B - 一种说话人标记方法 - Google Patents

一种说话人标记方法 Download PDF

Info

Publication number
CN107452403B
CN107452403B CN201710817534.7A CN201710817534A CN107452403B CN 107452403 B CN107452403 B CN 107452403B CN 201710817534 A CN201710817534 A CN 201710817534A CN 107452403 B CN107452403 B CN 107452403B
Authority
CN
China
Prior art keywords
speaker
probability
fragment
vector
segments
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710817534.7A
Other languages
English (en)
Other versions
CN107452403A (zh
Inventor
陈仙红
何亮
徐灿
刘加
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN201710817534.7A priority Critical patent/CN107452403B/zh
Publication of CN107452403A publication Critical patent/CN107452403A/zh
Application granted granted Critical
Publication of CN107452403B publication Critical patent/CN107452403B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出一种说话人标记方法,属于声纹识别、模式识别与机器学习技术领域。本方法包括三个阶段:在第一阶段,通过i‑vector概率线性鉴别分析凝聚层次聚类方法将待测语音数据分为长度相等的片段,然后将片段聚为与说话人总数相等的类;在第二阶段,利用第一阶段的聚类结果,得到片段属于说话人的先验概率;在第三阶段,通过基于软判决的变分贝叶斯隐马尔科夫方法进行迭代,当系统收敛时,计算片段所属的说话人,说话人标记结束。本发明结合了两种说话人标记方法的优点,可有效地提高说话人标记的准确率。

Description

一种说话人标记方法
技术领域
本发明属于声纹识别、模式识别与机器学习技术领域,特别地涉及一种基于Ivec-PLDA-AHC和VB-HMM的说话人标记方法。
背景技术
说话人标记就是对一段多人说话的语音进行处理,把同一个说话人的语音片段聚到一起,也就是标记谁在什么时候说话。说话人标记的意义在于,应用到电话会议、国际会议中时,可以作为会议记录的资料被保存,同时对说话人的准确识别也自然会有助于后续的语音处理与语义识别。另外,在监控领域,说话人标记可以对被监控对象的声音语言进行记录,应用至公安领域或是军事领域,对保卫治安乃至国家安全都有所贡献。
现有的说话人标记常用的方法是I vector概率线性鉴别分析凝聚层次聚类方法(ivector-probabilistic linear discriminant analysis-agglomerativehierarchical clustering(Ivec-PLDA-AHC))。该方法将语音分割成均匀的,长度相等的短片段。由于片段足够短,可认为每个片段只含一个说话人。Ivec-PLDA-AHC方法首先将每个片段当成一类,为每个片段提取一个i-vector(说话人识别中常用的特征向量),利用PLDA打分计算i-vector两两之间的距离,然后将距离最近的两个类聚到一起,形成新的类。重复这一过程直到类别数等于说话人个数,说话人标记结束。
Ivec-PLDA-AHC说话人标记方法的缺点是没有考虑片段与片段之间的时序信息,最终标记结果可能会出现短时间内说话人频繁跳变的现象。除此之外,该方法迭代过程将距离最近的两个类强制聚到一起,属于硬判决,迭代过程出现的错误不能在后续进行更改,而且可能导致一步错步步错。
为了解决这个问题,学者们引入了基于软判决的变分贝叶斯隐马尔科夫(variational Bayes hidden Markov model(VB-HMM))方法。VB-HMM方法将片段是否属于说话人用一个概率表示,而不是像Ivec-PLDA-AHC方法用绝对的是或不是。VB-HMM方法首先随机初始化每个片段属于说话人的概率和HMM模型,然后迭代更新说话人因子,发射概率,片段属于说话人的概率,转移概率,直到收敛输出结果。但是这个系统对初始化很敏感,特别是当待测语音中某个说话人占主导地位,而其余说话人说的语音很少时,VB-HMM方法很容易将待测语音均匀地分配到每个说话人,导致标记结果很差。
发明内容
本发明的目的是为克服传统VB-HMM说话人标记方法对系统初始化敏感的问题,提出了一种说话人标记方法。本发明结合了Ivec-PLDA-AHC和VB-HMM说话人标记方法的优点,通过Ivec-PLDA-AHC说话人标记方法,为VB-HMM方法提供一个稳健的初始值,可有效地提高说话人标记的准确率。
本发明提出的一种说话人标记方法,其特征在于,分为i-vector概率线性鉴别分析凝聚层次聚类说话人标记阶段、先验概率初始化阶段和基于软判决的变分贝叶斯隐马尔科夫说话人标记阶段三个阶段,该方法包括以下步骤:
1)i-vector概率线性鉴别分析凝聚层次聚类说话人标记阶段;具体步骤如下:
1-1)获取一条待测语音数据X,待测语音数据中总共的说话人个数S已知,S≥2;
1-2)对待测语音数据X提取维数F=40的感知线性预测特征,并进行活动语音检测,将待测语音数据中的静音段删除;
1-3)将去除静音段后的待测语音数据X均匀分割成长度固定为1s的片段记为x1,…xm…,xM;其中M代表片段总数;每个片段xm包含N帧,xmt表示片段xm的第t帧的特征,t=1…N;
1-4)对于每个片段xm,提取该片段相应的i-vector记为ω′m,表达式如下:
μm=μubm+Tω′m
其中,μm是根据xm计算得到的均值超向量,μubm为通用背景模型的均值超向量,通用背景模型的高斯总个数为C=512,说话人因子维数为D=300,T为CF×D=512*40×300维的总体变化子空间矩阵;
1-5)利用概率线性鉴别分析对步骤1-4)得到的任意两个i-vector进行打分,得到所有片段i-vector两两之间的距离;具体步骤如下:
1-5-1)每个片段的i-vectorω′m表达式如下:
ω′m=μ+Φpmm
其中μ是所有片段i-vector的均值,
Figure BDA0001405445590000021
Φ是维度为300×150的说话人子空间,pm是服从标准正态分布的隐变量,
Figure BDA0001405445590000022
是噪声;
1-5-2)通过计算对数似然比,求得任意两个i-vectorω′i和ω′j之间的相似度:
Figure BDA0001405445590000023
其中θtar表示ω′i和ω′j来自同一个说话人,θnon表示ω′i和ω′j来自不同的说话人;
Figure BDA0001405445590000024
Figure BDA0001405445590000031
1-5-3)通过步骤1-5-2)得到的对数似然比R(ω′i,ω′j),计算ω′i和ω′j之间的距离为:
Figure BDA0001405445590000032
1-6)对所有片段i-vector两两之间的距离进行凝聚层次聚类;具体步骤如下:
1-6-1)将每个片段的i-vector当作一个独立的类,共得到M个类;
1-6-2)将所有距离dij中最小值对应的两个片段的i-vector的类聚在一起,合并成一个新类;
1-6-3)计算步骤1-6-2)得到的新类中所有i-vector的均值,用该均值表示新类的i-vector,然后重复步骤1-5-2)和1-5-3),分别计算该新类的i-vector到其他每个类的的i-vector的距离;
1-6-4)判断类的个数是否等于说话人个数S:如果不相等,则重新返回步骤1-6-2);如果相等,则凝聚层次聚类结束,最后聚成S个类代表S个说话人,每个类代表一个说话人,将S个类随机编号为1,2,..s,..S,如果片段xm属于类s,那么xm就属于说话人s,即xm∈s;
2)先验概率初始化阶段;分为硬先验计算和软先验计算两种方法,具体如下:
2-1)硬先验计算;
根据步骤1)的结果,如果xm∈s,则赋予片段m属于说话人s的先验概率qms的概率值为q,0.5<q<1,即:
Figure BDA0001405445590000033
其中I(·)为指示函数;
2-2)软先验计算;
根据步骤1)聚类得到的S个类,计算每个说话人s的中心点,表达式如下:
Figure BDA0001405445590000034
如果片段xm∈s,则片段xm距离中心点的距离为:
dms=||ω′m-centers||2
将片段xm属于说话人s的先验概率qms定义为:
Figure BDA0001405445590000035
其中
Figure BDA0001405445590000036
k>0;
而片段xm属于说话人其他说话人的先验概率为:
Figure BDA0001405445590000041
3)基于软判决的变分贝叶斯隐马尔科夫说话人标记阶段;具体步骤如下:
3-1)隐马尔科夫模型初始化;
隐马尔科夫模型中,每个状态代表一个说话人,状态数等于说话人的总个数S;转移概率为aij,初始值为
Figure BDA0001405445590000042
表示从说话人i转移到说话人j的概率;发射概率P(xm|ys),初始值为
Figure BDA0001405445590000043
表示给定一个说话人因子ys,片段xm产生的概率;隐马尔科夫模型的初始概率,即初始时刻位于每个状态的概率
Figure BDA0001405445590000044
3-2)更新说话人因子ys;具体步骤如下:
3-2-1)提取每个片段xm的Baum-Welch统计量,表达式如下:
Figure BDA0001405445590000045
Figure BDA0001405445590000046
Figure BDA0001405445590000047
其中
Figure BDA0001405445590000048
分别表示片段xm对应第c个高斯的零阶、一阶、二阶统计量;μubm,c,c=1,…,512,是通用背景模型均值超向量μubm中对应第c个高斯的子向量;γml(c)是xmt属于第c个高斯的后验概率,diag表示对角化;
3-2-2)提取每个说话人的Baum-Welch统计量;
Figure BDA0001405445590000049
为对角块是
Figure BDA00014054455900000410
的CF×CF矩阵;
Figure BDA00014054455900000411
为由
Figure BDA00014054455900000412
连接而成的CF×1超向量;
Figure BDA00014054455900000413
为对角块是
Figure BDA00014054455900000414
的CF×CF矩阵;
说话人s的Baum-Welch统计量表达式为:
Figure BDA00014054455900000415
Figure BDA00014054455900000416
3-2-3)计算说话人因子ys的均值ωs和方差
Figure BDA00014054455900000417
为:
Figure BDA00014054455900000418
Figure BDA00014054455900000419
其中,∑是维数为CF×CF的协方差矩阵,对角块为{∑1,…,∑C],∑c为通用背景模型第c个高斯的协方差矩阵;
3-3)更新发射概率P(xm|ys):
lnP(xm|ys)=Gm+Hms
其中,
Figure BDA0001405445590000051
Figure BDA0001405445590000052
3-4)根据隐马尔科夫模型的参数包括:转移概率aij,发射概率P(xm|ys)和初始概率π,利用前后项算法计算更新qms
3-5)更新转移概率aij
定义说话人s转移到自身的概率为一个常数const,0.8<const<1,则:
aii=const
Figure BDA0001405445590000053
其中,
Figure BDA0001405445590000054
表示说话人s总共的说话片段数;
3-6)判断迭代是否收敛;
如果是第一次迭代,则直接判断不收敛,重新返回步骤3-2)进行下一次迭代;如果不是第一次迭代,则将本次迭代中,由步骤3-2-3)得到的说话人因子ys的均值ωs记为
Figure BDA0001405445590000055
将上一次迭代中,由步骤3-2-3)得到的说话人因子ys的均值ωs记为
Figure BDA0001405445590000056
计算两次迭代中说话人因子均值的相对改变量,表达式如下:
Figure BDA0001405445590000057
如果相对改变量大于设定阈值,则判断基于软判决的变分贝叶斯隐马尔科夫系统不收敛,重新进行步骤3-2)至3-6)进行下一次迭代;如果相对改变量小于等于设定阈值,则判断基于软判决的变分贝叶斯隐马尔科夫系统收敛,迭代完成,片段xm所属的说话人通过计算arg maxs qms给出,说话人标记结束。
本发明的特点及有益效果在于:
本发明提出了一种说话人标记方法,基于Ivec-PLDA-AHC和VB-HMM两种方法,相比于传统的Ivec-PLDA-AHC方法,本发明中采用概率的方法进行片段到说话人的归类,属于软判决而不是硬判决,避免了因为前期分类错误而导致后面错误放大的可能。与传统VB-HMM说话人标记方法相比,利用Ivec-PLDA-AHC说话人标记结果,为VB-HMM方法提供一个稳健的初始值。本发明的方法,解决了VB-HMM说话人标记方法对初值敏感的问题,可提高系统的稳健性,提高说话人标记的准确率。
附图说明
图1是本发明方法的整体流程图。
图2是本发明方法的HMM模型示意图。
图3是本发明实施例中的HMM模型示意图。
图4是本发明中说话人因子更新流程图。
具体实施方式
本发明提出的一种说话人标记方法,下面结合附图和具体实施例进一步详细说明。
本发明提出的一种说话人标记方法,分为Ivec-PLDA-AHC说话人标记阶段,先验概率初始化阶段和VB-HMM说话人标记阶段三个阶段。本实施例所用待测(待标记)语音数据的说话人个数S=2。本方法整体流程如图1所示,该方法包括以下步骤:
1)Ivec-PLDA-AHC说话人标记阶段;具体步骤如下:
1-1)获取一条待测语音数据X,待测语音数据中总共的说话人个数S已知(S≥2)。待测语音数据需要有多人对话,可以是电话语音、会议语音、广播新闻语音,数据来源可以自己录制,也可以直接从NIST RT 09中选择一条(待测语音数据的长短无特殊要求。本实施例中,采用自己用手机录制的多人会议语音,总共的说话人S=2。
1-2)对待测语音数据X提取维数F=40的感知线性预测(Perceptual linearpredictive,PLP)特征,并进行活动语音检测,将待测语音数据中的静音段删除。
1-3)将去除静音段后的待测语音数据X均匀分割成长度固定为1s的短片段x1,…,xm…,xM。其中M是片段总数。每个片段xm由(xm1,…,xmt,…,xmN)组成,其中N表示每个片段的总帧数,xmt表示片段xm的第t帧的40×1维的特征。
1-4)对于每个片段xm,提取该片段相应的i-vector记为ω′m,表达式如下:
μm=μubm+T′m
其中μm是根据xm计算得到的均值超向量,μubm为通用背景模型(UBM)(UBM模型是高斯混合模型(GMM),通过大量不同说话人的语音,用GMM模型的训练方法得到,是说话人识别领域中常用的模型)的均值超向量,UBM的高斯总个数为C=512,说话人因子维数为D=300,T为CF×D=512*40×300维的总体变化子空间矩阵。F=40是PLP特征的维数。
1-5)用PLDA对步骤1-4)得到的任意两个i-vector进行打分,得到所有片段i-vector两两之间的距离;具体步骤如下:
1-5-1)每个片段的i-vectorω′m,可以由简化的PLDA模型产生,表达式如下:
ω′m=μ+Φpmm
其中μ是所有片段i-vector的均值,
Figure BDA0001405445590000071
Φ是维度为300×150的说话人子空间,pm是服从标准正态分布的隐变量,
Figure BDA0001405445590000072
是噪声(εm表示噪声的模型,∑′ε的下标ε表示这个方差是εm的)。
1-5-2)通过计算对数似然比,求得任意两个i-vectorω′i和ω′j之间的相似度:
Figure BDA0001405445590000073
其中θlar表示ω′i和ω′j来自同一个说话人,θnon表示ω′i和ω′j来自不同的说话人;
Figure BDA0001405445590000074
Figure BDA0001405445590000075
1-5-3)通过步骤1-5-2)得到的对数似然比R(ω′i,ω′j),计算ω′i和ω′j之间的距离为:
Figure BDA0001405445590000076
1-6)对所有片段i-vector两两之间的距离进行AHC聚类;具体步骤如下:
1-6-1)将每个片段的i-vector当作一个独立的类,共得到M个类;
1-6-2)将所有距离dij中最小值对应的两个片段的i-vector的类聚在一起,合并成一个新类。
1-6-3)计算步骤1-6-2)得到的新类中所有i-vector的均值,用该均值表示新类的i-vector,然后重复步骤1-5-2)和1-5-3),分别计算该新类的i-vector到其他每个类的的i-vector的距离;
1-6-4)判断类的个数是否等于说话人个数S:如果不相等,则重新返回步骤1-6-2);如果相等,则AHC聚类结束。
第1阶段Ivec-PLDA-AHC是一个独立的说话人标记系统,该阶段最终的结果就是将所有片段聚成S个类。最后聚成S个类就代表S个说话人,每个类代表一个说话人,把这S个类随机编号为1,2,..s,..S。如果片段xm属于类s,那么xm就属于说话人s,即xm∈s。我们利用这个结果给VB-HMM系统需要用到的qms设置初值,也就是第2阶段的先验。
2)先验概率初始化阶段;
本发明中,我们提出两种先验计算方法,硬先验和软先验。
2-1)硬先验计算:根据步骤1)的结果,如果片段xm被归类为说话人s,即xm∈s,我们就赋予qms(片段m属于说话人s的先验概率)一个较大的概率值q(0.5<q<1,本实施例中q=0.7),即:
Figure BDA0001405445590000081
其中I(·)为指示函数,q为概率值,S为待测语音数据中总共的说话人个数
2-2)软先验计算:根据Ivec-PLDA-AHC聚类得到的S(本实施例中S=2)个类(每个类代表一个说话人),计算每个说话人s的中心点,表达式如下:
Figure BDA0001405445590000082
其中xm∈s表示片段xm被归类为说话人s,I(·)为指示函数。
如果片段xm被Ivec-PLDA-AHC归类为说话人s,则片段xm距离中心点的距离为:
dms=||ω′m-centers||2
将片段xm属于说话人s的先验qms定义为:
Figure BDA0001405445590000083
其中
Figure BDA0001405445590000084
k>0(本实施例中k取值为10)。而片段xm属于说话人其他说话人的先验概率为:
Figure BDA0001405445590000085
3)VB-HMM说话人标记阶段;具体步骤如下:
3-1)HMM模型初始化;
本发明的隐马尔科夫模型(HMM)示意图如图2所示。图2中,每个状态代表一个说话人,状态数等于说话人的总个数S;转移概率为aij,初始值为
Figure BDA0001405445590000086
(本实施例为
Figure BDA0001405445590000087
),表示从说话人i转移到说话人j的概率;发射概率P(xm|ys),初始值为
Figure BDA0001405445590000088
(本实施例为
Figure BDA0001405445590000089
),表示给定一个说话人因子ys,片段xm产生的概率。说话人与说话人之间的连线表示线前端的说话人可以以一定的概率(即转移概率)转移到线末端(带箭头)的说话人。说话人与片段之间的连线表示该说话人可以以一定的概率(即发射概率)产生该片段。HMM模型的初始概率(初始时刻位于每个状态的概率)
Figure BDA00014054455900000810
本实施例中,总说话人个数S=2,因而本实施例的HMM模型如图3。本实施例的HMM模型初始概率为:
Figure BDA00014054455900000811
3-2)更新说话人因子ys;流程如图4所示,具体步骤如下:
3-2-1)提取每个片段xm的Baum-Welch统计量,表达式如下:
Figure BDA0001405445590000091
Figure BDA0001405445590000092
Figure BDA0001405445590000093
其中
Figure BDA0001405445590000094
分别表示片段xm对应第c个高斯的零阶、一阶、二阶统计量;μubm,c(c=1,…,512)是UBM模型均值超向量μubm中对应第c个高斯的子向量;γml(c)是xmt属于第c个高斯的后验概率,diag表示对角化。
3-2-2)提取每个说话人的Baum-Welch统计量;
Figure BDA0001405445590000095
为对角块是
Figure BDA0001405445590000096
的CF×CF矩阵;
Figure BDA0001405445590000097
为由
Figure BDA0001405445590000098
连接而成的CF×1超向量;
Figure BDA0001405445590000099
为对角块是
Figure BDA00014054455900000910
的CF×CF矩阵。将每个片段属于每个说话人的概率qms考虑在内,说话人s的Baum-Welch统计量可计算为:
Figure BDA00014054455900000911
Figure BDA00014054455900000912
3-2-3)计算说话人因子ys的均值ωs和方差
Figure BDA00014054455900000913
为:
Figure BDA00014054455900000914
Figure BDA00014054455900000915
其中∑是维数为CF×CF的协方差矩阵,对角块为{∑1,…,∑C},∑c为UBM模型第c个高斯的协方差矩阵。
3-3)更新发射概率P(xm|ys):
lnP(xm|ys)=Gm+Hms
其中,
Figure BDA00014054455900000916
Figure BDA00014054455900000917
3-4)根据HMM的参数包括:转移概率aij,发射概率P(xm|ys)和初始概率π,利用前后项算法计算更新qms
3-5)更新转移概率aij。由于每个片段都很短,说话人s转移到自身的概率会比转移到别人的概率大,定义说话人s转移到自身的概率为一个常数const(0.8<const<1),所以:
aii=const
Figure BDA0001405445590000101
其中,
Figure BDA0001405445590000102
表示说话人s总共的说话片段数。
本实施例中,说话人个数S=2,取const=0.998,所以转移概率为:
a11=a22=const=0.998
Figure BDA0001405445590000103
Figure BDA0001405445590000104
3-6)判断是否收敛。如果是第一次迭代,则直接判断不收敛,重新返回步骤3-2)至3-6)进行下一次迭代。如果不是第一次迭代,则将本次迭代中,由步骤3-2-3)得到的说话人因子ys的均值ωs记为
Figure BDA0001405445590000105
将上一次迭代中,由步骤3-2-3)得到的说话人因子ys的均值ωs记为
Figure BDA0001405445590000106
计算两次迭代中说话人因子均值的相对改变量,表达式如下:
Figure BDA0001405445590000107
如果相对改变量大于设定阈值(阈值的取值范围为5%至10%,本实施例中采用
7%),则判断VB-HMM系统不收敛,重新进行步骤3-2)至3-6)进行下一次迭代;如果相对改变量小于等于设定阈值,则判断VB-HMM系统收敛,迭代完成,片段xm所属的说话人通过计算arg maxs qms给出,说话人标记结束。
第3阶段的VB-HMM说话人标记方法就是个迭代的过程,见图1的第3阶段。判断是否收敛,如果不收敛则进行下一次迭代,每次迭代全过程即进行步骤3-2)至3-6)。
本发明所述方法,本领域普通技术人员可以理解为,上述说话人识别的方法可以通过程序来完成的,所述的程序可以存储于一种计算机可读存储介质中。
以上所述的仅为本发明的一个具体实施例而已,显然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。

Claims (1)

1.一种说话人标记方法,其特征在于,分为i-vector概率线性鉴别分析凝聚层次聚类说话人标记阶段、先验概率初始化阶段和基于软判决的变分贝叶斯隐马尔科夫说话人标记阶段三个阶段,该方法包括以下步骤:
1)i-vector概率线性鉴别分析凝聚层次聚类说话人标记阶段;具体步骤如下:
1-1)获取一条待测语音数据X,待测语音数据中总共的说话人个数S已知,S≥2;
1-2)对待测语音数据X提取维数F=40的感知线性预测特征,并进行活动语音检测,将待测语音数据中的静音段删除;
1-3)将去除静音段后的待测语音数据X均匀分割成长度固定为1s的片段记为x1,…xm…,xM;其中M代表片段总数;每个片段xm包含N帧,xmt表示片段xm的第t帧的特征,t=1…N;
1-4)对于每个片段xm,提取该片段相应的i-vector记为w′m,表达式如下:
μm=μubm+Tω′m
其中,μm是根据xm计算得到的均值超向量,μubm为通用背景模型的均值超向量,通用背景模型的高斯总个数为C=512,说话人因子维数为D=300,T为CF×D=512*40×300维的总体变化子空间矩阵;
1-5)利用概率线性鉴别分析对步骤1-4)得到的任意两个i-vector进行打分,得到所有片段i-vector两两之间的距离;具体步骤如下:
1-5-1)每个片段的i-vectorw′m表达式如下:
w′m=μ+Φpmm
其中μ是所有片段i-vector的均值,
Figure FDA0002466379280000011
Φ是维度为300×150的说话人子空间,pm是服从标准正态分布的隐变量,
Figure FDA0002466379280000012
是噪声;
1-5-2)通过计算对数似然比,求得任意两个i-vectorw′i和w′j之间的相似度:
Figure FDA0002466379280000013
其中θtar表示w′i和w′j来自同一个说话人,θnon表示w′i和w′j来自不同的说话人;
Figure FDA0002466379280000014
Figure FDA0002466379280000015
1-5-3)通过步骤1-5-2)得到的对数似然比R(ω′i,ω′j),计算w′i和w′j之间的距离为:
Figure FDA0002466379280000016
1-6)对所有片段i-vector两两之间的距离进行凝聚层次聚类;具体步骤如下:
1-6-1)将每个片段的i-vector当作一个独立的类,共得到M个类;
1-6-2)将所有距离dij中最小值对应的两个片段的i-vector的类聚在一起,合并成一个新类;
1-6-3)计算步骤1-6-2)得到的新类中所有i-vector的均值,用该均值表示新类的i-vector,然后重复步骤1-5-2)和1-5-3),分别计算该新类的i-vector到其他每个类的的i-vector的距离;
1-6-4)判断类的个数是否等于说话人个数S:如果不相等,则重新返回步骤1-6-2);如果相等,则凝聚层次聚类结束,最后聚成S个类代表S个说话人,每个类代表一个说话人,将S个类随机编号为1,2,..s,..S,如果片段xm属于类s,那么xm就属于说话人s,即xm∈s;
2)先验概率初始化阶段;分为硬先验计算和软先验计算两种方法,具体如下:
2-1)硬先验计算;
根据步骤1)的结果,如果xm∈s,则赋予片段m属于说话人s的先验概率qms的概率值为q,0.5<q<1,即:
Figure FDA0002466379280000021
其中I(·)为指示函数;
2-2)软先验计算;
根据步骤1)聚类得到的S个类,计算每个说话人s的中心点,表达式如下:
Figure FDA0002466379280000022
如果片段xm∈s,则片段xm距离中心点的距离为:
dms=||w′m-centers||2
将片段xm属于说话人s的先验概率qms定义为:
Figure FDA0002466379280000023
其中
Figure FDA0002466379280000024
而片段xm属于说话人其他说话人的先验概率为:
Figure FDA0002466379280000025
3)基于软判决的变分贝叶斯隐马尔科夫说话人标记阶段;具体步骤如下:
3-1)隐马尔科夫模型初始化;
隐马尔科夫模型中,每个状态代表一个说话人,状态数等于说话人的总个数S;转移概率为aij,初始值为
Figure FDA0002466379280000031
表示从说话人i转移到说话人j的概率;发射概率P(xm|ys),初始值为
Figure FDA0002466379280000032
表示给定一个说话人因子ys,片段xm产生的概率;隐马尔科夫模型的初始概率,即初始时刻位于每个状态的概率
Figure FDA0002466379280000033
3-2)更新说话人因子ys;具体步骤如下:
3-2-1)提取每个片段xm的Baum-Welch统计量,表达式如下:
Figure FDA0002466379280000034
Figure FDA0002466379280000035
Figure FDA0002466379280000036
其中
Figure FDA0002466379280000037
分别表示片段xm对应第c个高斯的零阶、一阶、二阶统计量;μubm,c,c=1,…,512,是通用背景模型均值超向量μubm中对应第c个高斯的子向量;
γmt(c)是xmt属于第c个高斯的后验概率,diag表示对角化;
3-2-2)提取每个说话人的Baum-Welch统计量;
Figure FDA0002466379280000038
为对角块是
Figure FDA0002466379280000039
的CF×CF矩阵;
Figure FDA00024663792800000310
为由
Figure FDA00024663792800000311
连接而成的CF×1超向量;
Figure FDA00024663792800000312
为对角块是
Figure FDA00024663792800000313
的CF×CF矩阵;
说话人s的Baum-Welch统计量表达式为:
Figure FDA00024663792800000314
Figure FDA00024663792800000315
3-2-3)计算说话人因子ys的均值ws和方差
Figure FDA00024663792800000316
为:
Figure FDA00024663792800000317
Figure FDA00024663792800000318
其中,∑是维数为CF×CF的协方差矩阵,对角块为{∑1,…,∑C},∑c为通用背景模型第c个高斯的协方差矩阵;
3-3)更新发射概率P(xm|ys):
lnP(xm|ys)=Gm+Hms
其中,
Figure FDA0002466379280000041
Figure FDA0002466379280000042
3-4)根据隐马尔科夫模型的参数包括:转移概率aij,发射概率P(xm|ys)和初始概率π,利用前后项算法计算更新qms
3-5)更新转移概率aij
定义说话人s转移到自身的概率为一个常数const,0.8<const<1,则:
aii=const
Figure FDA0002466379280000043
其中,
Figure FDA0002466379280000044
表示说话人s总共的说话片段数;
3-6)判断迭代是否收敛;
如果是第一次迭代,则直接判断不收敛,重新返回步骤3-2)进行下一次迭代;如果不是第一次迭代,则将本次迭代中,由步骤3-2-3)得到的说话人因子ys的均值ws记为
Figure FDA0002466379280000045
将上一次迭代中,由步骤3-2-3)得到的说话人因子ys的均值ws记为
Figure FDA0002466379280000046
计算两次迭代中说话人因子均值的相对改变量,表达式如下:
Figure FDA0002466379280000047
如果相对改变量大于设定阈值,则判断基于软判决的变分贝叶斯隐马尔科夫系统不收敛,重新进行步骤3-2)至3-6)进行下一次迭代;如果相对改变量小于等于设定阈值,则判断基于软判决的变分贝叶斯隐马尔科夫系统收敛,迭代完成,片段xm所属的说话人通过计算arg maxsqms给出,说话人标记结束。
CN201710817534.7A 2017-09-12 2017-09-12 一种说话人标记方法 Active CN107452403B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710817534.7A CN107452403B (zh) 2017-09-12 2017-09-12 一种说话人标记方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710817534.7A CN107452403B (zh) 2017-09-12 2017-09-12 一种说话人标记方法

Publications (2)

Publication Number Publication Date
CN107452403A CN107452403A (zh) 2017-12-08
CN107452403B true CN107452403B (zh) 2020-07-07

Family

ID=60495273

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710817534.7A Active CN107452403B (zh) 2017-09-12 2017-09-12 一种说话人标记方法

Country Status (1)

Country Link
CN (1) CN107452403B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108417226A (zh) * 2018-01-09 2018-08-17 平安科技(深圳)有限公司 语音对比方法、终端及计算机可读存储介质
CN109360572B (zh) * 2018-11-13 2022-03-11 平安科技(深圳)有限公司 通话分离方法、装置、计算机设备及存储介质
CN110148417B (zh) * 2019-05-24 2021-03-23 哈尔滨工业大学 基于总变化空间与分类器联合优化的说话人身份识别方法
CN114970695B (zh) * 2022-01-06 2024-03-22 西北工业大学深圳研究院 一种基于非参贝叶斯模型的说话人分割聚类方法
CN114550728B (zh) * 2022-02-15 2024-03-01 北京有竹居网络技术有限公司 用于标记说话人的方法、装置和电子设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103219008A (zh) * 2013-05-16 2013-07-24 清华大学 基于基状态矢量加权的短语音说话人识别方法
CN104732978A (zh) * 2015-03-12 2015-06-24 上海交通大学 基于联合深度学习的文本相关的说话人识别方法
CN105469784A (zh) * 2014-09-10 2016-04-06 中国科学院声学研究所 概率线性鉴别分析模型生成方法和说话人聚类方法及系统
CN105845141A (zh) * 2016-03-23 2016-08-10 广州势必可赢网络科技有限公司 基于信道鲁棒的说话人确认模型及说话人确认方法和装置
CN106971713A (zh) * 2017-01-18 2017-07-21 清华大学 基于密度峰值聚类和变分贝叶斯的说话人标记方法与系统
CN107146601A (zh) * 2017-04-07 2017-09-08 南京邮电大学 一种用于说话人识别系统的后端i‑vector增强方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW477964B (en) * 1998-04-22 2002-03-01 Ibm Speech recognizer for specific domains or dialects
US20030236663A1 (en) * 2002-06-19 2003-12-25 Koninklijke Philips Electronics N.V. Mega speaker identification (ID) system and corresponding methods therefor
CN103377651B (zh) * 2012-04-28 2015-12-16 北京三星通信技术研究有限公司 语音自动合成装置及方法
CN103236260B (zh) * 2013-03-29 2015-08-12 京东方科技集团股份有限公司 语音识别系统
US9514753B2 (en) * 2013-11-04 2016-12-06 Google Inc. Speaker identification using hash-based indexing

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103219008A (zh) * 2013-05-16 2013-07-24 清华大学 基于基状态矢量加权的短语音说话人识别方法
CN105469784A (zh) * 2014-09-10 2016-04-06 中国科学院声学研究所 概率线性鉴别分析模型生成方法和说话人聚类方法及系统
CN104732978A (zh) * 2015-03-12 2015-06-24 上海交通大学 基于联合深度学习的文本相关的说话人识别方法
CN105845141A (zh) * 2016-03-23 2016-08-10 广州势必可赢网络科技有限公司 基于信道鲁棒的说话人确认模型及说话人确认方法和装置
CN106971713A (zh) * 2017-01-18 2017-07-21 清华大学 基于密度峰值聚类和变分贝叶斯的说话人标记方法与系统
CN107146601A (zh) * 2017-04-07 2017-09-08 南京邮电大学 一种用于说话人识别系统的后端i‑vector增强方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
《Normalization of total variability matrix for i-vector/PLDA speaker verification》;Wei Rao et al.;《2015 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)》;20150806;全文 *
《Scalable I-vector concatenation for PLDA based language identification system》;Saad Irtra et al.;《IEEE 2015 Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA)》;20160225;全文 *
《Sentence-HMM state-based i-vector/PLDA modelling for improved performance in text dependent single utterance speaker verification》;Osman Büyük et al.;《IEEE》;20161031;全文 *
《基于核函数的IVEC-SVM说话人识别系统研究》;栗志意等;《自动化学报》;20140430;第40卷(第4期);全文 *
《基于深度神经网络和Bottleneck特征的说话人识别系统》;田垚等;《清华大学学报(自然科学版)》;20161115;第56卷(第11期);全文 *
《基于鉴别性i-vector局部距离保持映射的说话人识别》;栗志意等;《清华大学学报(自然科学版)》;20120515;第52卷(第5期);全文 *

Also Published As

Publication number Publication date
CN107452403A (zh) 2017-12-08

Similar Documents

Publication Publication Date Title
CN107452403B (zh) 一种说话人标记方法
Sell et al. Diarization is Hard: Some Experiences and Lessons Learned for the JHU Team in the Inaugural DIHARD Challenge.
US11636860B2 (en) Word-level blind diarization of recorded calls with arbitrary number of speakers
US10109280B2 (en) Blind diarization of recorded calls with arbitrary number of speakers
Shum et al. Exploiting intra-conversation variability for speaker diarization
Shum et al. Unsupervised methods for speaker diarization: An integrated and iterative approach
CN112204657A (zh) 利用提前停止聚类的讲话者分离
Tong et al. A comparative study of robustness of deep learning approaches for VAD
Huang et al. An investigation of augmenting speaker representations to improve speaker normalisation for dnn-based speech recognition
WO2014029099A1 (en) I-vector based clustering training data in speech recognition
Reynolds et al. A study of new approaches to speaker diarization.
CN111524527A (zh) 话者分离方法、装置、电子设备和存储介质
Sun et al. Speaker diarization system for RT07 and RT09 meeting room audio
CN103793447A (zh) 音乐与图像间语义相识度的估计方法和估计系统
Singh et al. LEAP diarization system for the second DIHARD challenge
KR102406512B1 (ko) 음성인식 방법 및 그 장치
Soldi et al. Adaptive and online speaker diarization for meeting data
Cord-Landwehr et al. Frame-wise and overlap-robust speaker embeddings for meeting diarization
Viñals et al. ViVoLAB Speaker Diarization System for the DIHARD 2019 Challenge.
CN107507627B (zh) 语音数据热度分析方法及系统
Vaquero et al. Confidence measures for speaker segmentation and their relation to speaker verification.
CN110875044B (zh) 一种基于字相关得分计算的说话人识别方法
Le Lan et al. Speaker diarization with unsupervised training framework
CN114547264A (zh) 一种基于马氏距离和对比学习的新意图数据识别方法
Mathur et al. Unsupervised domain adaptation under label space mismatch for speech classification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant