CN109859742A - 一种说话人分段聚类方法及装置 - Google Patents

一种说话人分段聚类方法及装置 Download PDF

Info

Publication number
CN109859742A
CN109859742A CN201910015449.8A CN201910015449A CN109859742A CN 109859742 A CN109859742 A CN 109859742A CN 201910015449 A CN201910015449 A CN 201910015449A CN 109859742 A CN109859742 A CN 109859742A
Authority
CN
China
Prior art keywords
voice segments
vector
sub
speaker
plda
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910015449.8A
Other languages
English (en)
Other versions
CN109859742B (zh
Inventor
袁庆升
包秀国
汪立东
张鸿
杜翠兰
王文超
颜永红
陈志高
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Acoustics CAS
National Computer Network and Information Security Management Center
Original Assignee
Institute of Acoustics CAS
National Computer Network and Information Security Management Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Acoustics CAS, National Computer Network and Information Security Management Center filed Critical Institute of Acoustics CAS
Priority to CN201910015449.8A priority Critical patent/CN109859742B/zh
Publication of CN109859742A publication Critical patent/CN109859742A/zh
Application granted granted Critical
Publication of CN109859742B publication Critical patent/CN109859742B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明提供一种说话人分段聚类方法及装置,以解决相关技术中处理短时说话人语音时,性能下降导致说话人聚类效果较差的问题。该方法包括:将待聚类语音划分为多个子语音段;通过权重联合概率线性判别分析WT‑PLDA模型对基于划分得到的各子语音段的I‑vector提取出各子语音段的特征信息W‑vector,所述WT‑PLDA模型的模型参数至少包括:均值向量、说话人子空间的投影矩阵、说话人因子的隐藏变量以及残差因子;通过概率线性判别分析PLDA根据划分后多个子语音段的所述W‑vector对该多个子语音段循环进行多次聚类,直至所述多个子语音段被聚类为两类。本发明提高了说话人的聚类效果。

Description

一种说话人分段聚类方法及装置
技术领域
本发明涉及语音处理技术领域,尤其涉及一种说话人分段聚类方法及装置。
背景技术
总变化因子分析技术不区分说话人和信道信息,而是将GMM(高斯混合模型)均值超向量中的说话人变化空间和信道变化空间合并为总变化空间来进行建模。给定一个GMM均值超向量M,总变化因子分析中假设它能被分解如下:
M=m+Tw;
其中,m表示UBM的均值超向量,T表示总变化空间矩阵,w是低维的总变化因子向量。w服从标准高斯分布,即:f(w)=N(w|0,I)。总变化因子分析中不区分说话人变化和信道变化性,总变化因子向量同时包含GMM均值超向量中的说话人信息和信道信息。
PLDA(Probabilistic Linear Discriminant Analysis,概率线性判别分析)被引入到说话人识别领域之前,最先是按照人脸识别中PLDA的形式来对I-vector分解成如下形式:
wij=μ+Vyi+Uxijij
其中,wij表示第i个说话人的第j个I-vector;μ表示所有I-vector的均值向量;V表示本征音空间矩阵,或称之为说话人空间矩阵;U表示本征信道空间矩阵,或称之为信道空间矩阵;yi表示说话人因子;xij表示信道因子;εij表示残差或噪声因子。yi、xij和εij的先验分布按照不同类型的PLDA模型有所不同。在高斯PLDA模型它们都服从高斯分布,在重尾PLDA模型他们服从学生分布。实际上I-vector本身的分布并不能很好地符合高斯分布,因而高斯PLDA模型最初性能要远差于重尾PLDA,但是在提出了I-vector长度规整技术,对I-vector进行长度规整可以使它更加服从高斯分布,长度规整后的I-vector再采用高斯PLDA进行建模的性能可以达到重尾PLDA的效果,而且高斯PLDA的模型复杂度和实际应用时的计算复杂度远远小于重尾PLDA,因此后来的PLDA系统基本都采用长度规整后的I-vector接高斯PLDA模型。
基于上述相关技术,处理短时说话人语音时,由于性能下降导致说话人聚类效果较差。
发明内容
本发明的主要目的在于提供一种说话人分段聚类方法及装置,以解决相关技术中处理短时说话人语音时,性能下降导致说话人聚类效果较差的问题。
根据本发明的一个方面,提供了一种说话人分段聚类方法,包括:将待聚类语音划分为多个子语音段;通过权重联合概率线性判别分析WT-PLDA模型对基于划分得到的各子语音段的I-vector提取出各子语音段的特征信息W-vector,所述WT-PLDA模型的模型参数至少包括:均值向量、说话人子空间的投影矩阵、说话人因子的隐藏变量以及残差因子;通过概率线性判别分析PLDA根据划分后多个子语音段的所述W-vector对该多个子语音段循环进行多次聚类,直至所述多个子语音段被聚类为两类。
可选地,所述通过概率线性判别分析PLDA根据划分后多个子语音段的所述W-vector对该多个子语音段循环进行多次聚类,直至所述多个子语音段被聚类为两类,包括:通过PLDA根据划分后各相邻的子语音段的W-vector对各相邻的两个子语音段进行打分,得到各对子语音段的打分结果;将打分结果中分数最高的两个目标子语音段合并为一个语音段;提取合并后的语音段的所述W-vector,根据该W-vector以及所述多个子语音段中除了所述两个目标子语音段之外的其他子语音段的W-vector进行打分,得到打分结果中分数最高的另外两个目标子语音段后,返回执行将该两个目标子语音段合并为一个语音段的步骤以及该步骤之后的步骤,直至所述多个子语音段被聚类为两类。
可选地,所述方法还包括:在将待聚类语音划分为多个子语音段之前,通过下式建立WT-PLDA模型:
其中,ωij表示第i个说话人的第j个I-vector,cm代表第m个语音成分的权重,cm≥0,m=1,2,…,M,且其中M为PLDA的个数,μm表示所述均值向量,Vm表示所述说话人子空间的投影矩阵,yi表示所述说话人因子的隐藏变量,εij表示残差因子。
可选地,所述方法还包括:将待聚类语音划分为多个子语音段之前,通过下式建立WT-PLDA模型:
其中,ωij表示第i个说话人的第j个I-vector,cm代表第m个语音成分的权重,cm≥0,m=1,2,…,M,且其中,M为PLDA的个数,μm表示所述均值向量,Vm表示所述说话人子空间的投影矩阵,yi表示所述说话人因子的隐藏变量,为残差因子,的协方差矩阵添加了I-vector相关的后验分布,该后验分布服从N(0,∑+L-1),L-1为I-vector提取过程中产生的协方差矩阵,L-1=(1+NcTt-1T)-1
可选地,所述方法还包括:在通过权重联合概率线性判别分析WT-PLDA模型对基于划分得到的各子语音段的I-vector提取出各子语音段的特征信息W-vector之前,对所述各子语音段的I-vector进行长度规整和/或主成分分析降维PCA处理。
根据本发明的第二个方面,提供了一种说话人分段聚类装置,包括:划分模块,用于将待聚类语音划分为多个子语音段;提取模块,用于通过权重联合概率线性判别分析WT-PLDA模型对基于划分得到的各子语音段的I-vector提取出各子语音段的特征信息W-vector,所述WT-PLDA模型的模型参数至少包括:均值向量、说话人子空间的投影矩阵、说话人因子的隐藏变量以及残差因子;聚类模块,用于通过概率线性判别分析PLDA根据划分后多个子语音段的所述W-vector对该多个子语音段循环进行多次聚类,直至所述多个子语音段被聚类为两类。
可选地,所述聚类模块,包括:打分单元,用于通过PLDA根据划分后各相邻的子语音段的W-vector对各相邻的两个子语音段进行打分,得到各对子语音段的打分结果;合并单元,用于将打分结果中分数最高的两个目标子语音段合并为一个语音段;循环聚类单元,用于提取合并后的语音段的W-vector,根据该W-vector以及所述多个子语音段中除了所述两个目标子语音段之外的其他子语音段的W-vector进行打分,得到打分结果中分数最高的另外两个目标子语音段后,返回执行将该两个目标子语音段合并为一个语音段的步骤以及该步骤之后的步骤,直至所述多个子语音段被聚类为两类。
可选地,所述装置还包括:第一建立模块,用于在将待聚类语音划分为多个子语音段之前,通过下式建立WT-PLDA模型:
其中,ωij表示第i个说话人的第j个I-vector,cm代表第m个语音成分的权重,cm≥0,m=1,2,…,M,且其中M为PLDA的个数,μm表示所述均值向量,Vm表示所述说话人子空间的投影矩阵,yi表示所述说话人因子的隐藏变量,εij表示残差因子。
可选地,所述装置还包括:第二建立模块,用于将待聚类语音划分为多个子语音段之前,通过下式建立WT-PLDA模型:
其中,ωij表示第i个说话人的第j个I-vector,cm代表第m个语音成分的权重,cm≥0,m=1,2,…,M,且其中,M为PLDA的个数,μm表示所述均值向量,Vm表示所述说话人子空间的投影矩阵,yi表示所述说话人因子的隐藏变量,为残差因子,的协方差矩阵添加了I-vector相关的后验分布,该后验分布服从N(0,∑+L-1),L-1为I-vector提取过程中产生的协方差矩阵,L-1=(1+NcTt-1T)-1
可选地,所述装置还包括:处理模块,用于在通过权重联合概率线性判别分析WT-PLDA模型对基于划分得到的各子语音段的I-vector提取出各子语音段的特征信息W-vector之前,对所述各子语音段的I-vector进行长度规整和/或主成分分析降维PCA处理。
本发明实施例的说话人分段聚类方法,使用WT-PLDA模型提取各子语音段的W-vector,再通过PLDA根据各对子语音段的W-vector对这些子语音段进行聚类,提高了说话人分段聚类的效果。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据一示例性实施例示出的一种说话人分段聚类方法的流程图;
图2是根据一示例性实施例示出的一种说话人分段聚类方法的流程图;
图3是根据一示例性实施例示出的一种说话人分段聚类装置的框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1是根据一示例性实施例示出的一种说话人分段聚类方法的流程图,如图1所示,该方法包括如下步骤:
步骤101:将待聚类语音划分为多个子语音段,例如,可将待聚类的语音段划分为1-2s的子语音段。
步骤102:通过WT-PLDA(Weighted Tied Probabilistic Linear DiscriminantAnalysis,权重联合概率线性判别分析)模型对基于划分得到的各子语音段的I-vector(也称语音的总变化因子)提取出各子语音段的特征信息W-vector(语音的特征信息),所述WT-PLDA模型的模型参数至少包括:均值向量、说话人子空间的投影矩阵、说话人因子的隐藏变量(即W-vector)以及残差因子;
在步骤102之前,可根据语料训练出与说话人无关的UBM模型,可基于该UBM模型提取高斯超向量和总变化因子,从而根据提取出的这些信息可训练WT-PLDA模型,该WT-PLDA模型的训练过程将在后文进行详细说明。其中,在WT-PLDA模型中,可包括多个语音成分,每个语音成分都具有不同的权重。
步骤103:通过PLDA根据划分后多个子语音段的所述W-vector对该多个子语音段循环进行多次聚类,直至所述多个子语音段被聚类为两类。
本发明实施例的说话人分段聚类方法,使用WT-PLDA模型提取各子语音段的W-vector,再通过PLDA根据各对子语音段的W-vector对这些子语音段进行聚类,提高了说话人分段聚类的效果。
在一种可实现方式中,通过概率线性判别分析PLDA根据划分后多个子语音段的所述W-vector对该多个子语音段循环进行多次聚类,直至所述多个子语音段被聚类为两类的步骤可由图2中所示多个步骤来实现,如图2所示,该步骤可包括,步骤201:通过PLDA根据划分后各相邻的子语音段的W-vector对各相邻的两个子语音段进行打分,得到各对子语音段的打分结果;步骤202:将打分结果中分数最高的两个目标子语音段合并为一个语音段;步骤203:提取合并后的语音段的W-vector,根据该W-vector以及所述多个子语音段中除了所述两个目标子语音段之外的其他子语音段的W-vector进行打分,得到打分结果中分数最高的另外两个目标子语音段后,返回执行将该两个目标子语音段合并为一个语音段的步骤(即返回执行步骤202)以及该步骤之后的步骤(即步骤203),直至所述多个子语音段被聚类为两类。例如,在通过PLDA对各相邻的两个子语音段打分后,选择得分最高的两个子语音段合并得到一段新的语音段,重新提取合并得到的语音段的W-vector,同剩下的子语音段落继续两两打分,循环迭代,直到这些子语音段被聚为两类为止。
在一种可实现方式中,WT-PLDA假设每一个语音成分均遵循标准正态分布,用足够多的语音成分可以比单个高斯PLDA更准确地对I-vector进行建模。相比于GMM模型,WT-PLDA的训练数据量较少,因为一段语音序列被一个I-vector限制。因此,WT-PLDA假设残差因子和标准的PLDA一样服从标准高斯分布但是被所有语音成分共享。基于此,说话人分段聚类方法还可包括:将待聚类语音划分为多个子语音段之前,通过下式建立WT-PLDA模型:
其中,ωij表示第i个说话人的第j个I-vector,cm代表第m个语音成分的权重,cm≥0,m=1,2,…,M,且其中M为PLDA的个数,μm表示所述均值向量,Vm表示所述说话人子空间的投影矩阵,yi表示所述说话人因子的隐藏变量(也即W-vector),εij表示残差因子。
对于每一个成分,μm是均值向量,Vm是表示说话人子空间的投影矩阵,yi是表示说话人因子的隐藏变量,服从标准高斯分布,被所有成分共享。ωij的后验分布可以写成如下形式:
其中,参数估计可以用EM(Expectation Maximization Algorithm,期望最大化算法)算法完成。
在一种可实现方式中,WT-PLDA建模时添加了协方差信息,基于此,说话人分段聚类方法还可包括:
在将待聚类语音划分为多个子语音段之前,通过下式建立WT-PLDA模型:
其中,ωij表示第i个说话人的第j个I-vector,cm代表第m个语音成分的权重,cm≥0,m=1,2,…,M,且其中,M为PLDA的个数,μm表示所述均值向量,Vm表示所述说话人子空间的投影矩阵,yi表示所述说话人因子的隐藏变量,为残差因子,的协方差矩阵添加了I-vector相关的后验分布,该后验分布服从N(0,∑+L-1),L-1是I-vector提取过程中产生的协方差矩阵,L-1=(1+NcTt-1T)-1,其中,N表示计算I-vector时使用的GMM模型的0阶统计量。T是I-vector计算过程的投影矩阵,Σ是GMM模型的方差矩阵,t代表矩阵的转置。在该可实现方式中,通过WT-PLDA模型,对I-vector进行建模,利用I-vector的不确定因子进行信息补偿,可提高短时语音说话人特征因子的确定性。同时,将不确定因子作为补偿信息加入建模过程,通过提取出的新的特征信息(即W-vector)与原始的I-vector大小相同,从而节省了存储空间。补偿后的特征因子采用原始的高斯PLDA模型进行打分,简化了全后验概率判别分析技术的打分过程,提高了技术的鲁棒性。
在一种可实现方式中,上述通过权重联合概率线性判别分析WT-PLDA模型对基于划分得到的各子语音段的I-vector提取出各子语音段的W-vector之前,对所述各子语音段的I-vector进行长度规整和/或PCA(Principal Components Analysis,主成分分析降维)处理。
图3是根据一示例性实施例示出的一种说话人分段聚类装置的框图,如图3所示,该装置30包括如下组成部分:
划分模块31,用于将待聚类语音划分为多个子语音段;
提取模块32,用于通过WT-PLDA模型对基于划分得到的各子语音段的I-vector提取出各子语音段的特征信息W-vector,所述WT-PLDA模型的模型参数至少包括:均值向量、说话人子空间的投影矩阵、说话人因子的隐藏变量以及残差因子;
聚类模块33,用于通过概率线性判别分析PLDA根据划分后多个子语音段的所述W-vector对该多个子语音段循环进行多次聚类,直至所述多个子语音段被聚类为两类。
在一种可实现方式中,所述聚类模块可包括:打分单元,用于通过PLDA根据划分后各相邻的子语音段的W-vector对各相邻的两个子语音段进行打分,得到各对子语音段的打分结果;合并单元,用于将打分结果中分数最高的两个目标子语音段合并为一个语音段;循环聚类单元,用于提取合并后的语音段的W-vector,根据该W-vector以及所述多个子语音段中除了所述两个目标子语音段之外的其他子语音段的W-vector进行打分,得到打分结果中分数最高的另外两个目标子语音段后,返回执行将该两个目标子语音段合并为一个语音段的步骤以及该步骤之后的步骤,直至所述多个子语音段被聚类为两类。
在一种可实现方式中,所述说话人分段聚类装置还可包括:第一建立模块,用于在将待聚类语音划分为多个子语音段之前,通过下式建立WT-PLDA模型:
其中,ωij表示第i个说话人的第j个I-vector,cm代表第m个语音成分的权重,cm≥0,m=1,2,…,M,且其中M为PLDA的个数,μm表示所述均值向量,Vm表示所述说话人子空间的投影矩阵,yi表示所述说话人因子的隐藏变量,εij表示残差因子。
在一种可实现方式中,所述说话人分段聚类装置还可包括:所述装置还包括:
第二建立模块,用于将待聚类语音划分为多个子语音段之前,通过下式建立WT-PLDA模型:
其中,ωij表示第i个说话人的第j个I-vector,cm代表第m个语音成分的权重,cm≥0,m=1,2,…,M,且其中,M为PLDA的个数,μm表示所述均值向量,Vm表示所述说话人子空间的投影矩阵,yi表示所述说话人因子的隐藏变量,为残差因子,的协方差矩阵添加了I-vector相关的后验分布,该后验分布服从N(0,∑+L-1),L-1为I-vector提取过程中产生的协方差矩阵,L-1=(1+NcTt-1T)-1
在一种可实现方式中,所述说话人分段聚类装置还可包括:处理模块,用于在通过权重联合概率线性判别分析WT-PLDA模型对基于划分得到的各子语音段的I-vector提取出各子语音段的特征信息W-vector之前,对所述各子语音段的I-vector进行长度规整和/或PCA处理。
以上所述仅为本发明的实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的权利要求范围之内。

Claims (10)

1.一种说话人分段聚类方法,其特征在于,包括:
将待聚类语音划分为多个子语音段;
通过权重联合概率线性判别分析WT-PLDA模型对基于划分得到的各子语音段的I-vector提取出各子语音段的特征信息W-vector,所述WT-PLDA模型的模型参数至少包括:均值向量、说话人子空间的投影矩阵、说话人因子的隐藏变量以及残差因子;
通过概率线性判别分析PLDA根据划分后多个子语音段的所述W-vector对该多个子语音段循环进行多次聚类,直至所述多个子语音段被聚类为两类。
2.根据权利要求1所述的方法,其特征在于,所述通过概率线性判别分析PLDA根据划分后多个子语音段的所述W-vector对该多个子语音段循环进行多次聚类,直至所述多个子语音段被聚类为两类,包括:
通过PLDA根据划分后各相邻的子语音段的W-vector对各相邻的两个子语音段进行打分,得到各对子语音段的打分结果;
将打分结果中分数最高的两个目标子语音段合并为一个语音段;
提取合并后的语音段的所述W-vector,根据该W-vector以及所述多个子语音段中除了所述两个目标子语音段之外的其他子语音段的W-vector进行打分,得到打分结果中分数最高的另外两个目标子语音段后,返回执行将该两个目标子语音段合并为一个语音段的步骤以及该步骤之后的步骤,直至所述多个子语音段被聚类为两类。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在将待聚类语音划分为多个子语音段之前,通过下式建立WT-PLDA模型:
其中,ωij表示第i个说话人的第j个I-vector,cm代表第m个语音成分的权重,cm≥0,m=1,2,…,M,且其中M为PLDA的个数,μm表示所述均值向量,Vm表示所述说话人子空间的投影矩阵,yi表示所述说话人因子的隐藏变量,εij表示残差因子。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
将待聚类语音划分为多个子语音段之前,通过下式建立WT-PLDA模型:
其中,ωij表示第i个说话人的第j个I-vector,cm代表第m个语音成分的权重,cm≥0,m=1,2,…,M,且其中,M为PLDA的个数,μm表示所述均值向量,Vm表示所述说话人子空间的投影矩阵,yi表示所述说话人因子的隐藏变量,为残差因子,的协方差矩阵添加了I-vector相关的后验分布,该后验分布服从N(0,∑+L-1),L-1为I-vector提取过程中产生的协方差矩阵,L-1=(1+NcTt-1T)-1
5.根据权利要求1至4任一项所述的方法,其特征在于,所述方法还包括:
在通过权重联合概率线性判别分析WT-PLDA模型对基于划分得到的各子语音段的I-vector提取出各子语音段的特征信息W-vector之前,对所述各子语音段的I-vector进行长度规整和/或主成分分析降维PCA处理。
6.一种说话人分段聚类装置,其特征在于,包括:
划分模块,用于将待聚类语音划分为多个子语音段;
提取模块,用于通过权重联合概率线性判别分析WT-PLDA模型对基于划分得到的各子语音段的I-vector提取出各子语音段的特征信息W-vector,所述WT-PLDA模型的模型参数至少包括:均值向量、说话人子空间的投影矩阵、说话人因子的隐藏变量以及残差因子;
聚类模块,用于通过概率线性判别分析PLDA根据划分后多个子语音段的所述W-vector对该多个子语音段循环进行多次聚类,直至所述多个子语音段被聚类为两类。
7.根据权利要求6所述的装置,其特征在于,所述聚类模块,包括:
打分单元,用于通过PLDA根据划分后各相邻的子语音段的W-vector对各相邻的两个子语音段进行打分,得到各对子语音段的打分结果;
合并单元,用于将打分结果中分数最高的两个目标子语音段合并为一个语音段;
循环聚类单元,用于提取合并后的语音段的W-vector,根据该W-vector以及所述多个子语音段中除了所述两个目标子语音段之外的其他子语音段的W-vector进行打分,得到打分结果中分数最高的另外两个目标子语音段后,返回执行将该两个目标子语音段合并为一个语音段的步骤以及该步骤之后的步骤,直至所述多个子语音段被聚类为两类。
8.根据权利要求6所述的装置,其特征在于,所述装置还包括:
第一建立模块,用于在将待聚类语音划分为多个子语音段之前,通过下式建立WT-PLDA模型:
其中,ωij表示第i个说话人的第j个I-vector,cm代表第m个语音成分的权重,cm≥0,m=1,2,…,M,且其中M为PLDA的个数,μm表示所述均值向量,Vm表示所述说话人子空间的投影矩阵,yi表示所述说话人因子的隐藏变量,εij表示残差因子。
9.根据权利要求6所述的装置,其特征在于,所述装置还包括:
第二建立模块,用于将待聚类语音划分为多个子语音段之前,通过下式建立WT-PLDA模型:
其中,ωij表示第i个说话人的第j个I-vector,cm代表第m个语音成分的权重,cm≥0,m=1,2,…,M,且其中,M为PLDA的个数,μm表示所述均值向量,Vm表示所述说话人子空间的投影矩阵,yi表示所述说话人因子的隐藏变量,为残差因子,的协方差矩阵添加了I-vector相关的后验分布,该后验分布服从N(0,∑+L-1),L-1为I-vector提取过程中产生的协方差矩阵,L-1=(1+NcTt-1T)-1
10.根据权利要求6至9任一项所述的装置,其特征在于,所述装置还包括:
处理模块,用于在通过权重联合概率线性判别分析WT-PLDA模型对基于划分得到的各子语音段的I-vector提取出各子语音段的特征信息W-vector之前,对所述各子语音段的I-vector进行长度规整和/或主成分分析降维PCA处理。
CN201910015449.8A 2019-01-08 2019-01-08 一种说话人分段聚类方法及装置 Active CN109859742B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910015449.8A CN109859742B (zh) 2019-01-08 2019-01-08 一种说话人分段聚类方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910015449.8A CN109859742B (zh) 2019-01-08 2019-01-08 一种说话人分段聚类方法及装置

Publications (2)

Publication Number Publication Date
CN109859742A true CN109859742A (zh) 2019-06-07
CN109859742B CN109859742B (zh) 2021-04-09

Family

ID=66894156

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910015449.8A Active CN109859742B (zh) 2019-01-08 2019-01-08 一种说话人分段聚类方法及装置

Country Status (1)

Country Link
CN (1) CN109859742B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110930984A (zh) * 2019-12-04 2020-03-27 北京搜狗科技发展有限公司 一种语音处理方法、装置和电子设备
CN111599346A (zh) * 2020-05-19 2020-08-28 科大讯飞股份有限公司 一种说话人聚类方法、装置、设备及存储介质

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102543063A (zh) * 2011-12-07 2012-07-04 华南理工大学 基于说话人分割与聚类的多说话人语速估计方法
US20130225128A1 (en) * 2012-02-24 2013-08-29 Agnitio Sl System and method for speaker recognition on mobile devices
US20140222423A1 (en) * 2013-02-07 2014-08-07 Nuance Communications, Inc. Method and Apparatus for Efficient I-Vector Extraction
CN104899926A (zh) * 2015-07-06 2015-09-09 上海联影医疗科技有限公司 医学图像分割方法和装置
CN105161093A (zh) * 2015-10-14 2015-12-16 科大讯飞股份有限公司 一种判断说话人数目的方法及系统
CN105469784A (zh) * 2014-09-10 2016-04-06 中国科学院声学研究所 概率线性鉴别分析模型生成方法和说话人聚类方法及系统
CN106251874A (zh) * 2016-07-27 2016-12-21 深圳市鹰硕音频科技有限公司 一种语音门禁和安静环境监控方法及系统
CN106448684A (zh) * 2016-11-16 2017-02-22 北京大学深圳研究生院 基于深度置信网络特征矢量的信道鲁棒声纹识别系统
CN107342077A (zh) * 2017-05-27 2017-11-10 国家计算机网络与信息安全管理中心 一种基于因子分析的说话人分段聚类方法及系统
CN107609604A (zh) * 2017-10-19 2018-01-19 北京工业大学 一种基于l1范数的二维概率线性判别分析的图像识别方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102543063A (zh) * 2011-12-07 2012-07-04 华南理工大学 基于说话人分割与聚类的多说话人语速估计方法
US20130225128A1 (en) * 2012-02-24 2013-08-29 Agnitio Sl System and method for speaker recognition on mobile devices
US20140222423A1 (en) * 2013-02-07 2014-08-07 Nuance Communications, Inc. Method and Apparatus for Efficient I-Vector Extraction
CN105469784A (zh) * 2014-09-10 2016-04-06 中国科学院声学研究所 概率线性鉴别分析模型生成方法和说话人聚类方法及系统
CN104899926A (zh) * 2015-07-06 2015-09-09 上海联影医疗科技有限公司 医学图像分割方法和装置
CN105161093A (zh) * 2015-10-14 2015-12-16 科大讯飞股份有限公司 一种判断说话人数目的方法及系统
CN106251874A (zh) * 2016-07-27 2016-12-21 深圳市鹰硕音频科技有限公司 一种语音门禁和安静环境监控方法及系统
CN106448684A (zh) * 2016-11-16 2017-02-22 北京大学深圳研究生院 基于深度置信网络特征矢量的信道鲁棒声纹识别系统
CN107342077A (zh) * 2017-05-27 2017-11-10 国家计算机网络与信息安全管理中心 一种基于因子分析的说话人分段聚类方法及系统
CN107609604A (zh) * 2017-10-19 2018-01-19 北京工业大学 一种基于l1范数的二维概率线性判别分析的图像识别方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
AHILAN: ""Improving PLDA Speaker Verification using WMFD and Linear-weighted Approaches in Limited Microphone Data Conditions"", 《RESEARCHGATE》 *
王明和: ""基于i-vector 局部加权线性判别分析的说话人识别"", 《仪器仪表学报》 *
许云飞: ""概率线性鉴别分析在说话人识别中的应用"", 《中国科学院声学研究所第四届青年学术交流会》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110930984A (zh) * 2019-12-04 2020-03-27 北京搜狗科技发展有限公司 一种语音处理方法、装置和电子设备
CN111599346A (zh) * 2020-05-19 2020-08-28 科大讯飞股份有限公司 一种说话人聚类方法、装置、设备及存储介质
CN111599346B (zh) * 2020-05-19 2024-02-20 科大讯飞股份有限公司 一种说话人聚类方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN109859742B (zh) 2021-04-09

Similar Documents

Publication Publication Date Title
Petridis et al. Deep complementary bottleneck features for visual speech recognition
CN107680600B (zh) 声纹模型训练方法、语音识别方法、装置、设备及介质
CN104167208B (zh) 一种说话人识别方法和装置
Gao et al. Transition movement models for large vocabulary continuous sign language recognition
Yu et al. Mixture of GANs for Clustering.
CN105261367B (zh) 一种说话人识别方法
CN105989849B (zh) 一种语音增强方法、语音识别方法、聚类方法及装置
CN110097606A (zh) 面部合成
CN103793447B (zh) 音乐与图像间语义相似度的估计方法和估计系统
CN110310647A (zh) 一种语音身份特征提取器、分类器训练方法及相关设备
CN104538035B (zh) 一种基于Fisher超向量的说话人识别方法及系统
CN109545228A (zh) 一种端到端说话人分割方法及系统
CN110349597A (zh) 一种语音检测方法及装置
CN106203483A (zh) 一种基于语义相关多模态映射方法的零样本图像分类方法
CN108520752A (zh) 一种声纹识别方法和装置
CN108091326A (zh) 一种基于线性回归的声纹识别方法及系统
Sterpu et al. Towards lipreading sentences with active appearance models
Sethu et al. Speaker variability in speech based emotion models-Analysis and normalisation
CN105893942A (zh) 一种基于eSC和HOG的自适应HMM的手语识别方法
Van Leeuwen Speaker linking in large data sets
CN109859742A (zh) 一种说话人分段聚类方法及装置
Shivakumar et al. Simplified and supervised i-vector modeling for speaker age regression
Ng et al. Teacher-student training for text-independent speaker recognition
CN109948662B (zh) 一种基于K-means和MMD的人脸图像深度聚类方法
CN111462762B (zh) 一种说话人向量正则化方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant