CN101452704B - 一种基于信息传递的说话人聚类方法 - Google Patents

一种基于信息传递的说话人聚类方法 Download PDF

Info

Publication number
CN101452704B
CN101452704B CN2007101783634A CN200710178363A CN101452704B CN 101452704 B CN101452704 B CN 101452704B CN 2007101783634 A CN2007101783634 A CN 2007101783634A CN 200710178363 A CN200710178363 A CN 200710178363A CN 101452704 B CN101452704 B CN 101452704B
Authority
CN
China
Prior art keywords
data segment
value
cluster centre
cluster
twos
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2007101783634A
Other languages
English (en)
Other versions
CN101452704A (zh
Inventor
颜永红
吕萍
张翔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Acoustics CAS
Beijing Kexin Technology Co Ltd
Original Assignee
Institute of Acoustics CAS
Beijing Kexin Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Acoustics CAS, Beijing Kexin Technology Co Ltd filed Critical Institute of Acoustics CAS
Priority to CN2007101783634A priority Critical patent/CN101452704B/zh
Publication of CN101452704A publication Critical patent/CN101452704A/zh
Application granted granted Critical
Publication of CN101452704B publication Critical patent/CN101452704B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种基于信息传递的说话人聚类方法,包括如下步骤:1)计算两两数据段之间的相似度s(i,k),其中k≠i;2)设定各数据段作为聚类中心的优先度s(k,k),其中k表示第k个数据段,将所有的a值a(i,k)初始化为零;3)根据两两数据段之间的a值和各数据段优先度,计算两两数据段之间的r值r(i,k);然后根据两两数据段之间的r值,再计算两两数据段之间的a值;4)将r值和a值合并,以该合并值决策聚类中心;5)重复执行步骤3)、4),直到找到稳定的聚类中心,结束聚类,统计聚类数目本发明初始时认为每一个数据段都是潜在的聚类中心,具有较强的鲁棒性。同时本发明只需要一次性计算每两段之间的距离,具有更快的运行速度。

Description

一种基于信息传递的说话人聚类方法 
技术领域
本发明属于语音识别技术领域,具体地说,本发明涉及一种说话人聚类方法。 
背景技术
说话人聚类是近年来语音信号处理领域的一个研究热点,被广泛应用于语音识别和说话人识别等领域。这项技术通常与说话人分段一起应用,也就是通常所说的说话人分段聚类。说话人聚类就是将分段后的语音数据进行分类,将不同说话人的语音数据分配到不同的类里。 
说话人聚类至今已有许多方法,可以分为两类:有监督算法和无监督算法。有监督聚类一般是指已知对话中说话人的个数,按照说话人的个数进行聚类;无监督说话人聚类一般是指对话中说话人的个数未知,聚类过程找到一个最优的聚类数目以及其相应的聚类结果。目前,说话人聚类领域最为广泛应用的是基于层次聚类框架的算法,层次聚类初始化计算所有语音段两两之间的距离,寻找距离最近的两段合并成一段,并更新计算其他语音段与该新语音段之间的距离,重复此过程直到得到所需要的聚类数目或者满足某一全局准则。但是,这种算法鲁棒性还有待提高。同时,此算法需要反复的计算各类与新类之间的距离(相似度),这增加了算法的运行时间。因此,现有的很多方法,都是基于此方法上的改进,目的是增强算法的鲁棒性和速度。 
发明内容
本发明的目的是克服现有技术的不足,针对语音信号的特点,通过不断迭代计算各数据段之间的r值和a值,将这两个值作为两段之间的两种交互信息,形成信息传递,从而提出一种鲁棒且快速有效的新的无监督和有监督说话人聚类方法。 
为实现上述发明目的,本发明提供的基于信息传递的说话人聚类方法(可参考图1)包括初始化过程和寻找聚类中心过程; 
其中初始化过程包括如下步骤: 
1)计算两两语音数据段(以下简称数据段)之间的相似度s(i,k),其中k≠i; 
2)设定各数据段作为聚类中心的优先度s(k,k),其中k表示第k个数据段,将所有的有效值a(i,k)初始化为零,下文中将有效值(availability)简称为a值; 
寻找聚类中心过程包括如下子步骤: 
3)根据两两数据段之间的a值和各数据段的优先度,计算两两数据段之间的责任值r(i,k),下文中将责任值(responsibility)简称为r值;根据各数据段的r值,计算两两数据段之间的a值; 
4)合并r值和a值,以该合并值决策聚类中心; 
5)重复执行步骤3)、4),直到找到稳定的聚类中心,结束聚类,统计聚类数目; 
以上各步骤中,i、k分别表示第i和第k个数据段。 
上述技术方案中,所述步骤1)中,所述相似度由两两数据段的距离得出,所述距离可以是欧式距离、马氏距离、KL距离或GLR距离。 
上述技术方案中,所述步骤2)中,所述各数据段作为聚类中心的优先度s(k,k)均设定为所有相似度的中值。 
上述技术方案中,所述步骤3)中,计算两两数据段之间的责任值r(i,k)的方法如下: 
r ( i , k ) = s ( i , k ) - max j ∈ [ 1 : N ] , j ≠ k [ s ( i , j ) + a ( i , j ) ]
上式中r(i,k)表示第i个数据段与第k个数据段的r值,N表示语音段的数目。 
上述技术方案中,所述步骤3)中,计算两两数据段之间a值的方法如下: 
当k=i时 
a ( i , k ) = Σ i ′ ∈ [ 1 : N ] , i ′ ≠ k max ( 0 , r ( i ′ , k ) )
当k≠i时 
a ( i , k ) = min [ 0 , r ( k , k ) + Σ i ′ ∈ [ 1 : N ] , i ′ ∉ { i , k } max ( 0 , r ( i ′ , k ) ) ]
上式中a(i,k)表示第i个数据段与第k个数据段的a值。 
上述技术方案中,所述初始化过程还包括:设定聚类过程中的最大迭代次数(MaxitNum)以及收敛迭代次数(iteration); 
上述技术方案中,所述步骤5)中,所述稳定的聚类中心的判断方法如下:当迭代次数达到最大迭代次数时,认为此时的聚类中心是稳定的聚类中心。 
上述技术方案中,所述步骤5)中,所述稳定的聚类中心的判断方法如下:当聚类中心的决策结果持续一定数目的迭代次数不变时,认为此时的聚类中心是稳定的聚类中心。 
上述技术方案中,所述步骤5)中,所述稳定的聚类中心的判断方法如下:当聚类中心的决策结果持续一定数目的迭代次数不变时,或者当迭代次 数达到最大迭代次数时,认为此时的聚类中心是稳定的聚类中心。 
上述技术方案中,所述寻找聚类中心过程在步骤5)完成后,还包括如下步骤: 
6)比较步骤5)中统计的聚类数目和预先设定的已知说话人聚类数目,当二者不相等时,修改各数据段的优先度,并将各数据段的a值重新置零;其中,每个数据段的优先度的修改根据以下公式来进行: 
sn+1(k,k)=sn(k,k)-Step×(Cn-Cexp
式中sn(k,k)是第n次聚类时第k个数据段的优先度,Cn是第n次聚类时得到的聚类数目,Cexp是预先设定的已知说话人聚类数目(即期望得到的聚类数目),step是自适应因子。 
本发明具有如下技术效果:与现有技术相比,本发明采用了一种与传统的层次聚类等方法截然不同的方法。该方法初始时认为每一个数据段都是潜在的聚类中心,即认为每个数据段作为最终的聚类中心的概率是一样的,这样可以从一定程度上避免一些不好的聚类决策,所以这个方法具有较强的鲁棒性。同时这个方法在运行过程中只需要一次性计算好每两段之间的距离,在寻找聚类中心的过程中不需要再额外计算距离,层次聚类不但要计算每两段之间的距离,还需要不断更新计算新段与其它段之间的距离。而对聚类方法影响最大的便是距离的计算,因此该方法比层次聚类具有更快的运行速度。本发明也可以用来做无监督聚类。 
附图说明
以下,结合附图来详细说明本发明的实施例,其中: 
图1是本发明的聚类算法框图; 
图2是本发明一种实施例无监督说话人聚类详细流程图。 
具体实施方式
下面结合附图和实施例对本发明作进一步的描述。
实施例1 
本发明提供的基于信息传递的有监督说话人聚类方法包括如下步骤: 
步骤101,读取说话人分段后得到的分段信息。 
步骤102,确定语音段的数目N,设定聚类过程中的最大迭代次数(MaxitNum),判断收敛时的收敛迭代次数(iteration)。在本实施例中,最大迭代次数设为500,收敛迭代次数设为50。 
步骤103,从输入语音信号中提取特征矢量序列,本实施例中采用14维的LSP特征。 
步骤104,计算两两语音段之间的相似度。将距离加负号后作为输入的相似度(这是本领域技术人员的常用作法)。在实际应用中,将第i个数据段与第k个数据段的相似度用s(i,k)表示,其中k≠i。常用的距离有欧式距离,马氏距离,KL距离,以及GLR距离等。实用过程中可根据不同情况选择距离度量。 
在本实施例中采用GLR距离来最为两两语音段之间的距离。具体计算公式如下: 
s(i,k)=-dGLR(xi,xk),i≠k 
上式中s(i,k)即是所需要的相似度,表示了两段之间的相似程度。dGLR(xi,xk)是第i段与第k段之间的GLR距离。xi,xk分别是第i段与第k段的特征向量,它们可以用两个高斯模型来表征:N(μxi,∑xi),N(μxk,∑xk)。GLR距离的具体计算公式如下: 
d GLR ( x i , x k ) = log ( L ( x i ; μ x i , Σ x i ) · L ( x k ; μ x k , Σ x k ) L ( y ; μ y , Σ y ) )
其中,L(*)是似然函数,y表示特征向量xi和xk的结合,y用混合高斯N(μy,∑y)来表征。 
步骤105,选取优先度,将所有语音段作为聚类中心的优先度都设定为所有相似度的中值。本发明中,每个数据段被选做聚类中心的几率是相等的,故所有语音段的优先度(preference)都设为同一个值,即所有相似度的中值。这些优先度的大小关系到最终的聚类类别的数目,通过更改此值,可以得到不同的聚类数目。本发明就是通过这一条件来得到期望的聚类类别数目。优先度在公式中用s(k,k)来表示。所有的优先度s(k,k)都通过以下公式来计算: 
s(k,k)=mediani=1:N,j=1:n,i≠j[s(i,k)] 
其中median符号表示中值。 
步骤106,将所有的有效值(a值)初始化为零;用a(i,k)来表示第i个数据段与第k个数据段的a值。这个a值反映了除第k个数据段以外的其他所有数据段相比,第i个数据段选择第k个数据段作为它的聚类中心的合适程度。 
步骤107,根据以下公式计算r值: 
r ( i , k ) = s ( i , k ) - max j ∈ [ 1 : N , ] j ≠ k [ s ( i , j ) + a ( i , j ) ]
上式中r(i,k)表示第i个数据段与第k个数据段的r值。这个r值反映了第k个数据段与其他第i个数据段的潜在的聚类中心相比,第k个数据段作为第i个数据段的聚类中心的适合程度。 
根据以下公式计算a值: 
当k=i时 
a ( i , k ) = Σ i ′ ∈ [ 1 : N ] , i ′ ≠ k max ( 0 , r ( i ′ , k ) )
当k≠i时 
a ( i , k ) = min [ 0 , r ( k , k ) + Σ i ′ ∈ [ 1 : N ] , i ′ ∉ { i , k } max ( 0 , r ( i ′ , k ) ) ]
步骤108,计算所有r(i,k)+a(i,k)的值,对每一个i寻找相应的使r(i,k)+a(i,k)最大的k。对第i个数据段来说,使r(i,k)+a(i,k)的值最大的那个数据段k=i时,说明第i个数据段是聚类中心,如果k≠i,说明第k个数据段是第i个数据段的聚类中心。 
步骤109,重复执行步骤107、步骤108,按照一定准则找到稳定的聚类中心后,结束一次聚类,统计聚类数目。所述准则为当聚类中心的决策结果持续一定数目的迭代次数保持不变时(如持续50次迭代中,决策结果保持不变),或者迭代次数达到最大迭代次数时,认为此时的聚类决策稳定可靠,从而停止该次聚类。 
步骤110,若步骤109中得到的聚类数目不是指定的数目,则修改每个 语音段的优先度,这个优先度影响到每次迭代聚类得到的类数目。重复步骤106)、107)、108)、109),直到得到的聚类数目与指定的聚类数目相同,则此时输出聚类结果。在此步骤中每个语音段的优先度的修改根据以下公式: 
sn+1(k,k)=sn(k,k)-step×(Cn-Cexp
上式中sn(k,k)是第n次聚类时每个数据段的优先度,Cn是第n次聚类时得到的聚类数目,Cexp是期望得到的聚类数目,step是自适应因子,可以根据实验或经验来设定。 
通过以上步骤就可以完成有监督说话人聚类。 
实施例2 
如图2所示,本发明提供的基于信息传递的无监督说话人聚类方法包括如下步骤(本实施例中的诉述大部分步骤与实施例1相同,故对这些步骤不再作详细讲解): 
步骤101,读取说话人分段后得到的分段信息。 
步骤102,确定语音段的数目,设定聚类过程中的最大迭代次数,判断收敛时的迭代次数,以及衰减因子。 
步骤103,从输入语音信号中提取特征矢量序列。 
步骤104,计算两两语音段之间的相似度。 
步骤105,选取优先度。 
步骤106,将所有的a值初始化为零; 
步骤107,根据公式计算r值和a值: 
步骤108,计算所有r(i,k)+a(i,k)的值,寻找聚类中心。 
步骤109,重复执行步骤108,按照准则找到稳定的聚类中心后,停止聚类。 
由上可见该无监督说话人聚类可以作为有监督说话人聚类的一部分来看待。有监督说话人聚类就是不断重复执行无监督说话人聚类过程,对每个语音段寻找合适的优先度,从而得到期望的聚类数目,实现有监督聚类。 
最后,最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。 

Claims (6)

1.一种基于信息传递的说话人聚类方法,包括初始化过程和寻找聚类中心过程;
其中初始化过程包括如下步骤:
1)计算两两数据段之间的相似度s(i,k),其中k≠i;
2)设定各数据段作为聚类中心的优先度s(k,k),其中k表示第k个数据段,将所有的有效值a(i,k)初始化为零;
寻找聚类中心过程包括如下子步骤:
3)根据两两数据段之间的有效值和各数据段优先度,计算两两数据段之间的责任值r(i,k);然后根据两两数据段之间的责任值,再计算两两数据段之间的有效值;
4)将相应的责任值和有效值合并得出合并值r(i,k)+a(i,k),以该合并值决策聚类中心;
5)重复执行步骤3)、4),直到找到稳定的聚类中心,结束聚类,统计聚类数目;
以上各步骤中,i、k分别表示第i和第k个数据段;
所述步骤2)中,所述各数据段作为聚类中心的优先度s(k,k)均设定为所有相似度的中值;
所述步骤3)中,计算两两数据段之间的责任值r(i,k)的方法如下:
Figure FSB00000415875900011
上式中r(i,k)表示第i个数据段与第k个数据段的r值,N表示数据段 的个数;
所述步骤3)中,计算两两数据段之间的有效值的方法如下:
当k=i时
Figure FSB00000415875900021
当k≠i时
Figure FSB00000415875900022
上式中a(i,k)表示第i个数据段与第k个数据段的a值,N表示数据段的个数;
所述步骤4)中,计算所有r(i,k)+a(i,k)的值,对每一个i寻找相应的使r(i,k)+a(i,k)最大的k;对第i个数据段来说,使r(i,k)+a(i,k)的值最大的那个数据段k=i时,说明第i个数据段是聚类中心,如果k≠i,说明第k个数据段是第i个数据段的聚类中心。
2.根据权利要求1所述的基于信息传递的说话人聚类方法,其特征在于,所述步骤1)中,所述相似度由两两数据段的距离得出,所述距离可以是欧式距离、马氏距离、KL距离或GLR距离。
3.根据权利要求1所述的基于信息传递的说话人聚类方法,其特征在于,所述初始化过程还包括:设定聚类过程中的最大迭代次数以及收敛迭代次数。
4.根据权利要求3所述的基于信息传递的说话人聚类方法,其特征在于,所述步骤5)中,所述稳定的聚类中心的判断方法如下:当迭代次数达到最大迭代次数时,认为此时的聚类中心是稳定的聚类中心。 
5.根据权利要求3所述的基于信息传递的说话人聚类方法,其特征在于,所述步骤5)中,所述稳定的聚类中心的判断方法如下:当聚类中心的决策结果持续一定数目的迭代次数保持不变时,认为此时的聚类中心是稳定的聚类中心,所述一定数目是所设定的收敛迭代次数。
6.根据权利要求1所述的基于信息传递的说话人聚类方法,其特征在于,所述寻找聚类中心过程在步骤5)完成后,还包括如下步骤:
6)比较步骤5)中统计的聚类数目和预先设定的已知说话人聚类数目,当二者不相等时,修改各数据段的优先度,并将各数据段的有效值重新置零;其中,每个数据段的优先度的修改根据以下公式来进行:
sn+1(k,k)=sn(k,k)-step×(Cn-Cexp)
式中sn(k,k)是第n次聚类时第k个数据段的优先度,Cn是第n次聚类时得到的聚类数目,Cexp是预先设定的已知说话人聚类数目,step是自适应因子。 
CN2007101783634A 2007-11-29 2007-11-29 一种基于信息传递的说话人聚类方法 Expired - Fee Related CN101452704B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2007101783634A CN101452704B (zh) 2007-11-29 2007-11-29 一种基于信息传递的说话人聚类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2007101783634A CN101452704B (zh) 2007-11-29 2007-11-29 一种基于信息传递的说话人聚类方法

Publications (2)

Publication Number Publication Date
CN101452704A CN101452704A (zh) 2009-06-10
CN101452704B true CN101452704B (zh) 2011-05-11

Family

ID=40734904

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2007101783634A Expired - Fee Related CN101452704B (zh) 2007-11-29 2007-11-29 一种基于信息传递的说话人聚类方法

Country Status (1)

Country Link
CN (1) CN101452704B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102074236B (zh) * 2010-11-29 2012-06-06 清华大学 一种分布式麦克风的说话人聚类方法
CN104282303B (zh) * 2013-07-09 2019-03-29 威盛电子股份有限公司 利用声纹识别进行语音辨识的方法及其电子装置
CN105469784B (zh) * 2014-09-10 2019-01-08 中国科学院声学研究所 一种基于概率线性鉴别分析模型的说话人聚类方法及系统
CN105161093B (zh) * 2015-10-14 2019-07-09 科大讯飞股份有限公司 一种判断说话人数目的方法及系统
CN110335621A (zh) * 2019-05-28 2019-10-15 深圳追一科技有限公司 音频处理的方法、系统及相关设备
CN111240942A (zh) * 2019-12-02 2020-06-05 华为技术有限公司 日志异常检测方法及装置
CN110930984A (zh) * 2019-12-04 2020-03-27 北京搜狗科技发展有限公司 一种语音处理方法、装置和电子设备
CN112562693B (zh) * 2021-02-24 2021-05-28 北京远鉴信息技术有限公司 一种基于聚类的说话人确定方法、确定装置及电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1455389A (zh) * 2002-09-30 2003-11-12 中国科学院声学研究所 语音识别系统及用于语音识别系统的特征矢量集的压缩方法
CN1455388A (zh) * 2002-09-30 2003-11-12 中国科学院声学研究所 语音识别系统及用于语音识别系统的特征矢量集的压缩方法
WO2004001720A1 (en) * 2002-06-19 2003-12-31 Koninklijke Philips Electronics N.V. A mega speaker identification (id) system and corresponding methods therefor
CN1540623A (zh) * 2003-11-04 2004-10-27 清华大学 一种门限自适应的语音检测系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004001720A1 (en) * 2002-06-19 2003-12-31 Koninklijke Philips Electronics N.V. A mega speaker identification (id) system and corresponding methods therefor
CN1455389A (zh) * 2002-09-30 2003-11-12 中国科学院声学研究所 语音识别系统及用于语音识别系统的特征矢量集的压缩方法
CN1455388A (zh) * 2002-09-30 2003-11-12 中国科学院声学研究所 语音识别系统及用于语音识别系统的特征矢量集的压缩方法
CN1540623A (zh) * 2003-11-04 2004-10-27 清华大学 一种门限自适应的语音检测系统

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
Liu D, Kubala F.《Online Speaker Clustering》.《IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING, 2004》.2004,333-336. *
LiuD Kubala F.《Online Speaker Clustering》.《IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS
Padmanabhan M, Bahl LR,Picheny MA..《 Speaker clustering and transformation for speaker adaptation in large vocabulary speech recognition systems》.《IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING, 1996》.1996,701-704.
Padmanabhan M, Bahl LR,Picheny MA..《 Speaker clustering and transformation for speaker adaptation in large vocabulary speech recognition systems》.《IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING, 1996》.1996,701-704. *
何磊,方棣棠,吴文虎.《18说话人聚类与模型自适应结合的说话人自适应方法》.《第六届全国人机语音通讯学术会议 》.2001,全文. *
林琳,王树勋.《基于遗传-模糊聚类的说话人识别方法及其仿真研究》.《系统仿真学报》.2006,全文. *
王炜,吕萍,颜永红.《基于假设检验的的自动说话人聚类算法》.《第八届全国人机语音通讯学术会议(NCMMSC8) 》.2005,全文. *

Also Published As

Publication number Publication date
CN101452704A (zh) 2009-06-10

Similar Documents

Publication Publication Date Title
CN101452704B (zh) 一种基于信息传递的说话人聚类方法
TWI794157B (zh) 自動多閾值特徵過濾方法及裝置
Shum et al. On the use of spectral and iterative methods for speaker diarization
CN111539444B (zh) 一种修正式模式识别及统计建模的高斯混合模型方法
CN109299263B (zh) 文本分类方法、电子设备
Tu et al. Variational domain adversarial learning with mutual information maximization for speaker verification
CN108875933A (zh) 一种无监督稀疏参数学习的超限学习机分类方法及系统
CN111563373B (zh) 聚焦属性相关文本的属性级情感分类方法
Liu et al. Adaptive global time sequence averaging method using dynamic time warping
CN103279746A (zh) 一种基于支持向量机的人脸识别方法及系统
CN115409124B (zh) 基于微调原型网络的小样本敏感信息识别方法
CN103035239B (zh) 一种基于局部学习的说话人识别方法
CN112487482B (zh) 自适应切割阈值的深度学习差分隐私保护方法
CN113672718A (zh) 基于特征匹配和领域自适应的对话意图识别方法及系统
CN107688822B (zh) 基于深度学习的新增类别识别方法
Yang et al. A tighter lower bound estimate for dynamic time warping
CN116883746A (zh) 一种基于分区池化超图神经网络的图节点分类方法
Tang et al. Generative model-based speaker clustering via mixture of von mises-fisher distributions
Makihara et al. Score-level fusion based on the direct estimation of the bayes error gradient distribution
US20140343944A1 (en) Method of visual voice recognition with selection of groups of most relevant points of interest
US20140343945A1 (en) Method of visual voice recognition by following-up the local deformations of a set of points of interest of the speaker's mouth
CN115630304A (zh) 一种文本抽取任务中的事件分割抽取方法及系统
CN111461255B (zh) 一种基于间隔分布的Siamese网络图像识别方法及系统
CN114547264A (zh) 一种基于马氏距离和对比学习的新意图数据识别方法
CN110942089A (zh) 一种基于多级决策的击键识别方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20110511

CF01 Termination of patent right due to non-payment of annual fee