CN114970695A - 一种基于非参贝叶斯模型的说话人分割聚类方法 - Google Patents
一种基于非参贝叶斯模型的说话人分割聚类方法 Download PDFInfo
- Publication number
- CN114970695A CN114970695A CN202210524824.3A CN202210524824A CN114970695A CN 114970695 A CN114970695 A CN 114970695A CN 202210524824 A CN202210524824 A CN 202210524824A CN 114970695 A CN114970695 A CN 114970695A
- Authority
- CN
- China
- Prior art keywords
- clustering
- class
- vector
- frame
- vectors
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 230000011218 segmentation Effects 0.000 title claims abstract description 34
- 239000013598 vector Substances 0.000 claims abstract description 83
- 238000000605 extraction Methods 0.000 claims abstract description 9
- 238000001228 spectrum Methods 0.000 claims description 11
- 238000012216 screening Methods 0.000 claims description 7
- 238000009432 framing Methods 0.000 claims description 6
- 238000011176 pooling Methods 0.000 claims description 6
- 230000009467 reduction Effects 0.000 claims description 5
- 238000004458 analytical method Methods 0.000 claims description 4
- 230000037433 frameshift Effects 0.000 claims description 4
- 239000011159 matrix material Substances 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 4
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 230000004044 response Effects 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 230000008569 process Effects 0.000 abstract description 9
- 230000000694 effects Effects 0.000 abstract description 5
- 238000001514 detection method Methods 0.000 abstract description 2
- 238000002474 experimental method Methods 0.000 description 5
- 238000011423 initialization method Methods 0.000 description 4
- 238000005070 sampling Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 241001672694 Citrus reticulata Species 0.000 description 1
- 230000004931 aggregating effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000011524 similarity measure Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2132—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on discrimination criteria, e.g. discriminant analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
Abstract
本发明公开了一种基于非参贝叶斯模型的说话人分割聚类方法,该方法对狄利克雷过程混合模型进行方差渐近,从而获得了一个在聚类过程中可以根据数据不断产生新类的简单硬聚类方法DP‑means。本发明包括如下步骤:1)先进行声学特征提取及语音活动性检测,以过滤掉非语音片段。之后将纯语音分段并将分段后的语音片段送入特征提取器得到x‑vector;2)由于这类基于狄利克雷过程的聚类方法对初始化较为敏感,使用AHC或SC等方法进行初始聚类。筛选出初始聚类结果中包含x‑vector较多的类后,计算这些类的均值,并将其作为DP‑means的初始化类中心。随后用DP‑means进行聚类得到最终结果。本发明在多个数据集上的结果表明,能够将聚类效率大幅提高,同时具备了优越的性能和效率。
Description
技术领域
本发明属于语音识别技术领域,具体涉及一种说话人分割聚类方法。
背景技术
近年来,互联网的发展使得人们的交互方式发生了巨大的变化,更多的会议、采访、面试等活动在线上展开,由此产生了大量的多人语音对话数据。说话人分割聚类(Speaker diarization)系统在一段语音中标记不同说话人的身份信息,解决了“谁在什么时间说话”的问题。通过说话人分割聚类,不但可以对语音数据进行高效地检索和管理,还有助于增强其语义信息的可懂性。但想要找到高效且可靠的说话人分割聚类系统仍然具有一定的挑战性。
在过去的研究中已经证明,相比于端到端的系统,传统的模块化说话人分割聚类可以取得更好的性能。而在模块化的方法中,聚类模块是最重要的模块之一。将传统的K-means、凝聚层次聚类(Hierarchical Agglomerative Clustering,AHC)和谱聚类(Spectral clustering,SC)等聚类方法用于说话人分割聚类可以获得简单高效的系统,但无法达到较高的准确性。
最近提出的基于贝叶斯隐马尔科夫(Hidden Markov Model,HMM)概率模型的聚类在说话人分割聚类中表现优异。它假设输入序列是由特定于说话人的分布生成的,通过遍历HMM来提取依赖上下文序列信息的说话人特征表示。该方法虽然性能有所提高,但比广泛使用的传统聚类算法复杂得多,不适用于一些现实生活场景。
发明内容
为了克服现有技术的不足,本发明提供了一种基于非参贝叶斯模型的说话人分割聚类方法,该方法对狄利克雷过程混合模型(Dirichlet process mixture models,DPMM)进行方差渐近,从而获得了一个在聚类过程中可以根据数据不断产生新类的简单硬聚类方法,称为DP-means。以x-vectors为特征,提出的说话人分割聚类方法包括如下步骤:1)先进行声学特征提取及语音活动性检测(Voice activity detection,VAD),以过滤掉非语音片段。之后将纯语音分段并将分段后的语音片段送入特征提取器得到x-vectors;2)由于这类基于狄利克雷过程的聚类方法对初始化较为敏感,首先使用AHC或SC等方法进行初始聚类。筛选出初始聚类结果中包含x-vectors较多的类后,计算这些类的均值,并将其作为DP-means的初始化类中心。随后用DP-means进行聚类得到最终结果。在CALLHOME数据集上的结果表明,基于DP-means的说话人分割聚类系统实现了低于AHC基线31.6%的Diarizationerror(DER);在AMI数据集上的结果表明,基于DP-means的说话人分割聚类系统实现了低于AHC基线27.2%的DER。同时,与较为复杂的基于贝叶斯概率模型的方法相比,基于DP-means的说话人分割聚类系统在CALLHOME和AMI数据集上分别将效率提高了73%和41%。同时具备了优越的性能和效率。
本发明解决其技术问题所采用的技术方案包括如下步骤:
步骤1:说话人特征提取;
步骤1-1:帧级别声学特征提取并分段:
对原始语音进行分帧操作,对每一帧进行短时傅里叶变换STFT,得到横坐标为时间纵坐标为频率的二维时频谱;
对每一帧的二维时频谱使用梅尔滤波器组获取FBank,梅尔频率和普通频率的转换关系如下:
m=2595log10(1+f/700) (1)
f=700(10m/2596-1) (2)其中m和f分别为梅尔频率和普通频率;
梅尔滤波器组的频率响应为:
设置段长和步长对逐帧获取的FBank进行分段处理;
步骤1-2:说话人特征提取:
将分段后的FBank输入基于ResNet101的网络提取N×256维的x-vectors;ResNet101网络包含一个2D卷积层、标准ResNet块、一个统计池化层和一个线性变换层;得到N×256维的x-vector序列后进一步使用线性判别分析将x-vector向量进行降维,最终得到N×128维的x-vector序列;N是语音段数量;
步骤2:对说话人特征进行聚类;
步骤2-1:AHC初始聚类并进行类筛选;
用余弦相似度计算步骤1-2得到的x-vector的相似度矩阵,然后再采用AHC对x-vector进行聚类;
通过AHC获得的聚类结果中x-vector各类所包含的x-vector数量不同,设置阈值筛选出包含的x-vector数量大于阈值的类,计算每一个大于阈值的类的x-vector的均值作为下一步DP-means的初始类中心,共有k个;
步骤2-2:DP-means聚类:
计算每个x-vector与DP-means的每个类中心的相似度:
simic=cos(xi,μc),for c=1,...,k and i=1,...,N (4)
其中μc为第c个类的中心、xi为第i个x-vector;k为类中心的数量,即为当前说话人的数量;
对于第i个x-vector,c从1取到k:
如果maxcsimic<λ,则新建一个类,令:
k加1,zi=k (5)
μk=xi (6)
其中maxcsimic为第i个x-vector与所有k个类中心的相似度中的最大值,zi为第i个x-vector所对应的类别标签,λ为DP-means的超参数,μk为第k个类的中心;
如果maxcsimic>λ,将第i个x-vector归入相似度最大值对应的类中,令:
zi=argmaxcsimic (7)
其中,argmaxcsimic表示第i个x-vector与所有k个类中心的相似度中的最大值对应的类别标签;
遍历每个x-vector,完成后更新每个类的均值作为新的类中心;
目标函数收敛后,DP-means的分类结果即为最终的说话人分割聚类结果。
优选地,所述对原始语音进行分帧操作时使用的帧长为25ms,帧移为10ms。
优选地,所述梅尔滤波器组数量为64。
优选地,所述设置段长和步长对逐帧获取的FBank进行分段处理时段长为1.44s,步长为0.24s。
优选地,所述λ在CALLHOME上设置为0.275,在AMI头戴麦克风数据设置为0.15,在AMI远场麦克风数据设置为0.05。
本发明的有益效果如下:
1.本发明提出了一种基于非参贝叶斯模型的说话人分割聚类系统。该系统对DPMM进行方差渐近,从而获得了简便的DP-means聚类系统。与基于贝叶斯概率模型的系统相比提升了说话人分割聚类系统的效率。
2.本发明使用AHC作为初始化聚类,为DP-means提供可靠的初始类中心。不但极大提高了说话人分割聚类系统的准确性,还加快了系统收敛速度。
附图说明
图1为本发明的系统架构图。
图2为本发明基于DP-means的说话人分割聚类系统算法流程图。
图3为本发明实施例中超参数对DER结果的影响,其中(a)p=0,(b)λ=0.275,(c)p=130,(d)λ=0.05。
具体实施方式
下面结合附图和实施例对本发明进一步说明。
基于贝叶斯概率模型的聚类在说话人分割聚类领域取得了优异的性能,但它比广泛使用的高效聚类算法复杂得多,这对于一些现实生活场景来说并不适用。为了同时获得高性能与高效率的说话人分割聚类系统,本发明提出了狄利克雷过程混合模型的协方差渐近变体,称DP-means聚类,用于说话人分割聚类。
一种基于非参贝叶斯模型的说话人分割聚类方法,包括如下步骤:
步骤1:说话人特征提取;
步骤1-1:帧级别声学特征提取并分段:
对原始语音进行分帧操作,这么做是为了避免信号的频率轮廓会随着时间的推移而丢失,在这里可以认为每一帧之内的信号是短时不变的。随后对每一帧进行短时傅里叶变换(Short-time Fourier Transform,STFT),最终在得到的能量谱上应用Mel滤波器组提取梅尔频谱(log mel-filter bank,FBank)声学特征。详细计算过程如下:
分帧时使用的帧长为25ms,帧移为10ms。STFT可视为对每一帧进行FFT,FFT的点数根据音频信号的采样率决定。采样率为8KHz时进行200点的FFT,16KHz时点数为400。通过STFT得到横坐标为时间纵坐标为频率的二维时频谱。为了使时频谱更加符合人耳对频率的敏感特性,逐帧使用梅尔滤波器组来获取FBank,在此方法中设置梅尔滤波器组数量为64。梅尔频率和普通频率的转换关系如下:
m=2595log10(1+f/700) (1)
f=700(10m/2596-1) (2)
其中m和f分别为梅尔频率和普通频率。梅尔滤波器组的频率响应为:
逐帧获取FBank后进行分段处理,设置段长为1.44s,步长为0.24s的窗口对语音进行截取。
步骤1-2:说话人特征提取:
将分段后的FBank输入基于ResNet101的网络提取N×256维的x-vectors;ResNet101网络包含一个2D卷积层、标准ResNet块、一个统计池化层和一个线性变换层;其中在统计池化层之前网络进行的是帧级别的学习。统计池化层用于在时间维度聚合整个语音段的信息,其输出的向量包含了整段语音的信息。得到N×256维的x-vector序列后进一步使用线性判别分析将x-vector向量进行降维,最终得到N×128维的x-vector序列;N是语音段数量;
步骤2:对说话人特征进行聚类;
步骤2-1:AHC初始聚类并进行类筛选;
首先将x-vectors送入AHC进行初始化聚类,AHC是一种自下而上的聚类方法,我们用余弦相似度计算的x-vectors的相似度矩阵,并将相似度矩阵输入到AHC系统中。起初AHC将每个x-vector视为一个单独的类,然后两个最近的类将合并为一个新的类。AHC设置一个阈值来停止该合并过程,当聚类之间的相似度低于阈值结束迭代。
通过AHC获得的聚类结果中各类所包含的x-vectors数量各有不同,设置一个阈值来筛选包含x-vectors数量较多的类。计算这些类的均值作为下一步DP-means的初始化类中心。
步骤2-2:DP-means聚类:
DP-means通过期望最大化(Expectation-Maximization,EM)算法进行优化。首先,它将上一步得到的类的均值作为初始类中心。然后通过计算每个点与每个类中心之间的余弦相似度,将每个x-vector分配到最近的类中去。如果最小距离大于DP-means的参数λ,则创建一个新的类。根据上一步的结果更新每个类的均值作为新的类中心。使用余弦相似度将x-vectors分配到类中时,相似度值越大,两个最近的邻居越接近重复这个算法直到目标函数收敛。具体如下:
计算每个x-vector与DP-means的每个类中心的相似度:
simic=cos(xi,μc)for c=1,...,k and i=1,...,N (4)
其中μc为第c个类的中心、xi为第i个x-vector;k为类中心的数量,即为当前说话人的数量;
对于第i个x-vector,c从1取到k:
如果maxcsimic<λ,则新建一个类,令:
k加1,zi=k (5)
μk=xi (6)
其中maxcsimic为第i个x-vector与所有k个类中心的相似度中的最大值,zi为第i个x-vector所对应的类别标签,λ为DP-means的超参数,μk为第k个类的中心;
如果maxcsimic>λ,将第i个x-vector归入相似度最大值对应的类中,令:
zi=argmaxcsimic (7)
其中,argmaxcsimic表示第i个x-vector与所有k个类中心的相似度中的最大值对应的类别标签;
遍历每个x-vector,完成后更新每个类的均值作为新的类中心;
目标函数收敛后,DP-means的分类结果即为最终的说话人分割聚类结果。
具体实施例:
(1)数据准备
16kHz数据的x-vector特征提取器使用来自VoxCeleb1(来自1211个说话人的323小时语音)、VoxCeleb2(2290小时,5994个说话人)和CN-CELEB(264小时,973个发言者)的数据进行训练。来自Kaldi工具包的基于能量的VAD用于移除静音帧。在少于2个录音中出现的说话人将被丢弃。此外,还会删除少于4秒语音。这样,大约有4%的语音数据被丢弃。数据增强的执行方式与SRE16 Kaldi方法中的相同。通过这种方式,获得了四个额外的数据,其中包含人为添加的噪声、音乐或混响。训练8kHz采样率x-vector特征提取器使用与16kHz情况相同的数据集。此外,还使用了以下数据集:Mixer集合(NIST SRE 2004-2010,3805小时,4254名说话人)、Switchboard(1170小时,2591名说话人)和DeepMine(688小时,1858名说话人)。使用的任何数据都被降采样到8kHz。并使用与16kHz相同的数据选择和数据增强。
使用CALLHOME和AMI作为评估数据集。CALLHOME由单通道电话录音组成,每个录音包含2到7个说话人。数据集包含阿拉伯语、英语、德语、日语、普通话和西班牙语。它由500个录音组成。录音的平均时间约为两分钟。由于录音中文本文件的格式错误,在实验中只使用了499个录音。AMI语料库长约100小时。它由171个会议录音组成,每个录音包含4到5个说话人,持续约30分钟。将AMI的开发集和测试集合并起来,作为此实验中的测试集。AMI是数据集是同时使用头戴式麦克风和远场麦克风阵列录制的。在实验中,同时测试了来自头戴式麦克风的数据和远场麦克风阵列中随机抽取的一个通道的数据。
(2)x-vector特征提取
令帧长为25ms,帧移为10ms对语音进行分帧操作。由于CALLHOME和AMI的采样率分别为8kHz和16kHz,所以STFT就可视为对CALLHOME数据逐帧进行200点的FFT,对AMI中数据逐帧进行400点的FFT。通过STFT后,分别得到T×200T×400的时频谱。给得到的时频谱加上滤波器数为64的梅尔滤波器组得到了T×64维的FBank,其中T为帧数。随后对FBank进行分段处理,设置段长为1.44s,步长为0.24s的窗口FBank进行分段。
将分好的段送入x-vector特征提取器,得到N×256维的x-vector序列,其中N是语音段数量。再通过线性判别分析对x-vectors进行降维,最终得到N×128维的x-vector序列。
(3)初始化聚类并进行类筛选
AHC和SC被用作DP-means的初始聚类。所有聚类算法的x-vectors之间的相似度度量都使用的是余弦相似度:
其中a和b是两个向量。AHC的超参数在CALLHOME上设置为-0.12,对于AMI设置为-0.06。CALLHOME和AMI的类筛选阈值分别设置为16和190。
(4)DP-means聚类
由上一步获取类中心后,DP-means首先计算每个x-vector与每个类中心的相似度:
simic=cos(xi,μc),for c=1,...,k and i=1,...,N
其中μc为第c个说话人的类中心、xi为第i个x-vector、k为类中心的数量,即为当前说话人的数量。
如果maxcsimic<λ则令:
k=k+1,zi=k
μk=xi
其中zi为第i个x-vector所对应的类别标签,λ为DP-means的超参数,在CALLHOME上设置为0.275,对于AMI头戴麦克风数据设置为0.15,对于AMI远场麦克风数据设置为0.05。
如果maxcsimic>λ则令:
zi=argmaxcsimic
(5)实验结果
表1 CALLHOME和AMI上的DER(%)和计算时间(以秒为单位)的比较
表2 CALLHOME上不同初始化方法的DP-means的DER(%)
Global mean | RS30 | RS50 | AHC initialization |
23.41 | 10.70 | 10.42 | 5.79 |
表1列出了CALLHOME和AMI的比较结果。从表中可以看到,DP-means产生的DER低于AHC和SC。尽管所提出的方法在DER方面的表现不如基于贝叶斯概率模型的VBx方法,但比VBx高效得多。在CALLHOME、AMI头戴式麦克风和AMI远场麦克风数据集上,DP-means与VBx系统相比时间相对减少了73%、28%和41%。与AHC基线系统相比,DP-means在CALLHOME和AMI数据集上的DER相对减少了31.6%和27.2%。
为了研究DP-means的不同初始化方法对性能的影响,表2将提出的初始化聚类并进行类筛选的方法与以下两种初始化方法进行了比较。第一个称为全局均值,使用单个类中心初始化DP-means,该类中心是所有x-vectors的均值。第二个称为随机选择(Randomselection,RS),从x-vectors序列中选择N个x-vectors作为DP-means的初始类中心。在本实验中,分别将N设置为30和50,分别表示为RS30和RS50。为了选择最佳初始类中心,多次运行DP-means,并选择使最小目标值的初始类中心。
由表2可以看出,没有进行初始聚类的DP-means很容易陷入局部最优。随机初始化在全局均值初始化的基础上DER有所下降。然而,它仍然不如基于初始聚类的初始化方法有效。
此外,从图3(a)和图3(c),可以看到,对于不同值的λ,CALLHOME上的DER在7.15到7.31之间浮动,AMI上的DER在11.08到12.47间浮动。图3(b)和图3(d)表明,对于不同的取值类筛选的参数p,在CALLHOME上DER的变化范围在5.79到6.72之间,在AMI上在10.5到11.03之间。结果表明,所提出的方法对超参数并不敏感。
Claims (5)
1.一种基于非参贝叶斯模型的说话人分割聚类方法,其特征在于,包括如下步骤:
步骤1:说话人特征提取;
步骤1-1:帧级别声学特征提取并分段:
对原始语音进行分帧操作,对每一帧进行短时傅里叶变换STFT,得到横坐标为时间纵坐标为频率的二维时频谱;
对每一帧的二维时频谱使用梅尔滤波器组获取FBank,梅尔频率和普通频率的转换关系如下:
m=2595log10(1+f/700) (1)
f=700(10m/2596-1) (2)
其中m和f分别为梅尔频率和普通频率;
梅尔滤波器组的频率响应为:
设置段长和步长对逐帧获取的FBank进行分段处理;
步骤1-2:说话人特征提取:
将分段后的FBank输入基于ResNet101的网络提取N×256维的x-vectors;ResNet101网络包含一个2D卷积层、标准ResNet块、一个统计池化层和一个线性变换层;得到N×256维的x-vector序列后进一步使用线性判别分析将x-vector向量进行降维,最终得到N×128维的x-vector序列;N是语音段数量;
步骤2:对说话人特征进行聚类;
步骤2-1:AHC初始聚类并进行类筛选;
用余弦相似度计算步骤1-2得到的x-vector的相似度矩阵,然后再采用AHC对x-vector进行聚类;
通过AHC获得的聚类结果中x-vector各类所包含的x-vector数量不同,设置阈值筛选出包含的x-vector数量大于阈值的类,计算每一个大于阈值的类的x-vector的均值作为下一步DP-means的初始类中心,共有k个;
步骤2-2:DP-means聚类:
计算每个x-vector与DP-means的每个类中心的相似度:
simic=cos(xi,μc),forr c=1,...,k and i=1,...,N (4)
其中μc为第c个类的中心、xi为第i个x-vector;k为类中心的数量,即为当前说话人的数量;
对于第i个x-vector,c从1取到k:
如果maxcsimic<λ,则新建一个类,令:
k加1,zi=k (5)
μk=xi (6)
其中maxcsimic为第i个x-vector与所有k个类中心的相似度中的最大值,zi为第i个x-vector所对应的类别标签,λ为DP-means的超参数,μk为第k个类的中心;
如果maxcsimic>λ,将第i个x-vector归入相似度最大值对应的类中,令:
zi=argmaxcsimic (7)其中,argmaxcsimic表示第i个x-vector与所有k个类中心的相似度中的最大值对应的类别标签;
遍历每个x-vector,完成后更新每个类的均值作为新的类中心;
目标函数收敛后,DP-means的分类结果即为最终的说话人分割聚类结果。
2.根据权利要求1所述的一种基于非参贝叶斯模型的说话人分割聚类方法,其特征在于,所述对原始语音进行分帧操作时使用的帧长为25ms,帧移为10ms。
3.根据权利要求1所述的一种基于非参贝叶斯模型的说话人分割聚类方法,其特征在于,所述梅尔滤波器组数量为64。
4.根据权利要求1所述的一种基于非参贝叶斯模型的说话人分割聚类方法,其特征在于,所述设置段长和步长对逐帧获取的FBank进行分段处理时段长为1.44s,步长为0.24s。
5.根据权利要求1所述的一种基于非参贝叶斯模型的说话人分割聚类方法,其特征在于,所述λ在CALLHOME上设置为0.275,在AMI头戴麦克风数据设置为0.15,在AMI远场麦克风数据设置为0.05。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210009940 | 2022-01-06 | ||
CN2022100099401 | 2022-01-06 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114970695A true CN114970695A (zh) | 2022-08-30 |
CN114970695B CN114970695B (zh) | 2024-03-22 |
Family
ID=82984180
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210524824.3A Active CN114970695B (zh) | 2022-01-06 | 2022-05-13 | 一种基于非参贝叶斯模型的说话人分割聚类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114970695B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116701921A (zh) * | 2023-08-08 | 2023-09-05 | 电子科技大学 | 多通道时序信号的时频特征提取电路及自适应抑噪电路 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7295970B1 (en) * | 2002-08-29 | 2007-11-13 | At&T Corp | Unsupervised speaker segmentation of multi-speaker speech data |
CN107452403A (zh) * | 2017-09-12 | 2017-12-08 | 清华大学 | 一种说话人标记方法 |
WO2020199013A1 (en) * | 2019-03-29 | 2020-10-08 | Microsoft Technology Licensing, Llc | Speaker diarization with early-stop clustering |
-
2022
- 2022-05-13 CN CN202210524824.3A patent/CN114970695B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7295970B1 (en) * | 2002-08-29 | 2007-11-13 | At&T Corp | Unsupervised speaker segmentation of multi-speaker speech data |
CN107452403A (zh) * | 2017-09-12 | 2017-12-08 | 清华大学 | 一种说话人标记方法 |
WO2020199013A1 (en) * | 2019-03-29 | 2020-10-08 | Microsoft Technology Licensing, Llc | Speaker diarization with early-stop clustering |
Non-Patent Citations (1)
Title |
---|
哈尔肯别克・木哈西;钟珞;达瓦・伊德木草;: "用说话人相似度i-vector的非负值矩阵分解说话人聚类", 计算机应用与软件, no. 04, 15 April 2017 (2017-04-15) * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116701921A (zh) * | 2023-08-08 | 2023-09-05 | 电子科技大学 | 多通道时序信号的时频特征提取电路及自适应抑噪电路 |
CN116701921B (zh) * | 2023-08-08 | 2023-10-20 | 电子科技大学 | 多通道时序信号自适应抑噪电路 |
Also Published As
Publication number | Publication date |
---|---|
CN114970695B (zh) | 2024-03-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11636860B2 (en) | Word-level blind diarization of recorded calls with arbitrary number of speakers | |
Zhou et al. | Modality attention for end-to-end audio-visual speech recognition | |
Chang et al. | Temporal modeling using dilated convolution and gating for voice-activity-detection | |
CN107146601B (zh) | 一种用于说话人识别系统的后端i-vector增强方法 | |
CN110400579B (zh) | 基于方向自注意力机制和双向长短时网络的语音情感识别 | |
US9881617B2 (en) | Blind diarization of recorded calls with arbitrary number of speakers | |
Harb et al. | Gender identification using a general audio classifier | |
CN111524527B (zh) | 话者分离方法、装置、电子设备和存储介质 | |
Mao et al. | Automatic training set segmentation for multi-pass speech recognition | |
Todkar et al. | Speaker recognition techniques: A review | |
Sun et al. | Progressive multi-target network based speech enhancement with snr-preselection for robust speaker diarization | |
Venkatesan et al. | Automatic language identification using machine learning techniques | |
Shi et al. | H-VECTORS: Improving the robustness in utterance-level speaker embeddings using a hierarchical attention model | |
Nawas et al. | Speaker recognition using random forest | |
CN114970695B (zh) | 一种基于非参贝叶斯模型的说话人分割聚类方法 | |
Raghib et al. | Emotion analysis and speech signal processing | |
Kenai et al. | A new architecture based VAD for speaker diarization/detection systems | |
KR101023211B1 (ko) | 마이크배열 기반 음성인식 시스템 및 그 시스템에서의 목표음성 추출 방법 | |
Alvarez et al. | Learning intonation pattern embeddings for arabic dialect identification | |
Adam et al. | Wavelet based Cepstral Coefficients for neural network speech recognition | |
CN114023336A (zh) | 模型训练方法、装置、设备以及存储介质 | |
Tailor et al. | Deep learning approach for spoken digit recognition in Gujarati language | |
CN110807370B (zh) | 一种基于多模态的会议发言人身份无感确认方法 | |
CN111785262A (zh) | 一种基于残差网络及融合特征的说话人年龄性别分类方法 | |
VD | Wavelets for speaker recognition using GMM classifier |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |