CN103871424A - 一种基于贝叶斯信息准则的线上说话人聚类分析方法 - Google Patents

一种基于贝叶斯信息准则的线上说话人聚类分析方法 Download PDF

Info

Publication number
CN103871424A
CN103871424A CN201210541541.6A CN201210541541A CN103871424A CN 103871424 A CN103871424 A CN 103871424A CN 201210541541 A CN201210541541 A CN 201210541541A CN 103871424 A CN103871424 A CN 103871424A
Authority
CN
China
Prior art keywords
window
data
clustering
cluster
border
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201210541541.6A
Other languages
English (en)
Inventor
王雷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SHANGHAI 8D WORLD NETWORK SCIENCE & TECHNOLOGY Co Ltd
Original Assignee
SHANGHAI 8D WORLD NETWORK SCIENCE & TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SHANGHAI 8D WORLD NETWORK SCIENCE & TECHNOLOGY Co Ltd filed Critical SHANGHAI 8D WORLD NETWORK SCIENCE & TECHNOLOGY Co Ltd
Priority to CN201210541541.6A priority Critical patent/CN103871424A/zh
Publication of CN103871424A publication Critical patent/CN103871424A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及线上说话人聚类分析,具体涉及一种基于贝叶斯信息准则的线上说话人聚类分析方法,它将原始音频信号采集后通过贝叶斯信息准则分段成已有边界的音频片段,然后再对音频片段进行音频特征提取,再将将具备音频特征片段通过贝叶斯信息准则聚类,形成若干聚类族1、聚类族2…聚类族n,最终形成聚类模块它采用将贝叶斯信息准则模型应用到人聚类分析过程中的音频信号动态分段和高效分类聚合的问题的两个模块中,极大的提高了分段的准确度,保证了聚类的高效性,能够在不需要原始说话人语音资料的前提下,实现高效的在线说话人信号的并行转录、分段、分类和聚合。

Description

一种基于贝叶斯信息准则的线上说话人聚类分析方法
技术领域
本发明涉及线上说话人聚类分析,具体涉及一种基于贝叶斯信息准则的线上说话人聚类分析方法。
背景技术
线上说话人聚类分析是用来对播客新闻、电话会议以及影片剪辑等场景中的多个说话人的发音进行划分和聚类的过程,该方法需要对场景中的同一个说话人发出的声音给以同样的标签,它并不关注语音信号中的语义内容,而是需要从各个说话人的发音中挖掘出说话人之间的个性差异。在整个分析过程中,连续音频信号的分段是作为进一步进行说话人识别、认证、噪声消除和背景声分离的预处理过程。在自动转录应用等系统中,该分段过程允许使用说话人、信道或者特定环境的声学模型以提高系统的识别率。
目前已有的说话人聚类系统的输出通常是基于同一个说话人语音信息的自适应识别结果,这部分聚类信息在进行语音标注的过程中非常有用,但是需要有说话人的语音资料作为原始数据。通常情况下,系统中不存在这样的原始语音数据,因此,该方法增加了系统分析的复杂度。
在经典的层次聚类算法中,不同的聚类数目被假设基于局部的相似度或者距离评判准则,然后全局的评估准则从当前的聚类数目中找到最大的聚类数据作为最终结果。这样的方法存在两个缺点,一是:不能够用来构建在线的实时性增量聚类系统;二是:尝试进行不同聚类数目的计算和评估具有较大的系统时间开销,由于需要对近乎所有的聚类组合进行计算和分析,聚类的时间有可能呈指数级地增长。这些不足导致了传统的方法无法真正的实现快速、高效地线上说话人聚类分析。
发明内容
本发明的目的在于针对现有技术的缺陷和不足,提供能解决了说话人聚类分析过程中的音频信号动态分段和高效分类聚合的问题的一种基于贝叶斯信息准则的线上说话人聚类分析方法,它采用将贝叶斯信息准则模型应用到人聚类分析过程中的音频信号动态分段和高效分类聚合的问题的两个模块中,极大的提高了分段的准确度,保证了聚类的高效性。
为实现上述目的,本发明采用的技术方案是:
一种基于贝叶斯信息准则的线上说话人聚类分析方法,其特征在于:使用已有的基于人耳感知的Mel频率倒谱系数MFCC作为说话人聚类分析的基本语音特征,采取贝叶斯信息准则作为数据边界划分模块和说话人聚类模块的决策方案。这样可以得到较高的分段准确率和较高效、准确的聚类结果。
在传统的分段过程中,如果分帧较大,一些信号片段有可能在非边界处被切分,从而导致聚类信息丢失;如果分帧较小,可能由于每个片段的特征数据过少导致无法识别和分类。
在传统的聚类过程中,系统首先需要采集说话人的原始数据样本,然后根据得到的样本对待识别的音频片段做出自适应和标注,该方法具有一定的准确率,但是需要系统存有待标注的所有说话人的历史语音资料库。
上述方法,其主要有以下几个方面:
a.在数据分段过程中,分帧窗口的大小需要采用变长模式,以避免不同长度的语音信号出现错误地划分和分段。
b.在数据分段过程中,如果分帧窗口较小,需要较缓慢的增加窗口的大小;如果分帧窗口较大,需要快速的增加窗口的大小。
c.在信号聚类过程中,减少或者完全消除对说话人原始语音资料库的依赖。
d.在信号聚类过程中,采用新方法达到的聚类准确率应该保持在已有聚类算法达到的准确率之上。
本发明除了需要引进新的分段和类聚算法满足上述要求,还需要给出新算法的实验结果和已有算法的实验结果之间的准确度比较和说明。
4.根据权利要求2所描述的方法,本发明构建了新的基于贝叶斯信息准则的线上说话人聚类分析算法,具体描述如下:
贝叶斯信息准则(Bayesian Information Criterion, BIC)作为优化的贝叶斯模型选择准则,通常用来决策多个模型中,哪个模型能够对已有的n个观测数据进行较好的呈现和匹配。对于n个独立的观测数据x1,...,xn,xi∈Rd,假设每个模型Mj的待定参数个数为kj,并且观测数据xi之间是相互独立的。根据BIC理论,对于足够大的n,如果想要得到较好的数据模型,就需要找到使得如下表达式取得最大值的参数组合:
BIC j = log ζ j ( x 1 , . . . , x n ) - 1 2 λ k j log n
其中λ=1,ξj是每个模型Mj下的数据最大似然度。如果只有两个数据模型M1和M2拯待决策,只需要定义ΔBIC=BIC1-BIC2,如果ΔBIC为正,则选择M1作为观测数据的替代模型,否则,选择M2。该模型能够较好的适应和推广到说话人聚类分析的两大模块中。
在数据分段过程中,引进变长窗口,尝试在当前窗口中寻找满足条件的边界,如果没有找到候选的边界,就给当前窗口增加ΔNi帧,如果依然没能找到边界,则继续向窗口中添加ΔNi+1帧,其中ΔNi=ΔNi+1ii=2δi+1 。如此叠加,直到在窗口中找到边界或者窗长已经延续到最大长度。在窗长发生变化时,需要采用变形的ΔBIC表达式给出合理地边界划分决策:
Figure BDA0000258123262
其中
Figure BDA0000258123263
是模型M1中全部窗口的协方差之和,|εf|是模型M2中第一个子切分{x1,...,xi}的全部窗口的协方差之和,|εs|是第二个子切分{x1+1,...,xn}的全部窗口的协方差之和。
在信号聚类过程中,当有新的数据特征段加入的时候,对于所有可能的<i,j>组合,将计算出合并收益ψ(Ci,Sj)和合并收益ψ(Si,Sj),其中:
ψ(Xi,Xj)=BIC(Xi∪Xj)-BIC(Xi,Xj)
公式中的Xi和Xj通常代表一个聚类簇或者新的数据特征段。这个时候需要通过计算最大似然收益ΔBICMAX来决策是否进行聚合,如果该值为正,则需要合并当前的组合
Figure BDA0000258123264
或者
Figure BDA0000258123265
,如果该值为负,则需要在保持现有簇独立的情况下,创建新的聚类簇。
采用上述结构后,本发明有益效果为:本发明将说话人音频信号进行有效分段和合理聚类的方法。该方法解决了传统方法中的音频分段缺陷:如果分帧较大,一些信号片段有可能在非边界处被切分,从而导致聚类信息丢失;如果分帧较小,可能由于每个片段的特征数据过少导致无法识别和分类。本发明提出了基于贝叶斯信息准则的变长窗口分段方法,极大的提高了分段的准确性;同时,将贝叶斯信息准则应用到聚类模块中,能够在不需要原始说话人语音资料的前提下,实现高效的在线说话人信号的并行转录、分段、分类和聚合。
附图说明
图1是本发明的结构示意图;
图2是数据分段流程图;
图3是信号聚类流程图。
具体实施方式
下面结合附图对本发明作进一步的说明。
如图1、图2、图3所示,本发明所述的一种基于贝叶斯信息准则的线上说话人聚类分析方法,其主要解决了说话人聚类分析过程中的音频信号动态分段和高效分类聚合的问题。线上说话人聚类分析系统通常分为两大模块:音频信号分段模块和片段聚类分析模块。本方法通过将贝叶斯信息准则模型应用到整个系统的两个模块中,极大的提高了分段的准确度,保证了聚类的高效性;其具体采用如下的技术方案:
第一步是采用原始基本语音特征数据:将采集到的原始音频信号,通过使用基于人耳感知的Mel频率倒谱系数作为说话人聚类分析的基本语音特征,形成原始基本语音特征数据;
第二步采用贝叶斯信息准则进行音频数据分段:将原始基本语音特征数据通过贝叶斯信息准则进行分段,其一在数据分段过程中,分帧窗口的大小需要采用变长模式,以避免不同长度的语音信号出现错误地划分和分段;其二在数据分段过程中,如果分帧窗口较小,需要较缓慢的增加窗口的大小;如果分帧窗口较大,需要快速的增加窗口的大小;在数据分段过程中,引进变长窗口,尝试在当前窗口中寻找满足条件的边界,如果没有找到候选的边界,就给当前窗口增加△Ni帧,如果依然没能找到边界,则继续向窗口中添加△Ni+1 帧,其中△Ni=△Ni+1+?i,?i =2?i+1 ;如此叠加直到在窗口中找到边界或者窗长已经延续到最大长度;在窗长发生变化时,需要采用变形的△BIC表达式给出合理地边界划分决策:
△BIC=-n/2·log|??|+i/2·log|?f|+(n-i)log|?s|+1/2·?(d+d(d+1)/2)logn
其中|??|是模型M1中全部窗口的协方差之和,|?f|是模型M2中第一个子切分{x1,…,xi}的全部窗口的协方差之和,|?S|是第二个子切分{xi+1,…,xn}的全部窗口的协方差之和;
第三步音频特征的提取:采用贝叶斯信息准则对数据的边界进行评估;窗口的初始长度为100帧长,接下来尝试在当前窗口中寻找满足条件的边界,如果没有找到候选的边界,就给当前窗口增加ΔNi帧,如果依然没能找到边界,则继续向窗口中添加ΔNi+1帧,其中△Ni =△Ni+1+?i,?i =2?i+1;如此叠加直到在窗口中找到边界或者窗长已经延续到最大长度;如果通过上述方法已经找到了候选的边界,则窗口重定位到当前的边界处,重复上述分析过程直到找到所有的候选边界;然后从每个片段连续的音频流中得到10ms间隔的MFCC特征向量作为聚类的准则,使用标准的24维MFCC信息作为基本的音频特征;得到若干进行了准确边界划分的音频片段,形成音频信号分段模块;
第四步是利用贝叶斯信息准则对准确边界划分的音频片段进行聚类:在信号聚类过程中,从每个片段连续的音频流中得到10ms间隔的MFCC特征向量作为聚类的准则,将已分段的若干音频片段不断进行组合,形成聚类簇,将新加入的已准确边界划分好音频片段,当有新的数据特征段加入的时候,对于所有可能的(i,j)组合,将计算出合并收益?(Ci,Sj)和合并收益?(Si,Sj),其中:?(Xi,Xj)=BIC(Xi∪Xj)-BIC(Xi,Xj)公式中的Xi和Xj通常代表一个聚类簇或者新的数据特征段,这个时候需要通过计算最大似然收益△BICMAX 来决策是否进行聚合,如果该值为正,则需要合并当前的组合{Ci0,S j0}或者{Si0,S j0},如果该值为负,则需要在保持现有簇独立的情况下,创建新的聚类簇;通过贝叶斯信息准则对所有已分段的音频数据进行聚类;聚类的准则是新的数据段归并到已有数据簇和开辟新的数据簇的收益代价之差;为了减小不可靠段对聚类结果的影响,只选出含有有效数据的段进行聚类,其它的段被统一划归到垃圾簇;最终由若干聚类族形成聚类模块。
本发明中贝叶斯信息准则(Bayesian Information Criterion, BIC)作为优化的贝叶斯模型选择准则,通常用来给出由多个参数决定的p个模型中,哪个模型能够对已有的n个观测数据进行较好的呈现和匹配。对于n个独立的观测数据x1,...,xn,xi∈Rd,假设每个模型Mj的待定参数个数为kj,并且观测数据xi之间是相互独立的。根据BIC理论,对于足够大的n,如果想要得到较好的数据模型,就需要找到使得如下表达式取得最大值的参数组合:
BIC j = log &zeta; j ( x 1 , . . . , x n ) - 1 2 &lambda; k j log n
其中λ=1,ξj是每个模型Mj下的数据最大似然度。
如果只有两个数据模型M1和M2拯待决策,只需要定义ΔBIC=BIC1-BIC2,如果ΔBIC为正,则选择M1作为观测数据的替代模型,否则,选择M2
通过以上描述,我们可以得知贝叶斯信息准则能够给出合理的信息模型决策方案。这对于在线说话人聚类分析系统的两大模块都有较好的适应性。
如图1所示,将原始音频信号采集后通过贝叶斯信息准则分段成已有边界的音频片段,然后再对音频片段进行音频特征提取,再将将具备音频特征片段通过贝叶斯信息准则聚类,形成若干聚类族1、聚类族2…聚类族n,最终形成聚类模块。
如图2所示,将原始音频信号,导入到贝叶斯信息准则决策模型中,在初始窗中的初始窗长一个分段的两边界是第i边界和第i+1边界,如果未找到数据分段的边界,则加长ΔNi,还没有找到则继续加长ΔNi+1,直到找到边界;分段中的贝叶斯信息准则:数字音频信号通常是由一帧一帧的数字采样构成。本系统使用采样率为16KHz、码率为16bit的连续PCM采样数据作为系统的输入。在连续的数字音频序列{x1,...,xi}中,假设最多只存在一个分段边界,那么第i帧的边界检测就等同于贝叶斯信息准则中的两个数据模型的选择问题,其中模型M1中的{x1,...,xn}来自单一的完全协方差高斯过程;中的{x1,...,xn}来自两个完全协方差高斯过程,其中{x1,...,xi}来自第一个完全协方差高斯过程,剩下的{xi+1,...,xn}来自于第二个完全协方差高斯过程。由于xi∈Rd,那么模型M1的参数个数,模型M2的参数个数k2=2k1,在这里,模型的参数个数kj只与xi定义域中的d相关。
很显然,如果第
Figure BDA0000258123268
帧是候选的边界,那么需要满足公式:
Figure BDA0000258123269
为负数。其中是模型M1中全部窗口的协方差之和,|εf|是模型M2中第一个子切分{x1,...,xi}的全部窗口的协方差之和,|εs|是第二个子切分{xi+1,...,xn}的全部窗口的协方差之和。应用该公式在整个时间序列中进行分析,就可以得到最小的ΔBICi值,也就相当于找到了数据分段的边界,这里的i是指序列{x1,...,xn}中的第i帧。如果在当前帧处没有找到边界,那么就继续往当前窗口中添加更多的数据帧进行同样的分析。
在分析信号边界的问题中,窗长的选择非常重要。如果窗长较大,即:更多的数据帧加入到当前窗口中,一些边界信息可能会丢失;如果窗长较小,数据帧信息的缺失将导致无法进行边界的检测。目前已有的算法,通常添加固定的帧到当前分析窗口,这并没有充分利用音频数据的上下文信息进一步提高算法的准确度。
在这里,我们考虑采用变长的窗长以适应当前的应用;首先对于说话人识别,将初始窗长设置为100帧比较合适。然后,尝试在当前窗口中寻找满足条件的边界,如果没有找到候选的边界,就给当前窗口增加ΔNi帧,如果依然没能找到边界,则继续向窗口中添加ΔNi+1帧,其中ΔNi=ΔNi+1ii=2δi+1。如此叠加,直到在窗口中找到边界或者窗长已经延续到最大长度。这里使用变量δi控制了窗口的延伸速率:如果当前窗口较小,则窗长的增长较缓慢;如果窗口较大,则窗长的增长较快。如果通过上述方法已经找到了候选的边界,则窗口重定位到当前的边界处,重复上述分析过程直到找到所有的候选边界。
基于HUB4 1997 BN数据集的对比实验结果:
算法 误报率 小于两秒的丢失率 大于两秒的丢失率
原始算法 4.1% 25.0% 8.3%
优化算法 9.2% 13.1% 11.6%
如图3所示,将音频特征段x、音频特征段y和音频特征段z进行合并形成聚类簇K,再加入新的特征段p,特征段p和聚类簇K通过贝叶斯信息准则决策,形成新的聚类簇K,从而可以形成聚类簇1、聚类簇2…聚类簇n;聚类中的贝叶斯信息准则:贝叶斯信息准则应用到聚类模块中可以极大地提高系统的聚类准确度。本方法中,我们要做的是怎么样让贝叶斯决策准则更加高效的工作。
假设已有的聚类簇集合为C1,...,Ck,在离线聚类模式下,我们需要做的是不断地合并两个簇,产生新的聚类簇集合。在这个过程中,我们构建了两个模型,即:BIC1是Ci和Cj的合并高斯过程模型M1的决策;BIC2是含有两个不同的高斯过程模型M2的决策,一个对应Ci,另外一个对应Cj。至此,建模完成,剩下的决策过程和分段过程中的分析方法一致,我们只需要判断ΔBIC=BIC1-BIC2的正负即可,其中ΔBIC的表达式展开与分段过程中的ΔBICI表达式一致,如果该值为正,那么需要合并两个独立的簇,产生新的簇;如果该值为负,那么仍然保留两个簇的独立性。
在线聚类模式依赖两个要素,一个是:当前迭代过程之前产生的聚类簇;另一个是:新加入到簇的数据段(音频片段的MFCC特征信息),假设之前的簇集合为C1,...,Ck,迭代后的簇集合为S1,...,SM。当有新的数据段加入的时候,对于所有可能的<I,J>组合,将计算出合并收益ψ(Ci,Sj)和合并收益ψ(Si,Sj),其中:
ψ(Xi,Xj)=BIC(Xi∪Xj)-BIC(Xi,Xj)
公式中的Xi和Xj通常代表一个簇或者新的数据段。这个时候需要通过计算最大似然收益ΔBICMAX来决策是否进行聚类,如果该值为正,则需要合并当前的组合
Figure BDA00002581232611
或者
Figure BDA00002581232612
,如果该值为负,则需要在保持现有簇独立的情况,创建新的聚类簇。这个过程重复的进行,直到所有的段都已经被聚合。
为了减小不可靠段对聚类结果的影响,我们只选出含有有效数据的段进行聚类,其它的段被统一划归到垃圾簇。
采用贝叶斯信息准则的离线模式和在线模式聚类实验结果对比如下表:
算法 准确度 聚类簇数量
离线模式 96.7% 172
在线模式 98.58% 149
本发明是采样率为16KHz、码率为16bit的连续PCM采样信号,首先,采用贝叶斯信息准则对数据的边界进行评估。窗口的初始长度为100帧长,接下来尝试在当前窗口中寻找满足条件的边界,如果没有找到候选的边界,就给当前窗口增加ΔNi帧,如果依然没能找到边界,则继续向窗口中添加ΔNi+1帧,其中ΔNi=ΔNi+1ii=2δi+1。如此叠加,直到在窗口中找到边界或者窗长已经延续到最大长度。如果通过上述方法已经找到了候选的边界,则窗口重定位到当前的边界处,重复上述分析过程直到找到所有的候选边界。然后,从每个片段连续的音频流中得到10ms间隔的MFCC特征向量作为聚类的准则,这里使用标准的24维MFCC信息作为基本的音频特征。最后,采用贝叶斯信息准则对所有已分段的数据进行聚类,聚类的准则是新的数据段归并到已有数据簇和开辟新的数据簇的收益代价之差。为了减小不可靠段对聚类结果的影响,只选出含有有效数据的段进行聚类,其它的段被统一划归到垃圾簇。通过以上过程,我们可以实现高效的在线说话人信号的并行转录、分段、分类和聚合。
本发明将说话人音频信号进行有效分段和合理聚类的方法。该方法解决了传统方法中的音频分段缺陷:如果分帧较大,一些信号片段有可能在非边界处被切分,从而导致聚类信息丢失;如果分帧较小,可能由于每个片段的特征数据过少导致无法识别和分类。本发明提出了基于贝叶斯信息准则的变长窗口分段方法,极大的提高了分段的准确性;同时,将贝叶斯信息准则应用到聚类模块中,能够在不需要原始说话人语音资料的前提下,实现高效的在线说话人信号的并行转录、分段、分类和聚合。
以上所述仅是本发明的较佳实施方式,故凡依本发明专利申请范围所述的特征及原理所做的等效变化或修饰,均包括于本发明专利申请范围内。

Claims (5)

1.一种基于贝叶斯信息准则的线上说话人聚类分析方法,其特征在于:其方法为:使用已有的基于人耳感知的Mel频率倒谱系数MFCC作为说话人聚类分析的基本语音特征,采取贝叶斯信息准则作为数据边界划分模块和说话人聚类模块的决策方法,其具体方法步骤如下:
第一步,采用原始基本语音特征数据:将采集到的原始音频信号,通过使用基于人耳感知的Mel频率倒谱系数作为说话人聚类分析的基本语音特征,形成原始基本语音特征数据;
第二步,采用贝叶斯信息准则进行音频数据分段:将原始基本语音特征数据通过贝叶斯信息准则进行分段;
第三步,音频特征的提取:采用贝叶斯信息准则对数据的边界进行评估;
第四步,利用贝叶斯信息准则对准确边界划分的音频片段进行聚类:该聚类的准则是新的数据段归并到已有数据簇和开辟新的数据簇的收益代价之差,且选出含有有效数据的段进行聚类,其它的段被统一划归到垃圾簇,最终由若干聚类族形成聚类模块。
2.根据权利要求1所述的线上说话人聚类分析方法,其特征在于:所述第二步中,通过贝叶斯信息准则进行分段的方法如下:
其一,在数据分段过程中,分帧窗口的大小需要采用变长模式,以避免不同长度的语音信号出现错误地划分和分段;
其二,在数据分段过程中,如果分帧窗口较小,需要较缓慢的增加窗口的大小;如果分帧窗口较大,需要快速的增加窗口的大小;在数据分段过程中,引进变长窗口,尝试在当前窗口中寻找满足条件的边界,如果没有找到候选的边界,就给当前窗口增加△Ni帧,如果依然没能找到边界,则继续向窗口中添加ΔNi+1帧,其中△Ni =△Ni+1+?i,?i=2?i+1;如此叠加直到在窗口中找到边界或者窗长已经延续到最大长度。
3.根据权利要求2所述的线上说话人聚类分析方法,其特征在于:在所述其二中,在窗长发生变化时,需要采用变形的△BIC表达式给出合理地边界划分决策:
△BIC=-n/2·log|??|+i/2·log|?f|+(n-i)log|?s|+1/2·?(d+d(d+1)/2)logn
其中|??|是模型M1中全部窗口的协方差之和,|?f|是模型M2中第一个子切分{x1,…,xi}的全部窗口的协方差之和,|?S|是第二个子切分{xi+1,…,xn}的全部窗口的协方差之和。
4.根据权利要求1所述的线上说话人聚类分析方法,其特征在于:所述第三布中,采用贝叶斯信息准则对数据的边界进行评估的方法为:
设窗口的初始长度为100帧长,接下来尝试在当前窗口中寻找满足条件的边界,
如果没有找到候选的边界,就给当前窗口增加ΔNi帧,如果依然没能找到边界,则继续向窗口中添加ΔNi+1帧,其中ΔNi=ΔNi+1+ ?i ,?i =2?i+1;如此叠加直到在窗口中找到边界或者窗长已经延续到最大长度;
如果通过上述方法已经找到了候选的边界,则窗口重定位到当前的边界处,重复上述分析过程直到找到所有的候选边界;然后从每个片段连续的音频流中得到10ms间隔的MFCC特征向量作为聚类的准则,使用标准的24维MFCC信息作为基本的音频特征;得到若干进行了准确边界划分的音频片段,形成音频信号分段模块。
5.根据权利要求1所述的线上说话人聚类分析方法,其特征在于:所述四步中,在信号聚类过程中,从每个片段连续的音频流中得到10ms间隔的MFCC特征向量作为聚类的准则,将已分段的若干音频片段不断进行组合,形成聚类簇,将新加入的已准确边界划分好音频片段,当有新的数据特征段加入的时候,对于所有可能的(i,j)组合,将计算出合并收益?(Ci,Sj)和合并收益?(Si,Sj),其中,?(Xi,Xj)=BIC(Xi∪Xj)-BIC(Xi,Xj);
Xi和Xj代表一个聚类簇或者新的数据特征段,此时,通过计算最大似然收益△BICMAX来决策是否进行聚合;
如果最大似然收益值为正,则需要合并当前的组合{Ci0,S j0}或者{Si0,S j0};
如果最大似然收益值为负,则需要在保持现有簇独立的情况下,创建新的聚类簇。
CN201210541541.6A 2012-12-13 2012-12-13 一种基于贝叶斯信息准则的线上说话人聚类分析方法 Pending CN103871424A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210541541.6A CN103871424A (zh) 2012-12-13 2012-12-13 一种基于贝叶斯信息准则的线上说话人聚类分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210541541.6A CN103871424A (zh) 2012-12-13 2012-12-13 一种基于贝叶斯信息准则的线上说话人聚类分析方法

Publications (1)

Publication Number Publication Date
CN103871424A true CN103871424A (zh) 2014-06-18

Family

ID=50909887

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210541541.6A Pending CN103871424A (zh) 2012-12-13 2012-12-13 一种基于贝叶斯信息准则的线上说话人聚类分析方法

Country Status (1)

Country Link
CN (1) CN103871424A (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104240719A (zh) * 2013-06-24 2014-12-24 浙江大华技术股份有限公司 音频的特征提取方法、音频的分类方法和相关装置
CN106205610A (zh) * 2016-06-29 2016-12-07 联想(北京)有限公司 一种语音信息识别方法和设备
CN107039040A (zh) * 2016-01-06 2017-08-11 谷歌公司 语音识别系统
CN108538312A (zh) * 2018-04-28 2018-09-14 华中师范大学 基于贝叶斯信息准则的数字音频篡改点自动定位的方法
CN106610451B (zh) * 2016-12-23 2019-01-04 杭州电子科技大学 基于倒谱及贝叶斯决策的周期信号基频提取与匹配方法
CN110517667A (zh) * 2019-09-03 2019-11-29 龙马智芯(珠海横琴)科技有限公司 一种语音处理方法、装置、电子设备和存储介质
CN110809879A (zh) * 2017-06-28 2020-02-18 株式会社OPTiM 计算机系统、Web会议声音辅助方法及程序
CN111402898A (zh) * 2020-03-17 2020-07-10 北京远鉴信息技术有限公司 音频信号处理方法、装置、设备及存储介质
CN111433843A (zh) * 2017-10-27 2020-07-17 谷歌有限责任公司 语义音频表示的无监督学习
CN111901737A (zh) * 2020-08-07 2020-11-06 浙江大学 一种基于智能终端的助听器参数自适应方法
CN112750440A (zh) * 2020-12-30 2021-05-04 北京捷通华声科技股份有限公司 一种信息处理方法及装置

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104240719B (zh) * 2013-06-24 2018-01-12 浙江大华技术股份有限公司 音频的特征提取方法、音频的分类方法和相关装置
CN104240719A (zh) * 2013-06-24 2014-12-24 浙江大华技术股份有限公司 音频的特征提取方法、音频的分类方法和相关装置
CN107039040A (zh) * 2016-01-06 2017-08-11 谷歌公司 语音识别系统
CN106205610A (zh) * 2016-06-29 2016-12-07 联想(北京)有限公司 一种语音信息识别方法和设备
CN106205610B (zh) * 2016-06-29 2019-11-26 联想(北京)有限公司 一种语音信息识别方法和设备
CN106610451B (zh) * 2016-12-23 2019-01-04 杭州电子科技大学 基于倒谱及贝叶斯决策的周期信号基频提取与匹配方法
CN110809879A (zh) * 2017-06-28 2020-02-18 株式会社OPTiM 计算机系统、Web会议声音辅助方法及程序
CN111433843A (zh) * 2017-10-27 2020-07-17 谷歌有限责任公司 语义音频表示的无监督学习
CN111433843B (zh) * 2017-10-27 2024-05-28 谷歌有限责任公司 语义音频表示的无监督学习
CN108538312A (zh) * 2018-04-28 2018-09-14 华中师范大学 基于贝叶斯信息准则的数字音频篡改点自动定位的方法
CN110517667A (zh) * 2019-09-03 2019-11-29 龙马智芯(珠海横琴)科技有限公司 一种语音处理方法、装置、电子设备和存储介质
CN111402898A (zh) * 2020-03-17 2020-07-10 北京远鉴信息技术有限公司 音频信号处理方法、装置、设备及存储介质
CN111402898B (zh) * 2020-03-17 2023-07-25 北京远鉴信息技术有限公司 音频信号处理方法、装置、设备及存储介质
CN111901737A (zh) * 2020-08-07 2020-11-06 浙江大学 一种基于智能终端的助听器参数自适应方法
CN112750440A (zh) * 2020-12-30 2021-05-04 北京捷通华声科技股份有限公司 一种信息处理方法及装置
CN112750440B (zh) * 2020-12-30 2023-12-29 北京捷通华声科技股份有限公司 一种信息处理方法及装置

Similar Documents

Publication Publication Date Title
CN103871424A (zh) 一种基于贝叶斯信息准则的线上说话人聚类分析方法
US10854193B2 (en) Methods, devices and computer-readable storage media for real-time speech recognition
CN103700370B (zh) 一种广播电视语音识别系统方法及系统
CN110534095B (zh) 语音识别方法、装置、设备以及计算机可读存储介质
CN111461173B (zh) 一种基于注意力机制的多说话人聚类系统及方法
CN110211594B (zh) 一种基于孪生网络模型和knn算法的说话人识别方法
CN112735383A (zh) 语音信号的处理方法、装置、设备及存储介质
CN110767218A (zh) 端到端语音识别方法、系统、装置及其存储介质
CN106297776A (zh) 一种基于音频模板的语音关键词检索方法
CN107393554A (zh) 一种声场景分类中融合类间标准差的特征提取方法
CN102568476B (zh) 基于自组织特征映射网络聚类和径向基网络的语音转换法
CN109410911A (zh) 基于语音识别的人工智能学习方法
CN103236258B (zh) 基于巴氏距离最优小波包分解的语音情感特征提取方法
CN103985381A (zh) 一种基于参数融合优化决策的音频索引方法
CN103164403A (zh) 视频索引数据的生成方法和系统
CN116110405B (zh) 一种基于半监督学习的陆空通话说话人识别方法及设备
Bellagha et al. Speaker naming in tv programs based on speaker role recognition
CN115249479A (zh) 基于brnn的电网调度复杂语音识别方法、系统及终端
CN111968628B (zh) 一种用于语音指令捕捉的信号精确度调节系统及方法
CN112035700B (zh) 一种基于cnn的语音深度哈希学习方法及系统
CN102419976A (zh) 一种基于量子学习优化决策的音频索引方法
CN103295573B (zh) 基于费舍比率最优小波包分解的语音情感特征提取方法
CN114970695B (zh) 一种基于非参贝叶斯模型的说话人分割聚类方法
CN110807370B (zh) 一种基于多模态的会议发言人身份无感确认方法
Chen et al. VB-HMM Speaker Diarization with Enhanced and Refined Segment Representation.

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20140618