CN103871424A

CN103871424A - 一种基于贝叶斯信息准则的线上说话人聚类分析方法

Info

Publication number: CN103871424A
Application number: CN201210541541.6A
Authority: CN
Inventors: 王雷
Original assignee: SHANGHAI 8D WORLD NETWORK SCIENCE & TECHNOLOGY Co Ltd
Current assignee: SHANGHAI 8D WORLD NETWORK SCIENCE & TECHNOLOGY Co Ltd
Priority date: 2012-12-13
Filing date: 2012-12-13
Publication date: 2014-06-18

Abstract

本发明涉及线上说话人聚类分析，具体涉及一种基于贝叶斯信息准则的线上说话人聚类分析方法，它将原始音频信号采集后通过贝叶斯信息准则分段成已有边界的音频片段，然后再对音频片段进行音频特征提取，再将将具备音频特征片段通过贝叶斯信息准则聚类，形成若干聚类族1、聚类族2…聚类族n，最终形成聚类模块它采用将贝叶斯信息准则模型应用到人聚类分析过程中的音频信号动态分段和高效分类聚合的问题的两个模块中，极大的提高了分段的准确度，保证了聚类的高效性，能够在不需要原始说话人语音资料的前提下，实现高效的在线说话人信号的并行转录、分段、分类和聚合。

Description

一种基于贝叶斯信息准则的线上说话人聚类分析方法

技术领域

本发明涉及线上说话人聚类分析，具体涉及一种基于贝叶斯信息准则的线上说话人聚类分析方法。

背景技术

线上说话人聚类分析是用来对播客新闻、电话会议以及影片剪辑等场景中的多个说话人的发音进行划分和聚类的过程，该方法需要对场景中的同一个说话人发出的声音给以同样的标签，它并不关注语音信号中的语义内容，而是需要从各个说话人的发音中挖掘出说话人之间的个性差异。在整个分析过程中，连续音频信号的分段是作为进一步进行说话人识别、认证、噪声消除和背景声分离的预处理过程。在自动转录应用等系统中，该分段过程允许使用说话人、信道或者特定环境的声学模型以提高系统的识别率。

目前已有的说话人聚类系统的输出通常是基于同一个说话人语音信息的自适应识别结果，这部分聚类信息在进行语音标注的过程中非常有用，但是需要有说话人的语音资料作为原始数据。通常情况下，系统中不存在这样的原始语音数据，因此，该方法增加了系统分析的复杂度。

在经典的层次聚类算法中，不同的聚类数目被假设基于局部的相似度或者距离评判准则，然后全局的评估准则从当前的聚类数目中找到最大的聚类数据作为最终结果。这样的方法存在两个缺点，一是：不能够用来构建在线的实时性增量聚类系统；二是：尝试进行不同聚类数目的计算和评估具有较大的系统时间开销，由于需要对近乎所有的聚类组合进行计算和分析，聚类的时间有可能呈指数级地增长。这些不足导致了传统的方法无法真正的实现快速、高效地线上说话人聚类分析。

发明内容

本发明的目的在于针对现有技术的缺陷和不足，提供能解决了说话人聚类分析过程中的音频信号动态分段和高效分类聚合的问题的一种基于贝叶斯信息准则的线上说话人聚类分析方法，它采用将贝叶斯信息准则模型应用到人聚类分析过程中的音频信号动态分段和高效分类聚合的问题的两个模块中，极大的提高了分段的准确度，保证了聚类的高效性。

为实现上述目的，本发明采用的技术方案是：

一种基于贝叶斯信息准则的线上说话人聚类分析方法，其特征在于：使用已有的基于人耳感知的Mel频率倒谱系数MFCC作为说话人聚类分析的基本语音特征，采取贝叶斯信息准则作为数据边界划分模块和说话人聚类模块的决策方案。这样可以得到较高的分段准确率和较高效、准确的聚类结果。

在传统的分段过程中，如果分帧较大，一些信号片段有可能在非边界处被切分，从而导致聚类信息丢失；如果分帧较小，可能由于每个片段的特征数据过少导致无法识别和分类。

在传统的聚类过程中，系统首先需要采集说话人的原始数据样本，然后根据得到的样本对待识别的音频片段做出自适应和标注，该方法具有一定的准确率，但是需要系统存有待标注的所有说话人的历史语音资料库。

上述方法，其主要有以下几个方面：

a.在数据分段过程中，分帧窗口的大小需要采用变长模式，以避免不同长度的语音信号出现错误地划分和分段。

b.在数据分段过程中，如果分帧窗口较小，需要较缓慢的增加窗口的大小；如果分帧窗口较大，需要快速的增加窗口的大小。

c.在信号聚类过程中，减少或者完全消除对说话人原始语音资料库的依赖。

d.在信号聚类过程中，采用新方法达到的聚类准确率应该保持在已有聚类算法达到的准确率之上。

本发明除了需要引进新的分段和类聚算法满足上述要求，还需要给出新算法的实验结果和已有算法的实验结果之间的准确度比较和说明。

4.根据权利要求2所描述的方法，本发明构建了新的基于贝叶斯信息准则的线上说话人聚类分析算法，具体描述如下：

贝叶斯信息准则(Bayesian Information Criterion, BIC)作为优化的贝叶斯模型选择准则，通常用来决策多个模型中，哪个模型能够对已有的n个观测数据进行较好的呈现和匹配。对于n个独立的观测数据x₁,...,x_n,x_i∈R^d，假设每个模型M_j的待定参数个数为k_j，并且观测数据x_i之间是相互独立的。根据BIC理论，对于足够大的n，如果想要得到较好的数据模型，就需要找到使得如下表达式取得最大值的参数组合：

{BIC}_{j} = \log ζ_{j} (x_{1}, . . ., x_{n}) - \frac{1}{2} λ k_{j} \log n

其中λ=1，ξ_j是每个模型M_j下的数据最大似然度。如果只有两个数据模型M₁和M₂拯待决策，只需要定义ΔBIC=BIC₁-BIC₂，如果ΔBIC为正，则选择M₁作为观测数据的替代模型，否则，选择M₂。该模型能够较好的适应和推广到说话人聚类分析的两大模块中。

在数据分段过程中，引进变长窗口，尝试在当前窗口中寻找满足条件的边界，如果没有找到候选的边界，就给当前窗口增加ΔN_i帧，如果依然没能找到边界，则继续向窗口中添加ΔN_i+1帧，其中ΔN_i=ΔN_i+1+δ_i,δ_i=2δ_i+1 。如此叠加，直到在窗口中找到边界或者窗长已经延续到最大长度。在窗长发生变化时，需要采用变形的ΔBIC表达式给出合理地边界划分决策：

其中

是模型M₁中全部窗口的协方差之和，|ε_f|是模型M₂中第一个子切分{x₁,...,x_i}的全部窗口的协方差之和，|ε_s|是第二个子切分{x₁₊₁,...,x_n}的全部窗口的协方差之和。

在信号聚类过程中，当有新的数据特征段加入的时候，对于所有可能的<i,j>组合，将计算出合并收益ψ(C_i,S_j)和合并收益ψ(S_i,S_j)，其中：

ψ(X_i,X_j)=BIC(X_i∪X_j)-BIC(X_i,X_j)

公式中的X_i和X_j通常代表一个聚类簇或者新的数据特征段。这个时候需要通过计算最大似然收益ΔBIC_MAX来决策是否进行聚合，如果该值为正，则需要合并当前的组合

或者

，如果该值为负，则需要在保持现有簇独立的情况下，创建新的聚类簇。

采用上述结构后，本发明有益效果为：本发明将说话人音频信号进行有效分段和合理聚类的方法。该方法解决了传统方法中的音频分段缺陷：如果分帧较大，一些信号片段有可能在非边界处被切分，从而导致聚类信息丢失；如果分帧较小，可能由于每个片段的特征数据过少导致无法识别和分类。本发明提出了基于贝叶斯信息准则的变长窗口分段方法，极大的提高了分段的准确性；同时，将贝叶斯信息准则应用到聚类模块中，能够在不需要原始说话人语音资料的前提下，实现高效的在线说话人信号的并行转录、分段、分类和聚合。

附图说明

图1是本发明的结构示意图；

图2是数据分段流程图；

图3是信号聚类流程图。

具体实施方式

下面结合附图对本发明作进一步的说明。

如图1、图2、图3所示，本发明所述的一种基于贝叶斯信息准则的线上说话人聚类分析方法，其主要解决了说话人聚类分析过程中的音频信号动态分段和高效分类聚合的问题。线上说话人聚类分析系统通常分为两大模块：音频信号分段模块和片段聚类分析模块。本方法通过将贝叶斯信息准则模型应用到整个系统的两个模块中，极大的提高了分段的准确度，保证了聚类的高效性；其具体采用如下的技术方案：

第一步是采用原始基本语音特征数据：将采集到的原始音频信号，通过使用基于人耳感知的Mel频率倒谱系数作为说话人聚类分析的基本语音特征，形成原始基本语音特征数据；

第二步采用贝叶斯信息准则进行音频数据分段：将原始基本语音特征数据通过贝叶斯信息准则进行分段，其一在数据分段过程中，分帧窗口的大小需要采用变长模式，以避免不同长度的语音信号出现错误地划分和分段；其二在数据分段过程中，如果分帧窗口较小，需要较缓慢的增加窗口的大小；如果分帧窗口较大，需要快速的增加窗口的大小；在数据分段过程中，引进变长窗口，尝试在当前窗口中寻找满足条件的边界，如果没有找到候选的边界，就给当前窗口增加△N_i帧，如果依然没能找到边界，则继续向窗口中添加△N_i+1 帧，其中△N_i=△N_i+1+?_i，?_i =2?_i+1 ；如此叠加直到在窗口中找到边界或者窗长已经延续到最大长度；在窗长发生变化时，需要采用变形的△BIC表达式给出合理地边界划分决策：

△BIC=-n/2·log|?_?|+i/2·log|?_f|+(n-i)log|?_s|+1/2·?（d+d(d+1)/2）logn

其中|?_?|是模型M₁中全部窗口的协方差之和，|?_f|是模型M₂中第一个子切分｛x₁，…，x_i｝的全部窗口的协方差之和，|?_S|是第二个子切分｛x_i+1，…，x_n｝的全部窗口的协方差之和；

第三步音频特征的提取：采用贝叶斯信息准则对数据的边界进行评估；窗口的初始长度为100帧长，接下来尝试在当前窗口中寻找满足条件的边界，如果没有找到候选的边界，就给当前窗口增加ΔN_i帧，如果依然没能找到边界，则继续向窗口中添加ΔN_i+1帧，其中△N_i =△N_i+1+?_i，?_i =2?_i+1;如此叠加直到在窗口中找到边界或者窗长已经延续到最大长度；如果通过上述方法已经找到了候选的边界，则窗口重定位到当前的边界处，重复上述分析过程直到找到所有的候选边界；然后从每个片段连续的音频流中得到10ms间隔的MFCC特征向量作为聚类的准则，使用标准的24维MFCC信息作为基本的音频特征；得到若干进行了准确边界划分的音频片段，形成音频信号分段模块；

第四步是利用贝叶斯信息准则对准确边界划分的音频片段进行聚类：在信号聚类过程中，从每个片段连续的音频流中得到10ms间隔的MFCC特征向量作为聚类的准则，将已分段的若干音频片段不断进行组合，形成聚类簇，将新加入的已准确边界划分好音频片段，当有新的数据特征段加入的时候，对于所有可能的(i，j)组合，将计算出合并收益?（C_i，S_j）和合并收益?（S_i，S_j），其中：?（X_i，X_j）=BIC(X_i∪X_j)-BIC（X_i，X_j）公式中的X_i和X_j通常代表一个聚类簇或者新的数据特征段，这个时候需要通过计算最大似然收益△BIC_MAX 来决策是否进行聚合，如果该值为正，则需要合并当前的组合｛C_i0，S _j0｝或者｛S_i0，S _j0｝，如果该值为负，则需要在保持现有簇独立的情况下，创建新的聚类簇；通过贝叶斯信息准则对所有已分段的音频数据进行聚类；聚类的准则是新的数据段归并到已有数据簇和开辟新的数据簇的收益代价之差；为了减小不可靠段对聚类结果的影响，只选出含有有效数据的段进行聚类，其它的段被统一划归到垃圾簇；最终由若干聚类族形成聚类模块。

本发明中贝叶斯信息准则(Bayesian Information Criterion, BIC)作为优化的贝叶斯模型选择准则，通常用来给出由多个参数决定的p个模型中，哪个模型能够对已有的n个观测数据进行较好的呈现和匹配。对于n个独立的观测数据x₁,...,x_n,x_i∈R^d，假设每个模型M_j的待定参数个数为k_j，并且观测数据x_i之间是相互独立的。根据BIC理论，对于足够大的n，如果想要得到较好的数据模型，就需要找到使得如下表达式取得最大值的参数组合：

{BIC}_{j} = \log ζ_{j} (x_{1}, . . ., x_{n}) - \frac{1}{2} λ k_{j} \log n

其中λ=1，ξ_j是每个模型M_j下的数据最大似然度。

如果只有两个数据模型M₁和M₂拯待决策，只需要定义ΔBIC=BIC₁-BIC₂，如果ΔBIC为正，则选择M₁作为观测数据的替代模型，否则，选择M₂。

通过以上描述，我们可以得知贝叶斯信息准则能够给出合理的信息模型决策方案。这对于在线说话人聚类分析系统的两大模块都有较好的适应性。

如图1所示，将原始音频信号采集后通过贝叶斯信息准则分段成已有边界的音频片段，然后再对音频片段进行音频特征提取，再将将具备音频特征片段通过贝叶斯信息准则聚类，形成若干聚类族1、聚类族2…聚类族n，最终形成聚类模块。

如图2所示，将原始音频信号，导入到贝叶斯信息准则决策模型中，在初始窗中的初始窗长一个分段的两边界是第i边界和第i+1边界，如果未找到数据分段的边界，则加长ΔN_i，还没有找到则继续加长ΔN_i+1，直到找到边界；分段中的贝叶斯信息准则：数字音频信号通常是由一帧一帧的数字采样构成。本系统使用采样率为16KHz、码率为16bit的连续PCM采样数据作为系统的输入。在连续的数字音频序列{x₁,...,x_i}中，假设最多只存在一个分段边界，那么第i帧的边界检测就等同于贝叶斯信息准则中的两个数据模型的选择问题，其中模型M₁中的{x₁,...,x_n}来自单一的完全协方差高斯过程；中的{x₁,...,x_n}来自两个完全协方差高斯过程，其中{x₁,...,x_i}来自第一个完全协方差高斯过程，剩下的{x_i+1,...,x_n}来自于第二个完全协方差高斯过程。由于x_i∈R^d，那么模型M₁的参数个数，模型M₂的参数个数k₂=2k₁，在这里，模型的参数个数k_j只与x_i定义域中的d相关。

很显然，如果第

帧是候选的边界，那么需要满足公式：

为负数。其中是模型M₁中全部窗口的协方差之和，|ε_f|是模型M₂中第一个子切分{x₁,...,x_i}的全部窗口的协方差之和，|ε_s|是第二个子切分{x_i+1,...,x_n}的全部窗口的协方差之和。应用该公式在整个时间序列中进行分析，就可以得到最小的ΔBIC_i值，也就相当于找到了数据分段的边界，这里的i是指序列{x₁,...,x_n}中的第i帧。如果在当前帧处没有找到边界，那么就继续往当前窗口中添加更多的数据帧进行同样的分析。

在分析信号边界的问题中，窗长的选择非常重要。如果窗长较大，即：更多的数据帧加入到当前窗口中，一些边界信息可能会丢失；如果窗长较小，数据帧信息的缺失将导致无法进行边界的检测。目前已有的算法，通常添加固定的帧到当前分析窗口，这并没有充分利用音频数据的上下文信息进一步提高算法的准确度。

在这里，我们考虑采用变长的窗长以适应当前的应用；首先对于说话人识别，将初始窗长设置为100帧比较合适。然后，尝试在当前窗口中寻找满足条件的边界，如果没有找到候选的边界，就给当前窗口增加ΔN_i帧，如果依然没能找到边界，则继续向窗口中添加ΔN_i+1帧，其中ΔN_i=ΔN_i+1+δ_i,δ_i=2δ_i+1。如此叠加，直到在窗口中找到边界或者窗长已经延续到最大长度。这里使用变量δ_i控制了窗口的延伸速率：如果当前窗口较小，则窗长的增长较缓慢；如果窗口较大，则窗长的增长较快。如果通过上述方法已经找到了候选的边界，则窗口重定位到当前的边界处，重复上述分析过程直到找到所有的候选边界。

基于HUB4 1997 BN数据集的对比实验结果：

算法	误报率	小于两秒的丢失率	大于两秒的丢失率
				原始算法	4.1%	25.0%	8.3%
优化算法	9.2%	13.1%	11.6%

如图3所示，将音频特征段x、音频特征段y和音频特征段z进行合并形成聚类簇K，再加入新的特征段p，特征段p和聚类簇K通过贝叶斯信息准则决策，形成新的聚类簇K^’，从而可以形成聚类簇1、聚类簇2…聚类簇n；聚类中的贝叶斯信息准则：贝叶斯信息准则应用到聚类模块中可以极大地提高系统的聚类准确度。本方法中，我们要做的是怎么样让贝叶斯决策准则更加高效的工作。

假设已有的聚类簇集合为C₁,...,C_k，在离线聚类模式下，我们需要做的是不断地合并两个簇，产生新的聚类簇集合。在这个过程中，我们构建了两个模型，即：BIC₁是C_i和C_j的合并高斯过程模型M₁的决策；BIC₂是含有两个不同的高斯过程模型M₂的决策，一个对应C_i，另外一个对应C_j。至此，建模完成，剩下的决策过程和分段过程中的分析方法一致，我们只需要判断ΔBIC=BIC₁-BIC₂的正负即可，其中ΔBIC的表达式展开与分段过程中的ΔBIC_I表达式一致，如果该值为正，那么需要合并两个独立的簇，产生新的簇；如果该值为负，那么仍然保留两个簇的独立性。

在线聚类模式依赖两个要素，一个是：当前迭代过程之前产生的聚类簇；另一个是：新加入到簇的数据段（音频片段的MFCC特征信息），假设之前的簇集合为C₁,...,C_k，迭代后的簇集合为S₁,...,S_M。当有新的数据段加入的时候，对于所有可能的<I,J>组合，将计算出合并收益ψ(C_i,S_j)和合并收益ψ(S_i,S_j)，其中：

ψ(X_i,X_j)=BIC(X_i∪X_j)-BIC(X_i,X_j)

公式中的X_i和X_j通常代表一个簇或者新的数据段。这个时候需要通过计算最大似然收益ΔBIC_MAX来决策是否进行聚类，如果该值为正，则需要合并当前的组合

或者

，如果该值为负，则需要在保持现有簇独立的情况，创建新的聚类簇。这个过程重复的进行，直到所有的段都已经被聚合。

为了减小不可靠段对聚类结果的影响，我们只选出含有有效数据的段进行聚类，其它的段被统一划归到垃圾簇。

采用贝叶斯信息准则的离线模式和在线模式聚类实验结果对比如下表：

算法	准确度	聚类簇数量
			离线模式	96.7%	172
在线模式	98.58%	149

本发明是采样率为16KHz、码率为16bit的连续PCM采样信号，首先，采用贝叶斯信息准则对数据的边界进行评估。窗口的初始长度为100帧长，接下来尝试在当前窗口中寻找满足条件的边界，如果没有找到候选的边界，就给当前窗口增加ΔN_i帧，如果依然没能找到边界，则继续向窗口中添加ΔN_i+1帧，其中ΔN_i=ΔN_i+1+δ_i,δ_i=2δ_i+1。如此叠加，直到在窗口中找到边界或者窗长已经延续到最大长度。如果通过上述方法已经找到了候选的边界，则窗口重定位到当前的边界处，重复上述分析过程直到找到所有的候选边界。然后，从每个片段连续的音频流中得到10ms间隔的MFCC特征向量作为聚类的准则，这里使用标准的24维MFCC信息作为基本的音频特征。最后，采用贝叶斯信息准则对所有已分段的数据进行聚类，聚类的准则是新的数据段归并到已有数据簇和开辟新的数据簇的收益代价之差。为了减小不可靠段对聚类结果的影响，只选出含有有效数据的段进行聚类，其它的段被统一划归到垃圾簇。通过以上过程，我们可以实现高效的在线说话人信号的并行转录、分段、分类和聚合。

本发明将说话人音频信号进行有效分段和合理聚类的方法。该方法解决了传统方法中的音频分段缺陷：如果分帧较大，一些信号片段有可能在非边界处被切分，从而导致聚类信息丢失；如果分帧较小，可能由于每个片段的特征数据过少导致无法识别和分类。本发明提出了基于贝叶斯信息准则的变长窗口分段方法，极大的提高了分段的准确性；同时，将贝叶斯信息准则应用到聚类模块中，能够在不需要原始说话人语音资料的前提下，实现高效的在线说话人信号的并行转录、分段、分类和聚合。

以上所述仅是本发明的较佳实施方式，故凡依本发明专利申请范围所述的特征及原理所做的等效变化或修饰，均包括于本发明专利申请范围内。

Claims

1.一种基于贝叶斯信息准则的线上说话人聚类分析方法，其特征在于：其方法为：使用已有的基于人耳感知的Mel频率倒谱系数MFCC作为说话人聚类分析的基本语音特征，采取贝叶斯信息准则作为数据边界划分模块和说话人聚类模块的决策方法，其具体方法步骤如下：

第一步，采用原始基本语音特征数据：将采集到的原始音频信号，通过使用基于人耳感知的Mel频率倒谱系数作为说话人聚类分析的基本语音特征，形成原始基本语音特征数据；

第二步，采用贝叶斯信息准则进行音频数据分段：将原始基本语音特征数据通过贝叶斯信息准则进行分段；

第三步，音频特征的提取：采用贝叶斯信息准则对数据的边界进行评估；

第四步，利用贝叶斯信息准则对准确边界划分的音频片段进行聚类：该聚类的准则是新的数据段归并到已有数据簇和开辟新的数据簇的收益代价之差，且选出含有有效数据的段进行聚类，其它的段被统一划归到垃圾簇，最终由若干聚类族形成聚类模块。

2.根据权利要求1所述的线上说话人聚类分析方法，其特征在于：所述第二步中，通过贝叶斯信息准则进行分段的方法如下：

其一，在数据分段过程中，分帧窗口的大小需要采用变长模式，以避免不同长度的语音信号出现错误地划分和分段；

其二，在数据分段过程中，如果分帧窗口较小，需要较缓慢的增加窗口的大小；如果分帧窗口较大，需要快速的增加窗口的大小；在数据分段过程中，引进变长窗口，尝试在当前窗口中寻找满足条件的边界，如果没有找到候选的边界，就给当前窗口增加△Ni帧，如果依然没能找到边界，则继续向窗口中添加ΔNi+1帧，其中△Ni =△Ni+1+?i，?i=2?i+1；如此叠加直到在窗口中找到边界或者窗长已经延续到最大长度。

3.根据权利要求2所述的线上说话人聚类分析方法，其特征在于：在所述其二中，在窗长发生变化时，需要采用变形的△BIC表达式给出合理地边界划分决策：

△BIC=-n/2·log|?_?|+i/2·log|?_f|+(n-i)log|?_s|+1/2·?（d+d(d+1)/2）logn

其中|?_?|是模型M₁中全部窗口的协方差之和，|?_f|是模型M₂中第一个子切分｛x₁，…，x_i｝的全部窗口的协方差之和，|?_S|是第二个子切分｛x_i+1，…，x_n｝的全部窗口的协方差之和。

4.根据权利要求1所述的线上说话人聚类分析方法，其特征在于：所述第三布中，采用贝叶斯信息准则对数据的边界进行评估的方法为：

设窗口的初始长度为100帧长，接下来尝试在当前窗口中寻找满足条件的边界，

如果没有找到候选的边界，就给当前窗口增加ΔN_i帧，如果依然没能找到边界，则继续向窗口中添加ΔN_i+1帧，其中ΔN_i=ΔN_i+1+ ?_i ,?_i =2?_i+1；如此叠加直到在窗口中找到边界或者窗长已经延续到最大长度；

如果通过上述方法已经找到了候选的边界，则窗口重定位到当前的边界处，重复上述分析过程直到找到所有的候选边界；然后从每个片段连续的音频流中得到10ms间隔的MFCC特征向量作为聚类的准则，使用标准的24维MFCC信息作为基本的音频特征；得到若干进行了准确边界划分的音频片段，形成音频信号分段模块。

5.根据权利要求1所述的线上说话人聚类分析方法，其特征在于：所述四步中，在信号聚类过程中，从每个片段连续的音频流中得到10ms间隔的MFCC特征向量作为聚类的准则，将已分段的若干音频片段不断进行组合，形成聚类簇，将新加入的已准确边界划分好音频片段，当有新的数据特征段加入的时候，对于所有可能的(i，j)组合，将计算出合并收益?（Ci，Sj）和合并收益?（Si，Sj），其中，?（Xi，Xj）=BIC(Xi∪Xj)-BIC（Xi，Xj）；

Xi和Xj代表一个聚类簇或者新的数据特征段，此时，通过计算最大似然收益△BICMAX来决策是否进行聚合；

如果最大似然收益值为正，则需要合并当前的组合｛Ci0，S j0｝或者｛Si0，S j0｝；

如果最大似然收益值为负，则需要在保持现有簇独立的情况下，创建新的聚类簇。