CN104021785A

CN104021785A - 一种提取会议中最重要嘉宾语音的方法

Info

Publication number: CN104021785A
Application number: CN201410231431.9A
Authority: CN
Inventors: 李艳雄; 金海�; 贺前华; 王琴
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2014-05-28
Filing date: 2014-05-28
Publication date: 2014-09-03

Abstract

本发明公开了一种提取会议中最重要嘉宾语音的方法，包括以下步骤：S1、读入记录有会议语音的音频文件；S2、说话人分割：检测上述会议语音中的说话人改变点，将相邻两个改变点之间的语音样点作为一个语音段，从而将音频文件分成多个语音段；S3、语音段的距离比较及合并：比较上述语音段中最长语音段与第二长语音段之间的距离，根据该距离与门限的关系判断这两个语音段是不是最重要嘉宾的语音，再根据其他语音段(除了最长和第二长语音段之外的语音段)与上述两个语音段之间的距离，判断其他语音段是不是最重要嘉宾的语音，从而得到最重要嘉宾的所有语音段。本发明为会议语音的快速浏览、主题提取、说话人检索等奠定了基础。

Description

一种提取会议中最重要嘉宾语音的方法

技术领域

本发明涉及语音信号处理和模式识别技术，尤其涉及一种提取会议中最重要嘉宾语音的方法。

背景技术

最重要嘉宾是指在多人参与的会议中，发言权最高、在整个会议进程中处于主导地位的说话人，例如会议中的某个国家领导人、单位负责人、行业精英或权威人士。在经常召开的发布会、讨论会、演讲等会议中，一般都有一个最重要的嘉宾，他的语音是人们在浏览分析会议语音时最感兴趣的。最重要嘉宾是与会人员中的最主要发言人，他在整个会议中的说话时间一般是最长的。另外，他单次连续说话时间一般也是最长的(我们统计发现，说话人分割之后的最长语音段和第二长语音段中至少有一个是最重要嘉宾的语音)。因此，会议中的最重要嘉宾的语音总时长和单次说话的最大语音时长在所有与会人员中是最大的。从最重要嘉宾的语音中，可以得到该会议的主题、会议决议等重要信息。这些信息是人们在浏览分析冗长的会议语音时最希望获取的。因此，快速有效地提取出会议中最重要嘉宾的语音，对于会议语音的快速浏览、主题提取、说话人分析与检索等应用都具有非常重要的意义。

发明内容

目前的说话人语音提取方法在说话人分割之后，一般采取基于凝聚分层聚类(Agglomerative Hierarchical Clustering)的方法进行说话人聚类，从而得到各个说话人的语音。目前的方法存在聚类次数多，速度慢的不足。为了克服现有技术存在的缺点与不足，本发明提供一种快速提取会议中最重要嘉宾语音的方法。

一种提取会议中最重要嘉宾语音的方法，包括如下步骤：

S1读入记录有会议语音的音频文件；

S2说话人分割：检测上述会议语音中的说话人改变点，将相邻两个改变点之间的语音样点作为一个语音段，将音频文件分成J个语音段，并将这J个语音段按时长从大到小的顺序编号得到排序后的语音段x_j，1≤j≤J，x₁和x₂分别是最长和第二长的语音段，以此类推；

S3语音段的距离比较及合并：比较语音段x₁与语音段x₂的距离，根据该距离与门限的关系判断语音段x₁与语音段x₂是否都是最重要嘉宾的语音，再根据其他语音段x_j与语音段x₁和语音段x₂的距离，判断其他语音段x_j是不是最重要嘉宾的语音，从而实现最重要嘉宾语音的提取，其中3≤j≤J。

进一步地，所述S2说话人分割：检测上述会议语音中的说话人改变点，将相邻两个改变点之间的语音样点作为一个语音段，将音频文件分成多个语音段，具体为：

S2.1利用基于门限判决的语音检测算法从上述音频文件中找出静音段和语音段；

S2.2将上述语音段按时间顺序拼接成一个长语音段，并从长语音段中提取音频特征；

S2.3利用上述提取的音频特征，根据贝叶斯信息准则，判断长语音段中相邻数据窗之间的相似度来检测说话人改变点；

S2.4依次把相邻两个改变点之间的语音样点作为一个语音段，从而将音频文件分割成多个语音段，且每个语音段包含一个说话人。

进一步地，所述S2.1利用基于门限判决的语音检测算法从上述音频文件中找出静音段和语音段，具体包括如下步骤：

S2.1.1对读入的会议语音进行分帧，并计算每帧语音的能量，得到会议语音的能量特征矢量；

S2.1.2计算每帧语音的能量门限；

S2.1.3将每帧语音的能量与能量门限进行比较，低于能量门限的帧为静音帧，否则为语音帧，将所有的静音帧都舍弃，将语音帧按时间顺序拼接成一个语音段。

进一步地，所述S2.3根据贝叶斯信息准则判断长语音段中相邻数据窗之间的相似度来检测说话人改变点，具体包括如下步骤：

S2.3.1将长语音段切分成数据窗，对每个数据窗进行分帧，从每一帧语音信号中提取音频特征，每个数据窗的音频特征构成一个音频特征矩阵F；

S2.3.2计算两个相邻数据窗(x和y)之间的距离ΔBIC_x,y：

\begin{matrix} Δ {BIC}_{x, y} = (n_{x} + n_{y}) \ln (| \det (cov (F_{z})) |) - n_{x} \ln (| \det (cov (F_{x})) |) - \\ n_{y} \ln (| \det (cov (F_{y})) |) - α (d + \frac{d (d + 1)}{2}) \ln (n_{x} + n_{y}) \end{matrix},

其中，z是将数据窗x和y合并之后得到的数据窗，n_x和n_y分别是数据窗x和y的帧数，F_x、F_y和F_z分别是数据窗x、y和z的音频特征矩阵，cov(F_x)、cov(F_y)和cov(F_z)分别是音频特征矩阵F_x、F_y和F_z的协方差矩阵，det(·)表示求矩阵的行列式值，d是音频特征的维数，α是惩罚系数；

S2.3.3如果距离ΔBIC_x,y小于零，则数据窗x和y属于同一个说话人并将它们合并，否则数据窗x和y属于两个不同的说话人(即它们之间存在说话人改变点)；

S2.3.4不断地滑动数据窗，判断两个相邻数据窗之间的距离是否小于零，并保存说话人改变点，直到所有相邻数据窗之间的距离都被判断完为止。

进一步地，所述S3中进行语音段的距离比较及合并，从而得到最重要嘉宾的语音，包括如下步骤：

S3.1将语音段x₁、x₂和x_j都切分成语音帧，再从每帧语音中提取音频特征，各个语音段的音频特征构成一个音频特征矩阵，语音段x₁、x₂和x_j的音频特征矩阵分别为F₁、F₂和F_j，其中3≤j≤J；

S3.2计算语音段x₁与x₂之间的距离ΔBIC_1,2：

\begin{matrix} Δ {B / C}_{1, 2} = (n_{1} + n_{2}) \ln (| \det (cov ({F_{x}}_{1,2})) |) - n_{1} \ln (| \det (cov (F_{1})) |) - \\ n_{2} \ln (| \det (cov (F_{2})) |) - α (d + \frac{d (d + 1)}{2}) \ln (n_{1} + n_{2}) \end{matrix},,

其中，x_1,2是语音段x₁和x₂合并之后得到的语音段，n₁和n₂分别是语音段x₁和x₂的帧数，F₁、F₂和分别是语音段x₁、x₂和x_1,2的音频特征矩阵，cov(F₁)、cov(F₂)和cov()分别是音频特征矩阵F₁、F₂和的协方差矩阵，det(·)表示求矩阵的行列式值，d是音频特征的维数，α是惩罚系数且实验取值为2.0；

S3.3如果ΔBIC_1,2小于零，则语音段x₁和x₂都是最重要嘉宾的语音，并跳到步骤S3.4，否则语音段x₁和x₂属于两个不同的说话人，并跳到步骤S3.5；

S3.4计算语音段x₁与其他语音段x_j之间的距离ΔBIC_1,j，3≤j≤J，

\begin{matrix} Δ {BIC}_{1, j} = (n_{1} + n_{j}) \ln (| \det (cov ({F_{x}}_{1, j})) |) - n_{1} \ln (| \det (cov (F_{1})) |) - \\ n_{j} \ln (| \det (cov (F_{j})) |) - α (d + \frac{d (d + 1)}{2}) \ln (n_{1} + n_{j}) \end{matrix},,

如果ΔBIC_1,j小于零，则语音段x_j是最重要嘉宾的语音，否则语音段x_j不是最重要嘉宾的语音，重复这个过程直到第3至第J个语音段全部被判断完为止，并跳到步骤S3.7；

S3.5计算语音段x₁和语音段x₂分别与其他语音段x_j之间的距离ΔBIC_1,j和ΔBIC_2,j，3≤j≤J，

\begin{matrix} Δ {BIC}_{1, j} = (n_{1} + n_{j}) \ln (| \det (cov ({F_{x}}_{1, j})) |) - n_{1} \ln (| \det (cov (F_{1})) |) - \\ n_{j} \ln (| \det (cov (F_{j})) |) - α (d + \frac{d (d + 1)}{2}) \ln (n_{1} + n_{j}) \end{matrix},,

\begin{matrix} Δ {BIC}_{2, j} = (n_{2} + n_{j}) \ln (| \det (cov ({F_{x}}_{2, j})) |) - n_{2} \ln (| \det (cov (F_{2})) |) - \\ n_{j} \ln (| \det (cov (F_{j})) |) - α (d + \frac{d (d + 1)}{2}) \ln (n_{2} + n_{j}) \end{matrix},,

如果ΔBIC_1,j小于ΔBIC_2,j且ΔBIC_1,j小于零，则语音段x₁和语音段x_j属于同一个说话人，如果ΔBIC_2,j小于ΔBIC_1,j且ΔBIC_2,j小于零，则语音段x₂和语音段x_j属于同一个说话人，否则语音段x_j、x₁和x₂是三个不同的说话人的语音，重复这个过程直到第3至第J个语音段全部被判断完为止，并跳到步骤S3.6；

S3.6计算在步骤S3.5中与语音段x₁是同一个说话人的语音段总时长L₁，计算在步骤S3.5中与语音段x₂是同一个说话人的语音段总时长L₂，如果L₁大于L₂，则与语音段x₁是同一个说话人的语音段是最重要嘉宾的语音，否则与语音段x₂是同一个说话人的语音段是最重要嘉宾的语音，并跳到步骤S3.7；

S3.7最重要嘉宾语音提取结束。

本发明的有益效果：

1、在说话人分割之后得到最长语音段x₁及第二长语音段x₂，并基于语音段x₁和x₂中至少有一个是最重要嘉宾语音以及最重要嘉宾语音的总时长最大，提取出会议中最重要嘉宾的语音，为会议语音的快速浏览、主题提取、说话人检索等奠定基础。

2、目前在提取最重要嘉宾语音的方法需要在说话人分割之后，进行凝聚分层聚类将各个说话人的语音聚类在一起，再根据各个说话人的时长大小，将时长最大的说话人语音判为最重要嘉宾的语音。由于凝聚分层聚类方法计算量大，特别是说话人分割之后的语音段个数较多时，需要花费更多的时间，而本方法无需进行凝聚分层聚类，有效克服了目前方法运算速度慢的缺陷。

附图说明

图1为本发明的流程示意图。

具体实施方式

下面结合实施例及附图，对本发明作进一步地详细说明，但本发明的实施方式不限于此。

实施例

如图1所示，一种提取会议中最重要嘉宾语音的方法，包括如下步骤：

S1、读入记录有会议语音的音频文件，会议语音可以是各种格式的音频文件，例如WAV、RAM、MP3、VOX等。

S2、利用基于门限判决的语音检测方法找出语音流中的静音段和语音段，将上述语音段按时间顺序拼接成一个长语音段，并从长语音段中提取音频特征，利用上述提取出来的音频特征，根据贝叶斯信息准则，判断长语音段中相邻数据窗之间的相似度来检测说话人改变点；最后根据上述说话人改变点，将音频文件分成J个语音段，并将这J个语音段按时长从大到小的顺序编号得到排序后的语音段x_j，1≤j≤J，x₁和x₂分别是最长和第二长的语音段，以此类推；

S3、比较语音段x₁与语音段x₂的距离，根据该距离与门限的关系判断语音段x₁与语音段x₂是否都是最重要嘉宾的语音，再根据其他语音段x_j与语音段x₁和语音段x₂的距离，判断其他语音段x_j是不是最重要嘉宾的语音，从而实现最重要嘉宾语音的提取，其中3≤j≤J。

所述S2中所述基于门限判决的语音检测方法，从音频文件中找出静音段和语音段，具体包括以下步骤：

S2.1.1、将读入的音频文件分成T帧，帧长为32毫秒(帧长对应的采样点个数N＝0.032×f_s，其中f_s为语音信号的采样频率)，帧移为16毫秒，如果最后一帧语音的采样点个数小于N，则将其舍去；计算第t帧语音信号x_t(n)的能量E_t：

E_{t} = Σ_{n = 1}^{N} x_{t}^{2} (n) 1 \leq t \leq T,

得到语音流的能量特征矢量E＝[E₁,E₂,...,E_T]，其中，T为总帧数；

S2.1.2、用固定的能量门限判断静音与语音有很大的局限性，因为各种环境下的语音能量相差很大，但语音与静音之间能量大小的相对关系是不变的，所以定义每帧语音的能量门限T_E：

T_E＝min(E)+0.3×[mean(E)-min(E)]，

其中，min(E)是各帧能量的最小值，mean(E)是各帧能量的平均值；

S2.1.3、将每帧语音的能量与能量门限T_E进行比较，低于能量门限T_E的帧为静音帧，否则为语音帧，将所有静音帧都舍弃，将相邻的语音帧按时间顺序拼接成一个语音段。

所述S2中提取的音频特征包括梅尔频率倒谱系数(Mel Frequency CepstralCoefficients,MFCCs)及其一阶差分(ΔMFCCs)，特征的步骤包括：

S2.2.1、将语音信号分成T帧，帧长为32毫秒(帧长对应的采样点个数N＝0.032×f_s，其中f_s为语音信号的采样频率)，帧移为16毫秒，如果最后一帧语音的采样点个数小于N，则将其舍去；

S2.2.2、对第t帧语音x_t(n)做离散傅立叶变换(Discrete FourierTransformation,DFT)得到线性频谱X_t(k)：

X_{t} (k) = Σ_{n = 0}^{N - 1} x_{t} (n) e^{- j 2 πnk / N}, 1 \leq t \leq T, 0 \leq n \leq N - 1,0 \leq k \leq N - 1;

S2.2.3、将上述线性频谱X_t(k)通过梅尔频率滤波器组得到梅尔频谱，再进行对数运算得到对数频谱S_t(m)，其中梅尔频率滤波器组为若干个带通滤波器H_m(k)，0≤m<M，M为滤波器的个数且通常取值为23～26，实验时取值为24，每个滤波器具有三角形滤波特性，其中心频率为f(m)，当m值较小时相邻f(m)之间的间隔也较小，随着m的增加相邻f(m)的间隔逐渐变大，每个带通滤波器的传递函数为：

H_{m} (k) = \{\begin{matrix} 0 & (f < f (m - 1)) \\ \frac{k - f (m - 1)}{f (m) - f (m - 1)} & (f (m - 1) \leq k \leq f (m)) \\ \frac{f (m + 1) - k}{f (m + 1) - f (m)} & (f (m) < k \leq f (m + 1)) \\ 0 & (k > f (m + 1)) \end{matrix} (0 \leq m < m),

其中，f(m)定义如下：

f (m) = (\frac{N}{f_{s}}) B^{- 1} (B (f_{l}) + m \frac{B (f_{h}) - B (f_{l})}{M + 1}),

其中，f_l、f_h为滤波器的频率应用范围的最低频率和最高频率，B^-1为B的逆函数：B^-1(b)＝700(e^b/1125-1)，因此由线性谱X_t(k)到对数谱S_t(m)的函数式为：

S_{t} (m) = \ln (Σ_{K = 0}^{N - 1} {| X_{t} (k) |}^{2} H_{m} (k)) (0 \leq m < M);

S2.2.4、将上述对数频谱S_t(m)经过离散余弦变换(Discrete CosineTransformation,DCT)变换到倒谱域，得到第t帧MFCCs，C_t(p)：

C_{t} (p) = Σ_{m = 0}^{M - 1} S_{t} (m) \cos (\frac{(m + 0.5) pπ}{M}) 0 \leq p < P, 0 \leq m < M,

其中，P为梅尔频率倒谱系数的阶数，通常取值为12～16，实验时取值为13；

S2.2.5、计算第t帧MFCCs的一阶差分(ΔMFCCs)，C'_t(p)：

C_{t}^{'} (p) = \frac{1}{\sqrt{Σ_{q = - Q}^{Q} q^{2}}} Σ_{q = - Q}^{Q} q \times C_{t} (p + q) 0 \leq p < P, 0 \leq q \leq Q,

其中，Q为常数，实验时取值为3；

S2.2.6、对每帧语音信号重复上述步骤S2.2.2～S2.2.5，得到所有T帧语音信号的MFCCs与ΔMFCCs，将它们按帧的顺序组合成一个MFCCs矩阵与ΔMFCCs矩阵，再将MFCCs矩阵与ΔMFCCs矩阵合并构成音频特征矩阵F。

所述S2中的利用贝叶斯信息准则确定说话人改变点的方法具体包括以下步骤：

S2.3.1、将经过语音检测得到的各个语音段按顺序拼接成一个长语音段，将长语音段切分成数据窗，窗长为2秒，窗移为0.1秒，对每个数据窗进行分帧，帧长为32毫秒，帧移为16毫秒，从每一帧语音信号中提取MFCCs与ΔMFCCs特征，它们的维数M都为12，每个数据窗的音频特征构成一个音频特征矩阵F，特征矩阵F的维数d＝2M为24；

S2.3.2、计算两个相邻数据窗(x和y)之间的距离ΔBIC_x,y：

\begin{matrix} Δ {BIC}_{x, y} = (n_{x} + n_{y}) \ln (| \det (cov (F_{z})) |) - n_{x} \ln (| \det (cov (F_{x})) |) - \\ n_{y} \ln (| \det (cov (F_{y})) |) - α (d + \frac{d (d + 1)}{2}) \ln (n_{x} + n_{y}) \end{matrix},

其中，z是将数据窗x和y合并之后得到的数据窗，n_x和n_y分别是数据窗x和y的帧数，F_x、F_y和F_z分别是数据窗x、y和z的音频特征矩阵，cov(F_x)、cov(F_y)和cov(F_z)分别是音频特征矩阵F_x、F_y和F_z的协方差矩阵，det(·)表示求矩阵的行列式值，d是音频特征的维数，α是惩罚系数且实验取值为2.0；

S2.3.3、如果距离ΔBIC_x,y小于零，则数据窗x和y属于同一个说话人并将它们合并，否则数据窗x和y属于两个不同的说话人(即它们之间存在说话人改变点)；

S2.3.4、不断地滑动数据窗，判断两个相邻数据窗之间的距离是否小于零，并保存说话人改变点，直到所有相邻数据窗之间的距离都被判断完为止。

所述S3中进行语音段的距离比较及合并，从而得到最重要嘉宾的语音，包括如下步骤：

S3.1、将语音段x₁、x₂和x_j都切分成语音帧，再从每帧语音中提取梅尔频率倒谱系数MFCCs及其一阶差分ΔMFCCs的音频特征，各个语音段的音频特征构成一个音频特征矩阵，语音段x₁、x₂和x_j的音频特征矩阵分别为F₁、F₂和F_j，其中3≤j≤J；

S3.2、计算语音段x₁与x₂之间的距离ΔBIC_1,2：

\begin{matrix} Δ {B / C}_{1, 2} = (n_{1} + n_{2}) \ln (| \det (cov ({F_{x}}_{1,2})) |) - n_{1} \ln (| \det (cov (F_{1})) |) - \\ n_{2} \ln (| \det (cov (F_{2})) |) - α (d + \frac{d (d + 1)}{2}) \ln (n_{1} + n_{2}) \end{matrix},,

其中，x_1,2是语音段x₁和x₂合并之后得到的语音段，n₁和n₂分别是语音段x₁和x₂的帧数，F₁、F₂和分别是语音段x₁、x₂和x_1,2的音频特征矩阵，cov(F₁)、cov(F₂)和cov()分别是音频特征矩阵F₁、F₂和的协方差矩阵，det(·)表示求矩阵的行列式值，α是惩罚系数且实验取值为2.0；

S3.3、如果ΔBIC_1,2小于零，则语音段x₁和x₂都是最重要嘉宾的语音，并跳到步骤S3.4，否则语音段x₁和x₂属于两个不同的说话人，并跳到步骤S3.5；

S3.4、计算语音段x₁与其他语音段x_j之间的距离ΔBIC_1,j，3≤j≤J，

\begin{matrix} Δ {BIC}_{1, j} = (n_{1} + n_{j}) \ln (| \det (cov ({F_{x}}_{1, j})) |) - n_{1} \ln (| \det (cov (F_{1})) |) - \\ n_{j} \ln (| \det (cov (F_{j})) |) - α (d + \frac{d (d + 1)}{2}) \ln (n_{1} + n_{j}) \end{matrix},,

S3.5、计算语音段x₁和语音段x₂分别与其他语音段x_j之间的距离ΔBIC_1,j和ΔBIC_2,j，3≤j≤J，

\begin{matrix} Δ {BIC}_{1, j} = (n_{1} + n_{j}) \ln (| \det (cov ({F_{x}}_{1, j})) |) - n_{1} \ln (| \det (cov (F_{1})) |) - \\ n_{j} \ln (| \det (cov (F_{j})) |) - α (d + \frac{d (d + 1)}{2}) \ln (n_{1} + n_{j}) \end{matrix},,

\begin{matrix} Δ {BIC}_{2, j} = (n_{2} + n_{j}) \ln (| \det (cov ({F_{x}}_{2, j})) |) - n_{2} \ln (| \det (cov (F_{2})) |) - \\ n_{j} \ln (| \det (cov (F_{j})) |) - α (d + \frac{d (d + 1)}{2}) \ln (n_{2} + n_{j}) \end{matrix},,

S3.6、计算在步骤S3.5中与语音段x₁是同一个说话人的语音段总时长L₁，计算在步骤S3.5中与语音段x₂是同一个说话人的语音段总时长L₂，如果L₁大于L₂，则与语音段x₁是同一个说话人的语音段是最重要嘉宾的语音，否则与语音段x₂是同一个说话人的语音段是最重要嘉宾的语音，并跳到步骤S3.7；

S3.7、最重要嘉宾语音提取结束。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受所述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种提取会议中最重要嘉宾语音的方法，其特征在于，包括如下步骤：

S1、读入记录有会议语音的音频文件；

S2、说话人分割：检测上述会议语音中的说话人改变点，将相邻两个改变点之间的语音样点作为一个语音段，将音频文件分成J个语音段，并将这J个语音段按时长从大到小的顺序编号得到排序后的语音段x_j，1≤j≤J，x₁和x₂分别是最长和第二长的语音段，以此类推；

S3、语音段的距离比较及合并：比较语音段x₁与语音段x₂的距离，根据该距离与门限的关系判断语音段x₁与语音段x₂是否都是最重要嘉宾的语音，再根据其他语音段x_j与语音段x₁和语音段x₂的距离，判断其他语音段x_j是不是最重要嘉宾的语音，从而实现最重要嘉宾语音的提取，其中，3≤j≤J。

2.根据权利要求1所述的提取会议中最重要嘉宾语音的方法，其特征在于，所述S2说话人分割：检测上述会议语音中的说话人改变点，将相邻两个改变点之间的语音样点作为一个语音段，将音频文件分成多个语音段，具体为：

3.根据权利要求2所述的提取会议中最重要嘉宾语音的方法，其特征在于，所述S2.1利用基于门限判决的语音检测算法从上述音频文件中找出静音段和语音段，具体包括如下步骤：

S2.1.2计算每帧语音的能量门限；

4.根据权利要求2所述的提取会议中最重要嘉宾语音的方法，其特征在于，所述S2.3根据贝叶斯信息准则，判断长语音段中相邻数据窗之间的相似度来检测说话人改变点，具体包括如下步骤：

S2.3.2计算两个相邻数据窗(x和y)之间的距离ΔBIC_x,y：

\begin{matrix} Δ {BIC}_{x, y} = (n_{x} + n_{y}) \ln (| \det (cov (F_{z})) |) - n_{x} \ln (| \det (cov (F_{x})) |) - \\ n_{y} \ln (| \det (cov (F_{y})) |) - α (d + \frac{d (d + 1)}{2}) \ln (n_{x} + n_{y}) \end{matrix},

5.根据权利要求1所述的提取会议中最重要嘉宾语音的方法，其特征在于，所述S3的语音段的距离比较及合并，包括如下步骤：

S3.2计算语音段x₁与x₂之间的距离ΔBIC_1,2：

\begin{matrix} Δ {B / C}_{1, 2} = (n_{1} + n_{2}) \ln (| \det (cov ({F_{x}}_{1,2})) |) - n_{1} \ln (| \det (cov (F_{1})) |) - \\ n_{2} \ln (| \det (cov (F_{2})) |) - α (d + \frac{d (d + 1)}{2}) \ln (n_{1} + n_{2}) \end{matrix},,

其中，x_1,2是语音段x₁和x₂合并之后得到的语音段，n₁和n₂分别是语音段x₁和x₂的帧数，F₁、F₂和分别是语音段x₁、x₂和x_1,2的音频特征矩阵，cov(F₁)、cov(F₂)和cov()分别是音频特征矩阵F₁、F₂和的协方差矩阵，det(·)表示求矩阵的行列式值，d是音频特征的维数，α是惩罚系数；

\begin{matrix} Δ {BIC}_{1, j} = (n_{1} + n_{j}) \ln (| \det (cov ({F_{x}}_{1, j})) |) - n_{1} \ln (| \det (cov (F_{1})) |) - \\ n_{j} \ln (| \det (cov (F_{j})) |) - α (d + \frac{d (d + 1)}{2}) \ln (n_{1} + n_{j}) \end{matrix},,

\begin{matrix} Δ {BIC}_{1, j} = (n_{1} + n_{j}) \ln (| \det (cov ({F_{x}}_{1, j})) |) - n_{1} \ln (| \det (cov (F_{1})) |) - \\ n_{j} \ln (| \det (cov (F_{j})) |) - α (d + \frac{d (d + 1)}{2}) \ln (n_{1} + n_{j}) \end{matrix},,

\begin{matrix} Δ {BIC}_{2, j} = (n_{2} + n_{j}) \ln (| \det (cov ({F_{x}}_{2, j})) |) - n_{2} \ln (| \det (cov (F_{2})) |) - \\ n_{j} \ln (| \det (cov (F_{j})) |) - α (d + \frac{d (d + 1)}{2}) \ln (n_{2} + n_{j}) \end{matrix},,

S3.7最重要嘉宾语音提取结束。