CN103400580A

CN103400580A - 一种多人会话语音中的说话人重要程度估计方法

Info

Publication number: CN103400580A
Application number: CN2013103110723A
Authority: CN
Inventors: 李艳雄; 王梓里; 吴伟; 贺前华
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2013-07-23
Filing date: 2013-07-23
Publication date: 2013-11-20

Abstract

本发明公开了一种多人会话语音中的说话人重要程度估计方法，包括S1读入记录有多人会话语音的音频文件；S2说话人分割：检测上述多人会话语音中的说话人改变点，将相邻两个改变点之间的语音样点作为一个语音段，将音频文件分成多个语音段；S3说话人聚类：把相同说话人的语音段聚在一类，得到音频文件中说话人个数、各个说话人的语音及各个说话人的语音段数；S4说话人语速估计：分别从上述各个说话人的语音中提取能量包络，找出能量包络的局部最大值点，确定音节数，估计各个说话人的语速；S5基于语速、语音时长及语音段数，估计说话人的重要程度，本发明为多人会话语音的快速浏览、摘要提取、说话人检索等奠定基础。

Description

一种多人会话语音中的说话人重要程度估计方法

技术领域

本发明涉及语音信号处理和模式识别技术，尤其涉及一种多人会话语音中的说话人重要程度估计方法。

背景技术

说话人重要程度是指在多人会话的会议中，不同说话人在会议议题解决及对公众的影响等方面的差异。议题决策权越高、公众影响力越大的说话人则越重要。例如在新闻发布会中，答记者问的政府官员或企事业单位领导是最重要的说话人，而主持人、现场提问的记者等的重要性就相对低一些。又例如在访谈会中，特邀嘉宾的重要程度就比主持人、提问人的要高。人们在浏览分析会议语音时，往往希望能够得到会议录音中的说话人个数、各个说话人的重要程度，且最想聆听最重要说话人的发言。因此，快速有效地估计出多人会话语音中的各个说话人的重要程度，以便找出重要说话人的精彩发言，对于多人会话语音的快速浏览、摘要提取、说话人检索等应用都具有非常重要的意义。

发明内容

为了克服现有技术存在的缺点与不足，本发明提供一种多人会话语音中的说话人重要程度估计方法。

一种多人会话语音中的说话人重要程度估计方法，包括如下步骤：

S1读入记录有多人会话语音的音频文件；

S2说话人分割：检测上述多人会话语音中的说话人改变点，将相邻两个改变点之间的语音样点作为一个语音段，将音频文件分成多个语音段，所述语音段的个数等于改变点个数加1；

S3说话人聚类：把相同说话人的语音段聚在一类，得到音频文件中说话人个数、各个说话人的语音时长及各个说话人的语音段数；

S4说话人语速估计：分别从上述各个说话人的语音时长中提取能量包络，并找出能量包络的局部最大值点，进一步确定音节数，估计各个说话人的语速；

S5基于语速、语音时长及语音段数，估计说话人的重要程度。

进一步地，所述S2说话人分割：检测上述多人会话语音中的说话人改变点，将相邻两个改变点之间的语音样点作为一个语音段，将音频文件分成多个语音段，具体为：

S2.1利用门限判决的语音检测算法从上述音频文件中找出静音段和语音段；

S2.2将上述语音段按时间顺序拼接成一个长语音段，并从长语音段中提取音频特征；

S2.3利用上述提取的音频特征，根据贝叶斯信息准则，判断长语音段中相邻数据窗之间的相似度来检测说话人改变点；

S2.4依次把相邻两个改变点之间的语音样点作为一个语音段，从而将音频文件分割成多个语音段，且每个语音段包含一个说话人。

进一步地，所述S2.1利用门限判决的语音检测算法从上述音频文件中找出静音段和语音段，具体包括如下步骤：

S2.1.1对读入的多人会话语音进行分帧，并计算每帧语音的能量，得到多人会话语音的能量特征矢量；

S2.1.2计算每帧语音的能量门限；

S2.1.3将每帧语音的能量与能量门限比较，低于能量门限的帧为静音帧，否则为语音帧，将静音帧按时间顺序拼接成一个静音段，将语音帧按时间顺序拼接成一个语音段。

进一步地，所述S3中把相同说话人的语音段聚在一类，具体采用谱聚类算法，包括如下步骤：

S3.1每帧语音中提取梅尔频率倒谱系数及其一阶差分的音频特征，MFCCs和Delta-MFCCs的维数M，每个语音段的特征构成一个特征矩阵F_j，特征矩阵F_j的维数d=2M；

S3.2根据各个特征矩阵F_j得到所有待聚类语音段的特征矩阵集合F={F₁,...,F_J}，J为语音段总个数，再根据F构造亲和矩阵A∈R^J×J，A的第(i,j)个元素A_ij定义如下：

A_{ij} = \{\begin{matrix} \exp (\frac{{- d}^{2} (F_{i}, F_{j})}{2 σ_{i} σ_{j}}) & i &NotEqual; j, 1 \leq i, j \leq J \\ 0 & i = j, 1 \leq i, j \leq J \end{matrix}

其中，d(F_i,F_j)是特征矩阵F_i与F_j之间的欧式距离，σ_i或σ_j表示尺度参数，定义为第i或j个特征矩阵F_i或F_j与其它J-1个特征矩阵之间的欧式距离矢量的方差，所述T表示将多人会话语音分成的总帧数，i、j表示语音段的编号；

S3.3构造对角矩阵D，它的第(i,i)个元素等于亲和矩阵A的第i行所有元素之和，再根据矩阵D和A构造归一化的亲和矩阵L=D^-1/2AD^-1/2；

S3.4计算亲和矩阵L的前K_max个最大的特征值

及其特征值矢量

其中v_k为列向量且根据相邻特征值之间的差值估计说话人个数K：

K = \underset{i &Element; [1, K_{\max} - 1]}{\arg \max} (λ_{i} - λ_{i + 1})

根据估计出来的说话人个数K，构造矩阵V=[v₁,v₂,...,v_K]∈R^J×K，式中：1≤k≤K_max；

S3.5归一化矩阵V的每一行，得到矩阵Y∈R^J×K，Y的第(j,k)个元素Y_jk：

Y_{jk} = \frac{V_{jk}}{\sqrt{(Σ_{k = 1}^{K} V_{jk}^{2})}}

1≤j≤J；

S3.6将矩阵Y中的每一行当作空间R^K中的一个点，利用K均值算法聚类成K类；

S3.7当矩阵Y的第j行被聚类在第k类中，则特征矩阵F_j所对应的语音段判为第k类即第k个说话人；

S3.8根据上述聚类结果，得到说话人个数、各个说话人的语音及各个说话人的语音段数。

进一步地，所述S4估计各个说话人的语速，具体将说话人语音能量包络中的局部最大值点的个数作为音节个数，并除以该说话人语音的时长，得到该说话人的语速。

进一步地，所述S4中分别从上述各个说话人的语音中提取能量包络，并找出能量包络的局部最大值点，具体为：

计算能量包络阈值T_E'，找出局部最大值点；

T_E'=0.4×mean(E'(n))

其中，mean(E'(n))是能量包络的平均值；

能量包络中满足下述两个条件的元素作为局部最大值点：

a：该元素值大于能量包络阈值T_E'，

b：该元素值大于其前、后β秒的所有元素值，即大于其前、后β×f_s个元素值，其中β一般取值范围为：0.07-0.2。

进一步地，所述基于语速、语音时长及语音段数，估计说话人的重要程度，具体为：

S5.1分别将说话人按照如下顺序排序；

将各个说话人按照语速由慢到快的顺序排列编号，

将各个说话人按照说话人的语音时长由大到小的顺序排列编号，

将各个说话人按照语音段数由多到少的顺序排列编号，

S5.2将每个说话人对应的上述三个顺序编号求和，根据三个顺序编号和值的大小，对上述说话人进行重要程度的排序，所述说话人对应的三个顺序编号和值越小的说话人越重要，反之则不重要。

进一步地，所述S2.2中音频特征包括梅尔频率倒谱系数及其一阶差分。

进一步地，所述S3.1中M值为12。

本发明的有益效果：

基于说话人分割和说话人聚类结果，估计各个说话人的语速、说话时长和说话次数，再根据上述三个特征快速有效地估计出多人会话语音中的各个说话人的重要程度，为多人会话语音的快速浏览、摘要提取、说话人检索等奠定基础。

附图说明

图1为本发明的流程示意图。

具体实施方式

下面结合实施例及附图，对本发明作进一步地详细说明，但本发明的实施方式不限于此。

如图1所示，一种多人会话语音中的说话人重要程度估计方法，包括如下步骤：

S1读入记录有多人会话语音的音频文件，多人会话语音可以是各种格式的音频文件，例如WAV、RAM、MP3、VOX等。

S2利用基于门限判决的语音检测方法找出语音流中的静音段和语音段，将上述语音段按时间顺序拼接成一个长语音段，并从长语音段中提取音频特征，利用上述提取出来的音频特征，根据贝叶斯信息准则，判断长语音段中相邻数据窗之间的相似度来检测说话人改变点；最后根据上述说话人改变点，把音频文件分割成多个语音段，且每个语音段只包含一个说话人，所述语音段的个数等于改变点个数加1。

所述门限判决的语音检测方法从上述音频文件中找出静音段和语音段，具体包括以下步骤：

S2.1.1将读入的音频文件分成T帧，帧长为32毫秒（帧长对应的采样点个数N=0.032×f_s，其中f_s为语音信号的采样频率），帧移为16毫秒，如果最后一帧语音的采样点个数小于N，则将其舍去；计算第t（1≤t≤T）帧语音信号x_t(n)的能量E_t：

E_{t} = Σ_{n = 1}^{N} x_{t}^{2} (n)

1≤t≤T

得到语音流的能量特征矢量E=[E₁,E₂,...,E_T]，其中T为总帧数；

S2.1.2用固定的能量门限判断静音与语音有很大的局限性，因为各种环境下的语音能量相差很大，但语音与静音之间能量大小的相对关系是不变的，所以定义每帧语音的能量门限T_E：

T_E=min(E)+0.3×[mean(E)-min(E)]

其中，min(E)是各帧能量的最小值，mean(E)是各帧能量的平均值。

S2.1.3将每帧语音的能量与能量门限比较，低于能量门限的帧为静音帧，否则为语音帧，将所有静音帧都舍弃，将相邻的语音帧按时间顺序拼接成一个语音段。

S2中的利用贝叶斯信息准则确定说话人改变点的方法具体包括以下步骤：

S2.3.1将经过语音检测得到的各个语音段按顺序拼接成一个长语音段，将长语音段切分成数据窗，窗长为2秒，窗移为0.1秒。对每个数据窗进行分帧，帧长为32毫秒，帧移为16毫秒，从每一帧语音信号中提取MFCCs与Delta-MFCCs特征，MFCCs与Delta-MFCCs的维数M都取12，每个数据窗的特征构成一个特征矩阵F，特征矩阵F的维数d=2M为24；

S2.3.2计算两个相邻数据窗（x和y）之间的BIC距离，BIC距离计算公式

如下：

ΔBIC=(n_x+n_y)ln(|det(cov(F_z))|)-n_xln(|det(cov(F_x))|)-

n_{y} \ln (| \det (cov (F_{y})) |) - α (d + \frac{d (d + 1)}{2}) \ln (n_{x} + n_{y})

其中，z是将数据窗x和y合并之后得到的数据窗，n_x和n_y分别是数据窗x和y的帧数，F_x、F_y和F_z分别是数据窗x、y和z的特征矩阵，cov(F_x)、cov(F_y)和cov(F_z)分别是特征矩阵F_x、F_y和F_z的协方差矩阵，det(·)表示求矩阵的行列式值，α是惩罚系数且实验取值为2.0；

S2.3.3如果BIC距离ΔBIC大于零，则这两个数据窗被视为属于两个不同的说话人（即它们之间存在说话人改变点），否则这两个数据窗被视为属于同一个说话人并将它们合并；

S2.3.4不断地滑动数据窗判断两个相邻数据窗之间的BIC距离是否大于零，并保存说话人改变点，直到长语音段的所有相邻数据窗之间的BIC距离都被判断完为止。

上述提取音频特征包括梅尔频率倒谱系数（MFCCs）及其一阶差分（Delta-MFCCs）特征的步骤包括：

S2.2.1将语音信号分成T帧，帧长为32毫秒（帧长对应的采样点个数N=0.032×f_s，其中f_s为语音信号的采样频率），帧移为16毫秒，如果最后一帧语音的采样点个数小于N，则将其舍去；

S2.2.2对第t（1≤t≤T）帧语音信号x_t(n)做离散傅立叶变换（DiscreteFourier Transformation,DFT）得到线性频谱X_t(k)：

X_{t} (k) = Σ_{n = 0}^{N - 1} x_{t} (n) e^{- j 2 πnk / N}

(0≤n,k≤N-1)

S2.2.3将上述线性频谱X_t(k)通过梅尔频率滤波器组得到梅尔频谱，再进行对数运算得到对数频谱S_t(m)，其中梅尔频率滤波器组为若干个带通滤波器H_m(k)，0≤m<M，M为滤波器的个数，每个滤波器具有三角形滤波特性，其中心频率为f(m)，当m值较小时相邻f(m)之间的间隔也较小，随着m的增加相邻f(m)的间隔逐渐变大，每个带通滤波器的传递函数为：

H_{m} (k) = \{\begin{matrix} 0 & (k < f (m - 1)) \\ \frac{k - f (m - 1)}{f (m) - f (m - 1)} & (f (m - 1) \leq k \leq f (m)) \\ \frac{f (m + 1) - k}{F (m + 1) - f (m)} & (f (m) < k \leq f (m + 1)) \\ 0 & (k > f (m + 1)) \end{matrix}

(0≤m<M)

其中，f(m)定义如下：

f (m) = (\frac{N}{f_{s}}) B^{- 1} (B (f_{l}) + m \frac{B (f_{h}) - B (f_{l})}{M + 1})

其中，f_l、f_h为滤波器的频率应用范围的最低频率和最高频率，B^-1为B的逆函数：B^-1(b)=700(e^b/1125-1)，因此由线性谱X_t(k)到对数谱S_t(m)的函数式为：

S_{t} (m) = \ln (Σ_{k = 0}^{N - 1} {| X_{t} (k) |}^{2} H_{m} (k))

(0≤m<M)

S2.2.4将上述对数频谱S_t(m)经过离散余弦变换（Discrete CosineTransformation,DCT）变换到倒谱域，得到第t帧MFCCs，C_t(p)：

C_{t} (p) = Σ_{m = 0}^{M - 1} S_{t} (m) \cos (\frac{(m + 0.5) nπ}{M})

(0≤p<M)

S2.2.5计算第t帧MFCCs的一阶差分（Delta‐MFCCs），C'_t(p)：

C_{t}^{'} (p) = \frac{1}{\sqrt{Σ_{q = - Q}^{Q} q^{2}}} Σ_{q = - Q}^{Q} q \times C_{t} (p + q)

(0≤p<M)

其中，Q为常数，实验时取值为3。

S2.2.6对每帧语音信号重复上述步骤2）～5），得到所有T帧语音信号的MFCCs与Delta-MFCCs，将它们按帧的顺序组合成一个MFCC矩阵与Delta-MFCC矩阵，再将MFCC矩阵与Delta-MFCC矩阵合并构成特征矩阵F。

S3中，从分割出来的各个语音段中提取包括MFCCs与Delta-MFCCs的音频特征，并利用谱聚类算法对各个只包含一个说话人的语音段进行说话人聚类，得到说话人个数及各个说话人的语音。具体步骤如下：

S3.1对每个语音段进行分帧，帧长为32毫秒，帧移为16毫秒，从每一帧语音信号中提取MFCCs与Delta-MFCCs特征，MFCCs与Delta-MFCCs的维数M都为12，每个语音段的特征构成一个特征矩阵F_j，特征矩阵F_j的维数d=2M为24；

S3.2根据各个特征矩阵F_j得到所有待聚类语音段的特征矩阵集合F={F₁,...,F_J}，J为语音段总个数，再根据F构造亲和矩阵（Affinity matrix）A∈R^J×J，A的第(i,j)个元素A_ij定义如下：

A_{ij} = \{\begin{matrix} \exp (\frac{{- d}^{2} (F_{i}, F_{j})}{2 σ_{i} σ_{j}}) & i &NotEqual; j, 1 \leq i, j \leq J \\ 0 & i = j, 1 \leq i, j \leq J \end{matrix}

其中，d(F_i,F_j)是特征矩阵F_i与F_j之间的欧式距离，σ_i（或σ_j）是一个尺度参数，定义为第i（或j）个特征矩阵F_i（或F_j）与其它J-1个特征矩阵之间的欧式距离矢量的方差；

S3.4计算矩阵L的前K_max个最大的特征值

及其特征值矢量

其中v_k（1≤k≤K_max）为列向量且

根据相邻特征值之间的差值估计最优类别数（即说话人个数）K：

K = \underset{i &Element; [1, K_{\max} - 1]}{\arg \max} (λ_{i} - λ_{i + 1})

根据估计出来的说话人个数K，构造矩阵V=[v₁,v₂,...,v_K]∈R^J×K;

所述K是算法估计的说话人个数，R是实际说话人数，一般情况下k不等于R，但两者比较接近。

Y_{jk} = \frac{V_{jk}}{\sqrt{(Σ_{k = 1}^{k} V_{jk}^{2})}}

1≤j≤J；

S3.6将矩阵Y中的每一行当作空间R^K中的一个点，利用K均值算法（K-means algorithm）将这J行（即J个点）聚类成K类

S3.7将特征矩阵F_j所对应的语音段判为第k类（即第k个说话人），当且仅当矩阵Y的第j行被聚类在第k类中；

S3.8根据上述聚类结果，得到说话人个数、每个说话人的语音时长（说话时长）和语音段数（说话次数）。

S4中，从每个说话人语音中提取能量包络，并通过检测能量包络局部最大值点确定音节个数，估计各个说话人的语速。

在汉语普通话中，每个音节基本上都包含韵母，韵母个数即为音节个数，音节个数即为字个数，而且音节中韵母的能量最大，因此通过检测能量最大的韵母个数即可得到字的个数，从而估计出语速。

基于上述考虑的语速估计方法的具体步骤如下：

S4.1计算每个说话人语音信号s(n)的能量E(n)：

E(n)=s²(n),1≤n≤Len

其中，Len是语音信号的采样点总个数；

S4.2利用一个低通滤波器对能量E(n)进行滤波，得到能量包络E'(n)，该低通滤波器的技术指标如下：基于Equiripple方法的FIR滤波器，采样频率f_s为16000赫兹，通带截止频率f_pass为50赫兹，阻带截止频率f_stop为100赫兹，通带的最大衰减A_pass为1dB，阻带的最小衰减A_stop为80dB；

S4.3计算能量包络阈值T_E'，找出局部最大值点；

T_E'=0.4×mean(E'(n))

其中，mean(E'(n))是能量包络的平均值；

能量包络中满足下述两个条件的元素作为局部最大值点：

a：该元素值大于能量包络阈值T_E'，

b：该元素值大于其前、后β秒的所有元素值，即大于其前、后β×f_s个元素值，其中β一般取值范围为：0.07-0.2，

上述局部最大值点所在的位置（采样点）即为每个音节的韵母的能量峰值所在的位置，取0.07-0.2秒的原因是：音节平均时长的大约是0.14-0.4秒，所以E'(n)中大于T_E'且大于其前、后0.07-0.2秒的元素值所在的位置就是每个音节的韵母的能量峰值所在的位置；

S4.4将某个说话人语音能量包络中的局部最大值点的个数作为音节（字）个数，将字的个数除以该说话人语音的时长（秒），得到该说话人的语速（字/秒）；

S4.5重复上述步骤S4.1-S4.4，直到所有说话人语音的语速都估计完为止。

最后，在S5中，将各个说话人：按语速从慢到快的顺序进行排列编号、按说话时长从大到小的顺序进行排列编号以及按说话次数从多到少的顺序进行排列编号，再将各个说话人的上述三个编号求和，根据编号和值的大小对各个说话人进行重要程度的排序，编号和值越小的说话人则越重要。

具体步骤如下（假设共有R个说话人）：

S5.1将各个说话人的语速按从慢到快的顺序进行排列编号，将语速最慢的说话人编号为1，语速第二慢的说话人编号为2，以此类推，语速最快的说话人编号为R；

S5.2将各个说话人的说话时长按从大到小的顺序进行排列编号，说话时长最大的说话人编号为1，说话时长第二大的说话人编号为2，以此类推，说话时长最小的说话人编号为R；

S5.3将各个说话人的说话次数按从多到少的顺序进行排列编号，说话次数最多的说话人编号为1，说话次数第二多的说话人编号为2，以此类推，说话次数最少的说话人编号为R；

S5.4将各个说话人的语速编号、说话时长编号和说话次数编号进行求和，再根据上述和值的大小对各个说话人进行重要程度的排序，上述和值越小的则越重要，根据上述和值的大小就得到各个说话人的重要程度。

例如，假设经过上述说话人分割聚类之后共有5个说话人（R=5）：说话人S₁、说话人S₂、说话人S₃、说话人S₄和说话人S₅，且各个说话人的说话时长SL（单位为秒）、说话次数SN和语速SR（单位为字每分钟）分别为：说话人S₁的(SL,SN,SR)为(70,6,264)、说话人S₂的(SL,SN,SR)为(40,2,204)、说话人S₃的(SL,SN,SR)为(200,10,168)、说话人S₄的(SL,SN,SR)为(25,3,246)、说话人S₅的(SL,SN,SR)为(50,4,270)。将这5个说话人的说话时长按从大到小的顺序进行排列、说话次数按从多到少的顺序进行排列、语速按从慢到快的顺序进行排列，如下所示：

\{\begin{matrix} SL : \underset{S_{3}}{200} > \underset{S_{1}}{70} > \underset{S_{5}}{50} > \underset{S_{2}}{40} > \underset{S_{4}}{25} \\ SN : \underset{S_{3}}{10} > \underset{S_{1}}{6} > \underset{S_{5}}{4} > \underset{S_{4}}{3} > \underset{S_{2}}{2} \\ SR : \underset{S_{3}}{168} > \underset{S_{2}}{204} > \underset{S_{4}}{246} > \underset{S_{1}}{264} > \underset{S_{5}}{270} \end{matrix}

因此，上述5个说话人的说话时长编号SL_n、说话次数编号SN_n和语速编号SR_n为：说话人S₁的(SL_n,SN_n,SR_n)为(2,2,4)、说话人S₂的(SL_n,SN_n,SR_n)为(4,5,2)、说话人S₃的(SL_n,SN_n,SR_n)为(1,1,1)、说话人S₄的(SL_n,SN_n,SR_n)为(5,4,3)、说话人S₅的(SL_n,SN_n,SR_n)为(3,3,5)。因此，说话人S₁、S₂、S₃、S₄、S₅的语速编号、说话时长编号和说话次数编号的和值分别为：8、11、3、12、11。上述和值越小的说话人则越重要，所以，说话人重要程度从高到低依次是：S₃、S₁、S₂、S₅、S₄（或S₃、S₁、S₅、S₂、S₄）。如果说话人的上述编号和值相等，那么他们的重要程度相同。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受所述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种多人会话语音中的说话人重要程度估计方法，其特征在于，包括如下步骤：

S1读入记录有多人会话语音的音频文件；

2.根据权利要求1所述的多人会话语音中的说话人重要程度估计方法，其特征在于，所述S2说话人分割：检测上述多人会话语音中的说话人改变点，将相邻两个改变点之间的语音样点作为一个语音段，将音频文件分成多个语音段，具体为：

3.根据权利要求2所述的多人会话语音中的说话人重要程度估计方法，其特征在于，所述S2.1利用门限判决的语音检测算法从上述音频文件中找出静音段和语音段，具体包括如下步骤：

S2.1.2计算每帧语音的能量门限；

S2.1.3将每帧语音的能量与能量门限比较，低于能量门限的帧为静音帧，否则为语音帧，将所有的静音帧都舍弃，将语音帧按时间顺序拼接成一个语音段。

4.根据权利要求1所述的多人会话语音中的说话人重要程度估计方法，其特征在于，所述S3中把相同说话人的语音段聚在一类，具体采用谱聚类算法，包括如下步骤：

A_{ij} = \{\begin{matrix} \exp (\frac{{- d}^{2} (F_{i}, F_{j})}{2 σ_{i} σ_{j}}) & i &NotEqual; j, 1 \leq i, j \leq J \\ 0 & i = j, 1 \leq i, j \leq J \end{matrix}

S3.4计算亲和矩阵L的前K_max个最大的特征值

及其特征值矢量

其中v_k为列向量且

根据相邻特征值之间的差值估计说话人个数K：

K = \underset{i &Element; [1, K_{\max} - 1]}{\arg \max} (λ_{i} - λ_{i + 1})

Y_{jk} = \frac{V_{jk}}{\sqrt{(Σ_{k = 1}^{K} V_{jk}^{2})}}

1≤j≤J；

S3.8根据上述聚类结果，得到说话人个数、各个说话人的语音时长及各个说话人的语音段数。

5.根据权利要求1所述的多人会话语音中的说话人重要程度估计方法，其特征在于，所述S4估计各个说话人的语速，具体将说话人语音能量包络中的局部最大值点的个数作为音节个数，并除以该说话人语音的时长，得到该说话人的语速。

6.根据权利要求5所述的多人会话语音中的说话人重要程度估计方法，其特征在于，所述S4中分别从上述各个说话人的语音中提取能量包络，并找出能量包络的局部最大值点，具体为：

计算能量包络阈值T_E'，找出局部最大值点；

T_E'=0.4×mean(E'(n))

其中，mean(E'(n))是能量包络的平均值；

能量包络中满足下述两个条件的元素作为局部最大值点：

a：该元素值大于能量包络阈值T_E'，

b：该元素值大于其前、后β秒的所有元素值，即大于其前、后β×f_s个元素值，所述f_s为采样频率，β的取值范围为：0.07-0.2。

7.根据权利要求1所述的多人会话语音中的说话人重要程度估计方法，其特征在于，所述基于语速、语音时长及语音段数，估计说话人的重要程度，具体为：

S5.1分别将说话人按照如下顺序排序；

将各个说话人按照语速由慢到快的顺序排列编号，

将各个说话人按照语音段数由多到少的顺序排列编号，

8.根据权利要求2所述的多人会话语音中的说话人重要程度估计方法，其特征在于，所述S2.2中音频特征包括梅尔频率倒谱系数及其一阶差分。

9.根据权利要求4所述的多人会话语音中的说话人重要程度估计方法，其特征在于，所述S3.1中M值为12。