CN103137137B

CN103137137B - 一种会议音频中的精彩说话人发现方法

Info

Publication number: CN103137137B
Application number: CN201310061167.4A
Authority: CN
Inventors: 李艳雄; 吴伟; 贺前华; 李广隆
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2013-02-27
Filing date: 2013-02-27
Publication date: 2015-07-01
Anticipated expiration: 2033-02-27
Also published as: CN103137137A

Abstract

一种会议音频中的精彩说话人发现方法，步骤如下：读入会议音频；检测上述音频中的掌声音频段，将各个掌声音频段前面5秒语音段提取出来作为精彩语音段，同时得到精彩语音段在会议音频中出现的位置；对上述精彩语音段进行说话人聚类，得到精彩说话人个数及其精彩语音段。本发明的有益效果是：基于掌声检测和说话人聚类，快速有效地估计出会议音频中的精彩说话人个数、精彩语音段及其在会议音频中出现的位置，为会议音频的快速浏览、摘要提取、说话人检索等奠定基础。

Description

一种会议音频中的精彩说话人发现方法

技术领域

本发明涉及语音信号处理和模式识别技术，尤其涉及一种会议音频中的精彩说话人发现方法。

背景技术

精彩说话人是指在多人会话的会议中，能够引起听众共鸣或使听众产生高兴、激动等积极情感反应的说话人。精彩说话人是与会人员中的关键说话人或重要说话人。人们在浏览分析会议音频记录时，一般最想聆听的就是精彩说话人的精彩发言。因此，快速有效地发现会议音频中的精彩说话人，即得到精彩说话人个数及其精彩发言，对于会议音频的快速浏览、摘要提取、说话人检索等应用都具有非常重要的意义。

在多人会话的会议中，听众听到精彩发言时一般都会自发地鼓掌，表示对说话人所说内容的认可。而且，认可的程度越高，掌声响度越大、掌声持续时间越长。因此，通过检测会议音频中的掌声音频段就可以快速地定位精彩说话人的精彩语音段，然后再采用说话人聚类技术对各个精彩语音段进行聚类处理，得到会议音频中的精彩说话人的个数、精彩语音段及精彩语音段出现的位置。

发明内容

针对上述技术问题，本发明的目的在于提供一种基于掌声检测和说话人聚类的会议音频中精彩说话人发现方法，高效快捷的得到会议音频中的精彩说话人的个数、精彩语音段及精彩语音段出现的位置。

本发明是通过如下技术方案来实现：

一种会议音频中的精彩说话人发现方法，包括如下步骤：

S1）读入会议音频：读入记录有多说话人语音的会议音频文件；

S2）精彩语音提取：通过基于门限判决的静音检测从上述读入的会议音频中找出所有静音段和音频段，再从上述音频段中检测出掌声音频段，最后将各个掌声音频段前面5秒语音段提取出来作为精彩语音段，同时得到这些精彩语音段在会议音频中出现的位置；

S3）说话人聚类：从上述精彩语音段中提取梅尔频率倒谱系数（Mel Frequency Cepstral Coefficients, MFCCs）及其一阶差分（Delta-MFCCs）的音频特征，再采用谱聚类算法对各个精彩语音段的音频特征进行说话人聚类，得到精彩说话人个数及其精彩语音段。

进一步地，所述步骤2）中的静音检测具体包括以下步骤：

S201）将读入的会议音频分成帧，帧长为40毫秒（帧长对应的采样点个数，其中为音频信号的采样频率），帧移为20毫秒，如果最后一帧语音的采样点个数小于，则将其舍去；

S202）计算第（）帧音频信号的能量：

得到会议音频的能量矢量，其中为总帧数；

S203）用固定的能量门限判断静音与音频有很大的局限性，因为各种环境下的音频能量相差很大，但音频与静音之间能量大小的相对关系是不变的，所以定义自适应能量门限：

其中，是各帧能量的最小值，是各帧能量的平均值。

S204）将每帧音频的能量与能量门限比较，低于能量门限的帧为静音帧，否则为音频帧，将相邻的静音帧按顺序拼接成一个静音段，将相邻的音频帧按顺序拼接成一个音频段。

进一步地，所述步骤S2中从音频段中检测掌声音频段及提取精彩语音段具体包括以下步骤：

S211）将上述提取出来的各个音频段的时长与一个最短掌声音频段时长门限（实验取值为2秒）进行比较，如果某个音频段的时长小于门限，则该音频段被判为非掌声音频段；否则，继续提取该音频段的基音频率；

S212）如果上述提取出来的基音频率全部为零，则该音频段被判为掌声音频段，否则，按下述步骤将该音频段判为非掌声音频段，例如语音段，包括辅音段和元音段；或混合音频段，例如语音与掌声的混合音频段；

S213）计算上述音频段中所有基音频率为零的子段（即零值子段）和所有基音频率不为零的子段（即非零值子段）的时长；

S214）如果上述音频段中有某个零值子段的时长既大于其紧邻的前一个非零值子段时长又大于其紧邻的后一个非零值子段时长，则上述音频段被判为混合音频段，并将满足上述条件的零值子段判为掌声音频段（因为掌声音频段的基音频率为零且其时长大于基音频率不为零的元音段时长）；否则，该零值子段被判为非掌声音频段，辅音段的基音频率为零且其时长小于元音段时长，因为在汉语中，一个音节（或字）一般由声母（辅音）和韵母（元音）组成，例如音节/fa/，/f/是该音节的辅音段，/a/是该音节的元音段，辅音的发音时间比元音的发音时间短，所以辅音段的时长小于元音段的时长；

S215）如果上述音频段中没有一个零值子段既大于其紧邻的前一个非零值子段时长又大于其紧邻的后一个非零值子段时长，则上述音频段整体被判为非掌声音频段（例如纯语音段）；

S216）提取上述各掌声音频段前面5秒语音作为精彩语音段，各个掌声音频段出现位置前5秒即为相应精彩语音段在会议音频中的位置；

S217）重复步骤S211至S216，直到提取出所有精彩语音段及其出现的位置为止。

进一步地，所述步骤S211中提取音频段的基音频率具体包括以下步骤：

S2111）音频段的分帧：设置音频帧的帧长为40毫秒、帧移为20毫秒，帧长和帧移所对应的采样点个数分别为和，其中为音频采样频率，将输入音频段分割成个音频帧，，且每帧包含个采样点；

S2112）采用一个通带为800Hz的低通滤波器对一帧音频信号进行滤波，得到音频帧，该低通滤波器的技术指标如下：基于Equiripple方法的FIR滤波器，采样频率为4000赫兹，通带截止频率为800赫兹，阻带截止频率为900赫兹，通带最大衰减为1dB，阻带最小衰减为100dB；

S2113）分别求的最前个样点和最后个样点的最大幅度，并取其中较小的一个乘以因子0.68作为门限电平；

S2114）根据下式对进行中心削波处理，得到削波后的音频帧：

S2115）根据下式对进行三电平削波处理，得到削波后的音频帧：

S2116）求和的互相关值：

其中，的取值范围为，对应于基音频率范围为50～500Hz，对应于短时能量；

S2117）求出互相关值，…，中的最大值；

S2118）如果，则该音频帧被判为清音，令其基音频率为0；否则其基音频率为使为最大值时位置对应的频率值：

S2119）对每帧音频信号都重复步骤S2112）～S2118），得到所有帧音频信号的基音频率矢量。

进一步地，从上述精彩语音段中提取梅尔频率倒谱系数（Mel Frequency Cepstral Coefficients, MFCCs）及其一阶差分（Delta-MFCCs）的音频特征的具体步骤如下：

S301）将精彩语音段分成帧，帧长为40毫秒（帧长对应的采样点个数，其中为音频信号的采样频率），帧移为20毫秒，如果最后一帧语音的采样点个数小于，则将其舍去；

S302）对第（）帧精彩语音做离散傅立叶变换（Discrete Fourier Transformation, DFT）得到线性频谱：

S303）将上述线性频谱通过梅尔频率滤波器组得到梅尔频谱，再进行对数运算得到对数频谱，其中梅尔频率滤波器组为若干个带通滤波器，，为滤波器的个数，每个滤波器具有三角形滤波特性，其中心频率为，当值较小时相邻之间的间隔也较小，随着的增加相邻的间隔逐渐变大，每个带通滤波器的传递函数为：

其中，定义如下：

其中，、为滤波器的频率应用范围的最低频率和最高频率，为的逆函数：，因此由线性谱到对数谱的函数式为：

S304）将上述对数频谱经过离散余弦变换（Discrete Cosine Transformation, DCT）变换到倒谱域，得到第帧MFCCs，：

S305）计算第帧MFCCs的一阶差分（Delta-MFCCs），：

其中，为常数，实验时取值为3；

S306）对每帧精彩语音重复上述步骤S302～S305，得到所有帧精彩语音的MFCCs和Delta-MFCCs，将它们按帧的顺序组合成一个MFCC矩阵和Delta-MFCC矩阵，再将MFCC矩阵和Delta-MFCC矩阵合并构成特征矩阵；MFCCs和Delta-MFCCs的维数都为12，每个精彩语音段的特征构成一个特征矩阵，特征矩阵的维数为24。

进一步地，步骤S3中采用谱聚类算法对各个精彩语音段的音频特征进行说话人聚类的具体步骤如下：

S311）根据各个特征矩阵得到所有待聚类精彩语音段的特征矩阵集合，为精彩语音段总个数，再根据构造亲和矩阵（Affinity matrix），的第个元素定义如下：

其中，是特征矩阵与之间的欧式距离，（或）是一个尺度参数，定义为第（或）个特征矩阵（或）与其它个特征矩阵之间的欧式距离矢量的方差；

S312）构造对角矩阵，它的第个元素等于亲和矩阵的第行所有元素之和，再根据矩阵和构造归一化的亲和矩阵；

S313）计算矩阵的前个最大的特征值（）及其特征值矢量（），其中（）为列向量且，根据相邻特征值之间的差值估计最优类别数（即精彩说话人个数）：

根据估计出来的说话人个数，构造矩阵；

S314）归一化矩阵的每一行，得到矩阵，的第个元素：

；

S315）将矩阵中的每一行当作空间中的一个点，利用均值算法（K-means algorithm）将这行（即个点）聚类成类（均值算法是一个公知的经典聚类算法，参见文献：MacQueen, J. B, Some Methods for classification and Analysis of Multivariate Observations, Proceedings of 5 ^th Berkeley Symposium on Mathematical Statistics and Probability, University of California Press, 1967, pp. 281–297）；

S316）将特征矩阵所对应的精彩语音段判为第类（即第个精彩说话人），当且仅当矩阵的第行被聚类在第类中；

S317）根据上述聚类结果，得到精彩说话人的个数及其精彩语音段。

本发明的有益效果是：基于掌声检测和说话人聚类，快速有效地估计出会议音频中的精彩说话人个数、精彩语音段及其在会议音频中出现的位置，为会议音频的快速浏览、摘要提取、说话人检索等奠定基础。

附图说明

图1为本发明实施例1的流程图。

具体实施方式

下面结合具体的实施例与说明书附图进行详细描述。

实施例1

一种会议音频中的精彩说话人发现方法，包括如下步骤：

S101）读入会议音频：读入记录有多说话人语音的会议音频文件，会议音频可以是各种格式的音频文件，例如WAV、RAM、MP3、VOX等；

S102）精彩语音提取：通过基于门限判决的静音检测从上述读入的会议音频中找出所有静音段和音频段，再从上述音频段中检测出掌声音频段，最后将各个掌声音频段前面5秒语音段提取出来作为精彩语音段，同时得到这些精彩语音段在会议音频中出现的位置；

S103）说话人聚类：从上述精彩语音段中提取梅尔频率倒谱系数（Mel Frequency Cepstral Coefficients, MFCCs）及其一阶差分（Delta-MFCCs）的音频特征，再采用谱聚类算法对各个精彩语音段的音频特征进行说话人聚类，得到精彩说话人个数及其精彩语音段。

实施例2

一种会议音频中的精彩说话人发现方法，包括如下步骤：

具体地，所述步骤S2中的静音检测具体包括以下步骤：

S202）计算第（）帧音频信号的能量：

得到会议音频的能量矢量，其中为总帧数；

其中，是各帧能量的最小值，是各帧能量的平均值。

具体地，所述步骤S2中从音频段中检测掌声音频段及提取精彩语音段具体包括以下步骤：

S217）重复步骤S211）至S216），直到提取出所有精彩语音段及其出现的位置为止。

具体地，所述步骤S211中提取音频段的基音频率具体包括以下步骤：

S2116）求和的互相关值：

S2117）求出互相关值，…，中的最大值；

具体地，从上述精彩语音段中提取梅尔频率倒谱系数（Mel Frequency Cepstral Coefficients, MFCCs）及其一阶差分（Delta-MFCCs）的音频特征的具体步骤如下：

其中，定义如下：

S305）计算第帧MFCCs的一阶差分（Delta-MFCCs），：

其中，为常数，实验时取值为3；

具体地，步骤S3中采用谱聚类算法对各个精彩语音段的音频特征进行说话人聚类的具体步骤如下：

根据估计出来的说话人个数，构造矩阵；

S314）归一化矩阵的每一行，得到矩阵，的第个元素：

；

以上虽然通过上述实施例对本发明的会议音频中的精彩说话人发现方法进行了详细描述，但并不能因此而理解为对本发明范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明的保护范围应以所附权利要求为准。

Claims

1.一种会议音频中的精彩说话人发现方法，其特征在于，包括如下步骤：

S1)读入会议音频：读入记录有多说话人语音的会议音频文件；

S2)精彩语音提取：通过基于门限判决的静音检测从上述读入的会议音频中找出所有静音段和音频段，再从上述音频段中检测出掌声音频段，最后将各个掌声音频段前面5秒语音段提取出来作为精彩语音段，同时得到这些精彩语音段在会议音频中出现的位置；

S3)说话人聚类：从上述精彩语音段中提取梅尔频率倒谱系数及其一阶差分的音频特征，再采用谱聚类算法对各个精彩语音段的音频特征进行说话人聚类，得到精彩说话人个数及其精彩语音段；

所述步骤S2中的静音检测具体包括以下步骤：

S201)将读入的会议音频分成T帧，帧长为40毫秒，帧移为20毫秒，如果最后一帧语音的采样点个数小于N，则将其舍去；

S202)计算第t(1≤t≤T)帧音频信号x_t(n)的能量E_t：

E_{t} = Σ_{n = 1}^{N} x_{t}^{2} (n)

1≤t≤T

得到会议音频的能量矢量E＝[E₁，E₂，...，E_T]，其中T为总帧数；

S203)用固定的能量门限判断静音与音频有很大的局限性，因为各种环境下的音频能量相差很大，但音频与静音之间能量大小的相对关系是不变的，所以定义自适应能量门限T_E：

T_E＝min(E)+0.3×[mean(E)-min(E)]

其中，min(E)是各帧能量的最小值，mean(E)是各帧能量的平均值。

S204)将每帧音频的能量与能量门限比较，低于能量门限的帧为静音帧，否则为音频帧，将相邻的静音帧按顺序拼接成一个静音段，将相邻的音频帧按顺序拼接成一个音频段；

所述步骤S2中从音频段中检测掌声音频段及提取精彩语音段具体包括以下步骤：

S211)将上述提取出来的各个音频段的时长与一个最短掌声音频段时长门限T_min进行比较，如果某个音频段的时长小于门限T_min，则该音频段被判为非掌声音频段；否则，继续提取该音频段的基音频率F₀；

S212)如果上述提取出来的基音频率全部为零，则该音频段被判为掌声音频段，否则，按下述步骤将该音频段判为非掌声音频段或混合音频段；

S213)计算上述音频段中所有基音频率为零的子段和所有基音频率不为零的子段的时长；

S214)如果上述音频段中有某个零值子段的时长既大于其紧邻的前一个非零值子段时长又大于其紧邻的后一个非零值子段时长，则上述音频段被判为混合音频段，并将满足上述条件的零值子段判为掌声音频段；否则，该零值子段被判为非掌声音频段；

S215)如果上述音频段中没有一个零值子段既大于其紧邻的前一个非零值子段时长又大于其紧邻的后一个非零值子段时长，则上述音频段整体被判为非掌声音频段；

S216)提取上述各掌声音频段前面5秒语音作为精彩语音段，各个掌声音频段出现位置前5秒即为相应精彩语音段在会议音频中的位置；

S217)重复步骤S211至S216，直到提取出所有精彩语音段及其出现的位置为止。

2.根据权利要求1所述的会议音频中的精彩说话人发现方法，其特征在于，所述步骤S211中提取音频段的基音频率具体包括以下步骤：

S2111)音频段的分帧：设置音频帧的帧长为40毫秒、帧移为20毫秒，帧长和帧移所对应的采样点个数分别为N＝0.04×f_s和S＝0.02×f_s，其中f_s为音频采样频率，将输入音频段分割成T个音频帧x_t(n)，1≤t≤T，且每帧包含N个采样点；

S2112)采用一个通带为800Hz的低通滤波器对一帧音频信号x_t(n)进行滤波，得到音频帧x′_t(n)，该低通滤波器的技术指标如下：基于Equiripple方法的FIR滤波器，采样频率f为4000赫兹，通带截止频率f_pass为800赫兹，阻带截止频率f_stop为900赫兹，通带最大衰减A_pass为1dB，阻带最小衰减A_stop为100dB；

S2113)分别求x′_t(n)的最前N/3个样点和最后N/3个样点的最大幅度，并取其中较小的一个乘以因子0.68作为门限电平C_L；

S2114)根据下式对x′_t(n)进行中心削波处理，得到削波后的音频帧y_t(n)：

y_{t} (n) = \{\begin{matrix} x_{t}^{'} (n) - C_{L}, & x_{t}^{'} (n) > C_{L} \\ 0, & | x_{t}^{'} (n) | \leq C_{L} \\ x_{t}^{'} (n) + C_{L}, & x_{t}^{'} (n) < - C_{L} \end{matrix}

S2115)根据下式对y_t(n)进行三电平削波处理，得到削波后的音频帧y′_t(n)：

y_{t}^{'} (n) = \{\begin{matrix} 1, & y_{t} (n) > 0.01 \\ 0, & | y_{t} (n) | \leq 0.01 \\ - 1, & y_{t} (n) < - 0.01 \end{matrix}

S2116)求y_t(n)和y′_t(n)的互相关值R(k)：

R (k) = Σ_{n = 1}^{N} y (n) y^{'} (n + k)

其中，k的取值范围为对应于基音频率范围为50～500Hz，R(0)对应于短时能量；

S2117)求出互相关值中的最大值R_max；

S2118)如果R_max＜0.25R(0)，则该音频帧被判为清音，令其基音频率为0；否则其基音频率为使R(k)为最大值R_max时位置k对应的频率值f_t：

f_{t} = \frac{f_{s}}{p},

S2119)对每帧音频信号都重复步骤S2112～S2118，得到所有T帧音频信号的基音频率矢量F₀。

3.根据权利要求1所述的会议音频中的精彩说话人发现方法，其特征在于，从上述精彩语音段中提取梅尔频率倒谱系数及其一阶差分的音频特征的具体步骤如下：

S301)将精彩语音段分成T帧，帧长为40毫秒，帧移为20毫秒，如果最后一帧语音的采样点个数小于N，则将其舍去；

S302)对第t(1≤t≤T)帧精彩语音x_t(n)做离散傅立叶变换得到线性频谱X_t(k)：

X_{t} (k) = Σ_{n = 0}^{N - 1} x_{t} (n) e^{- j 2 πnk / N}

(0≤n，k≤N-1)

S303)将上述线性频谱X_t(k)通过梅尔频率滤波器组得到梅尔频谱，再进行对数运算得到对数频谱S_t(m)，其中梅尔频率滤波器组为若干个带通滤波器H_m(k)，0≤m＜M，M为滤波器的个数，每个滤波器具有三角形滤波特性，其中心频率为f(m)，当m值较小时相邻f(m)之间的间隔也较小，随着m的增加相邻f(m)的间隔逐渐变大，每个带通滤波器的传递函数为：

H_{m} (k) = \{\begin{matrix} 0 & (k < f (m - 1)) \\ \frac{k - f (m - 1)}{f (m) - f (m - 1)} & (f (m - 1) \leq k \leq f (m)) \\ \frac{f (m + 1) - k}{f (m + 1) - f (m)} & (f (m) < k \leq f (m + 1)) \\ 0 & (k > f (m + 1)) \end{matrix}, (0 \leq m < M)

其中，f(m)定义如下：

f (m) = (\frac{N}{f_{s}}) B^{- 1} (B (f_{l}) + m \frac{B (f_{h}) - B (f_{l})}{M + 1})

其中，f_l、f_h为滤波器的频率应用范围的最低频率和最高频率，B^-1为B的逆函数：B^-1(b)＝700(e^b/1125-1)，因此由线性谱X_t(k)到对数谱S_t(m)的函数式为：

S_{t} (m) = \ln (Σ_{k = 0}^{N - 1} {| X_{t} (k) |}^{2} H_{m} (k))

(0≤m＜M)

S304)将上述对数频谱S_t(m)经过离散余弦变换(Discrete CosineTransformation，DCT)变换到倒谱域，得到第t帧MFCCs，C_t(p)：

C_{t} (p) = Σ_{m = 0}^{M - 1} S_{t} (m) \cos (\frac{(m + 0.5) nπ}{M})

(0≤p＜M)

S305)计算第t帧MFCCs的一阶差分(Delta-MFCCs)，C′_t(p)：

C_{t}^{'} (p) = \frac{1}{\sqrt{Σ_{q = - Q}^{Q} q^{2}}} Σ_{q = - Q}^{Q} q \times C_{t} (p + q)

(0≤p＜M)

其中，Q为取值为3的常数；

S306)对每帧精彩语音重复上述步骤S302～S305，得到所有T帧精彩语音的梅尔频率倒谱系数及其一阶差分，将它们按帧的顺序组合成一个梅尔频率倒谱系数矩阵和一阶差分矩阵，再将梅尔频率倒谱系数矩阵和一阶差分矩阵合并构成特征矩阵；梅尔频率倒谱系数和一阶差分的维数M都为12，每个精彩语音段的特征构成一个特征矩阵F_j，特征矩阵F_j的维数d＝2M为24。

4.根据权利要求1所述的会议音频中的精彩说话人发现方法，其特征在于，步骤S3中采用谱聚类算法对各个精彩语音段的音频特征进行说话人聚类的具体步骤如下：

S311)根据各个特征矩阵F_j得到所有待聚类精彩语音段的特征矩阵集合F＝{F₁，...，F_j}，J为精彩语音段总个数，再根据F构造亲和矩阵A∈R^J×J，A的第(i，j)个元素A_ij定义如下：

A_{ij} = \{\begin{matrix} \exp (\frac{- d^{2} (F_{i}, F_{j})}{2 σ_{i} σ_{j}}) & i &NotEqual; j \\ 0 & i = j \end{matrix}

其中，d(F_i，F_j)是特征矩阵F_i与F_j之间的欧式距离，σ_i(或σ_j)是一个尺度参数，定义为第i(或j)个特征矩阵F_i(或F_j)与其它T-1个特征矩阵之间的欧式距离矢量的方差；

S312)构造对角矩阵D，它的第(i，i)个元素等于亲和矩阵A的第i行所有元素之和，再根据矩阵D和A构造归一化的亲和矩阵L＝D^-1/2AD^-1/2；

S313)计算矩阵L的前K_max个最大的特征值及其特征值矢量其中v_k(1≤k≤K_max)为列向量且根据相邻特征值之间的差值估计最优类别数(即精彩说话人个数)K：

K = \underset{i &Element; [1, K_{\max} - 1]}{\arg \max} (λ_{i} - λ_{i + 1})

根据估计出来的说话人个数K，构造矩阵V＝[v₁，v₂，...，v_K]∈R^J×K；

S314)归一化矩阵V的每一行，得到矩阵Y∈R^J×K，Y的第(j，k)个元素Y_jk：

Y_{jk} = \frac{V_{jk}}{\sqrt{(Σ_{k = 1}^{K} V_{jk}^{2})}}

1≤j≤J；

S315)将矩阵Y中的每一行当作空间R^K中的一个点，利用K均值算法将这J行聚类成K类；

S316)将特征矩阵F_j所对应的精彩语音段判为第k类，当且仅当矩阵Y的第j行被聚类在第k类中；

S317)根据上述聚类结果，得到精彩说话人的个数及其精彩语音段。