CN103559882A

CN103559882A - 一种基于说话人分割的会议主持人语音提取方法

Info

Publication number: CN103559882A
Application number: CN201310479266.4A
Authority: CN
Inventors: 李艳雄; 金海�; 贺前华
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2013-10-14
Filing date: 2013-10-14
Publication date: 2014-02-05
Anticipated expiration: 2033-10-14
Also published as: CN103559882B

Abstract

本发明公开了一种基于说话人分割的会议主持人语音提取方法，包括如下步骤：S1、读入记录有会议语音的音频文件；S2、说话人分割：检测上述会议语音中的说话人改变点，将相邻两个改变点之间的语音样点作为一个语音段，将音频文件分成多个语音段；S3、语音段距离比较：将说话人分割之后的第一个语音段作为会议主持人的语音，并比较该语音段与其他语音段的距离，将距离小于门限的语音段也判为会议主持人语音，从而得到会议主持人的所有语音段。本发明为会议语音的快速浏览、主题提取、说话人检索等奠定了基础，具有能快速有效地提取出会议主持人的语音等优点。

Description

一种基于说话人分割的会议主持人语音提取方法

技术领域

本发明涉及语音信号处理和模式识别技术，尤其涉及一种基于说话人分割的会议主持人语音提取方法。

背景技术

会议主持人是指在多人会话的会议中，使会议进程有序进行的说话人。在经常召开的讨论会、新闻发布会、演讲等会议中，一般都有一个会议主持人。主持人往往是整个会议的第一个发言人，他组织并引导与会者有序地参与会议议程的讨论。从会议主持人的发言中，可以得到该会议的主题、与会人员人数及身份、主要议程、会议决议等重要信息。这些信息是人们在浏览分析会议语音时最希望获取的。因此，快速有效地提取出会议主持人的语音，对于会议语音的快速浏览、主题提取、说话人检索等应用都具有非常重要的意义。目前的会议主持人语音提取方法流程如下：先对会议语音进行说话人分割，再对分割结果进行说话人聚类得到各个说话人语音，最后进行说话人角色分析得到会议主持人语音。目前的方法在说话人分割之后还需要进行说话人聚类和说话人角色分析才能得到会议主持人语音。因此，目前的方法存在步骤多、计算量大的缺点，难以实现快速的会议主持人语音提取。

发明内容

本发明的目的在于克服现有技术存在的缺点与不足，提供一种基于说话人分割的会议主持人语音提取方法，该方法能快速有效地提取出会议主持人的语音。

本发明的目的通过以下技术方案实现：一种基于说话人分割的会议主持人语音提取方法，包括如下步骤：

S1、读入记录有会议语音的音频文件；

S2、说话人分割：检测上述会议语音中的说话人改变点，将相邻两个改变点之间的语音样点作为一个语音段，将音频文件分成多个语音段，所述语音段的个数等于改变点个数加1；

S3、语音段距离比较：将说话人分割之后的第一个语音段作为会议主持人的语音，并比较该语音段与其他语音段的距离，将距离小于门限的语音段也判为会议主持人语音，从而得到会议主持人的所有语音段。

进一步地，所述S2说话人分割：检测上述会议语音中的说话人改变点，将相邻两个改变点之间的语音样点作为一个语音段，将音频文件分成多个语音段，具体为：

S2.1、利用门限判决的语音检测算法从上述音频文件中找出静音段和语音段；

S2.2、将上述语音段按时间顺序拼接成一个长语音段，并从长语音段中提取音频特征；

S2.3、利用上述提取的音频特征，根据贝叶斯信息准则，判断长语音段中相邻数据窗之间的相似度来检测说话人改变点；

S2.4、依次把相邻两个改变点之间的语音样点作为一个语音段，从而将音频文件分割成多个语音段，且每个语音段包含一个说话人。

进一步地，所述S2.1利用门限判决的语音检测算法从上述音频文件中找出静音段和语音段，具体包括如下步骤：

S2.1.1、对读入的会议语音进行分帧，并计算每帧语音的能量，得到会议语音的能量特征矢量；

S2.1.2、计算每帧语音的能量门限；

S2.1.3、将每帧语音的能量与能量门限比较，低于能量门限的帧为静音帧，否则为语音帧，将静音帧按时间顺序拼接成一个静音段，将语音帧按时间顺序拼接成一个语音段。

进一步地，所述S3中比较第一个语音段X₁与其他语音段X_i（i≥2）之间的距离，将距离小于门限的语音段也判为会议主持人语音，包括如下步骤：

S3.1、将第一个语音段X₁与其他语音段X_i都分为语音帧，再从每帧语音中提取梅尔频率倒谱系数（Mel-Frequency Cepstral Coefficients,MFCCs）及其一阶差分（Delta-MFCCs）的音频特征，各个语音段的特征构成一个特征矩阵，语音段X₁的特征矩阵为F₁，X_i的特征矩阵为F_i（i≥2）；

S3.2、计算语音段X₁与X_i之间的BIC距离，BIC距离计算公式如下：

\begin{matrix} ΔBIC = (n_{1} + n_{i}) \ln (| \det (cov (F_{z})) |) - n_{1} \ln (| \det (cov (F_{1})) |) - \\ n_{i} \ln (| \det (cov (F_{i})) |) - α (d + \frac{d (d + 1)}{2}) \ln (n_{1} + n_{i}) \end{matrix},

其中，Z是将语音段X₁和X_i合并之后得到的语音段，n₁和n_i分别是语音段X₁和X_i的帧数，F₁、F_i和F_z分别是语音段X₁、X_i和Z的特征矩阵，cov(F₁)、cov(F_i)和cov(F_z)分别是特征矩阵F₁、F_i和F_z的协方差矩阵，det(·)表示求矩阵的行列式值，α是惩罚系数且实验取值为2.0；

S3.3、如果BIC距离ΔBIC大于零，则这两个语音段被视为属于两个不同的说话人（即X_i不是主持人语音），否则这两个语音段被视为属于主持人并将它们合并；

S3.4、不断地判断其他语音段X_i与第一个语音段X₁之间的BIC距离是否大于零，直到所有X_i与X₁之间的BIC距离都被判断完为止。

本发明的优点与效果（有益效果）：

1、无需进行说话人聚类和角色分析，步骤简单，计算速度快。

2、基于说话人分割的结果，提取出会议主持人的语音，为会议语音的快速浏览、主题提取、说话人检索等奠定了基础。

附图说明

图1为本发明的会议主持人语音提取方法的主持人语音提取流程示意图。

具体实施方式

下面结合实施例及附图，对本发明作进一步地详细说明，但本发明的实施方式不限于此。

实施例

如图1所示，一种基于说话人分割的会议主持人语音提取方法，包括如下步骤：

S1、读入记录有会议语音的音频文件，会议语音可以是各种格式的音频文件，例如WAV、RAM、MP3、VOX等。

S2、利用基于门限判决的语音检测方法找出语音流中的静音段和语音段，将上述语音段按时间顺序拼接成一个长语音段，并从长语音段中提取音频特征，利用上述提取出来的音频特征，根据贝叶斯信息准则，判断长语音段中相邻数据窗之间的相似度来检测说话人改变点；最后根据上述说话人改变点，把音频文件分割成多个语音段，且每个语音段只包含一个说话人，所述语音段的个数等于改变点个数加1。

所述门限判决的语音检测方法从上述音频文件中找出静音段和语音段，具体包括以下步骤：

S2.1.1、将读入的音频文件分成T帧，帧长为32毫秒（帧长对应的采样点个数N=0.032×f_s，其中f_s为语音信号的采样频率），帧移为16毫秒，如果最后一帧语音的采样点个数小于N，则将其舍去；计算第t（1≤t≤T）帧语音信号x_t(n)的能量E_t：

E_{t} = Σ_{n = 1}^{N} X_{t}^{2} (n), 1 \leq t \leq T,

得到语音流的能量特征矢量E=[E₁,E₂,...,E_T]，其中T为总帧数；

S2.1.2、用固定的能量门限判断静音与语音有很大的局限性，因为各种环境下的语音能量相差很大，但语音与静音之间能量大小的相对关系是不变的，所以定义每帧语音的能量门限T_E：

T_E=min(E)+0.3×[mean(E)-min(E)]，

其中，min(E)是各帧能量的最小值，mean(E)是各帧能量的平均值。

S2.1.3、将每帧语音的能量与能量门限比较，低于能量门限的帧为静音帧，否则为语音帧，将所有静音帧都舍弃，并将相邻的语音帧按时间顺序拼接成一个语音段。

所述步骤S2中的利用贝叶斯信息准则确定说话人改变点的方法具体包括以下步骤：

S2.3.1、将经过语音检测得到的各个语音段按顺序拼接成一个长语音段，将长语音段切分成数据窗，窗长为2秒，窗移为0.1秒。对每个数据窗进行分帧，帧长为32毫秒，帧移为16毫秒，从每一帧语音信号中提取MFCCs与Delta-MFCCs特征，MFCCs与Delta-MFCCs的维数M都取12，每个数据窗的特征构成一个特征矩阵F，特征矩阵F的维数d=2M为24；

S2.3.2、计算两个相邻数据窗（x和y）之间的BIC距离，BIC距离计算公式如下：

\begin{matrix} ΔBIC = (n_{x} + n_{y}) \ln (| \det (cov (F_{z})) |) - n_{x} \ln (| \det (cov (F_{x})) |) - \\ n_{y} \ln (| \det (cov (F_{y})) |) - α (d + \frac{d (d + 1)}{2}) \ln (n_{x} + n_{y}) \end{matrix},

其中，z是将数据窗x和y合并之后得到的数据窗，n_x和n_y分别是数据窗x和y的帧数，F_x、F_y和F_z分别是数据窗x、y和z的特征矩阵，cov(F_x)、cov(F_y)和cov(F_z)分别是特征矩阵F_x、F_y和F_z的协方差矩阵，det(·)表示求矩阵的行列式值，α是惩罚系数且实验取值为2.0；

S2.3.3、如果BIC距离ΔBIC大于零，则这两个数据窗被视为属于两个不同的说话人（即它们之间存在说话人改变点），否则这两个数据窗被视为属于同一个说话人并将它们合并；

S2.3.4、不断地滑动数据窗判断两个相邻数据窗之间的BIC距离是否大于零，并保存说话人改变点，直到长语音段的所有相邻数据窗之间的BIC距离都被判断完为止。

上述提取音频特征包括梅尔频率倒谱系数（MFCCs）及其一阶差分（Delta-MFCCs）特征的步骤包括：

S2.2.1、将语音信号分成T帧，帧长为32毫秒（帧长对应的采样点个数N=0.032×f_s，其中f_s为语音信号的采样频率），帧移为16毫秒，如果最后一帧语音的采样点个数小于N，则将其舍去；

S2.2.2、对第t（1≤t≤T）帧语音信号x_t(n)做离散傅立叶变换（DiscreteFourier Transformation,DFT）得到线性频谱X_t(k)：

X_{t} (k) = Σ_{n = 0}^{N - 1} X_{t} (n) e^{- j 2 πnk / N}, (0 \leq n, k \leq N - 1);

S2.2.3、将上述线性频谱X_t(k)通过梅尔频率滤波器组得到梅尔频谱，再进行对数运算得到对数频谱S_t(m)，其中梅尔频率滤波器组为若干个带通滤波器H_m(k)，0≤m<M，M为滤波器的个数，每个滤波器具有三角形滤波特性，其中心频率为f(m)，当m值较小时相邻f(m)之间的间隔也较小，随着m的增加相邻f(m)的间隔逐渐变大，每个带通滤波器的传递函数为：

H_{m} (k) = \{\begin{matrix} 0, & (k < f (m - 1)) \\ \frac{k - f (m - 1)}{f (m) - f (m - 1)}, & (f (m - 1) \leq k \leq f (m)) \\ \frac{f (m + 1) - k}{f (m + 1) - f (m)}, & (f (m) < k \leq f (m + 1)) \\ 0, & (k > f (m + 1)) \end{matrix}, (0 \leq m < M),

其中，f(m)定义如下：

f (m) = (\frac{N}{f_{s}}) B^{- 1} (B (f_{l}) + m \frac{B (f_{h}) - B (f_{l})}{M + 1}),

其中，f_l、f_h为滤波器的频率应用范围的最低频率和最高频率，B^-1为B的逆函数：B^-1(b)=700(e^b/1125-1)，因此由线性谱X_t(k)到对数谱S_t(m)的函数式为：

S_{t} (m) = \ln (Σ_{k = 0}^{N - 1} {| X_{t} (k) |}^{2} H_{m} (k)), (0 \leq m < M),

S2.2.4、将上述对数频谱S_t(m)经过离散余弦变换（Discrete CosineTransformation,DCT）变换到倒谱域，得到第t帧MFCCs，C_t(p)：

C_{t} (p) = Σ_{m = 0}^{M - 1} S_{t} (m) \cos (\frac{(m + 0.5) nπ}{M}), (0 \leq p < M),

S2.2.5、计算第t帧MFCCs的一阶差分（Delta‐MFCCs），C'_t(p)：

C_{t}^{'} (p) = \frac{1}{\sqrt{Σ_{q = - Q}^{Q} q^{2}}} Σ_{q = - Q}^{Q} q \times C_{t} (p + q), (0 \leq p < M),

其中，Q为常数，实验时取值为3。

S2.2.6、对每帧语音信号重复上述步骤2）～5），得到所有T帧语音信号的MFCCs与Delta-MFCCs，将它们按帧的顺序组合成一个MFCC矩阵与Delta-MFCC矩阵，再将MFCC矩阵与Delta-MFCC矩阵合并构成特征矩阵F。

所述步骤S3中，比较第一个语音段X₁与其他语音段X_i（i≥2）之间的距离，将距离小于门限的语音段也判为会议主持人语音，包括如下步骤：

S3.1、将第一语音段X₁与其他语音段X_i都分为语音帧，帧长为32毫秒（帧长对应的采样点个数N=0.032×f_s，其中f_s为语音信号的采样频率），帧移为16毫秒，如果最后一帧语音的采样点个数小于N，则将其舍去；

S3.2、按照步骤S2.2.2至S2.2.5的方法从每帧语音中提取MFCCs及Delta-MFCCs的音频特征，各个语音段的特征构成一个特征矩阵，语音段X₁的特征矩阵为F₁，X_i的特征矩阵为F_i（i≥2）；

S3.3、计算语音段X₁与X_i之间的BIC距离，BIC距离计算公式如下：

\begin{matrix} ΔBIC = (n_{1} + n_{i}) \ln (| \det (cov (F_{z})) |) - n_{1} \ln (| \det (cov (F_{1})) |) - \\ n_{i} \ln (| \det (cov (F_{i})) |) - α (d + \frac{d (d + 1)}{2}) \ln (n_{1} + n_{i}) \end{matrix},

S3.4、如果BIC距离ΔBIC大于零，则这两个语音段被视为属于两个不同的说话人（即X_i不是主持人语音），否则这两个语音段被视为属于主持人并将它们合并；

S3.5、不断地判断其他语音段X_i与第一个语音段X₁之间的BIC距离是否大于零，直到所有X_i与X₁之间的BIC距离都被判断完为止。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受所述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于说话人分割的会议主持人语音提取方法，其特征在于，包括如下步骤：

S1、读入记录有会议语音的音频文件；

S2、对会议上说话人的语音进行分割：检测上述会议语音中的说话人改变点，将相邻两个改变点之间的语音样点作为一个语音段，将音频文件分成若干个语音段，所述语音段的个数等于改变点个数加1；

S3、语音段距离比较：将说话人的语音进行分割之后的第一个语音段作为会议主持人的一部分语音，并比较该语音段与其他语音段的距离，并将距离小于门限的语音段也判为会议主持人的另一部分语音，根据分割后的第一个语音段和距离小于门限的语音段，得到会议主持人的全部语音段。

2.根据权利要求1所述的会议语音中的主持人语音提取方法，其特征在于，所述步骤S2包括以下步骤：

S2.2、将步骤S2.1中的语音段按时间顺序拼接成一个长语音段，并从长语音段中提取音频特征；

S2.3、利用步骤S2.2中提取的音频特征，根据贝叶斯信息准则，判断长语音段中相邻数据窗之间的相似度来检测说话人改变点；

S2.4、依次把相邻两个改变点之间的语音样点作为一个语音段，从而将音频文件分割成多个语音段，且每个语音段包含一个说话人的语音。

3.根据权利要求2所述的会议语音中的主持人语音提取方法，其特征在于，所述步骤S2.1包括如下步骤：

S2.1.2、计算每帧语音的能量门限；

S2.1.3、将每帧语音的能量与能量门限比较，低于能量门限的帧为静音帧，否则为语音帧，将所有的静音帧都舍弃，并将语音帧按时间顺序拼接成一个语音段。

4.根据权利要求1所述的会议语音中的主持人语音提取方法，其特征在于，所述步骤S3包括如下步骤：

S3.1、将第一语音段X₁与其他语音段X_i都分为语音帧，从每帧语音中提取梅尔频率倒谱系数及其一阶差分的音频特征，各个语音段的特征构成一个特征矩阵，语音段X₁的特征矩阵为F₁，X_i的特征矩阵为F_i，其中，i≥2；

S3.2、计算语音段X₁与X_i之间的BIC距离，所述BIC距离的计算公式如下：

\begin{matrix} ΔBIC = (n_{1} + n_{i}) \ln (| \det (cov (F_{z})) |) - n_{1} \ln (| \det (cov (F_{1})) |) - \\ n_{i} \ln (| \det (cov (F_{i})) |) - α (d + \frac{d (d + 1)}{2}) \ln (n_{1} + n_{i}) \end{matrix},

其中，Z是将语音段X₁和X_i合并之后得到的语音段，n₁和n_i分别是语音段X₁和X_i的帧数，F₁、F_i和F_z分别是语音段X₁、X_i和Z的特征矩阵，cov(F₁)、cov(F_i)和cov(F_z)分别是特征矩阵F₁、F_i和F_z的协方差矩阵，det(·)表示求矩阵的行列式值，α是惩罚系数且取值为2.0；

S3.3、如果BIC距离ΔBIC大于零，则两个语音段被视为属于两个不同的说话人，否则，两个语音段被视为属于主持人并将它们合并；

S3.4、重复执行步骤S3.1至步骤S3.3，判断语音段X_i与第一个语音段X₁之间的BIC距离是否大于零，直到所有的X_i与X₁之间的BIC距离都被判断完为止。