CN103985381B

CN103985381B - 一种基于参数融合优化决策的音频索引方法

Info

Publication number: CN103985381B
Application number: CN201410209057.2A
Authority: CN
Inventors: 杨毅; 刘加; 孙甲松
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2014-05-16
Filing date: 2014-05-16
Publication date: 2016-09-21
Anticipated expiration: 2034-05-16
Also published as: CN103985381A

Abstract

本发明为一种针对真实场景下的语音数据进行音频索引的方法，将输入的语音信号进行预处理和初始化后进行声学特征提取，然后分别进行基于高斯混合模型的优化学习及量子学习，将高斯混合模型参数与量子学习参数进行融合，最后基于分类决策给出分类结果，本发明中的量子学习方法是将常规类别进行线性叠加来构建量子态，并将量子态作为计算模型的状态。将这种方法扩展为通用分类学习方法，可有效地解决会议场景下多个说话人混合的通用说话人分类问题。

Description

一种基于参数融合优化决策的音频索引方法

技术领域

本发明属于音频技术领域，涉及对会议场景下的语音数据进行音频索引，具体涉及一种基于参数融合优化决策的音频索引方法。

背景技术

音频索引是一种从音频中自动提取信息并进行目标内容搜索的技术，其目的是按一定的方式对海量语音信号进行分析和检索，提取特定目标信息。在音频索引中需要获取信息包括说话内容和说话人身份。音频索引一般在时域上对音频信号按来源和分类进行标记索引，其索引内容包括但不限于：说话人身份、说话内容、音乐、背景噪声及其他内容。音频索引需要确定出某一说话人与另一说话人之间的切换时刻，并标记出每个语音段对应的说话人身份。音频索引可应用于电话语音、广播新闻和语音会议等场景，能够实现音频数据的结构化分析、理解和管理。

会议场景下的音频索引可视为基于说话人的语音信号自动优化和分离方法，上述音频索引通常包括三个部分：说话人特征提取、说话人分段、说话人聚类。

传统的说话人特征包括：MFCC(Mel Frequency Cepstral Coefficients)、LFCC(Linear Frequency Cepstral Coefficients)、PLP(Perceptual Linear Predictive)、LPC(Linear Predictive Coding)等感知特征；最近提出的新的说话人特征包括：鲁棒性较优的同步掩蔽和前向掩蔽感知特征；基于听神经放电时间信息的子带自相关特征；调频谱特征和频域线性预测特征；还可以利用汉明窗提取语音信号中若干情感特征参数。此外还包括如下提取说话人特征的方法：特征弯曲(warping)技术将特征的PDF包络改为高斯包络，可以避免背景噪声和其他干扰的影响；通过在聚类之前先将特征矢量投影到说话人子空间则可以提高说话人特征的鉴别性；将传统短时特征与节律(Prosodic)和其他长时特征(如基频、能量、共振峰、长时平均谱等)结合；根据给定的训练样本集选择最优小波包基.从被识别或分类的信号中提取具有最大可分性的特征。

基于测度的算法是最常用的说话人分段算法，通过计算两个声学段(通常是连续的)之间的距离来决策他们属于同一说话人或不同说话人，如果属于不同说话人，则需要判定是否存在说话人变更点。用于进行变更点判定的距离算法也可应用在说话人聚类方面来比较两个声学段是否属于同一说话人。通常用两类距离来定义一对声学段的距离，一类是不考虑数据的模型，仅利用足够多的统计数据进行计算，称为基于统计的距离，这种方法在声学段足够长的时候快速高效，将数据用一个唯一的均值和方差代表；第二类则评估数据与其模型的相似度，该方法计算较慢，但对复杂数据处理效果较好，称为基于相似度的距离。距离定义包括：贝叶斯信息准则、通用相似度评估、Gish距离。所有基于量度的技术都需要计算一个函数，其极值需要与阈值相比来决定每个变更点的合适度。

说话人聚类则采用混合高斯模型(Gaussian Mixture Model,GMM)或支持向量机(Support Vector Machine,SVM)来计算，前者需要对说话人模型进行生成训练，如最大似然或最大后验估计，后者需要对说话人模型进行差别训练，目前主流的技术为GMM-SVM，通过GMM建立概率密度分布模型并通过Kullback-Leibler散度上界来测量概率密度分布。虽然GMM-SVM系统性能较好，但仍存在GMM参数过多及通用性较差的问题。对于第一个问题，NAP等技术相继被提出，使得GMM-SVM系统的识别正确率进一步提高，不过在训练NAP模型时仅考虑了同类集合间的度量，未考虑异类集合间的度量；对于第二个问题，可引入量子学习理论进行处理。.

发明内容

为了克服上述现有技术的不足，本发明的目的在于提供了一种基于参数融合优化决策的音频索引方法，由高斯混合模型和量子学习模型参数构成。量子学习模型是一种在数据分布中增加量子控制参数的分类算法，主要方法是将常规类别进行线性叠加来构建量子态，并将量子态作为计算模型的状态。通过从训练集中学习并找到一种低误差分类器，对测试集进行分类决策并进行标记，可以解决多类混合状态问题。这种方法可用于处理多人多方会议中的音频索引问题。

为了实现上述目的，本发明采用的技术方案是：

一种基于参数融合优化决策的音频索引方法，包括以下步骤：

第一步，采用声传感器进行系统输入信号采集；

第二步，对所采集信号进行预处理；

第三步，提取声学特征；

第四步，采用高斯混合模型对声学特征建立分类模型；

第五步，采用量子学习模型对声学特征建立分类模型；

第六步，对上述传统优化学习和量子学习获得的模型的参数进行参数融合，得到融合模型分类器；

第七步，分类决策给出分类结果；

第八步，系统输出分类结果，包括全部的语音频段及其相应的分类信息。

所述第一步中的声传感器包括独立声传感器和便携设备上的声传感器。

所述第二步中的预处理包括预加重、分帧、加窗以及端点检测。

所述第三步中的声学特征为Mel频率倒谱系数或/和线性预测倒谱系数。

所述第四步中，对声学特征建立高斯混合分类模型，对不同说话人的声学特征所具有的概率密度函数进行建模，对这些特征进行聚类，用高斯分布函数来分别描述每个类，将这些类作为训练模板，随后将观测序列代入模板，找到最大后验概率。

所述第五步中，对声学特征建立量子学习分类模型，将常规类别进行线性叠加来构建量子态，并将量子态作为计算模型的状态。

所述第六步中，需要融合的参数由传统优化学习模型参数和量子学习模型参数构成，通过加权完成参数融合。

所述参数融合的方法是：在得到高斯混合模型参数后，按照获得的权重大小将模型分量进行排序w₁>w₂...>w_n，其中w₁,w₂,...,w_floor(n/2)对应的模型分量构成高权重分量集合H，w_{(floor(n/2)+1)},w_{(floor(n/2)+2)},...,w_n对应的模型分量构成低权重分量集合L，floor为下取整函数；在得到量子学习模型参数后，按照同样方法获得权重，将模型分量按照大小进行排序，构成高权重分量集合H'和低权重分量集合L'，量子学习模型的置信度与训练数据个数无关；融合模型分类器最终输出来自高斯混合模型的高权重分量集合H和来自量子学习模型的低权重分量集合L'。

所述第七步中，分类决策由多个不同的分类器给出各自得分，通过决策级融合完成具有鲁棒性优化和最佳分类效果的决策输出，决策级融合后的分类决策即为分类结果。

本发明与现有技术相比，优点在于：

本发明建立了一种基于高斯混合模型参数及量子学习参数融合优化决策的音频索引方法，其中量子学习模型是一种在数据分布中增加量子控制参数的分类算法，主要方法是将常规类别进行线性叠加来构建量子态，并将量子态作为计算模型的状态。通过从训练集中学习并找到一种低误差分类器，对测试集进行分类决策并进行标记，可以解决多类混合状态问题。通过上述融合分类学习方法的扩展，可有效地解决会议场景下多个说话人混合的通用说话人分类问题。

附图说明

图1是本发明基于参数融合优化决策的说话人分类流程图。

具体实施方式

下面结合附图和实施例对本发明做进一步详细说明。

如图1所示，本发明为一种基于参数融合优化决策的音频索引方法，包括：

语音信号输入步骤101，采用声传感器进行系统输入信号采集，按说话人身份对数据进行分类；包括在多媒体会议中通过声传感器采集的全部语音频信号，有可能除了语音信号之外还包括音乐、环境噪声等其他信号。其目标在于，在多媒体会议中按说话人身份对数据进行分类，这类多媒体会议包括电话或视频会议。这些方法和装置不局限于任何已知的独立声传感器如麦克风等，也可以是任何便携设备如笔记本电脑或PDA设备上的声传感器。

预处理102，对所采集信号进行预处理，包括预加重、分帧、加窗以及端点检测等手段。

信号初始化103，进行噪声消除和有声段/无声段检测等。

声学特征提取104，提取声学特征作为说话人鉴别信息，这些声学特征可以为梅尔频率倒谱系数(Mel Frequency Cepstral Coefficients，MFCC)或线性预测倒谱系数(Linear Frequency Cepstral Coefficients，LPCC)等，此外还存在将多种声学特征融合的特征，这种融合特征提供了更多鉴别信息，可以进一步提高分类正确率。

上述的步骤102、103、104共同完成整个特征提取部分。

特征提取步骤完成之后，对不同说话人的声学特征所具有的概率密度函数进行建模，构建高斯混合模型105，将每个说话人视作一个类别，用高斯分布函数来分别描述每个类，将这些类作为训练模板，随后将观测序列代入模板，找到最大后验概率。

其具体方式如下：

假设训练数据用N维列向量y＝(y₀,y₁,…,y_N-1)^t表示，其中y_i∈y代表第i个训练数据的特征矢量，y属于K个不同的类。定义y对应的标签为N维矢量x＝(x₀,x₁,…,x_N-1)^t,x_i∈{0,1…,K-1}，x_i∈x代表第i个训练数据对应的标签，x_i用来表示x₀,x₁,…,x_N-1，定义x由如下公式产生：

P (x | α) = Π_{i = 0}^{N - 1} Σ_{k = 0}^{K - 1} α_{k} δ_{x_{i, k}}

其中参数α＝{α₀,α₁,…,α_K-1}需要满足δ_a,b是克罗内克δ函数，k为类别。

定义y由如下公式产生：

P (y | x, μ, σ) = Π_{i = 0}^{N - 1} g_{x_{i}} (y_{i} | μ, σ)

其中高斯分布函数定义为

g_{x_{i}} (y_{i} | μ, σ) = \frac{1}{\sqrt{2 π} σ_{k}} \exp (- \frac{1}{{2 σ}_{k}^{2}} {(y_{i} - μ_{k})}^{2}),

式中μ＝{μ₀,μ₁,…,μ_K-1}和σ＝{σ₀,σ₁,…,σ_K-1}分别代表分布的均值和方差，μ_k∈μ代表第k类数据的均值，σ_k∈σ代表第k类数据的方差。x和y的联合概率函数为：

P (x, y | α, μ, σ) = P (y | x, μ, σ) P (x | α) = Π_{i = 0}^{N - 1} α_{x_{i}} g_{x_{i}} (y_{i} | σ, α)

通过最大化如下的边缘似然函数

P (y | α, μ, σ) = Σ_{x_{0} = 0}^{K - 1} Σ_{x_{2} = 0}^{K - 1} . . . Σ_{x_{N - 1} = 0}^{K - 1} P (x, y | α, μ, σ) = Π_{i = 0}^{N - 1} Π_{x_{i} = 0}^{K - 1} α_{x_{i}} g_{x_{i}} (y_{i} | σ, α)

可以获得训练模板的参数μ,σ,α的估计值：

{\hat{μ}}_{k} = \frac{Σ_{i = 0}^{N - 1} y_{i} Ψ_{i} (k | \hat{μ}, \hat{σ}, \hat{α})}{Σ_{i = 0}^{N - 1} Ψ_{i} (k | \hat{μ}, \hat{σ}, \hat{α})}

{\hat{α}}_{k} = \frac{1}{N} Σ_{i = 0}^{N - 1} Ψ_{i} (k | \hat{μ}, \hat{σ}, \hat{α})

{\hat{σ}}_{k}^{2} = \frac{Σ_{i = 0}^{N - 1} {{(y_{i} - {\hat{μ}}_{k})}^{2} Ψ}_{i} (k | \hat{μ}, \hat{σ}, \hat{α})}{Σ_{i = 0}^{N - 1} Ψ_{i} (k | \hat{μ}, \hat{σ}, \hat{α})}

其中

Ψ_{i} (k | μ, σ, α) = \frac{α_{k} g_{k} (y_{i} - μ, σ)}{Σ_{k = 0}^{K - 1} α_{k} g_{k} (y_{i} | μ, σ)} .

最后依据贝叶斯公式，可以得到测试数据y'对应的标签x'的后验概率为：

P (x^{'} | y^{'}, \hat{μ}, \hat{σ}, \hat{α}) = \frac{P (x^{'}, y^{'} | \hat{μ}, \hat{σ}, \hat{α})}{P (y^{'} | \hat{μ}, \hat{σ}, \hat{α})} = Π_{i = 0}^{N - 1} Ψ_{i} (x_{i}^{'} | \hat{μ}, \hat{σ}, \hat{α})

通过最大化上述后验概率可以得到x'的最优估计。

高斯混合模型105完成后开始建立量子学习模型106，在量子学习模型中，假设训练数据用N维列向量y＝(y₀,y₁,…,y_N-1)^t表示，y属于K个不同的类，将y_i对应的每个类别标签Xⁱ定义为一个K×K维的量子态矩阵，且其中l,l',k,k'∈{0,1,…,K-1}，δ_a,b是克罗内克δ函数，〈Q(t)〉代表量子态Q(t)在t>0的时间内的期望值。

定义边缘似然函数如下：

P (y | α, μ, σ) = Π_{i = 0}^{N - 1} \frac{tr Σ_{n = 0}^{+ \infty} \frac{1}{n!} {(- H (y_{i}))}^{n}}{tr Σ_{n = 0}^{+ \infty} \frac{1}{n!} {(- F)}^{n}}

其中α,μ,σ为量子学习训练模型的参数，tr指的是矩阵的迹，即矩阵对角元素的和，

F = - (\begin{matrix} {\ln α}_{0} & 0 & . . . & 0 \\ 0 & {\ln α}_{1} & . . . & 0 \\ . & . & . \\ . & . & . \\ . & . & . \\ 0 & 0 & . . . & {\ln α}_{K - 1} \end{matrix}),

H (y_{i}) = - (\begin{matrix} \ln (α_{0} g_{0} (y_{i} | μ, σ)) & γ & . . . & γ \\ γ & \ln (α_{1} g_{1} (y_{i} | μ, σ)) & . . . & γ \\ . & . & . \\ . & . & . \\ . & . & . \\ γ & γ & . . . & \ln (α_{K - 1} g_{K - 1} (y_{i} | μ, σ)) \end{matrix})

为K×K的矩阵，其中i＝0,1…,N-1，

g_{i} (y_{i} | μ, σ) = \frac{1}{\sqrt{2 π} σ_{i}} \exp (- \frac{1}{{2 σ}_{i}^{2}} {(y_{i} - μ_{i})}^{2}) .

通过最大化边缘似然函数，可以获得参数μ,σ,α的估计值：

{\hat{μ}}_{k} = \frac{Σ_{i = 0}^{N - 1} y_{i} (\frac{tr X_{{kk}^{'}}^{i} Σ_{n = 0}^{+ \infty} \frac{1}{n!} {(- H (y_{i}))}^{n}}{tr Σ_{n = 0}^{+ \infty} \frac{1}{n!} {(- H (y_{i}))}^{n}})}{Σ_{i = 0}^{N - 1} (\frac{tr X_{{kk}^{'}}^{i} Σ_{n = 0}^{+ \infty} \frac{1}{n!} {(- H (y_{i}))}^{n}}{tr Σ_{n = 0}^{+ \infty} \frac{1}{n!} {(- H (y_{i}))}^{n}})}

{\hat{α}}_{k} = \exp (trX \ln (\frac{1}{N} Σ_{i = 0}^{N - 1} \frac{Σ_{n = 0}^{+ \infty} \frac{1}{n!} {(- H (y_{i}))}^{n}}{tr Σ_{n = 0}^{+ \infty} \frac{1}{n!} {(- H (y_{i}))}^{n}}))

{\hat{σ}}_{k}^{2} = \frac{Σ_{i = 0}^{N - 1} {(y_{i} - {\hat{μ}}_{i})}^{2} (\frac{tr X_{{kk}^{'}}^{i} Σ_{n = 0}^{+ \infty} \frac{1}{n!} {(- H (y_{i}))}^{n}}{tr Σ_{n = 0}^{+ \infty} \frac{1}{n!} {(- H (y_{i}))}^{n}})}{Σ_{i = 0}^{N - 1} (\frac{tr X_{{kk}^{'}}^{i} Σ_{n = 0}^{+ \infty} \frac{1}{n!} {(- H (y_{i}))}^{n}}{tr Σ_{n = 0}^{+ \infty} \frac{1}{n!} {(- H (y_{i}))}^{n}})}

其中k＝1,2,…,K-1。

假设测试数据为N'维列向量y'＝(y'₀,y'₁,…,y'_N'-1)^t，则对应的类别标签X'的后验概率为：

P (x_{i}^{'} | y^{'}, μ, σ, α) = \frac{Σ_{n = 0}^{+ \infty} \frac{1}{n!} {(- Σ_{j = 0}^{i} (H (y_{j}^{'}))}^{n}}{tr Σ_{n = 0}^{+ \infty} \frac{1}{n!} {(- Σ_{j = 0}^{i} (H (y_{j}^{'}))}^{n}}

其中i＝1,2,…,N'-1，H(y'_i)的特征矢量即为类别标签x'_i的最优估计。

融合模型分类器107由高斯混合模型105和量子学习模型106组成。在得到高斯混合模型参数后，按照获得的权重大小将模型分量进行排序，w₁>w₂...>w_n，其中权重w₁,w₂,...,w_floor(n/2)(floor为下取整函数)对应的模型分量构成高权重分量集合H，权重w_{(floor(n/2)+1)},w_{(floor(n/2)+2)},...,w_n对应的模型分量构成低权重分量集合L；构成高权重分量集合H和低权重分量集合L，由于H受训练数据个数的影响较小，因此置信度较高，而L受训练数据个数的影响较大，有时会产生失真。在得到量子学习模型参数后，按照同样方法获得权重，将模型分量按照大小进行排序，构成高权重分量集合H'和低权重分量集合L'，量子学习模型的置信度与训练数据个数无关。融合模型分类器107最终输出来自高斯混合模型的高权重分量集合H和来自量子学习模型的低权重分量集合L'。

在实现融合模型分类器107后，由高斯混合模型分类器105、量子学习模型分类器106和融合模型分类器107对每个测试数据分别给出各自的分类结果；在分类决策108中通过决策级融合完成具有鲁棒性优化和最佳分类效果的决策输出，具体做法是进行线性加权，量子学习模型和高斯混合模型的分类结果对应的权重均为1，融合模型的分类结果对应的权重0<ω<1。最后输出线性加权后的分类结果109。

Claims

1.一种基于参数融合优化决策的音频索引方法，包括以下步骤：

第一步，采用声传感器进行系统输入信号采集；

第二步，对所采集信号进行预处理；

第三步，提取声学特征；

第四步，采用高斯混合模型对声学特征建立分类模型；

第五步，采用量子学习模型对声学特征建立分类模型；

第六步，对传统优化学习和量子学习获得的模型的参数进行参数融合，得到融合模型分类器；

第七步，分类决策给出分类结果；

第八步，系统输出分类结果，包括全部的语音频段及其相应的分类信息；

其特征在于：所述第五步中，对声学特征建立量子学习分类模型，将常规类别进行线性叠加来构建量子态，并将量子态作为计算模型的状态。

2.根据权利要求1所述的基于参数融合优化决策的音频索引方法，其特征在于：所述第一步中的声传感器包括独立声传感器和便携设备上的声传感器。

3.根据权利要求1所述的基于参数融合优化决策的音频索引方法，其特征在于：所述第二步中的预处理包括预加重、分帧、加窗以及端点检测。

4.根据权利要求1所述的基于参数融合优化决策的音频索引方法，其特征在于：所述第三步中的声学特征为梅尔频率倒谱系数或线性预测倒谱系数。

5.根据权利要求1所述的基于参数融合优化决策的音频索引方法，其特征在于：所述第四步中，对不同说话人的声学特征所具有的概率密度函数进行建模，对这些特征进行聚类，用高斯分布函数来分别描述每个类，将这些类作为训练模板，随后将观测序列代入模板，找到最大后验概率。

6.根据权利要求1所述的基于参数融合优化决策的音频索引方法，其特征在于：所述第六步中，需要融合的参数由高斯混合模型模型参数和量子学习模型参数构成，通过加权完成参数融合。

7.根据权利要求6所述的基于参数融合优化决策的音频索引方法，其特征在于：所述参数融合的方法是：在得到高斯混合模型参数后，按照获得的权重大小将模型分量进行排序w₁>w₂...>w_n，其中w₁,w₂,...,w_floor(n/2)对应的模型分量构成高权重分量集合H，w_{(floor(n/2)+1)},w_{(floor(n/2)+2)},...,w_n对应的模型分量构成低权重分量集合L，floor为下取整函数；在得到量子学习模型参数后，按照同样方法获得权重，将模型分量按照大小进行排序，构成高权重分量集合H'和低权重分量集合L'，量子学习模型的置信度与训练数据个数无关；融合模型分类器最终输出来自高斯混合模型的高权重分量集合H和来自量子学习模型的低权重分量集合L'。

8.根据权利要求1所述的基于参数融合优化决策的音频索引方法，其特征在于：所述第七步中，分类决策由多个不同的分类器给出各自得分，通过决策级融合完成具有鲁棒性优化和最佳分类效果的决策输出，决策级融合的具体做法是进行线性加权，量子学习模型和高斯混合模型的分类结果对应的权重均为1，融合模型的分类结果对应的权重0<ω<1，并输出线性加权后的分类结果。