CN102419976A

CN102419976A - 一种基于量子学习优化决策的音频索引方法

Info

Publication number: CN102419976A
Application number: CN201110394718XA
Authority: CN
Inventors: 杨毅; 陈国顺; 王胜开
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2011-12-02
Filing date: 2011-12-02
Publication date: 2012-04-18

Abstract

本发明为一种针对会议场景下的语音数据进行音频索引的方法，将输入的语音信号进行预处理和初始化后进行声学特征提取，然后进行量子学习，设计一种包括两个连续变量的均值未知的量子高斯模型，将传统参数与量子参数分别进行优化，然后基于分类决策给出分类结果，最终由系统输出全部的语音频段及其相应的说话人身份信息，本发明的量子学习方法是通过量子估计实现对Helstrom测度进行逼近，通过通用量子分类学习方法的扩展，可有效地解决会议场景下多个说话人混合的通用说话人分类问题。

Description

一种基于量子学习优化决策的音频索引方法

技术领域

本发明属于音频技术领域，涉及对会议场景下的语音数据进行音频索引，具体涉及一种基于量子学习优化决策的音频索引方法。

背景技术

音频索引是一种从音频中自动提取信息并进行目标内容搜索的技术，其目的是按一定的方式对海量语音信号进行分析和检索，提取特定目标信息。在音频索引中需要获取信息包括说话内容和说话人身份。音频索引一般在时域上对音频信号按来源和分类进行标记索引，其索引内容包括但不限于：说话人身份、说话内容、音乐、背景噪声及其他内容。音频索引需要确定出某一说话人与另一说话人之间的切换时刻，并标记出每个语音段对应的说话人身份。音频索引可应用于电话语音、广播新闻和语音会议等场景，能够实现音频数据的结构化分析、理解和管理。

会议场景下的音频索引可视为基于说话人的语音信号自动优化和分离方法，上述音频索引通常包括三个部分：说话人特征提取、说话人分段、说话人聚类。

传统的说话人特征包括：MFCC(Mel Frequency Cepstral Coefficients)、LFCC(Linear Frequency Cepstral Coefficients)、PLP(Perceptual LinearPredictive)、LPC(Linear Predictive Coding)等感知特征；最近提出的新的说话人特征包括：鲁棒性较优的同步掩蔽和前向掩蔽感知特征；基于听神经放电时间信息的子带自相关特征；调频谱特征和频域线性预测特征；还可以利用汉明窗提取语音信号中若干情感特征参数。此外还包括如下提取说话人特征的方法：特征弯曲(warping)技术将特征的PDF包络改为高斯包络，可以避免背景噪声和其他干扰的影响；通过在聚类之前先将特征矢量投影到说话人子空间则可以提高说话人特征的鉴别性；将传统短时特征与节律(Prosodic)和其他长时特征(如基频、能量、共振峰、长时平均谱等)结合；根据给定的训练样本集选择最优小波包基.从被识别或分类的信号中提取具有最大可分性的特征。

基于测度的算法是最常用的说话人分段算法，通过计算两个声学段(通常是连续的)之间的距离来决策他们属于同一说话人或不同说话人，如果属于不同说话人，则需要判定是否存在说话人变更点。用于进行变更点判定的距离算法也可应用在说话人聚类方面来比较两个声学段是否属于同一说话人。通常用两类距离来定义一对声学段的距离，一类是不考虑数据的模型，仅利用足够多的统计数据进行计算，称为基于统计的距离，这种方法在声学段足够长的时候快速高效，将数据用一个唯一的均值和方差代表；第二类则评估数据与其模型的相似度，该方法计算较慢，但对复杂数据处理效果较好，称为基于相似度的距离。距离定义包括：贝叶斯信息准则、通用相似度评估、Gish距离。所有基于量度的技术都需要计算一个函数，其极值需要与阈值相比来决定每个变更点的合适度。

说话人聚类则采用混合高斯模型(Gaussian Mixture Model，GMM)或支持向量机(Support Vector Machine，SVM)来计算，前者需要对说话人模型进行生成训练，如最大似然或最大后验估计，后者需要对说话人模型进行差别训练，目前主流的技术为GMM-SVM，通过GMM建立概率密度分布模型并通过Kullback-Leibler散度上界来测量概率密度分布。虽然GMM-SVM系统性能较好，但仍存在GMM参数过多及通用性较差的问题。对于第一个问题，NAP等技术相继被提出，使得GMM-SVM系统的识别正确率进一步提高，不过在训练NAP模型时仅考虑了同类集合间的度量，未考虑异类集合间的度量；对于第二个问题，可引入量子学习理论进行处理。

发明内容

为了克服上述现有技术的不足，本发明的目的在于提供了一种基于量子学习优化决策的音频索引方法，给定一个联合分布未知的训练集，从训练集中学习并找到一种低误差分类器，对测试集进行分类决策并进行标记，可以解决多类混合状态问题，通过对每个状态进行一定的训练，在测试集上进行测度学习，用其结果来调整测试集的分类测度；这种方法可用于处理多人多方会议中的音频索引问题。

为了实现上述目的，本发明采用的技术方案是：

一种基于量子学习优化决策的音频索引方法，包括以下步骤：

第一步，采用声传感器进行系统输入信号采集，按说话人身份对数据进行分类；

第二步，对所采集信号进行预处理；

第三步，提取声学特征作为说话人鉴别信息；

第四步，进行量子优化学习以解决两类混合状态问题，基于量子学习的两类说话人分类方法步骤如下：

Step1：初始化定义；

对于未知状态S₁和未知状态S₂，分别定义n₁个量子系统和n₂个量子系统，并进行初始化定义：

P(dx，y)＝P(dx|y)P(y)

状态先验概率为：

W:＝P(Y＝y)

条件分布定义为状态S₁和状态S₂的密度矩阵，训练集为(w₁，Y₁)，K，(w_n，Y_n)且当(Y_i＝0)and(w_i＝S₂|Y_i＝1)时w₁＝S₁，其中Y_i∈{0，1}为两类数据的类别标签，y＝0，1为Y的每个可能状态，w_i代表用于分类的数据特征，量度定义为用于进行分类决策，则风险可定义为：

E [Tr [S_{1} W_{1} - S_{2} W_{2}] (\hat{P} - P^{*})]

最小化风险为：

\frac{1}{2} (1 - Tr [| W_{1} S_{1} - W_{2} S_{2} |])

对应的错误分类误差为：

R_{e} ({\hat{M}}_{m}) = E [W_{1} Tr [S_{1} (1 - {\hat{P}}_{n})] + W_{2} Tr [S_{2} {\hat{P}}_{n}]]

Step2：选择优化测度；

如果S₁和S₂的先验概率W₁和W₂已知，则优化策略为Helstrom测度，即(W₁S₁-W₂S₂)and(S₁)为正结果，S₂为负结果；

如果S₁和S₂的先验概率W₁和W₂未知，则建立一种在训练集上建立优化测度的分类策略，该策略的目标是使得过剩风险(Excess Risk)等价于误差概率和已知状态优化测度概率的差值；

Step3：建立量子高斯模型，将传统参数与量子参数分别进行优化，优化估计器为：

其中为

的优化估计器，为

的优化估计器，

为基于传统参数的高斯模型，

为基于量子参数的高斯模型，

为联合测度

的优化估计器，则过剩风险表示为：

其中

a₁和a₂为基于传统参数的高斯模型的分解因子，X_r和X_s分别代表用于补偿传统有限高斯模型的随机变量；

Step4：计算参数优化均方误差；

量子参数优化均方误差为：

E [{(Z_{l}^{(q)} - {\hat{Z}}_{l}^{(q)})}^{2} + {(Z_{k} - {\hat{Z}}_{k})}^{2}] = W_{1} \sin^{2} a_{1} + W_{2} \sin^{2} a_{2} + 1 + 2 | W_{1} | | {\overset{r}{r}}_{0} | | \sin a_{1} - W_{2} | | {\overset{r}{s}}_{0} | | \sin a_{2} |

Step5：计算系统最小化风险；

系统的最小化风险为：

R_{\min}^{(l)} (S_{1}, S_{2}) = [2 + 2 | W_{1} | | {\overset{r}{r}}_{0} | | {\sin a}_{1} - W_{2} | | {\overset{r}{s}}_{0} | | {\sin a}_{2} | - | | {\overset{r}{r}}_{0} | | | | {\overset{r}{s}}_{0} | | \cos a_{1} {\cos a}_{2}] / 4 | | {\overset{r}{d}}_{0} | |

代表状态S₁的Bloch向量范数，代表状态S₂的Bloch向量范数，

为

和的相关向量范数；

第五步，分类器设计

根据上述基于量子学习的两类说话人分类方法建立一种包括两个连续变量的均值未知的量子高斯模型分类器，通过量子估计实现对Helstrom测度进行逼近；

第六步，分类决策给出分类结果；

第七步，系统输出分类结果，包括全部的语音频段及其相应的分类信息。

所述第一步中的声传感器包括独立声传感器和便携设备上的声传感器。

所述第二步中的预处理包括预加重、分帧、加窗以及端点检测。

所述第三步中的声学特征为Mel频率倒谱系数或/和线性预测倒谱系数。

所述第六步中，分类决策由多个不同的分类器给出各自得分，通过决策级融合完成具有鲁棒性优化和最佳分类效果的决策输出，决策级融合后的分类决策即为分类结果。

由于所有的分类，都可以按步骤视为两类数据的两两分类，比如有三类A、B、C，要想将三类区分开，首先将A与其他类(B、C)分开，再将B与C分开，因此两类分类方法是最基本的方法。而两类说话人混合的意思是，两个说话人在同一段语音中交叉出现，需要将两个说话人分别对应的语音(视作两类)进行分类。

本发明与现有技术相比，优点在于：

本发明建立了一种包括两个连续变量的量子高斯模型(其状态的高斯均值未知)，通过量子估计实现对Helstrom测度进行逼近的方法。量子分类学习可以看作一种在数据分布中增加量子控制参数的通用类别学习算法，通过上述通用量子分类学习方法的扩展，可有效地解决会议场景下多个说话人混合的通用说话人分类问题。。

附图说明

图1是本发明基于量子学习优化决策的说话人分类流程图。

图2是本发明量子学习优化决策方法流程图。

具体实施方式

下面结合附图和实施例对本发明做进一步详细说明。

如图1所示，本发明为一种基于量子学习优化决策的音频索引方法，包括：

语音信号输入步骤101，采用声传感器进行系统输入信号采集，按说话人身份对数据进行分类；包括在多媒体会议中通过声传感器采集的全部语音频信号，有可能除了语音信号之外还包括音乐、环境噪声等其他信号。其目标在于，在多媒体会议中按说话人身份对数据进行分类，这类多媒体会议包括电话或视频会议。这些方法和装置不局限于任何已知的独立声传感器如麦克风等，也可以是任何便携设备如笔记本电脑或PDA设备上的声传感器。

预处理102，对所采集信号进行预处理，包括预加重、分帧、加窗以及端点检测等手段。

信号初始化103，提取声学特征作为说话人鉴别信息，包括噪声消除和有声段/无声段检测等。

声学特征提取104，提取声学特征作为说话人鉴别信息，这些声学特征可以为Mel频率倒谱系数(Mel Frequency Cepstral Coefficients，MFCC)或线性预测倒谱系数(Linear Frequency Cepstral Coefficients，LPCC)等，此外还存在将多种声学特征融合的特征，这种融合特征提供了更多鉴别信息，可以进一步提高分类正确率。

上述的步骤102、103、104共同完成整个特征提取部分。

量子优化学习的方法可以解决两类混合状态问题，特征提取步骤完成之后，进行量子学习105，再基于该量子学习方法进行一种包括两个连续变量的均值未知的量子高斯模型的分类器设计106，通过量子估计实现对Helstrom测度进行逼近的方法。分类器设计106完成后，分类决策107将给出分类结果。分类决策通常由几个不同的分类器给出各自得分，通过决策级融合完成具有鲁棒性优化和最佳分类效果的决策输出。决策级融合后的分类决策即为分类结果108，系统输出109包括全部的语音频段及其相应的说话人身份信息。

如图2所示，本发明量子学习优化决策方法包括：

声学特征输入201，接着对其进行初始化定义202：对于未知状态S₁和未知状态S₂，分别定义n₁个量子系统和n₂个量子系统，并进行初始化定义：

P(dx，y)＝P(dx|y)P(y)

状态先验概率为：

W:＝P(Y＝y)

条件分布定义为状态S₁和状态S₂的密度矩阵，训练集为(w₁，Y₁)，K，(w_n，Y_n)且当(Y_i＝0)and(w_i＝S₂|Y_i＝1)时w₁＝S₁，其中Y_i∈{0，1}为两类数据的类别标签，y＝0，1为Y的每个可能状态，w_i代表用于分类的数据特征，量度定义为

用于进行分类决策，则风险可定义为：

E [Tr [S_{1} W_{1} - S_{2} W_{2}] (\hat{P} - P^{*})]

最小化风险为：

\frac{1}{2} (1 - Tr [| W_{1} S_{1} - W_{2} S_{2} |])

对应的错误分类误差为：

R_{e} ({\hat{M}}_{m}) = E [W_{1} Tr [S_{1} (1 - {\hat{P}}_{n})] + W_{2} Tr [S_{2} {\hat{P}}_{n}]]

如果S₁和S₂的先验概率W₁和W₂已知，则优化策略为Helstrom测度204，即(W₁S₁-W₂W₂)and(S₁)为正结果，S₂为负结果；这种优化策略的问题在于，P_e＝(1-Tr(W₂S₂-W₁S₁))/2时策略失效，考虑建立一种在训练集上建立优化测度203的分类策略，过剩风险定义206为误差概率和已知状态优化测度概率的差值。

分类问题可以描述为，通过寻找一种测试集上的测度来最大可能性的对其进行区分。通过对每个状态进行训练，并在测试集上进行测度学习，用其结果来调整测试集的分类测度。上述优化量子学习方法为建立量子高斯模型205，其为一种包括两个连续变量的均值未知的高斯模型，通过量子估计实现对Helstrom测度进行逼近的方法。接下来需要进行参数优化207，由于传统参数与量子参数模型彼此独立，因此可将传统参数与量子参数分别进行优化，优化估计器为：

其中

为

的优化估计器，

为

的优化估计器，

为基于传统参数的高斯模型，

为基于量子参数的高斯模型，

为联合测度

的优化估计器，则过剩风险表示为：

其中

量子参数优化均方误差208为：

E [{(Z_{l}^{(q)} - {\hat{Z}}_{l}^{(q)})}^{2} + {(Z_{k} - {\hat{Z}}_{k})}^{2}] = W_{1} \sin^{2} a_{1} + W_{2} \sin^{2} a_{2} + 1 + 2 | W_{1} | | {\overset{r}{r}}_{0} | | \sin a_{1} - W_{2} | | {\overset{r}{s}}_{0} | | \sin a_{2} |

系统的最小化风险209为：

R_{\min}^{(l)} (S_{1}, S_{2}) = [2 + 2 | W_{1} | | {\overset{r}{r}}_{0} | | {\sin a}_{1} - W_{2} | | {\overset{r}{s}}_{0} | | {\sin a}_{2} | - | | {\overset{r}{r}}_{0} | | | | {\overset{r}{s}}_{0} | | \cos a_{1} {\cos a}_{2}] / 4 | | {\hat{d}}_{0} | |

代表状态S₁的Bloch向量范数，

代表状态S₂的Bloch向量范数，

为和

的相关向量范数；

可以看出最小化风险仅与两类状态及其先验分布有关，系统输出210为最小化风险对应的错误分类误差。