CN101136199A

CN101136199A - 语音数据处理方法和设备

Info

Publication number: CN101136199A
Application number: CNA2006101151964A
Authority: CN
Inventors: 韩兆兵; 鄢达来; 付国康
Original assignee: International Business Machines Corp
Current assignee: Nuance Communications Inc
Priority date: 2006-08-30
Filing date: 2006-08-30
Publication date: 2008-03-05
Anticipated expiration: 2026-08-30
Also published as: US7957959B2; CN101136199B; US20080059156A1

Abstract

本申请涉及语音数据处理方法和设备。其中，对多个第一语音数据获取基频和至少一个共振峰频率；以所获取的基频和共振峰频率作为特征，构成第一特征空间；利用所述第一特征空间，对所述多个第一语音数据进行分类，从而获得多个语音数据类别及其相应的特征描述。

Description

语音数据处理方法和设备

技术领域

本申请涉及语音数据处理方法和设备，以及相应的程序产品。

背景技术

自动语音识别技术(ASR，automatic speech recognition)用于识别说话人所说的内容，已经有一定的发展历史，在识别语音的内容过程中，由于声音环境变化很大，例如说话人、讲话风格、背景噪声的不同以及不同的音频传输通道，自动语音识别实现起来仍然很困难。为了解决此问题，已在较多地关注使用语音数据归一化和自适应技术，以应付高度异质化的语音数据。

语音数据归一化包括传输通道归一化、麦克风归一化、语速归一化、说话人规整和倒谱归一化等。其中，说话人规整是消除语音数据异质化的归一化方法中一种常用的方法。对于说话人的归一化，主要是对其语音频谱进行归一化，归一化因子常称为“规整因子(warpingfactor)”。规整因子反映了相应类的说话人的特征，用于对相应语音频谱进行归一化(规整)。使用说话人规整方法后，可以消除语音中由于说话人本身声学特性、讲话风格的不同造成的差异，使归一化后的语音更易于识别其内容。

因此，在语音识别中，说话人规整的过程可以认为是语音内容识别阶段之前的“预识别”或者说“预处理”阶段，即，在进行语音内容识别之前，首先识别语音数据的类别(相应于说话人的类别)，在依据说话人的类别对语音频谱进行规整之后，再对其进行内容的识别。

而这个“预识别”或者说“预处理”又包括两个阶段，即识别说话人类别，然后依据所识别的说话人类别的特征来对语言频谱进行归一化。从而消除因不同说话人的声道差异对文本内容识别的影响。根据应用的目的不同，说话人的类别可多可少。例如，类别少时通常可以按“男性”和“女性”或“成人”、“小孩”和“老人”的标准分类。如果细分成更多的类别，甚至可以具体到每一个人，即识别出说话人，每一个人为一个类别。但是这样带来的计算量很高。

通常的规整方式是，每一个说话人类别对应于相应的规整因子。规整因子物理上实际是对说话人的频谱进行压缩或者伸展。在线性规整中，对于每一类人是一个规整因子，即对说话人频谱进行线性规整；而在非线性规整中，则对于每一类人可能是多个规整因子，即对说话人频谱进行非线性规整。

说话人类别的识别与通常的识别过程一样，分为训练和识别两个阶段。训练阶段完成后，就形成了不同的说话人的类别及其分类器。在识别阶段，用训练阶段得到的分类器将语音样本归入相应的说话人类别。

传统上，为了获得规整因子，基本上有两种方法：参数法，例如美国专利US6236963(Speaker Normalization Processor Apparatus forGenerating Frequency Warping Function，and Speech RecognitionApparatus with Said Speaker Normalization Processor Apparatus)，或者线性搜索法(linear search)。

在广泛使用的参数法说话人规整技术中，声道长度归一化(VTLN，vocal tract length normalization)是减少说话人之间的变化的最普遍的方法之一。声道长度归一化实际是对说话人的频谱进行归一化。声道就是人体内用于发声的通道，包括唇、口腔等等发声器官。各种发声器官的位置和形状决定了所发出的声音。换言之，也就是声道的形状决定了所发出的声音。从广义上讲，声道长度是声道形状的要素之一。但是在语言规整领域中，声道长度区别于声道形状，也就是声道形状是指声道长度之外的形状要素。

在常规的参数法中，采用无监督的GMM(混合高斯模型)，具体过程包括训练阶段和识别阶段，在训练阶段，对训练样本进行无监督分类，分类后采用GMM模型来描述分类器，然后对每一类别的说话人采用同一规整因子。由于反映不同说话人之间的声道差异的声道长度(VTL，vocal tract length)与共振峰位置有关，因此能够基于线性预测模式计算得到反映声道长度的共振峰频率。其缺点是，共振峰频率及其与VTL的关系与上下文具有高度相关性(见LiLee，RichardC.Rose，″Speaker Normalization Using Efficient Frequency WarpingProcedures，″in Proc.ICASSP Vol.1，pp.353-356，Atlanta，GA，May1996)，因此即使对于同一说话人，也可能随不同的上下文而发生明显变化。而现有的参数法规整特征选取时没有考虑基频，只采用了共振峰频率，并且，现有的参数法没有考虑到声道长度与上下文具有高度相关性，其分类过程没有考虑上下文。但是，参数法计算量小，计算结果稳定，目前仍然是应用较为广泛的方法。

另外一种的线性搜索法中，通过在给定内容识别阶段的特定声学模型的情况下使识别语句的概率最大化来进行说话人分类。严格来讲，基于线性搜索因子的归一化不是严格意义上的声道长度归一化，因为分类的方式是提高内容识别阶段声学模型的匹配度(matching score)，反映的不仅是声道长度的差异，而是各种因素的综合差异。例如，声道形状(vocal tract shape)变化也可能影响线性搜索规整因子。

线性搜索的主要缺点在于计算成本高，因为需要针对每一个可能的类对语音进行解码处理，然后选择匹配度最佳的一个类。而且，利用最大似然性(Maximum Likelihood)准则来寻找与内容识别阶段声学模型的最佳匹配度来分类，会导致分类非常依赖内容识别阶段声学模型。其结果非常不稳定。见Zhan Puming，Waibel Alex“Vocal tractlength normalization for large vocabulary continuous speechrecognition”，CMU-CS-97-148，May 1997。

发明内容

鉴于以上问题，本发明的目的在于提供-种改进的语音数据处理方法和设备，以合理的计算量改进说话人分类，从而有助于提高语音内容识别率。

为实现该目的，本申请提出的技术方案用基于说话人个体声学特征的VTSL(声道形状和长度)方法来解决上述问题，提出了一种改进的说话人语音数据处理方法和设备，其使用与说话人个体的声道长度和形状相关的共振峰频率和基频作为特征参数来进行分类分析以训练分类器。

在本发明中，首先由说话人特定的共振峰来得出与声道长度对应的共振峰频率以及与声道形状对应的基频，然后，共振峰频率和基频就可以用于对说话人进行分类分析，训练用于与说话人无关的语音识别的说话人分类模型。这样，在识别处理中，采用说话人分类模型来选择具体的说话人类别。进而，可以将说话人类别映射到规整因子，利用规整因子对该说话人的语音进行归一化。

具体来说，本发明提供了一种语音数据处理方法，包括下述步骤：对多个第一语音数据获取基频和至少一个共振峰频率；以所获取的基频和共振峰频率作为特征，构成第一特征空间；利用所述第一特征空间，对所述多个第一语音数据进行分类，从而获得多个语音数据类别及其分类器。

本发明还提供了一种语音数据处理设备，包括：基频提取器，用于提取语音数据的基频；共振峰频率提取器，用于提取语音数据的至少一个共振峰频率；以及以所获取的基频和共振峰频率作为特征，构成第一特征空间，通过利用所述第一特征空间对多个第一语音数据进行分类，从而获得多个语音数据类别及其分类器的装置。

本发明还提供了实现上述方法的程序产品。

根据本发明，通过选取与现有语音归一化技术不同的特征，定义新的特征空间，更全面地描述说话人对文本识别因声道差异的影响。从而，较好的解决了说话人分类的计算复杂度和精度平衡问题，一方面避免了线性搜索法的繁重计算量，另一方面实现了比传统的参数法更高的精度。实验结果也证明了本发明的有效性。

在本发明的方案中，在训练时可以进行有监督分类，从而比采用无监督分类的方案具有更大的优越性，避免了无监督分类的盲目分类。此外，对于每一类的规整因子的具体值，可以是先验的，也可以根据分类结果计算得到。

在一种优选实施方案中，还考虑上下文，引入先验的语音学知识作为训练分类器的启发式信息。通过将语音学知识作为分类的启发式信息，对说话人的分类进行更详细的刻画，增加分类的准确性，从而提高获取规整因子的准确性。

在更为优选的方式中，利用维特比对齐对语音样本进行语音学标记。通过采用维特比自动标记训练样本，大大提高了分类样本类别标记的准确性。

在另一种优选的实施方式中，所述构成特征空间的步骤还包括对所述特征空间去相关，以减少特征维数。通过对特征进行去相关，减少了冗余信息，一方面减少了计算量，另一方面增加了特征的区分性，减少了冗余信息对识别精度的干扰。

附图说明

下面结合附图对本发明的具体实施方式加以说明。附图中：

图1为根据本发明的一个实施例的语音数据处理方法的流程图；

图2为根据本发明的另一个实施例的语音数据处理方法的流程图；

图3为根据本发明的一个实施例的语音数据处理设备的示意图。

图4为用于说明规整因子的获取的曲线图。

具体实施方式

从《语音编码》(王炳锡，西安电子科技大学出版社，2002年7月版)(Bingxi Wang，Speech coding，Xidian University Press，China，Jul，2002)知道(如表1)，在辅音相同的情况下，对于普通话的六个元音的共振峰频率，以及对于不同的说话人(例如男声和女声之间)，对应的共振峰的位置都有变化。考虑到当同一人发不同的元音的时候声道长度并没有变化，变化的只是声道形状(口形等)，可知在不同的人之间、在不同的元音之间，共振峰位置的变化和声道长度的变化并不是完全一致的。这是因为不同的声道形状对同一频率产生不同的响应。因此，不同的声道形状导致不同的频率翘曲，不同的频率翘曲导致了不同的共振峰位置。声道形状(vocal tract shape)导致的共振峰位置对确定说话人类别起重要的作用。

表1普通话中六个元音的共振峰频率F1-F3的分布(单位：Hz)

		i	u	ǔ	a	o	e
		i	u	ǔ	a	o	e	F1	男声	290	380	290	1000	530	540
女声	320	420	320	1230	720	75O			男声	290	380	290	1000	530	540
女声	320	420	320	1230	720	75O	F2		男声	2360	440	2160	1160	670	1040
女声	2800	650	2580	1350	930	122O			男声	2360	440	2160	1160	670	1040
女声	2800	650	2580	1350	930	122O		F3	男声	3570	3660	3460	3120	3310	3170
女声	3780	3120	700	2830	2930	3030			男声	3570	3660	3460	3120	3310	3170

但是，尽管共振峰位置的上述变化在一定程度上反映了声道的形状，但共振峰仍然主要反映声道的长度。在背景技术部分所述的传统的参数法中，使用的就是共振峰频率，也仅仅(或者主要)反映声道的长度，而不能很好地反映声道的形状。发明人进一步发现，基频能够很好地反映声道的形状。因此，本发明的基本思想，在于在参数法说话人识别中，同时考虑声道长度和声道形状，也就是同时考虑共振峰频率和基频。

【语音数据处理方法】

本发明的图1根据本发明的一个实施例示意性地示出一种说话人规整因子获取方法。该方法分为几个步骤，首先，步骤101是一个特征提取步骤，对训练语音样本获取基频和至少一个共振峰频率；步骤102为特征空间构成步骤，以所获取的基频和共振峰频率作为特征，构成特征空间；步骤103为训练说话人类别分类器步骤，通过利用所述特征空间对训练语音样本进行分类，从而将训练语音样本分成一定数量的类别，并获得其相应的特征描述，从而获得说话人类别分类器。

下面，申请人详细给出备步骤的实现方法。特征提取步骤101用基频提取器和共振峰频率提取器实现。显然，在特征提取步骤101，基频提取和共振峰频率提取并无先后之分，可以按照任何顺序或者同时进行。

该基频提取器可以采用任何基频估算方法。例如可以使用类似于D.Chazan，M.Zibulski，R.Hoory，and G.Cohen，″EfficientPeriodicity Extraction Based 0n Sine-wave Representation and itsApplication t0 Pitch Determination of SpeechSignals″,EUROSPEECH-2001，Sept.3-7，2001，Aalborg Denmark中所描述的估算基频的方法。在该文献中，语音信号被模型化为正弦波的有限和，具有随时间变化的幅度、相位和频率。假设语音信号x(t)可以被近似为正弦波的有限和，令x(t)的近似为下述形式：

x (t) = Σ_{i = l}^{N} a_{i} \sin (2 π f_{i} t + φ_{i}) - - - (1)

其中

{a_{i}, f_{i}, φ_{i}}_{i = 1}^{N}

分别为为N个正弦波的幅度(正的，实的)、频率(Hz)和相位偏移(弧度)。其傅立叶变换和辅助函数如下：

X (f) = {&Integral;}_{- \infty}^{+ \infty} x (t) e^{- j 2 πft} dt - - - (2)

U (f) = {&Integral;}_{0}^{+ \infty} c_{f} (v) | X (v) | dv - - - (3)

对于每一个候选基频f，梳齿函数c_f(v)被定义为其在对应于候选基频谐波(pitch harmonics)的参数v＝f，2f，3f，...处的最大值。

选择使辅助函数(3)最大化的频率F0作为信号x(t)的基频。

F_{0} = \arg m \underset{f}{a} x {U (f)} - - - (4)

如前所述，基频的提取步骤以及基频提取器可以使用任何已有或者将有的方法。例如还可以使用下述方法：

1.AMDF(平均幅度差函数)

该技术是自动相关分析的一种变型，利用通过将输入的语音延迟各种不同的量并将原始波形与延迟后的波形相减得到的差。对于具有准周期性结构的语音声音来说，该差信号总是在延迟＝

时为零。与自动相关函数的生成不同，AMDF计算不要求进行乘法，而这是实时语音处理所希望的特性。

2.NCCF(归一化互相关函数)

归一化互相关函数(NCCF)如下定义：

给定语音样本的一个帧s(n)，0≤n≤N-1，则有：

NCCF (k) = \frac{Σ_{n = 0}^{N - k} s (n) s (n + k)}{\sqrt{e_{0} e_{k}}}

其中

e_{k} = Σ_{n = k}^{n = k + N - K} S^{2} (n),

0≤k≤K-1

同样，共振峰频率的提取和共振峰频率提取器104也可以采用任何已有和将有的方法。

其中一种方法是基于LPC(线性预测系数，Linear PredictionCoefficient)的共振峰估算。LPC的变换函数为：

H (z) = \frac{1}{A (z)} = \frac{1}{1 - Σ_{k = 1}^{M} a_{k} z^{- k}} - - - (5)

其中A(z)是从语音波形得到的预测多项式，a_k是线性预测系数。如果等式A(z)=0，则得到M/2对共轭复数根

z_{i} = r_{i} e_{i}^{jθ}

z_{i}^{*} = r_{i} e_{i}^{- jθ} - - - (6)

其中r_i是根的模，θ是幅角。

许多有关语音处理的标准文献提供了以下从复数根(6)和采样率T_s到共振峰频率F和带宽B的变换：

F_i＝θ_i/2πT_s

B_i＝|logr_i|/πT_s (7)

在一般情况下，对于共振峰分析来说，五个共振峰分量就足够了。因此，M常设为8-10，也就是获得4-5个共振峰分量。显然，可以使用更少的共振峰分量或者更多的共振峰分量。但是，至少要采用一个共振峰分量来用于构造特征空间。

这样，就可以获得由基频F0和至少一个共振峰频率(例如F1到F4)构成的特征空间(步骤102)。构造出的这个包含基频和至少一个共振峰频率的特征空间可以直接用于对说话人进行分类。

在一种优选的实施方式中，对该特征空间去相关，从而获得正交特征空间。如前文所述，虽然F0很好地反映了声道形状，但是共振峰位置也在一定程度上受到声道形状的影响。也就是说，F0与共振峰频率有一定的相关性。因此，一方面为了去除所述相关性，另一方面为了降低计算量，对该特征空间进行去相关处理，以去除特征之间的相关性，降低特征空间的维数，构成特征空间的步骤中的去相关处理可以应用的一种去相关处理是主成份分析(PCA，principal componentanalysis)。在PCA之后，可以选择由前面几个特征值形成的基本集作为子空间，例如，在该实施例中，选择3个特征值，也就是将上文所例举的5维特征空间降为3维，从而得到三维特征集v_p(t)＝Av_f(t)，其中A表示PCA矩阵。此外，也可以使用的其他去相关方法还包括K-L变换、奇异值分解(SVD)和DCT变换等。

在训练步骤103中，现有技术的参数法都是首先采用聚类分析进行无监督分类，由用户根据自己的经验指定类别数，或者直接借助聚类算法分出一定数量的类别，然后将分类后的训练样本采用GMM模型进行描述。本发明也可以直接采用这种分类器进行分类。另外，本发明也提供了一种优选的分类实施方式：有监督分类。典型的有监督分类可以直接采用GMM模型，即用对角高斯概率密度(diagonalGaussian probability density)直接刻画分类器。图2根据一个优选实施例示意性地示出了有监督分类的过程。

有监督分类需要先验地确定语音样本所属的类别，即预先对语音样本的类别进行标记(未图示)。这个标记步骤可以在训练步骤103之前任何时候进行，甚至在特征提取步骤101之前。

为了使分类更为精确，发明人还对该技术进行了进一步的改进。在传统的参数法中，采用的是盲搜索，不考虑发音单元对声道的影响。即只按照“男声”、“女声”或者类似的方式进行分类。而如前所述，由于同一人对同一辅音发不同的元音时，声道形状也有变化，因此有必要在聚类时考虑不同的元音。因此，在本发明中，将先验的语音学知识引入对说话人规整分类器模型的训练中。具体地，在本发明中，将不同的元音，例如普通话元音音素a，o，e，i，u，ü中的多个或者全部作为分类的标准。例如，可以按照“男声”、“女声”以及所有六个元音音素组合进行分类，从而可分2×6＝12类，其中每一类对应于自己的规整因子(但这并不排除其中某些类的规整因子可以是相同的)。或者，还可以按照“老人”、“成人”、“孩子”和元音音素，分为3×6＝18类。通过这样定义，形成了针对不同的人与不同的元音音素的不同组合的分类，可以增加分类的精度。根据元音因素进行分类后，将训练语音样本标注上其类别。

对语音样本的标记例如可以使用例如维特比对齐(Viterbialignment)获得。同样，对齐方式亦不限于Viterbi对齐，还可以使用手工对齐、DTW(Dynamic time warp，动态时间规整)对齐等。标记训练语音样本所属的反映说话人的类别可以在训练步骤开始之前的任何时候进行，甚至可以在特征提取步骤之前进行。

这样，标记用于分类器训练的语音样本的类别后，就可以在步骤103进行分类器的有监督训练。可以通过例如基于聚类标记的期望值最大化算法(expectation-maximization algorithm)来完成，也可以采用其他算法。在训练过程中，用向量集v_p(t)训练说话人规整分类器，例如GMM分类器。显然，分类器不限于GMM分类器，而可以使用任何本领域技术人员可以知道的有监督分类器，例如NN(neuro-network，神经网络)分类器、SVM(Support Vector Machine，支持向量机器)分类器等。

这样，经过以上的步骤，就完成了对说话人类别分类器的训练。

下面描述利用上述方法训练的分类器进行对语音数据进行分类的过程。

如图2所示，说话人类别识别过程包括特征提取步骤201、构成特征空间的步骤202以及识别步骤203。其中，识别过程中的特征提取步骤201和构成特征空间的步骤202与训练阶段的特征提取步骤101、构成特征空间的步骤102是一样的，只不过处理的对象变成待识别的语音数据。因此在这里省略其详细说明以及其所有优选实施方式的说明。

在识别步骤203中，利用在步骤201、202中得到的待识别的语音数据的特征，利用训练阶段获得的分类器将待识别的语音数据分入合适的类，即完成了整个说话人类别识别过程。

在优选的实施方式中，如果在训练阶段对特征空间进行了去相关，则在识别阶段，也需要对特征空间进行相应的去相关。

如前所述，本发明的上述训练和识别过程是说话人规整的第一阶段。为了更好地理解本发明，在这里也介绍接下来的频谱规整阶段。

概言之，频谱规整就是利用各种说话人类的特征，来消除各说话人类之间的特征差异，可以有多种方式多种途径。对于各类说话人而言，一个显著的区别是频谱宽度不同。因此为了内容识别的准确，需要在内容识别之前将它们变得一致。这样，在目前，主要的手段是拉伸或者压缩语音频谱。

在这种情况下，拉伸或者压缩的比例就是规整因子。

在类别确定的情况下，规整因子可以用各种手段获得，例如它完全可以是经验值，可以通过统计手段得到。对于本发明而言，规整因子可以是外部的、先验的。通过本发明对说话人分类以后，在规整过程直接利用与说话人类相应的规整因子就可以了。

在本发明的一种优选实施方式中，在训练步骤之后，还可以包括一个频谱规整因子获取步骤(未图示)，用于对每一个类别给出相应的频谱规整因子。相应地，在识别阶段，一旦语音数据被分入某一类，也就确定了其应当使用的规整因子。

通常，规整因子取值范围是0.8～1.2。当确定各类的规整因子时，可以采用线性方法和非线性方法。

线性方法就是将0.8～1.2均分。例如，在GMM模型下，对于语音样本计算出来的是概率密度函数，每一类别对应一个概率密度函数范围，整体上，该概率密度函数在0～1之间。将各类的概率密度函数范围按照从小到大排列起来，对应将0.8～1.2之间的值等分，然后将二者之间一一对应起来，就获得了各类的规整因子。例如，对于12类的情况，依各类的概率密度函数从小到大范围，其规整因子分别为：0.8，O.8+(1.2-0.8)/12，O.8+2*(1.2-0.8)/12，......，0.8+11*(1.2-0.8)/12。

非线性方法就是不对规整因子取值范围进行均分，以便规整因子对各类而言更为精确。在非线性映射中，有一种采用格搜索(grid)的概率函数方法，在规整因子α的取值范围(0.8～1.2)中，取13格，然后试探每个规整因子α对声学模型HMM的匹配程度，取匹配值最高的为当前说话人类别对应的α．具体讲，可以定义如下的映射函数

{\hat{α}}_{i} = \underset{α}{\arg \max} \Pr (X_{i}^{α} | λ, W_{i})

其中，λ为HMM声学模型，W_i为相对应的语音的脚本，为说话人第i类的语音样本被规整因子α规整后的语音。函数Pr()计算和声学HMM模型λ的匹配度(似然函数值)。

当然我们也可以定义如图4所示的二次函数，或者高次函数，图中I为线性映射，II为二次映射，具体二次函数的参数可以根据II的具体形状来确定。

这样，本发明的方案就可以同时利用基频和共振峰频率更好地对说话人分类器进行训练，从而获得更好地反映说话人的声道特征(包括长度和形状)的类。进而，可以对语音频谱进行更精确的规整，获得更好的语音内容识别率。

在实践中，对于即将来临的任务会话，一般可以采用第一个语句来检测说话人聚类。在一个会话中，说话人常常不会改变，可以共用同样的规整因子。但是，运用本发明所得到的规整因子对语音样本进行规整，对规整后的语音样本可以进行内容识别的过程，内容识别的过程不属于本发明的范围。

在上面的优选的实施方案中，可以对不同的元音获得不同的规整因子。如果语音识别设备的计算能力允许，可以在规整时亦针对每一个元音进行规整。但是在一般情况下，在通过本发明进行聚类并获得多个规整因子后，可以综合这些规整因子获得单一的规整因子，用于对该类说话人进行规整。

下面说明一个应用本发明的方法获得的规整因子进行语音频谱规整和识别的例子。

令x(t)是输入的语音信号，O_α(n)是经过规整后的第n个滤波器的输出α是所得到的与说话人相关的规整因子，那么：

其中

是规整函数。O_α(n)与对说话人特定的规整因子以及规整规则相关。Tn(w)是第n个滤波器的输出，hn、In是第n个滤波器的频率的上下边界，X是语音信号。

为了解决规整后的语音样本与内容识别分类模型之间的带宽失配，可以使用分段规整规则，以保证规整后的频谱带宽与分量模型匹配：

其中，公式(10)中的w0是通过实验设定的固定频率。由w0可以计算得到b、c。根据公式(10)，α>1.0意味着压缩频谱，α<1.0对应于展开频谱，α=1.0对应于无规整的情况。

上面的例子是线性规整。如前所述，规整可以是线性规整，也可以是双线性规整或者非线性规整等。

双线性规整：

其中是规整函数，α为规整因子。

非线性规整：

其中

是规整函数，α为规整因子。w0是通过实验设定的固定频率。

对于双线性和非线性规整，就本发明而言，不同之处在于规整因子不同，但这都属于本领域的常规手段，因此在此不再赘述。

【语音数据处理设备】

图3示意性地图示了本发明的语音数据处理设备的一种实施方式，其包括对训练语音样本获取基频的基频提取器302和对语音样本获取至少一个共振峰频率的共振峰频率提取器304，以及训练装置306。训练装置306利用所述基频和所述至少一个共振峰频率构成的特征空间对训练语音样本进行分类，从而将训练语音样本分成一定数量的类别，并得到相应的特征描述，从而获得说话人类别分类器308。

基频提取器302和共振峰频率提取器304在前文已作描述，在此不再重复。

训练装置306所完成的训练过程在前文也已详细描述。

在一种优选的实施方式中，可以在训练装置306之前插入一个对基频提取器302提取的基频和共振峰频率提取器304提取的共振峰频率构成的特征空间去相关，以减少特征维数的装置，从而获得正交特征空间。对此前文也有详细描述。

如前文所述，训练装置306可以进行无监督分类，也可以进行有监督分类。当进行有监督分类时，本发明的语音数据处理设备还包括用于先验地标记训练语音样本所属的类别的装置。该装置可以采用维特比对齐方法来进行标记。也可以如前文所述采用任何可能的标记方法。

同样，为了考虑上下文以进行更为精确的分类，用于先验地标记训练语音样本所属的类别的装置可以被进一步配置为先验地用语音学知识对语音样本进行标记(例如先验地标记语音音素)，从而获得综合反映说话人和所述语音学知识的类别。

同样，作为优选实施方式，还可以在本发明的语音数据处理设备中嵌入用于对每一个说话人类给出相应的频谱规整因子的装置。具体方式前文已有描述。

在一种优选实施方式中，本发明的语音数据处理设备还包括经过训练装置306训练得到的说话人类别分类器。说话人类别分类器308将基频提取器302和共振峰频率提取器304得到的待识别的语音数据的特征与分类器中的各类的特征进行比较，从而将待识别的语音数据分入合适的类。然后可以利用各类语音数据相关联的频谱规整因子对该待识别的语音数据进行频谱规整，从而便于语音数据内容的识别。本发明的语音数据处理设备的其他方面，请参见前文对语音数据处理方法的描述。

为了评估本发明的效果，对与说话人无关的普通话语音识别进行了一系列实验。用IBM公司的自动语音识别(ASR)系统的内部录制数据库提供的所有声学训练数据训练声学模型。测试数据是在稳定的办公室环境下录制的。对三个任务，在不对讲话风格作出任何限制的情况下记录了120个说话人(60名男性，60名女性)。每个说话人有15个语句。

ASR系统的主要特征概括如下：从13维MFCC(Mel频率倒谱系数)获得40维声学特征，接下来应用短时LDA和MLLT，其声学模型由大约3k HMM状态和33k高斯混合(Gaussian mixture)构成。搜索引擎基于A^*启发式堆栈解码(heuristic stack decode)。

为了验证本发明的算法消除说话人变化的效率，进行了三个任务的实验。前两个是孤立词模式，第三个是连续数字识别(长度从3到8)，代表不同的应用：

1.人名

2.股票名称

3.数字

实验对比了四种方法：基线系统(不进行说话人频谱规整)、参数法(传统的参数法)、线性搜索法、以及本发明的方法VTLS。通过这些方法对相同的应用进行不同的说话人频率规整，然后采用相同的语音内容识别方法进行语音内容识别，通过比较语音内容识别的错误率来比较不同的说话人语音规整方法的优劣。

表2用VTSL进行的三个任务的单词误差率

任务		错误率(％)
任务		错误率(％)	人名	基线系统	5.72
参数法	5.52			基线系统	5.72
参数法	5.52	线性搜索		5.33
VTLS	4.86	线性搜索		5.33
VTLS	4.86	股票名称		基线系统	1.94
参数法	1.91			基线系统	1.94
参数法	1.91		线性搜索	1.85
VTLS	1.78		线性搜索	1.85
VTLS	1.78		数字	基线系统	3.32
参数法	3.21			基线系统	3.32
参数法	3.21	线性搜索		3.16
VTLS	3.11	线性搜索		3.16

表2表明了三个任务的单词识别错误率。规整规则基于公式(10)的分段模式。通过对人名、股票名称和数字使用VTSL，与基线系统(即没有使用说话人规整技术的系统)、参数法和线性搜索法相比，平均相关单词误差率降低了11.20％，8.45％，5.81％。

显然，本发明的语音数据处理优选方法和设备明显提高了识别率。

本领域普通技术人员知道，对于本说明书中所描述的各种部件和步骤，都有诸多替代方案可供使用。因此，本发明的保护范围不限于说明书中所述，而应包括其所有等效方案。

Claims

1.一种语音数据处理方法，包括下述步骤：

对多个第一语音数据获取基频和至少一个共振峰频率；

以所获取的基频和共振峰频率作为特征，构成第一特征空间；

利用所述第一特征空间，对所述多个第一语音数据进行分类，从而获得多个语音数据类别及其分类器。

2.如权利要求1所述的语音数据处理方法，还包括：

将每一语音数据类别与相应的频谱规整因子相关联。

3.如权利要求2所述的语音数据处理方法，其中，将每一语音数据类别与相应的频谱规整因子相关联的步骤包括：将所述多个语音数据类别线性映射到频谱规整因子的取值范围。

4.如权利要求2所述的语音数据处理方法，其中，将每一语音数据类别与相应的频谱规整因子相关联的步骤包括：将所述多个语音数据类别非线性映射到频谱规整因子的取值范围。

5.如权利要求1到4之一所述的语音数据处理方法，其特征在于，所述获得多个语音数据类别的步骤采用有监督分类法。

6.如权利要求5所述的语音数据处理方法，其特征在于，在所述获得多个语音数据类别的步骤之前任何时候，先验地标记所述多个第一语音数据所属的类别。

7.如权利要求6所述的语音数据处理方法，其特征在于，所述标记所述多个第一语音数据所属的类别的步骤采用维特比对齐方法。

8.如权利要求6或7所述的语音数据处理方法，其特征在于，在所述标记所述多个第一语音数据所属的类别的步骤中，进一步先验地用语音学知识对语音样本进行标记，从而获得综合反映说话人和所述语音学知识的类别。

9.如权利要求8所述的语音数据处理方法，其特征在于，所述先验地用语音学知识对语音样本进行标记包括对多个元音音素先验地进行标记。

10.如权利要求1到9之一所述的分类方法，其特征在于，所述构成第一特征空间的步骤还包括对所述第一特征空间去相关，以减少特征维数。

11.如权利要求1到9之一所述的语音数据处理方法，还包括下述步骤：

对第二语音数据获取基频和至少一个共振峰频率；

以所获取的基频和共振峰频率作为特征，构成第二特征空间；

利用所述第二特征空间，对第二语音数据采用使用第一语音数据获得的分类器进行分类，从而获得第二语音数据的类别。

12.如权利要求11所述的语音数据处理方法，其特征在于，对第二语音数据根据分类器所分类别，应用该类别语音数据所关联的频谱规整因子进行规整。

13.一种语音数据处理设备，包括：

基频提取器，用于提取语音数据的基频；

共振峰频率提取器，用于提取语音数据的至少一个共振峰频率；以及

以所获取的基频和共振峰频率作为特征，构成第一特征空间，通过利用所述第一特征空间对多个第一语音数据进行分类，从而获得多个语音数据类别及其分类器的装置。

14.如权利要求13所述的语音数据处理设备，还包括：

将每一语音数据类别与相应的频谱规整因子相关联的装置。

15.如权利要求14所述的语音数据处理设备，其中，将每一语音数据类别与相应的频谱规整因子相关联的装置包括：将所述多个语音数据类别线性映射到频谱规整因子的取值范围的装置。

16.如权利要求14所述的语音数据处理设备，其中，将每一语音数据类别与相应的频谱规整因子相关联的装置包括：将所述多个语音数据类别非线性映射到频谱规整因子的取值范围的装置。

17.如权利要求13到16之一所述的语音数据处理设备，其特征在于，所述获得多个语音数据类别的装置被配置为采用有监督分类法。

18.如权利要求17所述的语音数据处理设备，其特征在于，还包括先验地标记所述多个第一语音数据所属的类别的装置。

19.如权利要求18所述的语音数据处理设备，其特征在于，所述标记所述多个第一语音数据所属的类别的装置被配置为采用维特比对齐方法。

20.如权利要求18或19所述的语音数据处理设备，其特征在于，在所述标记所述多个第一语音数据所属的类别的装置还包括先验地用语音学知识对语音样本进行标记，从而获得综合反映说话人和所述语音学知识的类别的装置。

21.如权利要求20所述的语音数据处理设备，其特征在于，所述的“先验地用语音学知识对语音样本进行标记”包括对多个元音音素先验地进行标记。

22.如权利要求13到21之一所述的语音数据处理设备，其特征在于，所述构成第一特征空间的装置还包括对所述第一特征空间去相关，以减少特征维数的装置。

23.如权利要求13到21之一所述的语音数据处理设备，其中，

用所述基频提取器提取第二语音数据的基频，用所述共振峰频率提取器提取第二语音数据的至少一个共振峰频率，以所获取的基频和共振峰频率作为特征，构成第二特征空间；

该语音数据处理设备还包括：

利用所述第二特征空间，比较第二语音数据与所述多个语音数据类别，从而获得第二语音数据的类别的装置。

24.如权利要求23所述的语音数据处理设备，其特征在于，对第二语音数据根据分类器所分类别，应用该类别语音数据所关联的频谱规整因子进行规整。

25.一种用于实现权利要求1到12之一所述的语音数据处理方法的程序产品。