CN102203852A

CN102203852A - 建立语音模型的方法

Info

Publication number: CN102203852A
Application number: CN2009801440627A
Authority: CN
Inventors: 安德里亚斯·哈根; 布莱恩·培伦; 卡德里·哈吉奥卢
Original assignee: Rosetta Stone LLC
Current assignee: Rosetta stele Co.,Ltd.
Priority date: 2008-09-12
Filing date: 2009-09-10
Publication date: 2011-09-28
Anticipated expiration: 2029-09-10
Also published as: US8645135B2; EP2332139B1; CA2737142A1; EP2332139A4; EP2332139A1; KR101664815B1; US20100070278A1; KR20110084402A; JP5442016B2; WO2010030742A1; CN102203852B; CA2737142C; JP2012502327A

Abstract

本发明提供了一种能够推导出转换式的方法，该转换式是利用处理过程将男性语音模型转换为女性语音模型时所需的。首先，该转换式经过预定修改，然后将修改后的转换式施加到女性语音模型上，以生成合成的儿童语音模型。其中，男性语音模型和女性语音模型可以用向量表示，该向量代表定义每个语音模型的关键数据，并且得出的转换式可以是能够将男性语音模型向量转换成女性语音模型向量的矩阵形式。对所得出的矩阵的修改包括对该矩阵进行p次幂运算，其中0＜p＜1。

Description

建立语音模型的方法

技术领域

本发明一般涉及语音识别，更具体地，涉及利用已知的成人语音模型建立儿童计算机语音模型的方法。

背景技术

计算机语音识别已经在各领域中得到广泛应用，语音识别的一项有益应用是在语言学习方面。具体地，如果学习者在实际中以某种语言发音，并且他的语音受到监测和评价，那么他就能以更加自然的方式学习这门语言。对实现上述应用来说，仅需少量训练或者不需要训练的用计算机方法实现的通用的语音识别是理想的选择。例如，学习者可以先听预先制作好的母语人士的录音，并且可以尝试模仿该录音。语音识别程序监测学习者的语音，认可其正确的表述，而每当出现错误时则指出来。然后，学习者可以重试，直至其发音正确为止。

目前，已存在很多语种的计算机语音模型，并且可以按上述方式使用。这使得学习者可以在个人电脑上按自己的进度来学习语言。然而，语音模型往往是成人语音模型。另一方面，对于儿童来说学习语言特别容易，儿童时期学习语言是最有效的。不过由于儿童语音具有特殊性(女性的声音比男性的声音更加多变，然而儿童说话的音调甚至比女性的音调更高，并且比女性的声音更加多变)，所以不容易得到儿童语音模型，并且成人语音模型对于儿童而言效果也不佳。

因此，期望能够利用已知的男性和/或女性的成人语音模型来建立相同语种的儿童语音识别模型。

发明内容

本发明涉及利用一种转换式将成人语音模型进行转换，从而获得儿童语音模型。已经得到从成年男性语音到成年女性语音的转换式，所述转换式是在将成年男性语音转换为成年女性语音时所需要的。根据本发明，所述转换式可以经过预定修改，然后可把修改后的转换式施加到女性语音模型，以得到有效的儿童语音模型。因此，优选的具体实施方案包括三个步骤：1)利用两种成人语音模型推导出能表示两者关系的转换式，其中，将该转换式施加到第一种成人语音模型上，可以大体得到第二种成人语音模型；2)修改该转换式；3)将修改后的转换式施加到第二种成人语音模型，以生成第三种语音模型。

下面介绍男性语音向量和女性语音向量。男性语音模型和女性语音模型可以包括多组向量(每个音位状态的高斯分布的均值向量)。每个模型可能包括数千个向量。当估算的转换式施加到一个模型的所有均值向量时，使两模型之间总的均方差最小化。当然，也可以采用其它误差度量方法，例如最大似然法。在每个模型中多次施加所述转换式，并且对每个向量施加一次所述转换式。这也可以从数学角度来理解：一个均值向量有39维，转换矩阵即为39维。基于HMM的采用高斯分布的声学模型可以参见下列文献：“a tutorial on hidden Markov models and selected applications in speech recognition，Rabiner，L.R.，Proceedings of the IEEE，Volume 77，Issue 2，Feb 1989，Pages：257-286”。

优选地，男性语音模型和女性语音模型可以用向量表示，该向量代表定义每个语音模型的关键数据。然后，转换式(优选为矩阵形式)可以将男性语音模型的向量转变为女性语音模型的向量。简单地说，该转换过程仅仅是将男性语音向量乘以转换矩阵。然后，修改该转换矩阵，接着用修改后的矩阵将女性语音向量转变为合成的儿童语音向量。对矩阵的修改包括对该矩阵进行p次幂运算(0＜p＜1)。p的取值，优选地，约为0.25到0.7；更优选地，约为0.4到0.5；最优选地，约为0.5。

附图说明

下面结合附图对本发明目前优选但仅为示例性的具体实施方案进行详细说明，从而可以更全面地理解本发明的上述简要说明和下述目的、特点及有益效果。其中：

图1表示系统的隐马尔可夫模型的示例性状态图；

图2表示假负率随用于生成转换矩阵的幂值变化的曲线，该转换矩阵用于将英语的女性语音模型转化为儿童语音模型；

图3表示假负率随用于生成转换矩阵的幂值变化的曲线，该转换矩阵用于将西班牙语的女性语音模型转化为儿童语音模型；

图4表示本发明所要保护的方法的实施方案的简要流程图。

具体实施方式

“隐马尔可夫模型”(HMM，hidden Markov model)是一种统计模型，其中假定建模系统是含有未知参数的马尔可夫过程。在使用该模型时，隐含的参数是由可观察的参数确定的。然后，推导出的模型参数可以用来做进一步分析。

在正常的马尔可夫模型中，系统的状态对观察者是直接可见的，因此状态转移概率是仅有的参数。在隐马尔可夫模型中，系统的状态对观察者不是直接可见的，但是受状态影响的变量是可见的。每个状态在可能输出的信号上具有一定的概率分布。因此，HMM产生的输出信号序列提供了一些关于状态序列的信息。

例如，图1表示系统的隐马尔可夫模型的状态图。该系统具有三个状态X1、X2和X3。状态转移概率是用字母“a”加上表示转移的数字表示的。例如，“a12”表示从状态X1到状态X2的转移概率。在每个状态还有多种可能的输出(这取决于状态序列)，这些输出用字母“b”加上两个数字表示。方框Y1、Y2、Y3和Y4表示可能输出的观察数据，根据这些观察数据，可以确定系统的状态。

当前模型中，目标参数是HMM状态的平均值。多个平均值可以组成“向量”。例如，与男性语音模型相对应的状态平均值序列可以组成男性语音模型源向量m，所述男性语音模型源向量m包括与每个状态平均值相对应的分量。也可以为女性语音模型建立类似的向量f，使男性语音向量中的每个分量映射到女性语音向量中的相应分量。于是，可以定义矩阵形式的转换式T，使f＝T*m，其中，f表示女性语音向量，m表示男性语音向量，而T*m表示矩阵与向量相乘，其为向量的转换。

对矩阵T的良好估计值将会使T*m与f之间的方差最小化。这可以用数学式(1)来表示：T＝arg min_A(Am-f)² (1)

利用数学式(1)可以递归得到矩阵T。矩阵A可以初始化为单位矩阵。然后，如数学式(2)所示，可以用梯度下降法更新每个矩阵项a_ij：

\frac{&PartialD;}{&PartialD; a_{ij}} [2 (A_{i} m - f) m_{j}] - - - (2)

其中，A_i表示矩阵A的第i行。对所有的向量对(m，f)多次实施梯度下降法，以使矩阵收敛到可接受的转换矩阵T的近似值。

根据本发明，通过将修改形式的矩阵T施加到女性语音向量上，使女性语音模型转换为儿童语音模型，从而可以生成合成的儿童语音模型。修改后的转换矩阵是通过对矩阵T进行p次幂运算而得到，即矩阵T’＝T^p，其中p为分数，0＜p＜1。p的取值，优选地，约为0.25到0.7；更优选地，约为0.4到0.5；最优选地，约为0.5。而且，p不随语言变化。即，无论是哪种语言，所有的语音模型基本都取相同的最佳p值进行幂运算。

图4的流程图概括了本发明所公开的建立儿童语音模型的过程。该过程从方框100开始。在方框102，在现有的男性语音模型与现有的女性语音模型之间作相关处理，以推导出由男性语音模型生成女性语音模型的转换式。在优选的具体实施方案中，这是通过如下迭代过程来完成的：已知表示男性语音模型的向量和表示女性语音模型的向量，推导出转换矩阵。

在方框104，对转换矩阵进行调整。在优选实施例中，这相当于对转换矩阵进行幂运算(幂值取值范围为0到1)。

在方框106，将调整后的矩阵施加到女性语音模型上，以形成合成的儿童语音模型。处理过程在方框108处结束。实验

利用数学式(1)和数学式(2)所述的方法，可以生成与英语或西班牙语的现有男性语音模型以及现有女性语音模型有关的矩阵T。也可以获得各语种的有效的儿童语音模型。可以为各语种模型生成转换矩阵，并且利用多个0到1的p值可以生成各语种的一系列的不同转换矩阵。然后，用实际的儿童语音对采用不同p值的转换矩阵进行测试，从而测定不同p值下的语音模型的质量。图2表示英语的合成儿童语音模型下，假负率的相对减小量(百分比)与加到转换矩阵上的幂值p之间的函数关系。假负(FN)在实际正确的发音被检测为错误时出现。

表1总结了当语种为英语时，从男性语音模型、女性语音模型、合成的儿童语音模型以及基准的儿童语音模型所得出的结果。该表1不仅指示出假负率，还指示出假接受率。假接受即实际错误的发音被误认为正确。表1 英语语音模型的性能

	与基线相比，假负率的相对减小量	假接受率
			男性语音模型	基线	＜1.0％
女性语音模型	28.1％	＜1.0％
			合成的儿童语音模型	50.3％	＜1.0％
实际儿童语音模型	63.8％	＜1.0％

与图2类似，图3表示当语种为西班牙语时，p值对合成的儿童语音模型的假负率相对减小量(百分比)的影响。表2总结了当语言是西班牙语时，男性语音模型、女性语音模型、合成的儿童语音模型以及基准的儿童语音模型的性能。表2 西班牙语语音模型的性能

	与基线相比，假负率的相对减小量	假接受率
			男性语音模型	基线	＜1.0％
女性语音模型	45.1％	＜1.0％

合成的儿童语音模型	52.1％	＜1.0％
			实际儿童语音模型	59.6％	＜1.0％

儿童语音比成人语音更加多变。对此，将语音的变化量编码，形成与每个HMM状态有关的声学模型协方差矩阵。这些协方差特征值是在声学模型的训练过程中确定的，它们反映了原始训练集合中的变化量。为了体现儿童语音的变化量，协方差数据可按比例增大或缩小。

对于常用的多变量高斯分布(如在基于HMM的声学模型中)而言，只使用对角的协方差矩阵。可以对这些对角的矩阵项进行缩放以反映儿童语音中额外的变化量。前6个MFCC协方差特征值用下表所示的因子来缩放：

1.40

1.33

1.27

1.21

1.15

1.09

而能量、Δ-能量、Δ-Δ-能量(delta-delta-energy)可用下表所示的因子进行缩放：

1.45

1.35

1.15

其它所有的特征值保持不变。上述缩放可改进上述示例中的合成的儿童语音模型。对于英语的合成儿童语音模型，假负率降低至8.1％，并且假接受率为0.7％。对于西班牙语的合成儿童语音模型，假负率降低至7.7％，假接受率为0.1％。由于当假负率下降时假接受率上升，因此上述缩放必须谨慎地进行。

尽管出于解释目的已公开了本发明的优选实施方案，本领域技术人员应当理解，对上述实施方案还可以进行各种增加、修改和替换，而不会脱离如所附权利要求所限定的本发明的范围和精神。

Claims

1.一种利用计算机实现的为第三类语音人群建立语音模型的方法，包括下列步骤：

推导出转换式，当所述转换式与现有的第一类语音人群的语音模型运算时会生成现有的第二类语音人群的语音模型；

将所述转换式施加到所述第二类语音人群的语音模型。

2.如权利要求1所述的方法，其中所述第一类语音人群是成年男性，所述第二类语音人群是成年女性，所述第三类语音人群是儿童。

3.如权利要求2所述的方法，其中在将所述转换式施加到所述第二类语音人群的语音模型之前，修改所述转换式。

4.如权利要求3所述的方法，其中所述修改包括对所述转换式进行幂运算。

5.如权利要求4所述的方法，其中所述幂运算是用0至1之间的幂值完成的。

6.如权利要求5所述的方法，其中所述幂运算是用约0.25至0.7之间的幂值完成的。

7.如权利要求5所述的方法，其中所述幂运算是用约0.4至0.5之间的幂值完成的。

8.如权利要求5所述的方法，其中所述幂运算是用约为0.5的幂值完成的。

9.如权利要求2所述的方法，其中儿童语音模型包含与其状态有关的协方差数据，并且对所述协方差数据进行缩放，以反映儿童语音的变化量。

10.如权利要求9所述的方法，其中所述协方差数据是对角矩阵的形式，并且前六个协方差数据按下列因子缩放：

1.40 1.33 1.27 1.21 1.15 1.09

而能量、Δ-能量、Δ-Δ-能量按下列因子缩放：

1.45 1.35 1.15

11.如权利要求2所述的方法，其中将男性语音模型和女性语音模型表示成统计建模系统中代表状态的向量，所述转换式是把男性语音向量转换为女性语音向量的矩阵。

12.如权利要求11所述的方法，其中对所述矩阵进行幂运算。

13.如权利要求12所述的方法，其中所述幂运算是用0至1之间的幂值完成的。

14.如权利要求12所述的方法，其中所述幂运算是用约0.25至0.7之间的幂值完成的。

15.如权利要求12所述的方法，其中所述幂运算是用约0.4至0.5之间的幂值完成的。

16.如权利要求12所述的方法，其中所述幂运算是用约为0.5的幂值完成的。

17.如权利要求11所述的方法，其中所述儿童语音模型包含与其状态有关的协方差数据，并且对所述协方差数据进行缩放，以反映儿童语音的变化量。

18.如权利要求17所述的方法，其中所述协方差数据是对角矩阵的形式，并且前六个协方差数据按下列因子缩放：

1.40 1.33 1.27 1.21 1.15 1.09

而能量、Δ-能量、Δ-Δ-能量按下列因子缩放：

1.45 1.35 1.15

19.如权利要求1所述的方法，其中在将所述转换式施加到所述第二类语音人群的语音模型之前，调整所述转换式。

20.如权利要求19所述的方法，其中所述调整包括对所述转换式进行幂运算。

21.如权利要求20所述的方法，其中所述幂运算是用0至1之间的幂值完成的。

22.如权利要求20所述的方法，其中所述幂运算是用约0.25至0.7之间的幂值完成的。

23.如权利要求20所述的方法，其中所述幂运算是用约0.4至0.5之间的幂值完成的。

24.如权利要求20所述的方法，其中所述幂运算是用约为0.5的幂值完成的。

25.如权利要求1所述的方法，其中所述第三类语音人群的语音模型包括与其状态有关的协方差数据，并且对该协方差数据进行缩放，以反映建模的语音的变化量。

26.一种语音转换方法，包括由一组来自两类人群的语音模型推导出转换函数，并且利用推导出的所述转换函数把所述两类人群中的一类人群的语音转换成第三类人群的语音。

27.如权利要求26所述的方法，其中第一类人群和第二类人群是成年男性和成年女性，第三类人群是儿童。

28.如权利要求26所述的方法，其中，转换为所述第三类人群的语音之后，将该语音用于训练所述第三类人群学习新的语言。