CN1295675C

CN1295675C - 适应说话人无关语音识别数据库的方法和系统

Info

Publication number: CN1295675C
Application number: CNB2003101182831A
Authority: CN
Inventors: 张亚昕; 何昕; 任晓林; 孙放; 吴边
Original assignee: Motorola Inc
Current assignee: Motorola Solutions Inc
Priority date: 2003-12-09
Filing date: 2003-12-09
Publication date: 2007-01-17
Anticipated expiration: 2023-12-09
Also published as: CN1627365A

Abstract

本发明公开一种用于生成语音识别声学模板数据库的方法和系统，该数据库可以同时适用于说话人相关以及说话人无关语音识别。所得出的数据库可以在轻微降低说话人无关语音识别性能的同时显著地提高说话人相关语音识别的性能。该方法包括如下步骤：从第一说话人接收训练语音波形(步骤105)；把训练语音波形分割成对应于隐含马尔可夫模型(HMM)的状态的块(步骤115)；对每个所述HMM状态计算说话人相关的高斯概率密度函数(PDF)(步骤120)；在说话人无关声学模板数据库中，对每个所述HMM状态，用说话人相关PDF替代所述说话人无关PDF，其中所述说话人无关声学模板数据库包括多个说话人无关HMM，其中每个HMM包括多个高斯PDF，每个PDF都有原始的权重系数(步骤125)；和在所述说话人无关的声学模板数据库中为每个所述说话人无关和说话人相关PDF计算新的权重系数。

Description

适应说话人无关语音识别数据库的方法和系统

技术领域

本发明一般涉及语音识别系统。本发明具体用于，但不必限定于，嵌入到掌上设备中的语音识别系统。

背景技术

很多语音识别系统通过对输入语音和存储在数据库中的声学模型进行比较完成识别。随后把匹配的声学模型与词典数据库中的条目进行比较来完成词和句子的识别。所述声学模型通常包括隐含马尔可夫模型(HMM)。HMM是一种统计描述，包括用来描述诸如词汇和音素等语音单元的均值和方差向量。随后用HMM模式匹配确定语音识别数据库中的声音模型是否与输入语音相符。HMM一般基于多个复杂高斯概率密度函数(PDF)所组成的概率函数，也称为高斯混合(Gaussianmixture)。因此一般来说HMM模式匹配都是匹配高斯混合的过程。

语音识别系统一般按照说话人无关(speaker-independent)和说话人相关(speaker-dependent)分类。设计说话人无关系统用来识别大量说话人的语音；而训练说话人相关系统用来识别一个或者很少数量说话人的语音。说话人无关系统一般包括声学数据库，该数据库包括从大量训练说话人得到的HMM。希望使用从训练说话人的语音得到的HMM来表征大量说话人中所能找到的语音模型。由于在语音模型中必须做出一些折中来适应非常多样的语音特征，也由于不可能调节一个说话人无关系统来识别任何使用该系统的特定人的特殊语音特征，这样的系统一般都不如说话人相关系统准确。

调节说话人相关的系统，用来识别个体说话者的特定语音模式。通常，在训练阶段，说话人将向系统中读入包括多种语音模式在内的文字材料。然后按照文字材料校准训练语音，使得系统可调节到特定的说话人语音属性，由此在语音识别当中，系统可以更加准确地识别说话人的声音。但是在有大量人需要应用语音识别系统的情况下，说话人相关的系统通常并不理想。例如，语音识别系统可能被嵌入到移动电话当中，使用户能够通过语音的方法输入、其后将被电话识别的文字信息或电话号码。移动电话的主要用户可能希望大量的朋友、同事和家人同样能够使用电话的语音识别功能。由于这样的电话的第二用户可能只是在很短的时间内需要语音识别功能，因此要求第二用户在使用语音识别功能之前对电话进行初次训练使电话能够识别他或她的语音是不方便的。不过，移动电话的主要用户一般更倾向于能够训练电话来更准确地识别他或她的语音。

某些现有技术的语音识别系统也可以兼容说话人相关和说话人无关系统。通常这样的系统进行在线说话人适应，也就是说在正常使用过程中，将说话人无关的声学模型调整成特定人的语音特征。在线说话人适应与离线说话人适应(例如上述的说话人相关系统的训练过程)形成对比，在离线说话人适应中，用户通过朗读一个预先定义好的文字材料到系统中，使系统通过训练能够识别他或她的声音。

然而，在上述嵌入到移动电话的语音识别系统的例子当中，由于第二用户可能只是在很短时间内使用电话的语音识别功能，例如朗读一个单独的短文信息，因此在线说话人适应通常可能是无效的。这种情况下，在识别任务没有完成之前，在线说话人适应过程可能没有时间得到收敛。因此，当被第二用户使用的时候，移动电话的语音识别系统将保持说话人无关系统所固有的不准确性。同时，与移动电话相关联的噪声背景环境(例如交通和人群噪声)经常也，使得在线说话人适应过程很难得到收敛。

因此需要一个改进的方法和系统来调整说话人无关语音识别的数据库使它同时适用于说话人无关和说话人相关系统。

发明内容

从一方面说，本发明是一种生成能够同时适用于说话人相关和说话人无关的语音识别声学模板数据库的方法，该方法包括如下步骤：从第一说话人接收训练语音波形；把所述训练语音波形分割成对应于隐含马尔可夫模型(HMM)的状态的块；为所述的每个HMM状态计算对应于所述第一说话人的说话人相关的高斯概率密度函数(PDF)；对说话人无关声学模板数据库中的每个所述HMM状态，用所述说话人相关PDF替换说话人无关PDF，其中所述的说话人无关声学模板数据库中包括多个说话人无关HMM，每个HMM包含多个高斯PDF，每个PDF都有一个原始的权重系数；和在所述说话人无关的声学模板数据库中为每个所述说话人无关和说话人相关PDF计算新的权重系数。

对每个所述状态，用所述说话人相关PDF替换说话人无关PDF的步骤可对每个所述HMM状态的具有最小原始权重系数的说话人无关PDF进行替换。

本方法可进一步包括对通过将所述训练语音波形转化成MFCC特征文件而对所述训练语音波形进行前期(front-end)信号处理的步骤。

本方法可进一步包括如下步骤：从第二说话人接收训练语音波形；和对说话人无关声学模板数据库中的每个所述HMM状态，用对应于所述第二说话人的说话人相关PDF替换说话人无关PDF。

用对应于所述第二说话人的说话人相关PDF替换说话人无关PDF的步骤可对每个HMM状态的具有第二小原始权重系数的说话人无关PDF进行替换。

本方法可进一步包括如下步骤：从多个说话人接收训练语音波形；和对每个所述的HMM状态，用对应于所述多个说话人中每个说话人的说话人相关PDF替换说话人无关PDF。

每个所述PDF可包括一个均值向量(μ)和一个协方差矩阵(∑)，所述均值向量可以按照如下公式计算：

μ_{k} (i) = \frac{μ_{k} (i)}{N},

这里N是与某状态对准的特征向量的个数；和

协方差矩阵可以按照如下公式计算：

Σ_{k} (i, j) = \frac{Σ_{k} (i, j)}{N} - μ_{k} (i) \cdot μ_{k} (j),

这里i和j表示维数下标，k表示HMM状态。

新的权重系数(W_i)可以按照如下公式计算：

W_{i} = \frac{w_{i}}{w_{1} + w_{2} + \cdot \cdot \cdot a \times w_{n}},

这里w_i是原始权重系数，w_n是最小权重系数，a是常数，并且其中一个状态中的所有权重系数之和为1。

将所述训练语音波形分割成不同状态的步骤包括执行所述训练语音波形与MFCC特征文件的强制对准(force alignment)操作。

从另外一个方面来说，本发明是一种用于调整语音识别数据库的系统，该系统包括：微处理器；与所述微处理器有效相连、用于从第一说话人接收训练语音波形的麦克风；与所述微处理器有效相连的可编程存储器，所述可编程存储器包括说话人无关声学模板数据库；与所述微处理器有效相连的只读存储器(ROM)；所述微处理器可以有效地执行所述ROM中的可执行代码，从而：把所述训练语音波形分割成对应于隐含马尔可夫模型(HMM)的状态的块；为每个所述HMM状态计算对应于所述第一说话人的说话人相关的高斯概率密度函数(PDF)；对所述说话人无关的声学模板数据库中的每个所述HMM状态，用所述说话人相关PDF替换说话人无关PDF，其中所述说话人无关声学模板数据库包括多个说话人无关HMM，在每个HMM中包括多个高斯PDF，每个PDF都具有原始的权重系数；和在所述说话人无关的声学模板数据库中为每个所述说话人无关和说话人相关PDF重新计算权重系数。

所述微处理器还可通过将所述训练语音波形转换为MFCC特征文件有效地对所述训练语音波形进行前期信号处理的操作。

所述微处理器可进一步有效地：从第二说话人接收训练语音波形；和对说话人无关声学模版数据库中的每个所述状态，用对应于所述第二说话人的说话人相关PDF替换说话人无关PDF的操作。

所述微处理器可进一步有效地从多个说话人接收训练语音波形；和对每一个所述HMM状态，用对应于多个说话人中的每一个说话人的说话人相关PDF替换说话人无关PDF的操作。

在本说明书以及权利要求书中，术语“包括(comprises、comprising)”以及类似术语的含义是指非排他性的包括，因此包括一系列组件的方法或装置，其不仅包括那些已单独列出的组件，还可能很好地包括那些没有列出的其它组件。

附图说明

为了使本发明易于理解并付诸实施，现在将结合附图来参考引用优选实施例，其中相似的引用数字指代类似的组件，在附图中：

图1为说明根据本发明的实施例、用于生成一个同时适应于说话人相关和说话人无关语音识别的语音识别声学模板数据库的方法的流程图。

图2为说明根据本发明的实施例、计算均值向量和协方差矩阵的方法的流程图，该方法不需要把属于某个HMM状态的所有特征向量首先加载入RAM。

图3为说明本发明的一个实施例对说话人无关声学模板数据库的影响的高斯PDF的曲线图。

图4为说明本发明对高斯混合的影响的图；和

图5为说明一种移动电话形式的系统(诸如可用来实现本发明的

实施例)的示意框图。

具体实施方式

参看图1，示出了根据本发明一个实施例、用于生成一个同时适应于说话人相关和说话人无关语音识别的语音识别声学模板数据库的方法100的流程图。首先，在步骤105，接收训练语音波形。之后，在步骤110，对所接收的波形进行前期信号处理。然后，在步骤115将信号波形分成对应于隐含马尔可夫模型的状态的块。在步骤120对每个HMM状态计算说话人相关的高斯概率分布函数(PDF)。然后，在步骤125，对每个HMM状态，用说话人相关PDF替代说话人无关声学模板数据库130中的说话人无关PDF。最后，在步骤135，为每个说话人无关和说话人相关PDF计算新的权重系数。因此，新的系数和说话人相关PDF提供了一个改进的说话人无关声学模板数据库140，该数据库可以适用于说话人相关语音识别。

上述方法100可以被结合到各种类型的说话人无关语音识别系统中。方法100特别的应用于结合进语音识别功能的掌上设备当中，例如移动电话或者个人数字助理(PDA)。由于在此类设备相关的应用环境下，例如在大量用户在短时间内需要声音识别功能的情况下，方法100提高了语音识别的正确率，所以方法100可以有效地应用于掌上设备当中。同时，根据某些实施例，方法100包含高效率的算法，使得处理器负荷较轻，这样节省了掌上设备有限的能量、存储器和处理器资源。在下边将对方法100进行更加详细的描述。

首先，在步骤105，当第一说话人向掌上设备的麦克风读入预先定义的文字材料中的词汇或者语音片断的时候，训练语音波形就可以包括该第一说话人提供的发音。预先定义的文字材料最好包括一个大范围的语音样本使得语音识别系统可以通过得到很好的训练来更好地识别第一说话人的声音。第一说话人一般来说是语音识别系统的主要使用人，他/她更倾向于调整系统适合他/她的语音从而提高系统的识别率，也就是说使系统调整为说话人相关的情况。在本技术领域中，使用语音识别训练文字材料的方法是公知的，因此该文字材料的细节就不在这里提供了。

在步骤110，对接收的训练语音波形进行前期处理，把它们从波形转化成为特征文件。这样特征文件的例子包括Mel-频率倒谱系数(MFCC)特征文件。

接着，在步骤115，将转换之后的训练语音波形分成对应于HMM的状态的块。分块步骤115是训练文字材料的语音成分(例如词汇和音素)与MFCC特征文件强制对准的操作。强制对准操作在语音识别技术领域也是公知的，因此更详细的细节就不在这里提供了。

每个HMM状态代表了一个训练语音波形的片断，同时在语音识别系统中组成了用来将输入语音与单词进行匹配的基本建模单元。每个HMM状态包括大量高斯PDF。每个状态拥有的大量PDF帮助说话人无关语音识别系统在大量说话人的多样的词汇发音和语音特质情况下得到更好的识别。多PDF形成了PDF的高斯混合并且从代表不同说话人的大量训练样本中通过估计得出。

一个混合高斯函数可以根据下面的公式定义：

f (x) = Σ_{i = 1}^{N} w_{i} g (x, μ_{i}, Σ_{i})

(公式1)

这里g(x，μ_i，∑_i)是高斯PDF，μ_i是均值向量，∑_i是协方差矩阵，x是随机d维的语音特征向量，w_i是权重系数，N是高斯混合中高斯分布的个数。

方法100中的步骤120，对每个HMM状态计算说话人相关PDF。

训练语音波形根据HMM状态进行对准之后，所有属于某个HMM状态的特征向量被聚类，并从特征向量估计单一高斯PDF，N(μ，∑)。因此，单一高斯函数可以用来代表属于每个HMM状态的所有特征向量参数。例如，对于所有与HMM状态k对准的特征向量：

μ_{k} = \frac{ΣO}{N},

且 (公式2)

Σ_{k} = \frac{Σ [(O - μ_{k}) \times (O - μ_{k})]}{N}

(公式3)

所有O训练波形与HMM状态k对准，N是与HMM状态对准的所有特征向量的个数。

为了在实际的语音识别系统中应用上述公式2和3，只有把所有属于状态k的特征向量都读入到随机存取存储器(RAM)才能计算得到均值向量μ_k和协方差矩阵∑_k。然而，对于嵌入到掌上设备的语音识别系统，可能没有足够的RAM来进行这样的计算。因此，根据本发明的一个实施例，为了减少空间复杂度，下面的方法200可以被应用来计算均值向量和协方差矩阵。参照图2描述了用于计算均值向量和协方差矩阵的方法200的流程图，该方法不需要把属于某个HMM状态的所有特征向量首先读入存储器。首先，步骤205是初始化步骤，在这里μ_k和∑_k都被置零。然后，在步骤210，对于每个属于HMM状态k的训练波形O，设置

μ_k(i)＝μ_k(i)+O，且 (公式4)

∑_k(i，j)＝∑_k(i，j)+O(i)·O(j) (公式5)

在这里i和j表示维数下标。在步骤215，对所有HMM状态k，设置

μ_{k} (i) = \frac{μ_{k} (i)}{N}

(公式6)

最后，在步骤220，对所有HMM状态k，设置

Σ_{k} (i, j) = \frac{Σ_{k} (i, j)}{N} - μ_{k} (i) \cdot μ_{k} (j)

(公式7)

再次参照图1，方法100继续到步骤125，在这里对每个HMM状态，用说话人相关PDF替代说话人无关PDF。上述的强制对准操作确保了对说话人相关训练波形建模的HMM状态个数和对说话人无关建模的HMM状态个数相同，这也使得上述的替换操作成为可能。被替换的说话人无关PDF从说话人无关声学模板数据库130中获得。对每个状态，特定的说话人无关PDF应该按照下述的方法进行替换。

再次参看公式1，权重系数w_i用来估计训练波形中第i个PDF与给出的输入到语音识别系统中的语音波形片断相一致的概率。权重系数w_i在一个说话人无关语音识别系统中是非常重要的，因为它表示了落在第i个PDF的训练波形的比例。一个大的w_i表示很多数量的训练波形属于第i个高斯分布，同时一个小的w_i表示只有很少数量的训练波形属于第i个高斯分布。为此在方法100的步骤125中，通常更倾向于替换被赋予较小w_i的说话人无关PDF。统计上，这样将带来最小的关于说话人无关语音识别的性能退化，在下边将会进行更加详细的描述。

最后，方法100在步骤135终止，为每个说话人无关和说话人相关PDF计算新的权重系数。因为被替换的说话人无关高斯PDF被赋予最小的原始权重系数，所以作为替换的说话人相关高斯PDFs需要被赋予新的权重系数w_i以获得满意的适应性能。假设在某个状态下的所有权重系数w_i之和等于1，每个状态下每个高斯PDF的所有权重系数w_i可以被重新计算如下。假设某状态下，初始的n个高斯PDF为P₁，P₂，...，P_n；并且对应的原始权重系数是w₁，w₂，...，w_n，在这里w_n是最小的原始权重系数。用新估计的说话人相关PDF替换P_n之后，用常数α与w_n相乘。这个常数α与给定的语音识别用户就是在步骤105中朗读训练语音波形的说话人的可能程度有关。每个PDF的新权重系数W_i可以用下边的公式计算：

W_{i} = \frac{w_{i}}{w_{1} + w_{2} + \cdot \cdot \cdot + a \times w_{n}}

(公式8)

因此，新权重系数W_i可以形成适应说话人相关语音识别的修改后的说话人无关数据库140。也就是说修改后的说话人无关数据库140仍然可以使相应的语音识别系统作为说话人无关系统而起作用；然而数据库140现在同时也可以使相应的语音识别系统作为说话人相关识别而起作用，并且拥有更高的准确率。

参照图3，是用来描述本发明的一个实施例对说话人无关声学模板数据库130上的高斯PDF的曲线图。图3示出了根据本发明的处理方法对数据库130进行调整前后的高斯PDF比较。图3中示出了十个高斯混合的PDFs。较小的、低幅度的PDF曲线示出了每个混合元素的权重分布。假设PDF 305拥有最小的权重系数，根据方法100中的步骤125，用PDF 310对它进行替换。较大的、高幅度的PDF曲线示出了应用替换步骤125之后整体PDF分布上的效果。注意到替换步骤125只对整体PDF分布产生了很小的影响。替换前的曲线315仅仅向左偏移一点就可以得到变换后的曲线320。

与图3相关的实际效果是，根据本发明改进的说话人无关语音识别系统的性能只有很小的退化。反过来，对于训练系统的说话人，系统的性能有了极大的提高。

参照图4，提供了本发明对高斯混合德影响的另一个图示。在图4箭头左侧是六个椭圆的集合，每个椭圆表示一个高斯PDF。假设每个椭圆的大小对应其权重系数。一个大的椭圆表示该PDF拥有比较大的权重系数。这样，黑色椭圆405表示了最小权重的高斯PDF。图4箭头右侧表示根据上述的方法100把最小权重高斯PDF替换为说话人相关高斯PDF之后的相同的高斯混合。图4右侧的垂直朝向的、略微阴影的椭圆410表示了替换后的说话人相关高斯PDF。这样，图4同样表明了经过本发明方法处理后的高斯混合函数没有很显著的变化。

再次参见图1，在步骤145确定系统是否需要对附加的说话人进行训练。如果需要，方法100返回到步骤105。图3和图4也可被用来表示本发明的方法是如何调整说话人无关高斯混合函数，使它适应于多于一个说话人的说话人相关系统。也就是说可以通过替换多说话人无关高斯PDF为多说话人相关高斯PDF来使用多说话人训练系统。例如，再次参见图3，第二说话人可以重复应用上述方法100来产生第二说话人相关的PDF，可以用它来替换图3所示的较小的、低幅度PDF曲线之一如。类似的，参照图4，如果第二说话人根据本发明训练了说话人无关语音识别系统，就可以替换第二个PDF椭圆，也就是说最好替换第二低权重的PDF。附加的PDF替换将再次给系统的说话人无关性能带来很小的退化，相反将会对说话人相关识别有非常大的改进。根据在说话人无关模型中的PDF数量，每个新说话人都可以简单重复应用方法100训练系统来加入第三个、第四个或者更多数量的说话人相关PDF。优选地，每个新说话人相关PDF都可以替换下一个最小权重的说话人无关PDF，同时保留前面的被其它说话人用来调整的说话人相关PDF。

下表中列出了由本发明得出的语音识别改善的性能。表1是利用两个说话人无关(SI)数据库(SI数据I和SI数据II)测试的从本发明的一个实施例得出的试验数据。两个数据库都是从移动电话环境收集的美国英语的数字数据库。SI数据I有约500个说话人的12169个数字的发音；SI数据II有约11个说话人的13665个数字的发音。所述SI数据II数据库包括大量非正常字符串，因此所显示出的基本性能比SI数据I数据库的基本性能要低很多。利用不同说话人训练SI数据库的方法，进行了三组试验。在每个说话人训练每个数据库之后，对SI和数据库的说话人相关(SD)性能进行评估。显示在表1中的结果是表示SD和SI性能的平均语音识别正确百分率。如上所述，表1表明了伴随着说话人无关语音识别性能的微小退化，本发明在说话人无关语音识别性能上有着怎样的显著提高。

表1

语音识别性能

	基本性能(％)		适应性能(％)		错误减少率(％)
	基本性能(％)		适应性能(％)		错误减少率(％)		单词	句子	单词	句子	单词	句子
	SD数据	65.18	22.59	89.03	57.51	68.50	单词	句子	单词	句子	单词	句子	45.11
SI数据I	SD数据	65.18	22.59	89.03	57.51	68.50	99.52	94.77	99.45	94.03	-14.58	-14.15	45.11
SI数据I	SI数据II	91.18	46.27	91.10	43.77	-0.91	99.52	94.77	99.45	94.03	-14.58	-14.15	-4.65

表2示出了多说话人的适应实验的结果，在这里根据本发明训练SI数据库以识别多说话人。表2表明更多的说话人对SI系统进行适应的时候，SI性能呈现递增的退化。然而，虽然数据库被三个说话人训练之后的退化性能百分比是非常显著的，但是注意到实际说话人无关语音识别的性能却保持相当高的水平(例如，在经过三个说话人根据本发明的训练之后，SI数据I的基本性能仅仅从99.52％下降到99.18％)。表2同时也表明在更多的说话人按照本发明在某个数据库上被训练的同时，对每个说话人的语音识别性能也有所下降(例如，说话人1的错误减少性能从只对一个说话人进行适应的80.38％下降到对三个说话人进行适应的74.51％)。

表2

语音识别性能

	基本性能(％)		适应性能(％)		错误减少率(％)
	基本性能(％)		适应性能(％)		错误减少率(％)		单词	句子	单词	句子	单词	句子
	对一个说话人进行适应							句子	单词	句子	单词	句子
SD数据1	对一个说话人进行适应							62.22	16.67	92.59	50.00	80.39	40.00
SD数据1	SI数据I	99.52	94.77	99.46	94.27	-12.5	-9.56	62.22	16.67	92.59	50.00	80.39	40.00
SI数据II	SI数据I	99.52	94.77	99.46	94.27	-12.5	-9.56	91.18	46.27	91.12	44.53	-0.68	-3.24
SI数据II	对两个说话人进行适应							91.18	46.27	91.12	44.53	-0.68	-3.24
SD数据1	对两个说话人进行适应							62.22	16.67	91.11	50.00	76.47	40.00
SD数据1	SD数据2	65.52	24.44	87.59	64.44	64.01	52.94	62.22	16.67	91.11	50.00	76.47	40.00
SI数据I	SD数据2	65.52	24.44	87.59	64.44	64.01	52.94	99.52	94.77	99.35	92.75	-35.42	-38.62
SI数据I	SI数据II	91.18	46.27	91.02	42.36	-1.82	-7.28	99.52	94.77	99.35	92.75	-35.42	-38.62
对三个说话人进行适应							-7.28
对三个说话人进行适应							SD数据1	62.22	16.67	90.37	50.00	74.51	40.00
SD数据2	65.52	24.44	85.52	64.44	58.00	52.94	SD数据1	62.22	16.67	90.37	50.00	74.51	40.00
SD数据2	65.52	24.44	85.52	64.44	58.00	52.94	SD数据3	67.81	26.67	91.78	60.00	74.46	45.45
SI数据I	99.52	94.77	99.18	91.16	-70.83	-69.02	SD数据3	67.81	26.67	91.78	60.00	74.46	45.45
SI数据I	99.52	94.77	99.18	91.16	-70.83	-69.02	SI数据II	91.18	46.27	90.73	38.27	-9.18	-14.89

参照图5，示出了一个诸如可用于实现本发明的上述方法的移动电话501形式的系统的示意框图。电话501包括射频通信模块502，其与处理器503连接并通信。形式上为显示屏幕505，键盘506，扬声器515，和麦克风519的接口也通信与处理器503连接并通信。

处理器503包括编/解码器511以及与之相关的用于存储对语音或其它信号进行编码和解码的数据的只读存储器(ROM)512，该数据可以通过移动电话发送或接收。处理器503还包括一个微处理器513其通过公共数据和地址总线517连接到编/解码器511和相关的只读存储器(ROM)512、514，另外处理器503还包括随机存取存储器(RAM)504，静态可编程存储器516和可拆卸的SIM模块518。其中，静态可编程存储器516和SIM模块518可以分别存储例如本发明所描述的说话人无关语音识别数据库。

射频通信单元502是共用一个天线507的接收器和发射器的组合。通信单元502拥有的收发器508通过射频放大器509与天线507相连接。收发器508也与组合的调制/解调器510相连接，该调制/解调器使通信单元502和处理器503相连接。

微处理器513拥有用于连接到例如键盘506，屏幕505，扬声器515和麦克风519的接口。只读存储器514存储用于对麦克风519接收的发音进行语音识别的代码，如上所述。

因此，根据本发明的方法100，电话501的主要使用者可能会通过把训练文字材料读入到麦克风519来训练电话501使它能够更好的识别他/她的声音。之后微处理器513对训练语音波形进行分割，计算说话人相关PDF，同时对每个HMM状态，把存储在诸如静态可编程存储器516当中的说话人无关PDF替换为说话人相关PDF。如上所述，电话501的附加主要用户同时也重复使用方法100训练电话501来识别他们的声音。

依照用户对语音识别的需求，通过进一步对电话501编程来自动判断从麦克风519所接收到的发音是训练过电话的用户还是其它用户说出的。可替换地，电话501的用户可以首先发出命令标识他或她自己，以使电话501能够立即知道在使用语音识别过程中采用哪个说话人相关PDF，以确保最高准确率。在发音被识别之后，它可以被显示在屏幕505上或者利用扬声器515有声地重复声音，用于由用户确认识别的准确性。可替换地，用户可以直接把识别的发音输入到文件中，例如输入到文本消息文件中。

因此，本发明用于提高语音识别系统的语音识别准确率。对于特定的主要使用者，通过把说话人无关语音识别数据库调整成为适用于一个或者多个说话人的说话人相关数据库，语音识别系统的准确性可以显著地提高，同时第二使用者仍然可以在语音识别准确率下降很少的说话人无关模式下利用系统。某些本发明的实施例也包括高效率的算法，与本领域现有的算法相比减少了处理器密集度(processorintensive)，同时节省诸如移动电话和个人数字助理(PDA)等掌上设备中有限的能量、存储器和处理器资源。

上面的详细说明只是为了提供优选的示范实施例，而并不想限制本发明的范围、适用性或结构。对优选示范实施例的详细说明是为了向本领域技术人员提供一个使其能够实现本发明的优选实施例的说明。应该可以理解，在不背离所附权利要求中所阐述的本发明的精神和范围的前提下，可以对组件及步骤的功能和结构做出多种不同的改变。

Claims

1.一种用于生成可以同时适用于说话人相关和说话人无关语音识别的语音识别声学模板数据库的方法，所述方法包括如下步骤：

从第一说话人接收训练语音波形；

把所述训练语音波形分割成对应于隐含马尔可夫模型HMM的状态的块；

对每个所述HMM状态计算对应于所述第一说话人的说话人相关高斯概率密度函数PDF；

在说话人无关声学模板数据库中，对每个所述HMM状态，用所述说话人相关PDF替换说话人无关PDF，其中所述说话人无关声学模板数据库包括多个说话人无关HMM，其中每个HMM包括多个高斯PDF，每个PDF拥有一个原始的权重系数；和

在所述说话人无关声学模板数据库中，为每个所述说话人无关和说话人相关PDF计算新的权重系数。

2.如权利要求1所述的方法，其中所述对每个所述HMM状态用所述说话人相关PDF替换说话人无关PDF的步骤，对每个所述状态中拥有最小原始权重系数的说话人无关PDF进行替换。

3.如权利要求1所述的方法，其进一步包括在所述接收和分割步骤之间执行的步骤：通过把所述训练语音波形转换为MFCC特征文件来对所述训练语音波形执行前期信号处理。

4.如权利要求1所述的方法，其进一步包括如下步骤：

从第二说话人接收训练语音波形；和

在所述说话人无关声学模板数据库中，对每个所述HMM状态，用对应于所述第二说话人的说话人相关PDF替换说话人无关PDF。

5.如权利要求4所述的方法，其中所述对应于第二说话人的说话人相关PDF替换说话人无关PDF的步骤，对每个所述HMM状态中具有第二小原始权重系数的说话人无关PDF进行替换。

6.如权利要求1所述的方法，其进一步包括如下步骤：

从多个说话人接收训练语音波形；和

对每个所述HMM状态，用对应于多个说话人中每个说话人的说话人相关PDF替换说话人无关PDF。

7.如权利要求1所述的方法，其中每个所述的PDF包含有一个均值向量μ和一个协方差矩阵∑

所述均值向量根据如下公式计算：

μ_{k} (i) = \frac{μ_{k} (i)}{N},

这里N是与状态对准的特征向量的数目；和

所述协方差矩阵根据如下公式计算：

Σ_{k} (i, j) = \frac{Σ_{k} (i, j)}{N} - μ_{k} (i) \cdot μ_{k} (j),

这里i和j表示维数下标，k表示HMM状态。

8.如权利要求1所述的方法，所述新权重系数W_i根据如下公式计算：

W_{i} = \frac{w_{i}}{w_{1} + w_{2} + \cdot \cdot \cdot + a {\times w}_{n}},

这里w_i是原始权重系数，w_n是最小权重系数，a是常数，并且一个状态中的所有权重系数之和为1。

9.如权利要求1所述的方法，其中所述把所述训练语音波形分割成块的步骤包括执行所述训练语音波形与MFCC特征文件的强制对准操作。

10.一种用于适应语音识别数据库的系统，所述系统包括：

微处理器；

有效与所述微处理器相连的、用于从第一说话人接收训练语音波形的麦克风；

有效与所述微处理器相连的可编程存储器，所述可编程存储器包括说话人无关声学模板数据库；

有效与所述微处理器相连的只读存储器ROM；

所述微处理器有效地执行所述ROM中的代码，以：

把所述语音波形分割成对应于隐含马尔可夫模型HMM的状态的块；对每个所述HMM状态计算对应于所述第一说话人的说话人相关高斯概率密度函数PDF；在所述说话人无关声音模板数据库中，对每个所述HMM状态用说话人相关PDF替换说话人无关PDF，其中所述说话人无关声学模板数据库包括多个说话人无关HMM，其中每个HMM包括多个高斯PDF，每个PDF都有一个原始权重系数；和在所述说话人无关声学模板数据库中，为每个所述说话人无关和说话人相关PDF计算新的权重系数。

11.如权利要求10所述的系统，其中所述对每个所述HMM状态用说话人相关PDF替换说话人无关PDF的操作中，对每个HMM状态中具有最小原始权重系数的说话人无关PDF进行替换。

12.如权利要求10所述的系统，其中所述微处理器进一步通过把所述训练语音波形转换为MFCC特征文件，来有效地对所述训练语音波形进行前期信号处理。

13.如权利要求10所述的系统，其中所述微处理器进一步有效地：

从第二说话人接收训练语音波形；和

在说话人无关声学模板数据库中，对每个所述HMM状态，用对应于所述第二说话人的说话人相关PDF替换说话人无关PDF。

14.如权利要求10所述的系统，其中所述用对应于第二说话人的说话人相关PDF替换说话人无关PDF的步骤，对每个所述HMM状态中具有第二小原始权重的说话人无关PDF进行替换。

15.如权利要求10所述的系统，其中所述微处理器中进一步有效地从多个说话人接收训练语音波形，以及对每个所述HMM状态用对应于所述多个说话人中每个说话人的说话人相关PDF替换说话人无关PDF。