CN1162839C

CN1162839C - 产生声学模型的方法和装置

Info

Publication number: CN1162839C
Application number: CNB01122522XA
Authority: CN
Inventors: ��ɽ��; 山田麻纪; 星见昌克
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Intellectual Property Corp of America
Priority date: 2000-06-28
Filing date: 2001-06-27
Publication date: 2004-08-18
Anticipated expiration: 2021-06-27
Also published as: JP2002014692A; DE60110315T2; DE60110315D1; EP1168301B1; CN1331467A; JP4590692B2; US20020055840A1; US6842734B2; EP1168301A1

Abstract

本发明提供一种生成声学模型的方法和装置，它能够将语音识别阶段存在的多个噪声样本分类为多个簇以从每簇中选择噪声样本，并且能够将选定的噪声样本作为训练用噪声样本叠加在训练用语音样本上以根据叠加噪声的语音样本训练未经训练的声学模型，从而生成声学模型。

Description

产生声学模型的方法和装置

技术领域

本发明涉及产生语音的声学模型的方法和装置，模型被用于在噪声环境下达到高识别率。

背景技术

在噪声环境下的普通语音识别中，噪声数据叠加在语音样本上，并且通过利用噪声叠加的语音样本对未训练的声学模型训练以产生对应噪声环境下语音识别的声学模型，参见“噪声混合数据的想象识别系统评价”，1988年3月日本声学学会会议论文集，3-P-8。

图10示出了完成普通语音识别的普通声学模型生成装置的结构。

在图8所示的声学模型生成装置中，标号201表示存储器，标号202表示CPU(中央处理单元)而标号203表示键盘/显示器。而且，标号204表示CPU总线，存储器201、CPU202和键盘/显示器203通过其互相电气连接起来。

而且，标号205a为存储训练用语音样本205的存储单元，标号206a为存储训练用的一种噪声样本的存储单元而标号207a为存储未经训练的声学模型207的存储单元，这些存储单元205a-207a分别与CPU总线204电气连接。

以下借助图9描述经CPU202处理生成的声学模型。

在图9中，字符S表示CPU202完成的处理步骤。

首先，CPU202从存储单元205a读取语音样本205并从存储单元206a读取噪声样本206，并且CPU202将噪声样本206叠加在语音样本205上(步骤S81)，完成预先确定时间长度上每个噪声叠加的语音样本的语音分析(步骤S82)。

接着，CPU202从存储单元207读取未经训练的声学模型207以根据语音分析处理的分析结果训练未经训练的声学模型207，从而生成对应噪声环境的声学模型210(步骤S83)。以下将预先确定的时间长度称为帧，并且帧等于10毫秒。

随后，一种类型的噪声样本206是根据在大厅、车内采集数十秒得到的噪声获得的一种数据。

按照该生成处理，当根据叠加噪声样本的语音样本完成未经训练的声学模型的训练操作时，可以获得较高的识别率。

但是，语音识别时的噪声环境通常是未知的，因此在上述普通的生成处理中，如果语音识别时的噪声环境不同于未经训练的声学模型训练操作时的噪声环境，则会产生识别率降低的问题。

为了解决该问题，人们试图采集语音识别时的所有噪声样本，但是这是不可能的。

实际上，通过假定语音识别时存在大量噪声样本，试图采集假定的噪声样本从而完成训练操作。

但是由于要花费巨大的时间，所以根据所有采集的噪声样本来训练未经训练的声学模型是效率低下的。此外，如果大量采集的噪声样本在性能上有偏移，则通过利用具有偏差特性的噪声样本训练未经训练的声学模型将难以广泛识别与偏差特性无关联的未知噪声。

发明内容

本发明的目标是克服上述难题。因此本发明的目标是提供一种生成声学模型的方法和装置，它能够将语音识别阶段存在的多个噪声样本分类为多个簇(cluster)以从每簇中选择噪声样本，并且能够将选定的噪声样本作为训练用噪声样本叠加在训练用语音样本上以根据叠加噪声的语音样本训练未经训练的声学模型，从而生成声学模型。

按照这些模型和系统，可以通过利用生成的声学模型完成语音识别，从而在未知的噪声环境下获得高识别率。

按照本发明的一个方面，提供了一种生成语音识别用声学模型的装置，所述装置包含：用于采集M个噪声样本的装置；用于提取时间平均矢量的装置；依据所述时间平均矢量对所述M个噪声样本进行分类以获得N个第一簇噪声样本并从每个第一簇中抽取一个噪声样本作为训练用的噪声样本的装置；存储训练用的未经训练的声学模型的装置；以及利用抽取的训练用噪声样本来训练未经训练的声学模型从而生成语音识别用的声学模型的装置。

依据本发明的另一个方面，提供了一种识别未知语音信号的装置，包含：用于采集M个噪声样本的装置；用于提取时间平均矢量的装置；依据时间平均矢量对所述M个噪声样本进行分类以获得N个第一簇噪声样本并从每个第一簇中抽取一个噪声样本作为训练用的噪声样本的装置；存储训练用的未经训练的声学模型的装置；利用抽取的训练用噪声样本来训练未经训练的声学模型从而生成语音识别用的声学模型的装置；输入未知语音信号的装置；以及根据经过训练的语音识别用声学模型识别未知的语音信号的装置。

依据本发明的再一个方面，提供了一种生成语音识别用声学模型的方法，其特征在于所述方法包含以下步骤：准备训练用的未经训练的声学模型；采集M个噪声样本；提取时间平均矢量；依据所述时间平均矢量对所述M个噪声样本进行分类以获得N个第一簇噪声样本，并从每个第一簇中抽取一个噪声样本作为训练用的噪声样本；以及利用抽取的训练用噪声样本来训练未经训练的声学模型从而生成语音识别用的声学模型。

在本发明的这些方面中，由于将多个对应多种噪声环境的第一噪声样本分类为从而在每个簇中选择噪声样本，由此根据每个选定的噪声样本训练未经训练的声学模型，生成语音识别用的训练过的声学模型，所以可以利用少量的噪声样本训练未经训练的声学模型并广泛覆盖多种无偏差的噪声，从而可以生成能够在任何未知环境下获得高识别率的经过训练的语音识别用的声学模型。

在本发明的进一步方面，由于根据多个噪声样本来利用上述语音识别的训练的声学模型，所以可以在噪声环境下获取高识别率。

附图概述

通过以下结合附图对本发明的描述将进一步理解本发明的其他目标和方面，其中：

图1为按照本发明第一实施例的声学模型生成装置的结构示意图；

图2为按照本发明第一实施例的声学模型生成装置的操作流程图；

图3为按照第一实施例的图1步骤S23详细操作的流程图；

图4为按照第一实施例的噪声样本示意图；

图5为图3中步骤S23a-23f的操作结果获得的系统树图；

图6为按照第一实施例的声学模型生成装置生成声学模型操作的流程图；

图7为图6步骤S33中帧匹配操作概念的示意图；

图8为按照本发明第二实施例的语音识别装置的结构示意图；

图9为按照本发明第二实施例的语音识别装置的语音识别操作的流程图；

图10为普通声学模型生成装置的结构示意图；以及

图11为图10所示语音识别装置普通声学模型生成操作的流程图。

本发明的较佳实施方式

以下借助附图描述本发明的较佳实施例。

(第一实施例)

图1为按照本发明第一实施例的声学模型生成装置的结构示意图。

在图1中，由至少一台计算机构成的声学模型生成装置100包含存储程序P的存储器101、可以读取程序P并且根据程序P完成操作的CPU102。

声学模型生成装置100还包含键盘/显示单元103，用于操作人员向CPU102输入数据和根据发送的数据显示信息；以及CPU总线104，存储器101、CPU102和键盘/显示单元103通过其电气连接从而允许相互之间进行数据通信。

而且，声学模型生成装置100包含存储训练用的多个语音样本105的第一存储单元105a、存储多个噪声样本NO₁、NO₂、…、NO_M的第二存储单元106、存储由CPU102生成的训练用的噪声样本的第三存储单元107以及存储未经训练的声学模型108的第四存储单元108a。这些存储单元与CPU总线104电气连接从而可以使CPU102往来于这些存储单元进行访问。

在该第一实施例中，CPU102首先根据图2所示流程图的程序P执行选择操作，接着，根据图6所示的流程图的程序P执行声学模型生成操作。

即，以下借助图2描述CPU102训练用的噪声样本的选择操作。

即，如图2所示，提前制作尽可能多的存储在第二存储单元106上的对应多个噪声环境的多个噪声样本NO₁、NO₂、…、NO_M。在该实施例中，噪声样本的数量例如为M。

CPU102在预先确定的时间长度(预先确定部分；以下称为帧)上执行每个噪声样本NO₁、NO₂、…、NO_M的语音分析从而获得每个噪声样本NO₁、NO₂、…、NO_M中每帧的k阶特性参数(步骤S21)。

在该实施例中，帧(预先确定的时间长度)对应10毫秒，并且作为k阶特性参数，采用第一阶-第七阶LPC(线性预测编码)倒频谱系数(C₁、C₂、…、C₇)。这些k阶特性参数被称为特性矢量。

随后，CPU102获取每个噪声样本NO₁、NO₂、…、NO_M的每个特性矢量内的时间平均矢量。因此获得了对应M个噪声样本NO₁、NO₂、…、NO_M的M个时间平均矢量(步骤S22)。

接着，通过利用簇化方法将M个时间平均矢量分类(簇化)为N类(簇)(步骤S23)。在该实施例中，作为簇化方法，采用分层簇化方法。

即，在分层簇化方法中，噪声样本(时间平均矢量)之间的距离被用作噪声样本(时间平均矢量)之间相似性(同质化)的量度。在该实施例中，作为噪声样本之间相似性的量度，采用两个时间平均矢量之间的加权欧几里得距离。作为噪声样本之间相似性的其他量度，可以采用欧几里得距离、普通的Mahalanobis距离、考虑样本乘积之和和离散度的Battacharyya距离。

此外，在该实施例中，两个簇之间的距离被定义为“通过将属于两个簇的任意两个样本组合形成的距离中的最小距离(最近距离)”。定义方法被称为“最近邻方法”。

可以采用其他定义方法作为两个簇之间的距离。

例如，作为其他定义方法，两个簇之间的距离可以定义为“通过将属于两个簇的任意两个样本组合形成的距离中的最大距离(最远距离)”，该定义方法被称为“最远近邻方法”，可以定义为“两个簇质心之间的距离”，该方法被称为“质心方法”，而且可以定义为“通过将属于两个簇的任意两个样本组合形成的所有距离平均化计算得到的平均距离”，该定义方法被称为“分组平均方法”。

即，CPU102将M个时间平均的矢量设定为M个簇(图3的步骤23a)，并通过利用最近邻方法计算每个簇之间的每个距离(步骤S23b)。

接着，CPU102提取至少一对距离比其他两簇对都短(最近)的两簇对(步骤S23c)，并且将两个提取的簇链接以将链接的簇设定为同一簇(步骤S23d)。

CPU102确定簇的数量是否等于1(步骤S23e)，并且如果步骤S23e中的确定结果为NO，则CPU102返回步骤S23c的处理，从而通过利用链接簇重复地完成从步骤S23c-S23e的操作。

随后，如果簇的数量为1使得步骤S23e的确定结果为YES，则CPU102根据簇之间的链接关系生成指示M个噪声样本NO₁、NO₂、…、NO_M之间相似性的系统树图DE(步骤S23f)。

在该实施例中，数量M被设定为17，因此40秒内的噪声样本NO₁～NO₁₇例如如图4所示。

在图4中，示出了每个噪声样本的名称和标记属性。例如，噪声样本NO₁的名称为“河流”而属性为河流的沙沙声，噪声样本NO₁₁的名称为“商务办公室”而属性为商务办公室内的噪声。

图5示出了步骤S23a～S23f中簇化操作结果获得的系统树图DE。

在图5所示的系统树图DE中，沿水平方向的长度指示每个簇之间的距离，当在给定位置切割系统树图DE时，簇被配置为相互链接和相关的噪声样本组。

即，在该实施例中，CPU102在破折线C-C上的预先确定位置切割系统树图DE从而将噪声样本NO₁～NO₁₇划分为N(＝5)个簇，其中N小于M(步骤S23g)。

如图5所示，在破折线C-C上切割系统树图DE滞后，由于噪声样本NO₁与NO₂互相链接，噪声样本NO₃～NO₅彼此链接，噪声样本NO₈与NO₉彼此链接，噪声样本NO₁₀～NO₁₂彼此链接，噪声样本NO₁₃～NO₁₅彼此链接，以及噪声样本NO₁₆与NO₁₇彼此链接，所以可以将噪声样本噪声样本NO₁～NO₁₇分类为N(＝5)个簇。

即，簇1～5定义如下：

簇1{“噪声样本NO₁(河流)”与“噪声样本NO₂(音乐)”}；

簇2{“噪声样本NO₃(标记II)”、“噪声样本NO₄(花冠)”、“噪声样本NO₅(ESTIMA)”、“噪声样本NO₆(MAJESTA)”和“噪声样本NO₇(PORTOPIA大厅)”}；

簇3{“噪声样本NO₈(数据显示大厅)”与“噪声样本NO₉(地铁)”}；

簇4{“噪声样本NO₁₀(百货商场)”、“噪声样本NO₁₁(商务办公室)”、“噪声样本NO₁₂(实验室)”、“噪声样本NO₁₃(BUZZ-BUZZ)”、“噪声样本NO₁₄(办公室)”和“噪声样本NO₁₇(街道工厂)”}；以及

簇5{“噪声样本NO₁₆(幼儿园)”与“噪声样本NO₁₇(东京火车站)”}。

在完成步骤S23(S23a～S23g)之后，CPU102在簇1～5的每一个中任意选择一个噪声样本以设置选定的噪声样本为N个噪声样本(噪声样本1～N(＝5))，从而将选定的噪声样本作为训练NL₁～NL_N用的噪声样本存储在第三存储单元107上(步骤S24)。作为在簇中选择一个噪声样本的方式，可以选择最靠近簇中质心的一个噪声样本或者在簇中随机选择一个噪声样本。

在该实施例中，CPU102选择簇1中的噪声样本NO₁(河流)、簇2中的噪声样本NO₃(标记II)、簇3中的噪声样本NO₈(数据显示大厅)、簇4中的噪声样本NO₁₀(百货商场)以及噪声样本NO₁₆(幼儿园)，并且将选定的噪声样本NO₁、NO₃、NO₈、NO₁₀和NO₁₆设定为训练用的噪声样本NL₁、NL₂、NL₃、NL₄和NL₅、以存储在第三存储单元107上。

其次，以下按照图6描述CPU102的声学模型生成操作。

首先，CPU102从第三存储单元107中提取噪声样本NL₁～NL_N中的一个(步骤S30)，并且将提取的噪声样本NL₁～NL_N中的一个叠加在存储在第一存储单元105a上的多个训练用语音样本105上(步骤S31)。

在该实施例中，作为训练用的语音样本105，采用一组音韵学平衡单词543×80人。

以下描述步骤S31中的叠加方式。

CPU102以预先确定的采样频率(Hz)将语音样本105转换为数字信号S(i)(i＝1，…，I)并且以采样频率(Hz)将提取的噪声样本NL_n(1≤n≤N)转换为数字信号N_n(i)(i＝1，…，I)。接着，CPU102将数字信号N_n(i)叠加在数字信号S(i)上以生成叠加噪声的语音样本数据S_n(i)(i＝1，…，I)，它用下列方程表示为：

S_n(i)＝S(i)+N_n(i) (1)

这里i＝1，…，I，并且I为采样频率乘以数据采样时间获得的数值。

接着，CPU102在预先确定的时间长度(帧)内执行叠加噪声的语音样本数据S_n(i)的语音分析从而获得对应叠加噪声语音样本数据的p阶时间顺序特性参数(步骤S32)。

具体而言，在步骤S32中，CPU102在帧内执行叠加噪声的语音样本数据的语音分析从而获得每帧语音样本数据的作为p阶特性参数的LPC倒频谱系数和这些时间回归系数。在该实施例中，采用LPC倒频谱系数，但是可以采用FFT(快速傅利叶变换)倒频谱系数、MFCC(Mel频率倒频谱系数)、Mel-LPC倒频谱系数等代替LPC倒频谱系数。

接着，CPU102利用作为特性参数矢量的p阶特性参数训练未经训练的声学模型108(步骤S33)。在该实施例中，特性参数矢量由每帧的特性参数组成，但是特性参数矢量可以由多帧的特性参数组成。

作为完成步骤S31-S33中操作的结果，根据提取的噪声样本NL_n训练声学模型108。

随后，CPU102判断声学模型108是否根据所有噪声样本NL_n(n＝1～N)得到训练，并且如果步骤S34中的判断为NO，则CPU102返回步骤S31中的处理从而重复完成步骤S31-S34的操作。

如果声学模型108根据所有噪声样本NL_n(n＝1～N)得到训练从而使步骤S34中的判断为YES，则CPU102将生成的声学模型作为经过训练的声学模型110存储在第四存储单元108a上，模型110根据所有的噪声样本NL_n得到训练(步骤S35)。

作为训练用的声学模型108，可以采用DP(动态规划)匹配方法的矢量特性的时域序列模式，它们被称为标准模式随机模型，例如HMM(隐含Markov模型)。在该实施例中，作为训练用的声学模型108，采用DP匹配方法的标准模式。DP匹配方法是一种能够在考虑时间轴标度的同时计算两种模式之间相似性的有效方法。

作为标准模式的单位，通常采用音素、音节、半音节、CV/VC(辅音+元音/元音+辅音)等。在该实施例中，采用音节作为标准模式的单位。标准模式的帧数量被设定为等于平均音节帧。

即，在训练步骤S33中，步骤S32获得的特性参数矢量(叠加噪声语音样本)由音节分割，并且在考虑时间标度的同时利用DP匹配方法使切割的语音样本和标准模式在每帧上都得到匹配，从而使每个特性参数矢量的各帧对应每个标准模式的帧。

图7示出了步骤S33内的帧匹配操作。即，对应“/A//SA//HI/”、“/BI//SA//I/”的特性参数矢量(噪声叠加语音样本数据)与对应“/SA/”的标准模式在音节(//)上匹配。

在该实施例中，假定每个标准模式(标准矢量)符合单个高斯分布，则获得对应每个标准模式的每帧的每个特性参数矢量的每帧的平均矢量和协方差，从而使每个标准模式的每帧的平均矢量和协方差为经过训练的标准模式(经过训练的声学模型)。在该实施例中，采用单个高斯分布，但是可以采用混合高斯分布。

根据所有的噪声样本NL_n(n＝1～N)完成上述训练操作。因此，最后可以根据所有噪声样本NL_n(n＝1～N)获得经过训练的声学模型110，它包含对应叠加N个噪声样本的语音样本数据的平均矢量和协方差矩阵。

如上所述，由于将对应多个噪声环境的多个噪声样本分类为簇，所以可以在每个簇中选择一个噪声样本从而获得涵盖多种噪声环境而数量又较少噪声样本。

因此，由于将获得的噪声样本叠加在语音样本上从而根据叠加噪声的语音样本数据训练未经训练的声学模型，所以可以利用少量的噪声样本训练未经训练的声学模型并且广泛地涵盖多种无偏差的噪声，可以生成能够在任何未知环境下获得高识别率的训练过的声学模型。

(第二实施例)

图8为按照本发明第二实施例的语音识别装置150的结构示意图。

由至少一台与第一实施例中计算机相同的计算机构成的语音识别装置150包含存储程序P1的存储器151、可以读取程序P1并且根据程序P1完成操作的CPU152、用于操作人员向CPU152输入数据和根据发送的数据显示信息键盘/显示单元153以及CPU总线154，上述单元151～153通过其电气连接从而允许相互之间进行数据通信。

而且语音识别装置150包含：语音输入单元155，用于将未知的语音信号输入CPU152；存储识别用单词的音节的字典数据库156；以及存储单元157，存储第一实施例中声学模型生成装置100生成的每个音节的经过训练的声学模型110。输入单元155、字典数据库155和存储单元156与CPU总线154电气链接从而使CPU152可以往来访问于输入单元155、字典数据库156和存储单元157。

在该实施例中，当通过输入单元155向CPU152输入未知的语音信号时，CPU152按照图9所示的流程，根据程序P1，以输入的语音信号执行语音识别操作。

即，CPU152首先在预先确定的时间长度(帧)上执行输入语音信号的语音分析，从而提取每帧的k阶顺序特性参数，这些操作与图2的步骤S32类似，因此提取的特性参数等价于步骤S32中的参数(步骤S61)。

CPU152根据存储在字典数据库156内的音节完成输入的未知语音信号的顺序特性参数与每个音节的声学模型110之间的DP匹配，从而输出在其他单词中具有最大相似性的单词作为语音识别结果(步骤S63)。

按照完成上述操作的语音识别装置150，利用语音样本训练声学模型，在该样本上叠加了使大量噪声样本簇化确定的噪声样本，从而可以在未知环境下获得高识别率。

以下描述利用语音识别装置的语音识别实验结果。

为了证明本发明的效果，利用上述实施例获得的语音识别装置150和声学模型进行语音识别实验。作为评价数据，采用10个人讲的几百个地名的语音数据。未用于行进的鼻音样本被叠加在评价数据上从而完成100个单词(100个地名)的识别实验。对应噪声样本NL₁～NL_N(N＝5)的训练用噪声样本为“河流”、“标记II”、“数据显示大厅”、“办公室”和“KINDERGRATEN”。

叠加在评价数据上的噪声样本是簇1中的“音乐”、簇2中的“MAJESTA”、簇3中的“地铁”、簇4中的“办公室”和簇5中的“东京火车站”。此外，作为未知的噪声样本，在路旁录制的噪声样本“道路”和录制的TV的噪声样本“TV CM”被叠加在评价数据上，从而进行单词识别实验。

而且作为对比实验，同样进行利用只经过簇2中噪声样本“标记II”训练的声学模型的单词识别实验(对应上述普通语音识别)。

作为这些实验的结果，表1示出了单词识别率(％)。

[表1]

评价数据噪声			簇1	簇2	簇3	簇4	簇5	未知噪声
评价数据噪声			簇1	簇2	簇3	簇4	簇5	未知噪声		训练数据噪声			音乐	MAJESTA	地铁	办公室	东京火车站	道路	TV CM
簇2	标记II	(A)	48.2	94.8	88.8	76.7	77.7	92	58.2	训练数据噪声			音乐	MAJESTA	地铁	办公室	东京火车站	道路	TV CM
簇2	标记II	(A)	48.2	94.8	88.8	76.7	77.7	92	58.2	簇1～5	河流、标记II、数据显示大厅、办公室、幼儿园	(B)	77.1	92.9	92.7	90.5	91.3	94	74.1

如表1所示，按照利用簇2中噪声样本标记II训练的(A)，如果训练时与识别时的噪声样本相同(例如簇中的噪声样本)，则获得例如94.8％的高识别率。

但是在属于簇2以外簇的噪声环境中，识别率变差。

相反，按照利用簇1～5中所有噪声样本训练的(B)，获得的除了簇2以外的各簇的识别率为簇1中的77.1％、簇3中的92.7％、簇4中的90.5％、簇5中的91.3％，高于按照(A)的识别率。

而且，按照未知噪声环境下的实验，对应(B)的本发明噪声样本“道路”和“TV CM”下的识别率高于对应(A)的普通语音识别。

因此在本发明中，显而易见的是在未知噪声环境下获得了高识别率。

在实施例中，选定的N个噪声样本被叠加在训练用的语音样本上从而训练状态为单个高斯分布的未经训练的声学模型，但是在本发明中，声学模型的状态可以是由对应各噪声样本的N个高斯分布组成的混合高斯分布。而且可以训练N个声学模型，每个表示单个高斯分布，从而当进行语音识别时，可以完成N个声学模型与对应输入的未知语音信号的特性参数之间的匹配操作，从而将分数设定为具有最大相似性的声学模型作为最大分数。

虽然借助较佳实施例描述了本发明，但是本发明的精神和范围由所附权利要求限定。

Claims

1.一种生成语音识别用声学模型的装置，其特征在于所述装置包含：

用于采集M个噪声样本的装置；

用于提取时间平均矢量的装置；

依据所述时间平均矢量对所述M个噪声样本进行分类以获得N个第一簇噪声样本并从每个第一簇中抽取一个噪声样本作为训练用的噪声样本的装置；

存储训练用的未经训练的声学模型的装置；以及

利用抽取的训练用噪声样本来训练未经训练的声学模型从而生成语音识别用的声学模型的装置。

2.如权利要求1所述的装置，其特征在于所述分类装置进一步包含：

按帧对M个噪声样本中的每一个噪声样本执行语音分析以获得M个噪声样本中每一个噪声样本的每帧的特性矢量的装置；

获得M个噪声样本中每一个噪声样本的每个特性矢量的时间平均矢量的装置；以及

依据各时间平均矢量之间的距离将各特性矢量的时间平均矢量簇化成N个第一簇的装置。

3.如权利要求2所述的装置，其特征在于所述簇化装置利用分层簇化方法完成簇化操作。

4.如权利要求2所述的装置，其特征在于所述簇化装置进一步包括：

将时间平均矢量设定为第二簇的装置；

计算每个第二簇之间的每个距离的装置；

提取设定的第二簇中至少一对第二簇的装置，所述至少一对第二簇提供了比设定的第二簇中其它任何成对的第二簇都短的距离；

将所提取的第二簇链接以把链接的第二簇设定为同一第二簇的装置；

确定所述第二簇的数目是否等于一的装置，所述提取装置和所述链接装置在确定所述第二簇的数目不等于一时重复完成提取操作和链接操作；

如果确定所述第二簇的数目等于一则生成系统树图的装置，所述系统树图指示链接的第二簇之间的链接关系并指示M个噪声样本之间的相似性；以及

在系统树图的预定位置切割系统树图以获得作为N个第一簇的多个簇的装置，所述N个第一簇中的每一个包括相互链接的噪声样本，

其中所述分类装置从所述N个第一簇中的每一个簇中抽取一个噪声样本。

5.如权利要求1所述的装置，其特征在于所述训练装置进一步包括：

存储训练用的多个语音样本的装置；

提取至少一个训练用的第二噪声样本的装置；

将至少一个提取的第二噪声样本叠加在训练用语音样本上的装置；

按帧对每个叠加噪声的语音样本执行语音分析以获得对应于叠加噪声的语音样本的特性矢量的装置；以及

根据获得的特性矢量训练未经训练的声学模型以获得语音识别用声学模型的装置，所述经过训练的声学模型按照至少一个提取的噪声样本进行训练。

6.一种识别未知语音信号的装置，其特征在于包含：

用于采集M个噪声样本的装置；

用于提取时间平均矢量的装置；

依据时间平均矢量对所述M个噪声样本进行分类以获得N个第一簇噪声样本并从每个第一簇中抽取一个噪声样本作为训练用的噪声样本的装置；

存储训练用的未经训练的声学模型的装置；

利用抽取的训练用噪声样本来训练未经训练的声学模型从而生成语音识别用的声学模型的装置；

输入未知语音信号的装置；以及

根据经过训练的语音识别用声学模型识别未知的语音信号的装置。

7.一种生成语音识别用声学模型的方法，其特征在于所述方法包含以下步骤：

准备训练用的未经训练的声学模型；

采集M个噪声样本；

提取时间平均矢量；

依据所述时间平均矢量对所述M个噪声样本进行分类以获得N个第一簇噪声样本，并从每个第一簇中抽取一个噪声样本作为训练用的噪声样本；以及

利用抽取的训练用噪声样本来训练未经训练的声学模型从而生成语音识别用的声学模型。