CN109155128B

CN109155128B - 声学模型学习装置、声学模型学习方法、语音识别装置和语音识别方法

Info

Publication number: CN109155128B
Application number: CN201680085706.XA
Authority: CN
Inventors: 花泽利行
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2016-05-20
Filing date: 2016-05-20
Publication date: 2022-12-27
Anticipated expiration: 2036-05-20
Also published as: GB2564607A; WO2017199416A1; CN109155128A; US20190096392A1; TW201742049A; TWI578307B; JPWO2017199416A1; GB2564607B; US10418030B2; JP6391895B2; GB201816576D0

Abstract

本发明的声学模型学习装置使用每个讲话者的学习数据和全部讲话者的学习数据来学习声学模型，因此，能够学习针对第1讲话也不会延迟识别结束时间且确保了识别精度的声学模型，其中，该每个讲话者的学习数据是从每个讲话者的各特征向量中减去每个讲话者的全部特征向量的平均向量而生成的，该全部讲话者的学习数据是从全部讲话者的各特征向量中减去全部讲话者的全部特征向量的平均向量而生成的。并且，在本发明的语音识别装置中，如果所输入的语音是第1讲话，则将全部讲话者的全部特征向量的平均向量作为校正向量，将从所输入的语音的特征向量中减去校正向量而得到的校正后向量与所述声学模型进行核对，因此，针对第1讲话也不会延迟识别结束时间且能够确保语音识别的精度。

Description

声学模型学习装置、声学模型学习方法、语音识别装置和语音识别方法

技术领域

本发明涉及学习语音识别用的声学模型的声学模型学习装置和声学模型学习方法、以及使用声学模型识别所输入的语音的语音识别装置和语音识别方法。

背景技术

关于近年来的语音识别，将所输入的语音的频率图案作为特征向量并根据统计方法进行图案匹配的方式成为主流。在该方式中，在声学模型和所输入的语音的特征向量之间，通过图案匹配实现语音识别，其中，该声学模型是事前使用大量讲话者讲话的语音数据的频率图案的特征向量对该特征向量的统计特征进行模型化而得到的。因此，将使用频率特性不同的各种麦克风收录多个讲话者的讲话的语音作为学习数据来学习声学模型，由此，这些数据的特征向量以统计方式反映到声学模型内，因此，能够针对各种麦克风和讲话者构建健壮的声学模型。另一方面，声学模型表现的特征向量的分散较大，识别性能可能降低。

相反，存在减小声学模型的分散而提高识别精度的CMN(Cepstral MeanNormalization)这样的方法。这是如下方法：在学习声学模型时，针对学习数据中包含的每个讲话者的语音数据的特征向量，按照每个讲话者求出该讲话者的特征向量的平均向量，将从每个讲话者的特征向量中减去该平均向量而得到的数据作为学习数据。所述平均向量表示所述讲话者的语音收录中使用的麦克风的频率特性和该讲话者的语音的频率图案的平均特征。因此，通过从每个讲话者的特征向量中减去该平均向量，能够以某种程度吸收麦克风或讲话者的差异。当使用该学习数据学习例如“あ”这样的母音的声学模型时，能够以更高精度对抑制了由于麦克风或讲话者的差异而引起的影响的“あ”的声音本身所具有的特征向量进行模型化，具有提高识别性能的效果。但是，在使用进行CMN而学习的声学模型进行语音识别时，在语音识别时也需要利用某种方法求出输入语音的平均向量，并从输入语音中减去该平均向量。

在专利文献1中，公开了如下方法：在使用HMM(Hidden Markov Model)作为声学模型的情况下，不是在学习时进行CMN，而是根据学习后得到的HMM的参数近似地求出平均向量从而进行CMN。公开了如下技术：通过组合该方法和声学模型的噪音自适应化，高速地得到针对麦克风的频率特性的差异等乘法性变形和周围噪音等加法性变形双方都健壮的声学模型。在专利文献1中，作为输入语音的平均向量的计算方法，示出如下方法：按照输入语音的每一个讲话，根据一个讲话整体计算平均向量，或者，在语音识别时根据到之前的讲话为止的特征向量计算平均向量。

现有技术文献

专利文献

专利文献1：日本特开2006-349723号公报

发明内容

发明要解决的课题

但是，在专利文献1的方法中，如果不是一个讲话结束后，则无法计算一个讲话整体的平均向量，因此，如果不是一个讲话结束后，则也无法实施识别处理，存在识别的响应速度变慢这样的课题。

本发明的目的在于解决上述课题。即，目的在于，即使麦克风的频率特性不同或者周围存在噪音，针对第1讲话也不会延迟识别结束时间且确保语音识别的精度。

用于解决课题的手段

本发明的声学模型学习装置的特征在于，所述声学模型学习装置具有：每个讲话者学习数据生成单元，其针对对多个讲话者的讲话数据进行分析而得到的特征向量，从每个讲话者的各所述特征向量中减去每个讲话者的全部所述特征向量的平均向量，生成每个讲话者的学习数据；全部讲话者学习数据生成单元，其从全部讲话者的各所述特征向量中减去全部讲话者的全部所述特征向量的平均向量，生成全部讲话者的学习数据；以及学习单元，其使用所述每个讲话者的学习数据和所述全部讲话者的学习数据来学习声学模型。

并且，本发明的语音识别装置的特征在于，所述语音识别装置具有：分析单元，其对所输入的语音进行分析，输出第1特征向量；校正单元，其判定所述语音是否是第1讲话，如果是第1讲话，则针对对多个讲话者的讲话数据进行分析而得到的第2特征向量，将全部讲话者的全部所述第2特征向量的平均向量作为校正向量，如果不是第1讲话，则将之前讲话的所述第1特征向量的平均向量作为校正向量，输出从所述第1特征向量中减去所述校正向量而得到的校正后向量；以及核对单元，其对使用每个讲话者的学习数据和全部讲话者的学习数据而学习的声学模型与所述校正后向量进行核对，输出所述语音的识别结果，其中，所述每个讲话者的学习数据是使用从每个讲话者的所述第2特征向量中减去每个讲话者的全部所述第2特征向量的平均向量而生成的，所述全部讲话者的学习数据是从全部讲话者的所述第2特征向量中减去全部讲话者的全部所述第2特征向量的平均向量而生成的。

发明效果

本发明的声学模型学习装置使用从每个讲话者的各特征向量中减去每个讲话者的全部特征向量的平均向量而生成的每个讲话者的学习数据和从全部讲话者的各特征向量中减去全部讲话者的全部特征向量的平均向量而生成的全部讲话者的学习数据学习声学模型，使用值与每个讲话者的学习数据的特征向量大致一致的全部讲话者的学习数据学习声学模型，因此，能够学习针对第1讲话没有识别结束时间的延迟、且确保了将各种麦克风和讲话者作为学习数据的识别精度的声学模型。进而，通过对第2讲话以后进行CMN，能够构建吸收了由于麦克风或讲话者的差异而引起的特征向量的变动的声学模型。

并且，在本发明的语音识别装置中，如果所输入的语音是第1讲话，则将全部讲话者的全部特征向量的平均向量作为校正向量，将从所输入的语音的特征向量中减去校正向量而得到的校正后向量与所述声学模型进行核对，输出所输入的语音的识别结果，因此，针对第1讲话没有识别结束时间的延迟，能够确保将各种麦克风和讲话者作为学习数据的语音识别的精度。进而，通过对第2讲话以后进行CMN，能够吸收由于麦克风或讲话者的差异而引起的特征向量的变动，得到所输入的语音的识别结果。

附图说明

图1是本发明的实施方式1中的声学模型学习装置1的结构图。

图2是本发明的实施方式1中的声学模型学习装置1的硬件结构图。

图3是示出本发明的实施方式1中的每个讲话者学习数据生成单元3的动作的流程图。

图4是示出本发明的实施方式1中的计算单元4的动作的流程图。

图5是示出本发明的实施方式1中的全部讲话者学习数据生成单元5的动作的流程图。

图6是示出本发明的实施方式1中的学习单元7的动作的流程图。

图7是本发明的实施方式1中的语音识别装置13的结构图。

图8是示出本发明的实施方式1中的校正单元15的动作的流程图。

图9是示出本发明的实施方式1中的校正单元15的动作的流程图。

具体实施方式

下面，根据附图对本发明的声学模型学习装置、声学模型学习方法、语音识别装置和语音识别方法的实施方式进行详细说明。另外，本发明不由该实施方式进行限定。

实施方式1

图1是本发明的实施方式1中的声学模型学习装置1的结构图。

在图1中，声学模型学习装置1由以下部分构成：每个讲话者学习数据生成单元3，其输入由对多个讲话者的讲话数据进行声学分析而得到的特征向量(第2特征向量)构成的学习数据2，对每个讲话者的讲话数据的特征向量进行CMN，生成每个讲话者学习数据；计算单元4，其计算全部讲话者的特征向量的平均向量；全部讲话者学习数据生成单元5，其使用由计算单元4计算出的平均向量对全部讲话者的特征向量进行CMN，生成全部讲话者学习数据；以及学习单元7，其使用每个讲话者学习数据和全部讲话者学习数据来学习声学模型6。并且，声学模型学习装置1具有存储由每个讲话者学习数据生成单元3生成的每个讲话者学习数据的第1存储单元9、以及存储由全部讲话者学习数据生成单元5生成的全部讲话者学习数据的第2存储单元10。

学习数据2是针对声学模型学习装置1的输入数据，由特征向量构成，该特征向量是对多个讲话者利用频率特性不同的各种麦克风收录的讲话数据进行声学分析而得到的。并且，假设每一名所述讲话者存在多个讲话数据。特征向量是表示语音的频率图案即频谱特征的向量。在本实施方式中，例如使用MFCC(Mel Frequency Cepstral Coefficient)的1～12维的数据。另外，将语音数据划分成称为帧的每10毫秒的区间，按照每个帧实施声学分析而得到特征向量，因此，根据一个讲话的语音数据得到多个特征向量。例如如果是1秒的讲话，由于1秒＝1000毫秒，因此，得到1000毫秒/10毫秒＝100个特征向量。如上所述，每一名讲话者进行多个讲话，因此，与各讲话者一起，根据讲话数据量，多个特征向量包含在学习数据中。

每个讲话者学习数据生成单元3根据所输入的学习数据2，按照每个讲话者计算全部特征向量的平均向量。然后，进行从每个讲话者的各特征向量中减去每个讲话者的平均向量的CMN。然后，生成由进行了CMN的特征向量构成的每个讲话者的学习数据(每个讲话者学习数据)，将所生成的每个讲话者学习数据输出到第1存储单元9进行存储。

计算单元4根据所输入的学习数据2计算全部讲话者的全部特征向量的平均，作为全部讲话者平均向量输出到全部讲话者学习数据生成单元5。并且，从声学模型学习装置1输出计算出的全部讲话者平均向量。这里输出的全部讲话者平均向量在后述语音识别装置中进行使用。

全部讲话者学习数据生成单元5从全部讲话者的各特征向量中减去由计算单元4计算出的全部讲话者平均向量，进行CMN。然后，生成由进行了CMN的特征向量构成的全部讲话者的学习数据(全部讲话者学习数据)，将所生成的全部讲话者学习数据输出到第2存储单元10进行存储。

学习单元7使用第1存储单元9中存储的每个讲话者学习数据和第2存储单元10中存储的全部讲话者学习数据来学习声学模型6，从声学模型学习装置1输出学习后的声学模型6。

声学模型学习装置1由处理器11和存储器12构成。处理器11执行存储器12中存储的程序，由此实现声学模型学习装置1的每个讲话者学习数据生成单元3、计算单元4、全部讲话者学习数据生成单元5和学习单元7。并且，声学模型学习装置1的第1存储单元9和第2存储单元10是存储器12，但是，例如也可以是磁盘存储器等。

接着，对声学模型学习装置1的动作进行说明。

首先，对每个讲话者学习数据生成单元3的动作进行说明。

每个讲话者学习数据生成单元3从学习数据2取得每个讲话者的特征向量。(步骤(以下表示为ST)1)。然后，计算每个讲话者的全部特征向量的平均向量(ST2)。接着，进行从每个讲话者的各特征向量中减去计算出的每个讲话者的平均向量的CMN，生成每个讲话者的学习数据(每个讲话者学习数据)，将其输出到第1存储单元9进行存储(ST3)。然后，判定是否生成了全部讲话者的每个讲话者学习数据(ST4)，如果没有生成，则进行下一个讲话者的处理(ST5)，如果生成，则结束。

接着，对计算单元4的动作进行说明。

图4是示出本发明的实施方式1中的计算单元的动作的流程图。

计算单元4从学习数据2取得全部讲话者的特征向量(ST21)，计算学习数据2整体即全部讲话者的全部特征向量的平均，作为全部讲话者平均向量8而从声学模型学习装置1进行输出。并且，将全部讲话者平均向量8输出到全部讲话者学习数据生成单元5(ST22)。

接着，对全部讲话者学习数据生成单元5的动作进行说明。

全部讲话者学习数据生成单元5从学习数据2取得全部讲话者的全部特征向量(全部讲话者特征向量)(ST31)。然后，从计算单元4取得全部讲话者平均向量8(ST32)，进行从全部讲话者特征向量中减去全部讲话者平均向量8的CMN，生成全部讲话者的学习数据(全部讲话者学习数据)，将其输出到第2存储单元10进行存储(ST33)。

这样从全部讲话者的全部特征向量中减去全部讲话者平均向量8，由此，能够大致消除每个讲话者学习数据之间的不匹配。另外，这里所说的不匹配是指，每个讲话者学习数据按照每个讲话者减去平均向量，因此，值在与未进行相减的特征向量的值之间存在大幅不同。当直接使用两者学习声学模型6时，无法计算正确的统计量，因此，从全部讲话者的特征向量中减去计算出的全部讲话者平均向量8，生成全部讲话者学习数据。该全部讲话者学习数据没有吸收全部讲话者平均向量的变动，但是，通过减去全部讲话者平均向量，能够使值与每个讲话者学习数据的特征向量大致一致，能够使用两者学习声学模型。

接着，对学习单元7的动作进行说明。

学习单元7从第1存储单元9取得每个讲话者学习数据(ST41)。并且，从第2存储单元10取得全部讲话者学习数据(ST42)。然后，使用每个讲话者学习数据和全部讲话者学习数据这双方的学习数据来学习声学模型，从声学模型学习装置1进行输出(ST43)。另外，在声学模型6为HMM的情况下，学习单元7通过最大似然估计法学习声学模型6。或者，也可以使用其他学习方式、例如相互信息量最大化估计等学习方式。并且，在声学模型6为神经网络的情况下，例如根据交叉熵最小化基准，使用误差逆传播法进行学习。

并且，作为声学模型6进行模型化的语音的单位，例如设为音素。音素是指母音和子音，例如，“か”这样的声音由子音/k/和母音/a/构成。这里，//是表示音素时使用的记号。如果针对全部音素学习声学模型，则通过连结音素的声学模型，能够对全部词汇的特征向量进行模型化。

对这样学习的效果进行说明。

关于每个讲话者学习数据，能够抑制由于麦克风或讲话者的差异而引起的特征向量的变动，从而高精度地学习声学模型，具有提高识别性能的效果。另一方面，全部讲话者学习数据只是同样减去学习数据的特征向量，因此，具有与原来的学习数据相同的特征。由于原来的学习数据包含使用各种频率特性的麦克风收录的讲话者的特征向量，因此，具有针对麦克风或讲话者的差异构建健壮的声学模型的效果。

并且，通过从全部讲话者的特征向量中减去全部讲话者平均向量，能够使全部讲话者的特征向量的值与每个讲话者学习数据的特征向量的值大致一致，能够学习一并具有双方的学习数据的特征的声学模型。因此，针对输入语音，能够针对难以实施CMN即平均向量的相减的第1讲话构建健壮性较高的声学模型。进而，通过对第2讲话以后进行CMN，能够构建吸收了由于麦克风或讲话者的差异而引起的特征向量的变动的声学模型。

接着，对使用上述声学模型的语音识别装置进行说明。

图7是本发明的实施方式1中的语音识别装置13的结构图。

语音识别装置13由声学分析单元14、校正单元15、核对单元16、全部讲话者平均向量8、声学模型6a构成。声学分析单元14相当于分析单元。

而且，语音识别装置13的硬件结构能够与图2所示的声学模型学习装置1同样构成。即，语音识别装置13由图2所示的处理器11和存储器12构成。具体而言，处理器11执行存储器12中存储的程序，由此实现声学分析单元14、校正单元15、核对单元16。并且，全部讲话者平均向量8和声学模型6a在存储器12中构成。

语音识别装置13得到由声学分析单元14对所输入的语音(输入语音)17进行分析而得到的特征向量(第1特征向量)。然后，利用校正单元15判定输入语音17是否是第1讲话，如果是第1讲话，则将由声学模型学习装置1生成的全部讲话者平均向量8作为校正向量。进而，从声学分析单元14进行分析而得到的特征向量中减去校正向量而作为校正后向量，暂时存储校正前的特征向量(校正前特征向量)。

此外，如果输入语音17不是第1讲话，则将暂时存储的之前讲话为止的校正前特征向量的平均向量作为校正向量，从声学分析单元14进行分析而得到的特征向量中减去校正向量而作为校正后向量。然后，利用核对单元16将校正后向量与由声学模型学习装置1学习的声学模型进行核对，从而识别输入语音17，并输出识别结果18。

声学分析单元14对输入语音17进行分析，将进行分析而得到的特征向量输出到校正单元15。

校正单元15判定输入语音17是否是第1讲话。如果输入语音17是第1讲话，则将全部讲话者平均向量8作为校正向量，从输入语音17的特征向量中减去校正向量而作为校正后向量。然后，将校正后向量输出到核对单元16，暂时存储校正前特征向量。

此外，如果输入语音17不是第1讲话，则将暂时存储的之前讲话为止的校正前特征向量的平均向量作为校正向量，从输入语音17的特征向量中减去校正向量而作为校正后向量。然后，将校正后向量输出到核对单元16，暂时存储校正前的特征向量。

核对单元16将从校正单元15输入的校正后向量与声学模型6a进行核对，从而识别输入语音17，并输出识别结果18。

声学模型6a是通过声学模型学习装置1使用每个讲话者学习数据和全部讲话者学习数据而学习得到的的声学模型6a，存储在存储器12中。从核对单元16参照声学模型6a。例如，在将都道府县名作为识别对象词汇而进行单词的语音识别的情况下，在声学模型6a中存储有对由本发明的声学模型学习装置1学习的音素单位的声学模型进行连结得到的的单词单位的声学模型。例如，东京(と-きょ-)这样的单词的声学模型由依次对音素/t/、/o/、/o/、/k/、/j/、/o/、/o/的音素的声学模型进行连结得到的的全部都道府县名的单词的声学模型构成。

全部讲话者平均向量8是由声学模型学习装置1的计算单元4生成的全部讲话者平均向量8，存储在存储器12中。从校正单元15参照全部讲话者平均向量8。

接着，对语音识别装置13的动作进行说明。

首先，声学分析单元14对输入语音17进行声学分析，输出特征向量。该特征向量与本发明的声学模型学习装置1的输入即学习数据相同，在本实施方式中，是MFCC的1～12维的数据。

接着，校正单元15判断输入语音17是否是第1讲话，根据是否是第1讲话，对从声学分析单元14输入的特征向量进行校正。然后，将校正后的特征向量输出到核对单元16，暂时存储校正前的特征向量。

下面，对校正单元15的动作的详细情况进行说明。

首先，取得存储器12中存储的全部讲话者平均向量8(ST51)。接着，判定输入语音17是否是第1讲话(ST52)。校正单元15针对输入语音17按照每个讲话者对讲话次数进行计数，根据计数的讲话次数来判定是否是第1讲话。或者，校正单元15可以使用是内部暂时存储的讲话的第1次还是第2次以后这样的信息，来判定是否是第1讲话。

然后，如果输入语音17是第1讲话，则将全部讲话者平均向量8作为校正向量(ST53)。进而，将进行了从声学分析单元14得到的特征向量中减去校正向量的CMN后的特征向量作为校正后向量，输出到核对单元16(ST54)。进而，暂时存储相减前的特征向量作为校正前向量(ST55)。

另一方面，如果输入语音17不是第1讲话(如果是第2讲话以后)，则进行CMN，计算校正后的向量。例如，求出ST55中暂时存储的之前讲话为止的校正前向量的平均作为平均向量，将所求出的平均向量作为校正向量(ST56)。以后，与第1讲话同样进行ST54、ST55的处理。

如上所述，声学模型6a的学习中使用的全部讲话者学习数据是从学习数据的全部讲话者的各特征向量中减去全部讲话者平均向量8而生成的，因此，在语音识别时也从输入语音17的特征向量中减去全部讲话者平均向量，由此，具有使输入语音17的特征向量与学习时的特征向量匹配的效果。另外，在使用全部讲话者平均向量8作为校正向量的情况下，不会得到进行CMN的效果即吸收由于麦克风或讲话者的差异而引起的特征向量的变动的效果，但是，由于本发明的声学模型将各种麦克风和讲话者作为学习数据，因此，针对第1讲话，能够没有语音识别的结束时间的延迟地实现某种程度上健壮的语音识别。

另外，关于第2讲话以后的校正向量，可以利用校正单元15对暂时存储的之前讲话为止的特征向量的平均向量和前一个讲话中使用的校正向量进行加权平均，作为校正向量。

在图9中，与图8相同的动作的部位标注与图8相同的标号。图9和图8的差异仅在于图8的ST55的处理置换为图9的ST55a，ST56的处理置换为ST56a。

在ST55a的动作中，暂时存储相减前的特征向量即校正前向量和校正向量。

ST56a的动作如上所述，校正单元15对暂时存储的之前讲话为止的校正前向量的平均向量和前一个讲话中使用的校正向量进行加权平均，作为校正向量。

这样，在对暂时存储的之前讲话为止的特征向量的平均向量和前一个讲话中使用的校正向量进行加权平均并作为校正向量时，更加重视紧前的讲话而求出。因此，在讲话者中途交替的情况下，也能够迅速更新校正向量，能够提高识别率。

以上是校正单元15的动作的详细说明。

接着，返回语音识别装置13的动作，对核对单元16的动作进行说明。

核对单元16将从校正单元15输入的校正后向量与声学模型6a进行图案匹配，输出似然度最高的声学模型的词汇作为识别结果18。作为图案匹配的方法，例如使用维特比算法。

如以上说明的那样，在本发明中，作为学习数据，利用使用每个讲话者的平均向量进行了CMN的每个讲话者学习数据和使用全部讲话者的平均向量进行了CMN的全部讲话者学习数据这双方来学习声学模型。而且，在语音识别时，针对第1讲话，使用全部讲话者平均向量作为校正向量。这是为了在与声学模型的学习所使用的全部讲话者学习数据的特征向量相同的条件下计算特征向量。这样，针对第1讲话，在与全部讲话者学习数据相同的条件下对输入语音的特征向量进行校正，因此，与使用全部讲话者学习数据学习声学模型的效果相比，能够实现针对各种麦克风和讲话者的第1讲话没有语音识别的结束时间的延迟的某种程度上可靠的语音识别。

进而，针对语音识别时的第2讲话以后，例如将输入语音的之前讲话为止的特征向量的平均向量作为校正向量，由此，得到针对由于麦克风或讲话者的差异而引起的特征向量的变动充分发挥CMN的效果的声学模型，能够改善语音识别性能。由于在与使用声学模型的学习所使用的每个讲话者的平均向量进行了CMN的每个讲话者学习数据的特征向量相同的条件下计算特征向量，因此，得到与在声学模型的学习时和语音识别时使用相同条件的每个讲话者的平均向量实施CMN相同的效果，识别性能提高。并且，在第2讲话以后讲话者交替并在校正向量中产生些许不匹配的情况下，也能够在声学模型的学习中利用使用全部讲话者的平均向量进行了CMN后的全部讲话者学习数据，因此，与仅利用进行了CMN的每个讲话者学习数据学习的声学模型相比，具有抑制识别性能降低的效果。

并且，在专利文献1中，在输入讲话长度较短的情况下，平均向量的精度降低，识别性能降低。但是，在本发明的语音识别装置中，通过利用使用每个讲话者的平均向量进行了CMN的每个讲话者学习数据和使用全部讲话者的平均向量进行了CMN的全部讲话者学习数据这双方学习的声学模型进行语音识别，因此，在输入讲话长度较短的情况下，也能够抑制识别性能的降低。

并且，在专利文献1中，利用学习数据整体求出平均向量，因此，没有考虑由于讲话者的差异而引起的特征向量的变动，因此，识别性能降低。但是，在本发明的语音识别装置中，通过利用使用每个讲话者的平均向量进行了CMN的每个讲话者学习数据和使用全部讲话者的平均向量进行了CMN的全部讲话者学习数据这双方学习的声学模型进行语音识别，因此，即使存在由于讲话者的差异而引起的特征向量的变动，也能够抑制识别性能的降低。

另外，在本实施方式中，作为学习的声学模型，以HMM为例进行了说明，但是，针对使用学习数据学习的任意的声学模型，都能够利用使用每个讲话者的平均向量进行了CMN的每个讲话者学习数据和使用全部讲话者的平均向量进行了CMN的全部讲话者学习数据这双方进行学习，具有同样的效果。例如，作为声学模型，还能够学习神经网络。

产业上的可利用性

如上所述，在本发明的声学模型学习装置和声学模型学习方法中，作为学习数据，利用使用每个讲话者的平均向量进行了CMN的每个讲话者学习数据和使用全部讲话者的平均向量进行了CMN的全部讲话者学习数据这双方来学习声学模型，因此，针对难以实施CMN的第1讲话，也能够构建健壮性较高的声学模型。

并且，在本发明的语音识别装置和语音识别方法中，针对输入语音的第1讲话，利用全部讲话者平均向量对输入语音的特征向量进行校正，将校正后的特征向量与所述声学模型进行核对，从而进行语音识别，因此，针对第1讲话，能够没有语音识别的结束时间的延迟地实现健壮的语音识别。进而，通过对第2讲话以后进行CMN，能够吸收由于麦克风或讲话者的差异而引起的特征向量的变动，得到所输入的语音的识别结果。

标号说明

1：声学模型学习装置；2：学习数据；3：每个讲话者学习数据生成单元；4：计算单元；5：全部讲话者学习数据生成单元；6：声学模型；7：学习单元；8：全部讲话者平均向量；9：第1存储单元；10：第2存储单元；11：处理器；12：存储器；13：语音识别装置；14：声学分析单元；15：校正单元；16：核对单元；17：输入语音；18：识别结果。

Claims

1.一种声学模型学习装置，其特征在于，所述声学模型学习装置具有：

每个讲话者学习数据生成单元，其针对对多个讲话者的讲话数据进行分析而得到的特征向量，从每个讲话者的各所述特征向量中减去每个讲话者的全部所述特征向量的平均向量，生成每个讲话者的学习数据；

全部讲话者学习数据生成单元，其从全部讲话者的各所述特征向量中减去全部讲话者的全部所述特征向量的平均向量，生成全部讲话者的学习数据；以及

学习单元，其使用所述每个讲话者的学习数据和所述全部讲话者的学习数据来学习声学模型。

2.一种语音识别装置，其特征在于，所述语音识别装置具有：

分析单元，其对所输入的语音进行分析，输出第1特征向量；

校正单元，其判定所述语音是否是第1讲话，如果是第1讲话，则针对对多个讲话者的讲话数据进行分析而得到的第2特征向量，将全部讲话者的全部所述第2特征向量的平均向量作为校正向量，如果不是第1讲话，则将之前讲话为止的所述第1特征向量的平均向量作为校正向量，输出从所述第1特征向量中减去所述校正向量而得到的校正后向量；以及

核对单元，其对使用每个讲话者的学习数据和全部讲话者的学习数据而学习的声学模型与所述校正后向量进行核对，输出所述语音的识别结果，其中，所述每个讲话者的学习数据是使用从每个讲话者的所述第2特征向量中减去每个讲话者的全部所述第2特征向量的平均向量而生成的，所述全部讲话者的学习数据是从全部讲话者的所述第2特征向量中减去全部讲话者的全部所述第2特征向量的平均向量而生成的。

3.根据权利要求2所述的语音识别装置，其特征在于，

所述校正单元暂时存储所述校正向量，如果不是第1讲话，则对暂时存储的之前讲话为止的所述第1特征向量的平均向量和前一个讲话中使用的校正向量进行加权平均，作为校正向量。

4.一种声学模型学习装置的声学模型学习方法，该声学模型学习装置使用对多个讲话者的讲话数据进行分析而得到的特征向量来学习声学模型，其特征在于，所述声学模型学习方法具有以下步骤：

每个讲话者学习数据生成步骤，针对所述特征向量，从每个讲话者的所述特征向量中减去每个讲话者的全部所述特征向量的平均向量，生成每个讲话者的学习数据；

全部讲话者学习数据生成步骤，从全部讲话者的所述特征向量中减去全部讲话者的全部所述特征向量的平均向量，生成全部讲话者的学习数据；以及

学习步骤，使用所述每个讲话者的学习数据和所述全部讲话者的学习数据来学习声学模型。

5.一种语音识别装置的语音识别方法，该语音识别装置进行所输入的语音的语音识别，其特征在于，所述语音识别方法具有以下步骤：

分析步骤，对所输入的语音进行分析，输出第1特征向量；

校正步骤，判定所述语音是否是第1讲话，如果是第1讲话，则针对对多个讲话者的讲话数据进行分析而得到的第2特征向量，将全部讲话者的全部所述第2特征向量的平均向量作为校正向量，如果不是第1讲话，则将之前讲话为止的所述第1特征向量的平均向量作为校正向量，输出从所述第1特征向量中减去所述校正向量而得到的校正后向量；以及

核对步骤，对使用每个讲话者的学习数据和全部讲话者的学习数据而学习的声学模型与所述校正后向量进行核对，输出所述语音的识别结果，其中，所述每个讲话者的学习数据是使用从每个讲话者的所述第2特征向量中减去每个讲话者的全部所述第2特征向量的平均向量而生成的，所述全部讲话者的学习数据是从全部讲话者的所述第2特征向量中减去全部讲话者的全部所述第2特征向量的平均向量而生成的。