CN108701452A

CN108701452A - 音频模型学习方法、语音识别方法、音频模型学习装置、语音识别装置、音频模型学习程序及语音识别程序

Info

Publication number: CN108701452A
Application number: CN201780009153.4A
Authority: CN
Inventors: M·德尔克鲁瓦; 木下庆介; 小川厚德; 吉冈拓也; 中谷智广
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2016-02-02
Filing date: 2017-01-26
Publication date: 2018-10-23
Anticipated expiration: 2037-01-26
Also published as: WO2017135148A1; CN108701452B; JP6637078B2; US20210193161A1; JPWO2017135148A1; US11264044B2

Abstract

音频模型学习装置(10)先提取表示语音数据的特征的语音特征量，基于对由神经网络表示的音频条件的计算模型赋予特征的音频条件计算模型参数，利用音频条件的计算模型而计算表示语音数据的音频条件的特征的音频条件特征量。接着，音频模型学习装置(10)生成校正后参数，该校正后参数是基于音频条件特征量而校正对结合了音频条件的计算模型的输出层的由神经网络表示的音频模型赋予特征的音频模型参数的参数。并且，音频模型学习装置(10)基于校正后参数及语音特征量而更新音频模型参数，并基于校正后参数及语音特征量而更新音频条件计算模型参数。

Description

音频模型学习方法、语音识别方法、音频模型学习装置、语音识别装置、音频模型学习程序及语音识别程序

技术领域

本发明涉及音频模型学习方法、语音识别方法、音频模型学习装置、语音识别装置、音频模型学习程序及语音识别程序。

背景技术

以往以来，具有利用根据隐马尔可夫模型(以下，称为HMM(Hidden MarkovModel))而学习了学习用的语音数据的音频模型，由识别用语音数据识别说话者的语音的技术(例如，参照非专利文献1)。

识别用语音数据因周围的噪音、说话者的多样性等，学习用的语音数据与特征不一致的情况较多。换言之，包括学习用的语音数据及识别用语音数据分别所在的周围的噪音的音频环境、作为每个说话者的特性的说话者特性等音频条件的不一致导致语音的识别精度下降。因此，要求语音识别技术对音频条件可靠。作为可靠的语音识别技术，具有使用适应数据并通过重估而学习音频模型的参数，以使识别用语音数据符合音频模型的技术(例如，参照非专利文献2)。并且，作为参数的重估方法，广泛使用误差反向传播法等(例如，参照非专利文献3)。

现有技术文献

非专利文献

非专利文献1：G.Hinton et al.，“Deep Neural Networks for Acoust icModeling in Speech Recognition，The shared views of four research groups，”IEEESIGNAL PROCESSING MAGAZINE，Vol.29，No.6，pp.82-97，2012.

非专利文献2：H.Liao，“SPEAKER ADAPTATION OF CONTEXT DEPE NDENT DEEPNEURAL NETWORKS，”in Proc.of ICASSP’13，2013，pp.7947-7951.

非专利文献3：S.Haykin，“NEURAL NETWORKS：A COMPREHENSIVE FOUNDATION，”Prentice Hall PTR，Upper Saddle River，NJ，USA，2nd edition，1999.

发明内容

发明要解决的课题

但是，在上述技术中，由于音频模型的学习用的语音数据所在的音频条件与识别用语音数据所在的音频条件未必相同，因此在音频模型与语音识别时的语音特征量上存在不匹配，其结果，语音识别的精度下降。

为了抑制语音识别的精度下降，例如，利用与识别用语音数据相同的音频条件的适应数据而使音频模型的参数适应。但是，为了高精度地估计大量的音频模型的参数，需要庞大的语音数据量。并且，在为了估计参数而使用的语音中，需要表示其语音的标签(例如，说话者ID、转录等)。因此，在将所观测的识别用语音数据适应到音频模型的参数时需要庞大的计算，存在无法实现高速的参数适应的问题。

因此，本申请所公开的实施方式的一例的目的在于，在语音识别时，高精度且高速地实现音频模型的参数适应。

用于解决课题的手段

本发明的音频模型学习方法的特征在于，包括：特征量提取步骤，提取表示语音数据的特征的特征量；音频条件特征量计算步骤，基于音频条件计算模型参数及所述特征量，利用音频条件的计算模型而计算音频条件特征量，该音频条件计算模型参数对由神经网络表示的所述音频条件的计算模型赋予特征，该音频条件特征量表示所述语音数据的音频条件的特征；音频模型参数校正步骤，生成校正后参数，该校正后参数是基于所述音频条件特征量校正音频模型参数而得到的参数，该音频模型参数对结合了所述音频条件的计算模型的输出层的由神经网络表示的音频模型赋予特征；音频模型参数更新步骤，基于所述校正后参数及所述特征量而更新所述音频模型参数；以及音频条件计算模型参数更新步骤，基于所述校正后参数及所述特征量而更新所述音频条件计算模型参数。

并且，本发明的音频模型学习装置，其特征在于，具有：特征量提取部，其提取表示语音数据的特征的特征量；音频条件特征量计算部，其基于音频条件计算模型参数及所述特征量，利用音频条件的计算模型而计算音频条件特征量，该音频条件计算模型参数对由神经网络表示的所述音频条件的计算模型赋予特征，该音频条件特征量表示所述语音数据的音频条件的特征；音频模型参数校正部，其生成校正后参数，该校正后参数是基于所述音频条件特征量校正音频模型参数而得到的参数，该音频模型参数对结合了所述音频条件的计算模型的输出层的由神经网络表示的音频模型赋予特征；音频模型参数更新部，其基于所述校正后参数及所述特征量而更新所述音频模型参数；以及音频条件计算模型参数更新部，其基于所述校正后参数及所述特征量而更新所述音频条件计算模型参数。

发明效果

根据本申请所公开的实施方式的一例，例如，在语音识别时，能够高精度且高速地实现音频模型的参数适应。

附图说明

图1是表示第一个现有技术的语音识别装置的结构的一例的图。

图2是表示第一个现有技术的处理的概要的一例的图。

图3是表示第一个现有技术的语音识别处理的一例的流程图。

图4是表示第2个现有技术的语音识别装置的结构的一例的图。

图5是表示第2个现有技术的语音识别处理的一例的流程图。

图6是表示第3个现有技术的音频模型再学习装置的结构的一例的图。

图7是表示第3个现有技术的语音模型再学习处理的一例的流程图。

图8是表示以往的音频条件适应型音频模型的概要的一例的图。

图9是表示实施方式的音频条件适应型音频模型的概要的一例的图。

图10是表示实施方式的音频模型学习装置的结构的一例的图。

图11是表示实施方式的音频模型学习处理的一例的流程图。

图12是表示实施方式的语音识别装置的结构的一例的图。

图13是表示实施方式的语音识别处理的一例的流程图。

图14是表示通过执行程序，从而实现实施方式的音频模型学习装置及语音识别装置的计算机的一例的图。

具体实施方式

下面，在对本申请所公开的音频模型学习方法、语音识别方法、音频模型学习装置、语音识别装置、音频模型学习程序及语音识别程序的实施方式的一例进行说明之前，对作为实施方式的一例的前提的现有技术进行说明。之后，对本申请所公开的音频模型学习方法、语音识别方法、音频模型学习装置、语音识别装置、音频模型学习程序及语音识别程序的实施方式的一例进行说明。

另外，下面，例如在A为矢量的情况下，标记为“矢量A”，例如在A为矩阵的情况下，标记为“矩阵A”，例如在A为标量的情况下，简单地标记为“A”。并且，例如在A为集合的情况下，标记为“集合A”。并且，例如矢量A的函数f标记为f(矢量A)。并且，对作为矢量、矩阵或标量的A，在记载为“^A”的情况下，等同于“在‘A’的正上方记载了‘^’的记号”。并且，对作为矢量、矩阵或标量的A，在记载为“-A”的情况下，等同于“在‘A’的正上方记载了‘-’的记号”。并且，对作为矢量、矩阵或标量的A，在记载为“～A”的情况下，等同于在“‘A’的正上方记载了‘～’的记号”。并且，对作为矢量或矩阵的A，A^T表示A的转置。

＜第一个现有技术＞

第一个现有技术为例如在文献1【G.Hinton et al.，“Deep Neural Netwo rksfor Acoustic Modeling in Speech Recognition，The shared views of four researchgroups，”IEEE SIGNAL PROCESSING MAGAZINE，Vol.29，No.6，pp.82-97，2012.】中所示的语音识别技术。图1是表示第一个现有技术的语音识别装置的结构的一例的图。如图1所示，第一个现有技术的语音识别装置20a具备特征量提取部201a、HMM状态的输出概率计算部205a、单词串检索部206a。并且，语音识别装置20a连接到存储部250a。

存储部250a预先存储音频模型及语言模型。音频模型是将语音的音频特征模型化而成的。语言模型由音素、单词这样的多个符号序列构成。例如，可以说语言模型是将单词串的生成概率模型化而成的。一般情况下，语音识别用的音频模型是将各个音素从左到右地分布(Left to right)的HMM，包括利用神经网络(以下，称为NN(Neural Network))而计算的HMM的各个状态的输出概率分布。

即，存储于存储部250a的音频模型是包括音素等各个符号中的HMM的状态转移概率、与第i个隐藏层相关的权重矩阵W_i及偏置矢量b_i、激励函数的参数等的NN的参数。在此，i是隐藏层的索引。将这些参数称为音频模型参数，其集合为Λ＝{W₁，b₁，…，W_I，b_I}(I是在隐藏层的总数上加上1的数，即隐藏层和输出层的总数)。语言模型由音素、单词这样的多个符号序列S_j构成，P(S_j)是通过语言模型而获得的符号序列S_j的概率(语言概率)。另外，符号序列S_j是指，可成为语音识别结果的由音素、单词等构成的符号的序列。

特征量提取部201a读入识别用语音数据而从识别用语音数据提取语音的特征量。作为特征量，例如有MFCC(Mel Frequency Cepstral Coefficient：梅尔频率倒谱系数)、LMFC(log Mel Filterbank coefficients，对数梅尔滤波器组系数)、ΔMFCC(MFCC的一次微分)、ΔΔMFCC(MFCC的二次微分)、对数(频谱)能量、Δ对数能量(对数能量的一次微分)等。

并且，特征量提取部201a针对每个帧，将由该帧及其前后5帧左右的连续的各帧获得的特征量连结，生成10～2000维左右的时序列特征量矢量o_n(n是1，…，N的自然数)。并且，如下述(1)式所示，特征量提取部201a生成将对所有的帧的时序列特征量矢量o_n汇总的特征量矢量O。特征量矢量O是由从1到第N帧为止的D维矢量表示的数据。例如，帧成为30ms左右，帧移位长度为10ms左右。

[数1]

O＝{o₁，o₂，…，o_N|o_n∈R^D} …(1)

HMM状态的输出概率计算部205a从存储部250a读入音频模型参数Λ，并根据所读入的音频模型参数Λ而计算对特征量矢量O的各个帧n的音频模型的各个HMM状态的输出概率。HMM状态的输出概率是例如文献1【G.Hinton et al.，“Deep Neural Networks forAcoustic Modeling in Speech Recognition，The shared views of four researchgroups，”IEEE SIGNAL PROCESSING MAGAZINE，Vol.29，No.6，pp.82-97，2012.】的数学式(2)所示的神经网络的输出。图2是表示第一个现有技术的处理的概要的一例的图。如图2所示，在现有技术的语音识别中表示音频模型的神经网络在输入与输出之间具有1个以上的隐藏层。神经网络的输入是时序列特征量矢量o_n，输入到最前段的隐藏层。神经网络的输出是由最后段的隐藏层实现的HMM状态的输出概率。HMM状态的输出概率计算部205a所进行的各隐藏层中的计算包括通过线性变换进行的处理及通过激励函数进行的处理的两个处理。各个隐藏层中的线性变换如下述(2)式所示。

[数2]

z_i，n＝W_ix_i-1，n+b_i …(2)

其中，在上述(2)式中，矢量z_i，n是第i个(i是自然数，i＝1，2，…，I(其中，I是在隐藏层的总数上加上1的数，即隐藏层和输出层的总数))的隐藏层中的线性变换的输出，矢量x_i-1，n是第(i-1)个隐藏层的输出。另外，矢量x_0，n是神经网络的输入即时序列特征量矢量o_n。并且，激励函数的输出如下述(3)式所示。

[数3]

x_i，n＝σ(z_i，n) …(3)

其中，在上述(3)式中，矢量x_i，n是第i个隐藏层的输出，σ为例如s形(sig moid)函数等激励函数，针对σ(矢量z_i，n)矢量的每个要素进行计算。即，HMM状态的输出概率计算部205a在第i个隐藏层中，针对通过上述(2)而对前段的隐藏层即第(i-1)个隐藏层的输出即矢量x_i-1，n进行线性变换的结果即矢量z_i，n输出通过上述(2)式而进行处理的结果即矢量x_i，n。并且，HMM状态的输出概率计算部205a根据各个矢量x_i，n(i＝1，2，…，I)而计算针对特征量矢量O的各个帧n的音频模型的各个HMM状态的输出概率

单词串检索部206a根据通过HMM状态的输出概率计算部205a而计算的各个HMM状态的输出概率而生成J个(J为自然数)的对立候选符号序列S_j，针对每个对立候选符号序列S_j，计算表示与音频模型的适合似然度的音频得分。符号例如为音素。在此，j＝1，2，…，J。接着，单词串检索部206a根据从存储部250a读入的语言模型，针对每个对立候选符号序列S_j而计算表示与语言模型的适合似然度的语言得分。并且，单词串检索部206a根据所计算的音频得分及语言得分，从存储于存储部250a的语言模型检索在J个对立候选符号序列S_j中作为与识别用语音数据对应的单词串而最有可能的换言之将音频得分及语言得分合并的得分最高的对立候选符号序列，并将所检索的对立候选符号序列作为识别结果即单词串^S而输出。

图3是表示第一个现有技术的语音识别处理的一例的流程图。首先，语音识别装置20a从存储部250a读入音频模型参数Λ(步骤S201a)。接着，语音识别装置20a从存储部250a读入语言模型(步骤S202a)。接着，语音识别装置20a读入识别用语音数据(步骤S203a)。接着，语音识别装置20a从读入的识别用语音数据提取语音的特征量而生成特征量矢量O(步骤S204a)。接着，语音识别装置20a根据读入的音频模型参数Λ而计算针对特征量矢量O的各个帧n的音频模型的各个HMM状态的输出概率(步骤S205a)。接着，语音识别装置20a根据通过HMM状态的输出概率计算部205a而计算的各个HMM状态的输出概率而生成对立候选符号序列S_j，将每个对立候选符号序列S_j的音频得分及语言得分合并而成的得分最高的对立候选符号序列从存储于存储部250a的语言模型检索(步骤S206a)。接着，语音识别装置20a将步骤S206a的检索结果作为识别结果即单词串^S而输出(步骤S207a)。

＜第二个现有技术＞

在此，在一般情况下，在音频模型的学习时和识别时，音频环境、说话者特性等音频条件不同。因此，在第一个现有技术的语音识别中，音频模型与识别时的特征量不符合，不能得到充分的识别性能。因此，为了使音频模型符合识别时的特征量，具有校正(重估)(以下，称为音频模型校正)音频模型的参数而进行语音识别的第二个现有技术。第二个现有技术为例如文献2【H.Liao，“SPEAKER ADAPTAT ION OF CONTEXT DEPENDENT DEEPNEURAL NETWORKS，”in Proc.of ICASSP’13，2013，pp.7947-7951.】中所示的语音识别技术。下面，关于进行音频模型校正的第二个现有技术，对与第一个现有技术不同的区别部分进行说明。

图4是表示第二个现有技术的语音识别装置的结构的一例的图。进行音频模型校正的第二个现有技术的语音识别装置20b具备特征量提取部201b、HMM状态的输出概率计算部205b、单词串检索部206b。并且，语音识别装置20b与存储部250b连接。

存储部250b与第一个现有技术的存储部250a相同，关于所存储的音频模型，存储所校正的音频模型参数。特征量提取部201b读入识别用语音数据，并生成特征量矢量O。HMM状态的输出概率计算部205b根据事先校正的音频模型参数^Λ和通过特征量提取部201b而生成的特征量矢量O而计算各个HMM状态的输出概率。单词串检索部206b将各个HMM状态的输出概率和从存储部250b读入的语言模型作为输入，输出识别结果即单词串^S。

图5是表示第二个现有技术的语音识别处理的一例的流程图。如图5所示，关于语音识别装置20b的具体的处理，与第一个现有技术的语音识别装置20a相比，在步骤S201b中读入的音频模型为校正的音频模型的这一点之外，与第一个现有技术的语音识别装置20a相同。

＜第三个现有技术＞

下面，对在第二个现有技术的语音识别装置20b中适用了具备第三个现有技术的音频模型校正(重估)功能的音频模型再学习装置10c的情况进行说明。图6是表示第三个现有技术的音频模型再学习装置的结构的一例的图。音频模型再学习装置10c具有特征量提取部101c、音频模型校正部104c。并且，音频模型再学习装置10c与存储部150c连接。

存储部150c不存储语言模型，仅存储音频模型参数Λ。特征量提取部101c读入适应用语音数据，并生成特征量矢量O_r。特征量提取部101c进行与语音识别装置20b的特征量提取部201b相同的处理。

音频模型再学习装置10c计算的被校正的音频模型参数^Λ是利用与识别语音数据相同的音频条件的适应用语音数据和与适应用语音数据相关的标签而校正音频模型参数Λ来计算的。在此，标签具有在通过手动作业而写起(有监督)的情况、通过第一或第二个现有技术的语音识别而自动得到的(无监督)情况。将利用了有监督的标签的音频模型参数Λ的校正叫作有监督校正。并且，将利用了无监督的标签的音频模型参数Λ的校正叫作无监督校正。下面，将标签标记为-S_r。

音频模型校正部104c利用从存储部150c读入的音频模型参数Λ、通过特征量提取部101c而生成的特征量矢量O_r、输入的标签-S_r而校正(重估)音频模型参数Λ。具体地，音频模型校正部104c利用适应数据(适应用语音数据的特征量矢量O_r)和与特征量矢量O_r对应的正解符号序列S_r，以使下述(4)式的目标函数F_Λ成为最大的方式重估音频模型参数^Λ。并且，重估的音频模型参数^Λ例如在第二个现有技术的语音识别装置20b的HMM状态的输出概率计算部205b(参照图4)中使用。

[数4]

在此，音频模型校正部104c使用的音频模型为NN。并且，在一般情况下，关于目标函数F_Λ，例如使用交叉熵(Cross Entropy)。或者，例如通过随机梯度下降(StochasticGradient Descent)(SGD)法来解决上述(4)式的优化问题，关于对为此的校正参数的微分，如文献3【S.Haykin，“NEURAL NETWORKS：A COMPREHENSIVE FOUNDATION，”Prentice HallPTR，Upper Saddle River，NJ，USA，2nd edition，1999.】所示，通过误差反向传播(ErrorBackpropagation)算法来计算。在该情况下，作为SGD的变量即学习率(Learning Rate)，例如经常使用0.0001等微小值。

图7是表示第三个现有技术的语音模型再学习处理的一例的流程图。首先，音频模型再学习装置10c从存储部150c读入音频模型参数Λ(步骤S101c)。接着，音频模型再学习装置10c从未图示的存储部，例如语音识别装置20b的存储部250b(参照图4)读入语言模型(步骤S102c)。接着，音频模型再学习装置10c读入适应用语音数据(步骤S103c)。接着，音频模型再学习装置10c读入正解符号序列S_r(步骤S104c)。接着，音频模型再学习装置10c从适应用语音数据提取特征量，并生成特征量矢量O_r(步骤S105c)。接着，音频模型再学习装置10c利用特征量矢量O_r、输入的标签-S_r而校正(重估)音频模型参数Λ(步骤S106c)。接着，音频模型再学习装置10c对校正了音频模型参数Λ的音频模型参数^Λ进行重估而输出(步骤S107c)。

[实施方式]

下面，对本申请所公开的音频模型学习方法、语音识别方法、音频模型学习装置、语音识别装置、音频模型学习程序及语音识别程序的实施方式进行说明。下面的实施方式仅表示一例，并不限定本申请所公开的技术。并且，下面所示的实施方式及其他的实施方式在不矛盾的范围内可适当组合。

＜实施方式的数理背景＞

文献4【M.Delcroix，K.Kinoshita，T.Hori，T.Nakatani，“Context adaptive deepneural networks for fast acoustic model adaptation，”in Proc.IEEEInternational Conference on Acoustics，Speech and Signal Pro cessing(ICASSP)，2015，pp.4535-4539，2015.】中记载了将参数和音频条件特征量关联地学习的音频模型即CADNN(Context Adaptive Deep Neural Network：上下文自适应深度神经网络)。

CADNN的音频模型参数与从外部带来的音频条件特征量关联，依赖于其特征量而发生变化。在CADNN的学习中，首先，使用语音的特征量和音频条件特征量而学习与各音频条件对应的音频模型参数。并且，在语音识别时，计算识别对象的语音的音频条件特征量，根据音频条件特征量及事先学习的音频模型参数而自动估计并决定符合音频条件的新的音频模型参数。

此时，音频条件特征量具有在不使用正解标签(说话者ID、转录)的情况下计算，并且由较少的语音数据(几秒左右)也能够计算的优点，其结果能够实现高速的音频模型适应。但是，在CADNN中使用的音频条件特征量的计算部与语音识别装置是独立地设计的，并不是以语音识别性能优化的基准设计的。其结果，难以利用以往的音频条件特征量而进行高精度的语音识别。

因此，在实施方式中，使用改善了CADNN中的上述问题的音频模型即CADNN-JT(Context Adaptive Deep Neural Network with joint training：上下文自适应深度神经网络联合训练)。根据CADNN-JT，能够将音频条件特征量的计算模型的参数和音频模型的参数同时优化。在CADNN-JT中，例如，由神经网络来表示音频条件特征量的计算模型，将其神经网络的输出层与以往的CADNN的神经网络的一部分结合。由此，能够根据语音识别的优化基准而将包括音频条件特征量的计算模型的全神经网络同时优化，还能够改善语音识别精度。下面，对CADNN-JT进行说明。

(CADNN的概要)

图8是表示以往的音频条件适应型音频模型的概要的一例的图。如图8所示，在以往的音频条件适应型音频模型即CADNN中，NN的隐藏层为按照表示音频条件特征量的矢量(以下，称为“音频条件特征量矢量”)的每个要素而分解的形态。在图8中，作为例示，表示分解了一个隐藏层(第i个隐藏层)的状态，但也可以分解至少一个隐藏层或所有的隐藏层。如下述的(5)式这样计算所分解的隐藏层的线性变换后的输出。

[数5]

其中，关于上述(5)式中的y_k，n，具体情况将后述，但从第n个帧提取的音频条件特征量矢量y_n∈R^K(K维实数空间)的第k个(k是由1，2，…，K构成的自然数，K是表示音频条件的数的自然数)的要素。下面，称为音频条件特征量y_k，n。并且，上述(5)式中的权重矩阵W_i，k是针对第i个隐藏层中的音频条件特征量y_k，n的线性变换矩阵。并且，上述(5)式中的偏置矢量b_i，k是关于第i个隐藏层中的音频条件特征量y_k，n的偏置矢量。这样，CADNN将隐藏层分解为K个音频条件的要素而表示。另外，作为每个音频条件特征量的隐藏层的分解，可以是下述(6)式或下述(7)式所示的情况。

[数6]

[数7]

如下述(8-1)式及(8-2)式这样计算语音识别时的音频模型参数，并在语音识别时，根据音频条件特征量y_k，n而对音频条件自动适应。

[数8]

音频条件特征量y_k，n表示音频条件。在CADNN中，音频条件特征量y_k，n通过与语音识别装置独立的系统而计算。例如，在适应于说话者的情况下，如果将学习时的语音数据按照每个说话者等级而分割，则各个说话者等级的模型可进行学习(参照文献5【N.Dehak etal.，“Front-End Factor Analysis for Speaker Verification，”IEEE Trans.Audio，Speech，Language Process.，Vol.19，No.4，pp.788-798，2011.】)。在CADNN中，利用各个说话者等级的模型，对各测试发声计算各个说话者等级的后验概率，将此作为y_k，n。

(CADNN-JT的概要)

图9是表示实施方式的音频条件适应型音频模型的概要的一例的图。如图9所示，在作为实施方式的音频条件适应型音频模型的CADNN-JT中，对表示音频条件的音频条件特征量的计算模型使用神经网络，将其神经网络的参数与以往的CADNN的参数同时优化。即，音频模型及音频条件的计算模型由具有一个以上的隐藏层的神经网络来表示，音频条件的计算模型的输出层结合到音频模型。

作为音频条件特征量的计算模型的输入，使用第2输入特征量u_n。矢量u_n可以是表示在说话者识别等中频繁地使用的说话者特征的ivector等、语音的特征量O_n。另外，第2输入特征量u_n既可以与输入特征量相同，也可以不相同。并且，如下述(9)式这样计算通过音频条件特征量的计算模型而计算的音频条件特征量y_k，n。

[数9]

y_n＝f(u_n，Ω) …(9)

在此，矢量y_n＝[y_1，n，…，y_k，n，…，y_K，n]是K维音频条件特征量矢量。并且，矢量u_n＝[u_1，n，…，u_J，n]是J维的第2输入特征量。并且，函数f()是用于计算音频条件特征量的函数，Ω是函数f()的参数。在此，f()表示多层神经网络(DNN)的情况，f()可以是循环神经网络(RNN)、CNN(Convolutional Neural Network：卷积神经网络)。

在f()为DNN的情况下，Ω＝{W′_i′，b′_i′，i′，…，I′}是式(2)所示这样的用于神经网络的各层中的线性变换的参数的集合，W′_i′是变换矩阵，b′_i′是偏置矢量，I′是在音频条件特征量的计算模型的神经网络的隐藏层的总数上加上1的数，即隐藏层和输出层的总数。并且，作为隐藏层的激励函数，可使用S形函数等。并且，作为输出层的活性化函数(激励函数)，可使用软最大值函数、线性函数等。

通过将音频条件特征量y_k，n作为说话者等级的后验概率，从而作为音频条件而可表示各个说话者。并且，通过将音频条件特征量y_k，n作为噪音环境等级的后验概率，从而作为音频条件而可表示噪音环境。并且，y_k，n是基本上能够利用几秒的语音数据而计算的特征量，因此通过利用几秒的语音数据，从而能够将大量的音频模型参数(W_i，b_i)适应到音频条件。

关于各个隐藏层的输出，针对线性变换的输出矢量z_i，n而适用激励函数，如下述(10)式这样进行计算。

[数10]

x_i，n＝σ(z_i，n) …(10)

按照每个音频条件特征量y_k，n分解的各个隐藏层的线性变换的参数即权重矩阵W_i，k和偏置矢量b_i，k及用于计算音频条件特征量的函数的参数Ω同时被优化。

这是因为音频条件特征量的计算结果被使用到因数分解的隐藏层中的计算过程(参照(5)式、(9)式)。即，音频条件特征量的计算模型的神经网络和因数分解的隐藏层结合，因此利用以往的神经网络的学习顺序(误差反向传播(Error backpropa gation)及SGD)(参照文献6【D.Yu and L.Deng，“Automatic Speech Recognition：A Deep LearningApproach，”Springer，2015.】)，将全神经网络的参数同时优化。该情况下的隐藏层的线性变换的参数的微分如下述(11-1)式及(11-2)式所示。

[数11]

其中，上述(11-1)式及(11-2)式中的F表示优化基准(例如，Cross Entropy：交叉熵)。并且，矢量δ_i，n表示反向传播的误差，如下述(12)式这样计算。阿达玛(Hadamard)积是矩阵或矢量的每个要素之积。

[数12]

其中，是Hadamard积，

Δσ表示激励函数的微分。

上述(12)式与现有技术的误差反向传播的式相同，但上述(12)式中使用的权重矩阵W_i+1，n和矢量z_i，n根据CADNN-JT中新导入的上述(8-1)式及(8-2)式和上述(5)式(或上述(6)式或上述(7)式)而计算。误差矢量δ_I，n是误差项。与现有技术相同地，误差矢量δ_I，n根据基于输入特征量矢量Y和NN而计算的网络的输出(HMM状态的输出概率)即矢量x_i，n和由所输入的正解符号序列S_r获得的正解HMM状态d_n，作为反向传播的误差，如下述(13)式这样计算。

[数13]

δ_I，n＝d_n-x_I，n …(13)

并且，用于进行音频条件特征量的计算模型的神经网络的隐藏层中的线性变换的参数的微分如下述(14-1)式及(14-2)式所示。

[数14]

其中，δ′_i，n表示针对音频条件特征量的计算模型的神经网络而反向传播的误差，如下述(15)式这样计算该δ′_i，n。

[数15]

其中，是Hadamard积，

Δσ表示激励函数的微分。

另外，如下述(16)式这样计算(15)式的反向传播的误差δ′_I′，n。

[数16]

此时，δ′_i，p，n是第p维的第i层的反向传播的误差，z_{k，i，p，n}是z_k，i，n的第p维。如下述(17)式这样计算z_k，i，n。

[数17]

z_k，i，n＝W_i，kx_i-1，n+b_i，k …(17)

＜实施方式的一例＞

(实施方式的音频模型学习装置的结构)

鉴于上述实施方式的数理背景，下面对实施方式的一例进行说明。图10是表示实施方式的音频模型学习装置的结构的一例的图。如图10所示，实施方式的音频模型学习装置10具备特征量提取部101、第2特征量提取部102、条件特征量计算部103、音频模型参数校正部104、HMM状态的输出概率计算部105、误差计算部121、音频模型参数微分值计算部122、音频模型参数更新部123、条件特征量计算部的参数微分值计算部124、条件特征量计算部的参数更新部125、收敛判断部126。并且，音频模型学习装置10与存储部150连接。

存储部150作为对音频模型赋予特征的参数，存储音频模型参数Λ＝{W_1，n，b_1，n|n为由1，2，…，N构成的自然数}。其中，N是计算后述的每个帧的音频条件特征量矢量y_n的对象即一个发声的总帧数。

并且，存储部150作为对音频条件的计算模型赋予特征的参数，存储音频条件的计算模型参数Ω＝{W′_i′，b′_i′，i′，…，I′}。其中，N是计算后述的每个帧的音频条件特征量矢量y_n的对象即一个发声的总帧数。并且，如在(9)式的说明中所陈述，W′_i′是变换矩阵，b′_i′是偏置矢量，I′是在音频条件特征量的计算模型的神经网络的隐藏层的总数上加上1的数，即隐藏层和输出层的总数。音频条件的计算模型是用于生成后述的音频条件特征量矢量-Y的模型。例如，音频条件特征量是关于各个说话者的特征、说话者的性别、噪音、余音的音频环境等。

特征量提取部101读入由麦克风等观测的学习用语音数据，由学习用语音数据生成特征量矢量O。即，特征量提取部101由学习用语音数据提取特征量。特征量提取部101的具体处理与第一个现有技术的特征量提取部201a、第二个现有技术的特征量提取部201b、第三个现有技术的特征量提取部101c相同。

第2特征量提取部102读入学习用语音数据，提取如下述(18)式所示的第2特征量矢量序列U并输出到条件特征量计算部103。第2特征量提取部102进行与特征量提取部101相同的处理，既可以将特征量矢量O作为第2特征量矢量而提取，也可以提取例如与ivector等的特征量矢量O不同的特征量。

[数18]

U＝{u₁，u₂，…，u_N|u_n∈R^L} …(18)

另外，在(18)式中，N是计算第2特征量矢量的对象即一个发声的总帧数，n是从1到N的整数。即，第2特征量矢量序列U包括从1到第N帧为止的各个帧中的第2特征量。第2特征量例如表示说话者性别、环境(噪音、余音)的特征等。并且，由L维的矢量来表示各帧中的第2特征量。并且，各个特征量矢量u_n在各帧中并不是采用不同的值，在几秒之间可以固定成相同的值，在一个发声之间固定成相同的值。

条件特征量计算部103读入对音频条件的计算模型赋予特征的音频条件的计算模型参数Ω及由第2特征量提取部102提取的第2特征量，通过(9)式而计算表示语音数据的音频条件的特征的音频条件特征量。并且，条件特征量计算部103将所计算的音频条件特征量作为下述(19)式这样的特征量矢量Y而输出到音频模型参数校正部104。

[数19]

Y＝{y₁，y₂，…，y_N|y_n∈R^K} …(19)

其中，在上述(19)式中，N是计算每个帧的音频条件特征量矢量y_n的对象即一个发声的总帧数，n是从1到N的自然数。即，音频条件特征量矢量Y包括从第1到第N帧为止的各帧的音频条件特征量矢量y_n，各个帧的音频条件特征量矢量y_n由K维的矢量表示。另外，各个帧的音频条件特征量矢量y_n并不是在各帧中采用不同的值，既可以是几秒之间固定成相同的值，也可以在一个发声之间固定成相同的值。

音频模型参数校正部104根据通过条件特征量计算部103而生成的音频条件特征量矢量Y，通过上述(8-1)式及(8-2)式而校正对从存储部150读入的音频模型赋予特征的音频模型参数Λ。另外，通过音频模型参数校正部104而校正的音频模型参数Λ的初始值为由随机数决定的参数或通过第一个至第三个现有技术而学习的音频模型参数等。音频模型参数校正部104将通过校正而生成的校正后的参数^Λ输出到HMM状态的输出概率计算部105。

HMM状态的输出概率计算部105根据通过音频模型参数校正部104而校正的音频模型参数^Λ和通过特征量提取部101而生成的特征量矢量O来计算各个HMM状态的输出概率。关于HMM状态的输出概率计算部105的具体处理，与第一个现有技术的HMM状态的输出概率计算部205a、第二个现有技术的HMM状态的输出概率计算部205b相同。

误差计算部121根据通过HMM状态的输出概率计算部105而计算的各个HMM状态的输出概率和所输入的正解符号序列-S_r(正解HMM状态)，通过上述(13)式而计算误差矢量δ_I，n。并且，误差计算部121通过上述(16)式而计算表示对音频条件特征量的计算模型的神经网络而反向传播的误差的误差矢量δ′_I′，n。

音频模型参数微分值计算部122根据通过误差计算部121的计算而得到的误差矢量δ_I，n和通过音频模型参数校正部104而校正的音频模型参数^Λ而计算音频模型参数微分值。音频模型参数微分值计算部122通过表示反向传播的误差的上述(11-1)式、(11-2)式及(12)式而计算音频模型参数微分值。或者，音频模型参数微分值计算部122可通过以往的随机梯度下降(Stochastic Gradient Descent)(SGD)法而计算(参照上述文献6)。并且，也可以与为了参数学习的高速化而经常使用的动量(momentum)、L2正则化(Regularization)一起使用。

音频模型参数更新部123根据从存储部150读入的音频模型参数Λ和通过音频模型参数微分值计算部122而计算的音频模型参数微分值，通过下述(20-1)式及(20-2)式而更新音频模型参数Λ。这样，音频模型参数更新部123根据基于校正后的音频模型参数及特征量而计算的各个值而更新音频模型参数。

[数20]

其中，在上述(20-1)式及(20-2)式中，权重矩阵～W_i，k及偏置矢量～b_i，k为更新的音频模型参数～Λ，权重矩阵-W_i，k及偏置矢量-b_i，k是在前一个步骤中获得的音频模型参数-Λ。并且，在上述(20-1)式及(20-2)式中，η为SGD的变量即学习率(Learning Rate)，例如为0.1～0.0001等微小值。η是音频模型参数校正用参数。

条件特征量计算部的参数微分值计算部124根据通过误差计算部121的计算而得到的误差矢量δ_I，n和音频条件的计算模型参数Ω而计算音频条件的计算模型参数即条件特征量计算部的参数微分值。条件特征量计算部的参数微分值计算部124通过表示反向传播的误差的上述(14-1)式、(14-2)式及(15)式而计算条件特征量计算部的参数微分值。并且，条件特征量计算部的参数微分值计算部124可以使用与音频模型参数微分值计算部122相同的方法。

条件特征量计算部的参数更新部125根据从存储部150读入的音频条件的计算模型参数Ω和通过条件特征量计算部的参数微分值计算部124而计算的条件特征量计算部的参数微分值，通过下述(21-1)式及(21-2)式而更新音频条件的计算模型参数Ω。这样，条件特征量计算部的参数更新部125根据基于校正后参数及特征量而计算的各个值而更新音频条件的计算模型参数。

[数21]

其中，在上述(21-1)式及(21-2)式中，权重矩阵～W′_i，k及偏置矢量～b′_i，k是更新的音频条件的计算模型参数～Ω，权重矩阵-W′_i，k及偏置矢量-b′_i，k是更新前的音频条件的计算模型参数-Ω。并且，在上述(21-1)式及(21-2)式中，η′为SGD的变量即学习率(Learning Rate)，例如为0.1～0.0001等的微小值。η′是音频条件的计算模型参数校正用参数。

收敛判断部126对通过音频模型参数更新部123而更新的音频模型参数～Λ及音频条件的计算模型参数～Ω而判断音频模型参数Λ及音频条件的计算模型参数Ω的学习(估计)是否满足规定的收敛条件。在判断为满足规定的收敛条件的情况下，收敛判断部126将判断收敛条件充足时的音频模型参数～Λ作为音频模型学习装置10的输出值而输出。从音频模型学习装置10输出的音频模型参数～Λ例如存储在存储部150中。

另一方面，在判断为不满足规定的收敛条件的情况下，收敛判断部126将判断收敛条件充足时的音频模型参数～Λ输出到音频模型参数校正部104，进而将判断收敛条件充足时的音频条件的计算模型参数～Ω输出到条件特征量计算部103，条件特征量计算部103、音频模型参数校正部104、HMM状态的输出概率计算部105、误差计算部121、音频模型参数微分值计算部122、音频模型参数更新部123、收敛判断部126反复进行处理。此时，判断为满足规定的收敛条件时的音频模型参数～Λ及音频条件的计算模型参数～Ω进一步存储到存储部150，作为下一次的处理中的各参数的初始值而使用。

另外，收敛判断部126例如根据(1)前一个步骤中获得的音频模型参数-Λ或音频条件的计算模型参数-Ω与更新的音频模型参数～Λ或音频条件的计算模型参数～Ω的差分为阈值以下的情况、(2)收敛条件充足判断的反复次数为规定的次数以上的情况、(3)在利用学习用语音数据的一部分而评价性能时，规定的性能指标恶化规定值以上的情况等的任一个规定条件而进行收敛条件充足判断。

(实施方式的音频模型学习处理)

图11是表示实施方式的音频模型学习处理的一例的流程图。首先，音频模型学习装置10从存储部150读入音频模型(音频模型参数Λ)(步骤S101)。接着，音频模型学习装置10从存储部150读入音频条件的计算模型(音频条件的计算模型参数Ω)(步骤S102)。接着，音频模型学习装置10读入学习用语音数据(步骤S103)。接着，音频模型学习装置10读入正解符号序列-S_r(步骤S104)。

接着，音频模型学习装置10从学习用语音数据提取特征量矢量O(步骤S105)。接着，音频模型学习装置10从学习用语音数据提取第2特征量矢量序列U(步骤S106)。接着，音频模型学习装置10通过上述(9)式而从音频条件的计算模型参数Ω及第2特征量矢量序列计算音频条件特征量矢量Y(步骤S107)。接着，音频模型学习装置10根据音频条件特征量矢量Y，通过上述(8-1)式及(8-2)式而校正从存储部150读入的音频模型参数Λ(步骤S108)。接着，音频模型学习装置10根据校正的音频模型参数Λ和特征量矢量O而计算各个HMM状态的输出概率(步骤S109)。

接着，音频模型学习装置10根据各个HMM状态的输出概率和所输入的正解符号序列-S_r，通过上述(13)式而计算误差矢量δ_I，n，并且，通过上述(16)式而计算误差矢量δ′_I′，n(步骤S110)。

接着，音频模型学习装置10根据误差矢量δ_I，n和所校正的音频模型参数Λ而计算音频模型参数微分值(步骤S111)。接着，音频模型学习装置10根据从存储部150读入的音频模型参数Λ和音频模型参数微分值，通过上述(20-1)式及(20-2)式而更新音频模型参数Λ(步骤S112)。

接着，音频模型学习装置10根据误差矢量δ′_I′，n和音频条件的计算模型参数Ω而计算音频条件的计算模型参数微分值(步骤S113)。接着，音频模型学习装置10根据从存储部150读入的音频条件的计算模型参数Ω和音频条件的计算模型参数微分值，通过上述(21-1)式及(21-2)而更新音频条件的计算模型参数Ω(步骤S114)。

接着，音频模型学习装置10对所更新的音频模型参数～Λ及音频条件的计算模型参数～Ω而判断音频模型参数Λ及音频条件的计算模型参数Ω的学习是否满足规定的收敛条件(步骤S115)。在音频模型参数Λ及音频条件的计算模型参数Ω的学习满足规定的收敛条件的情况下(步骤S115为是)，音频模型学习装置10使处理转移到步骤S116。另一方面，在音频模型参数Λ或音频条件的计算模型参数Ω的学习不满足规定的收敛条件的情况下(步骤S115为否)，音频模型学习装置10使处理转移到步骤S107或步骤S108。在步骤S116中，音频模型学习装置10将判断为满足规定的收敛条件时的音频模型参数～Λ作为音频模型学习装置10的输出值而输出(步骤S116)。此时，判断为满足规定的收敛条件时的音频模型参数～Λ及音频条件的计算模型参数～Ω进而存储到存储部150，作为下一次的处理中的各个参数的初始值而使用。

(实施方式的语音识别装置的结构)

图12是表示实施方式的语音识别装置的结构的一例的图。如图12所示，实施方式的语音识别装置20具备特征量提取部201、第2特征量提取部202、条件特征量计算部203、音频模型参数校正部204、HMM状态的输出概率计算部205，单词串检索部206。并且，语音识别装置20与存储部250连接。

存储部250预先存储通过音频模型学习装置10而更新的音频模型(音频模型参数Λ)、音频条件的计算模型(音频条件的计算模型参数Ω)、语言模型、音频模型参数校正用参数η、音频条件的计算模型参数校正用参数η′。

特征量提取部201读入通过麦克风等而观测的识别用语音数据，从识别用语音数据提取特征量，并生成特征量矢量O。即，特征量提取部201从识别用语音数据提取特征量。特征量提取部201的具体处理与音频模型学习装置10的特征量提取部101相同。

第2特征量提取部202读入通过麦克风等而观测的识别用语音数据，从识别用语音数据提取特征量，并生成第2特征量矢量序列U。即，特征量提取部201从识别用语音数据提取特征量。特征量提取部201的具体处理与音频模型学习装置10的第2特征量提取部102相同。

条件特征量计算部203读入音频条件的计算模型参数Ω及由第2特征量提取部202提取的第2特征量，并通过(9)式而计算音频条件特征量。并且，条件特征量计算部203将所计算的音频条件特征量作为(19)式这样的特征量矢量Y而输出到音频模型参数校正部204。条件特征量计算部203的具体处理与音频模型学习装置10的条件特征量计算部103相同。

音频模型参数校正部204根据从存储部250读入的音频模型参数Λ和通过条件特征量计算部203而生成的音频条件特征量矢量Y，通过上述(8-1)式及(8-2)式而校正音频模型参数Λ。音频模型参数校正部204的具体处理与音频模型学习装置10的音频模型参数校正部104相同。

HMM状态的输出概率计算部205根据通过音频模型参数校正部204而校正的音频模型参数^Λ和通过特征量提取部201而生成的特征量矢量O来计算各个HMM状态的输出概率。HMM状态的输出概率计算部205的具体处理与音频模型学习装置10的HMM状态的输出概率计算部105相同。

单词串检索部206利用基于特征量及校正后参数而计算的HMM状态的输出概率和语言模型的生成概率而输出单词串。即，单词串检索部206基于通过HMM状态的输出概率计算部205而计算的各个HMM状态的输出概率而检索从存储部250读入的语言模型，并作为语音识别结果而输出单词串^S。单词串检索部206的具体处理与第一个现有技术的语音识别装置20a的单词串检索部206a、第二个现有技术的语音识别装置20b的单词串检索部206b相同。

(实施方式的语音识别处理)

图13是表示实施方式的语音识别处理的一例的流程图。首先，语音识别装置20从存储部250读入音频模型(音频模型参数Λ)(步骤S201)。接着，语音识别装置20从存储部250读入音频条件的计算模型(步骤S202)。接着，语音识别装置20从存储部250读入语言模型(步骤S203)。接着，语音识别装置20读入识别用语音数据(步骤S204)。接着，语音识别装置20从存储部250读入音频模型参数校正用参数η及音频条件的计算模型参数校正用参数η′(步骤S205)。

接着，语音识别装置20从学习用语音数据提取特征量矢量O(步骤S206)。接着，语音识别装置20从学习用语音数据提取第2特征量矢量序列U(步骤S207)。接着，语音识别装置20通过上述(9)式而由音频条件的计算模型参数Ω及第2特征量矢量序列来计算音频条件特征量矢量Y(步骤S208)。接着，语音识别装置20根据音频条件特征量矢量Y，通过上述(8-1)式及(8-2)式而校正从存储部250读入的音频模型参数Λ(步骤S209)。

接着，语音识别装置20根据所校正的音频模型参数Λ和特征量矢量O而计算各个HMM状态的输出概率(步骤S210)。接着，语音识别装置20基于各个HMM状态的输出概率而检索从存储部250读入的语言模型(步骤S211)。接着，语音识别装置20从步骤S211的检索结果，作为语音识别结果而输出单词串^S(步骤S212)。

(其他实施方式)

在实施方式中，对于将基于DNN(CADNN)的音频模型与音频条件的计算模型结合的情况进行了说明，但不限于DNN，也可以将基于CNN(Convolutional Neural Network：卷积神经网络)、RNN(Recurrent Neural Network：循环神经网络)、BLSTM(Bidirectional LongShort-Term Memory：双向长短时记忆)的神经网络等各种神经网络的音频模型与音频条件的计算模型结合，并进行同样的公式化。并且，本发明中的音频模型不仅限于基于HMM的模型，也可以是利用神经网络而计算输出概率的任意的音频模型。例如，本发明中的音频模型可以是基于CTC(Connectionist Temporal Classification，连接时序分类)、编码-解码(encoder-decoder)的模型。

(实施方式的效果)

在实施方式的音频模型学习装置10中，特征量提取部101及第2特征量提取部102提取表示语音数据的特征的特征量。并且，条件特征量计算部103基于对由神经网络表示的音频条件的计算模型赋予特征的音频条件计算模型参数及特征量，并利用音频条件的计算模型而计算表示语音数据的音频条件的特征的音频条件特征量。并且，音频模型参数校正部104生成校正后参数，该校正后参数是基于音频条件特征量而校正对结合了音频条件的计算模型的输出层的由神经网络表示的音频模型赋予特征的音频模型参数的参数。并且，音频模型参数更新部123基于校正后参数及特征量而更新音频模型参数。并且，条件特征量计算部的参数更新部125基于校正后参数及特征量而更新音频条件计算模型参数。

由此，实施方式具备在不利用正解标签(说话者ID、转录)的情况下能够计算音频条件特征量，并且可由较少的语音数据(几秒左右)来计算音频条件特征量的优点，其结果可实现高速的音频模型适应。

即，实施方式可利用较少的语音数据而使音频模型适应音频条件，无需如现有技术那样按照每个音频条件而切换音频模型，达到比现有技术更高的语音识别性能。

并且，实施方式基于在表示音频模型的神经网络中反向传播的误差而将表示音频条件的计算模型的神经网络的优化，因此能够将音频条件特征量的计算模型的参数和音频模型的参数同时优化。因此，能够将包括音频条件特征量的计算模型的全部神经网络基于语音识别的优化基准而同时优化，并改善语音识别精度。

并且，特征量提取部101及第2特征量提取部102作为特征量而提取第一特征量及与第一特征量不同的第2特征量。此时，条件特征量计算部103基于音频条件计算模型参数及第2特征量而计算音频条件特征量。并且，音频模型参数更新部123基于校正后参数及第一特征量而更新音频模型参数。并且，条件特征量计算部的参数更新部125基于校正后参数及第2特征量而更新音频条件计算模型参数。由此，对音频模型及音频条件计算模型分别使用不同的特征量而同时优化，因此能够利用更高精度地将各个模型优化的特征量而进行学习。

并且，在实施方式的语音识别装置20中，语音识别用的特征量提取部201及第2特征量提取部202提取表示语音数据的特征的特征量。并且，语音识别用的条件特征量计算部203基于音频条件计算模型参数及特征量，利用音频条件的计算模型而计算表示语音数据的音频条件的特征的音频条件特征量。并且，语音识别用的音频模型参数校正部204生成基于音频条件特征量而校正音频模型参数的参数即校正后参数。并且，单词串检索部206利用基于特征量及校正后参数而计算的HMM状态的输出概率和语言模型的生成概率而输出单词串。能够利用满足语音识别的优化基准的音频条件计算模型参数而进行语音识别，因此提高语音识别的精度。

表1中表示在语音识别任务AURORA4中，使用各种手法，在每次发声时使音频模型对说话者无监督适应时的结果(单词误差率)。针对每一个发声(几秒左右)而计算音频条件特征量，因此根据少量数据而执行高速的音频模型适应。并且，所使用的手法为基线(基于以往神经网络的语音识别)、CADNN及实施方式中使用的本发明的手法即CADNN-JT的3个手法。在此，从表1可知，本发明与以往语音识别(基线)、以往CADNN相比达到较高的性能。

[表1]

	单词误差率
		基线(基于以往神经网络的语音识别)	11.9
以往CADNN	12.4
		本发明(CADNN-JT)	10.7

(关于音频模型学习装置及语音识别装置的装置结构)

图10所示的音频模型学习装置10及图12所示的语音识别装置20的各个构成要件是功能概念性的要件，在物理性上无需必须构成为图示的结构。即，音频模型学习装置10及语音识别装置20的功能的分开及合并的具体的形态不限于图示的形态，可根据各种负载、使用状况等，将其全部或一部分以任意的单位功能性地或物理性地分开或合并而构成。例如，特征量提取部101及第2特征量提取部102可以是一体的功能部，也可以向HMM状态的输出概率计算部105和条件特征量计算部103输出分别不同的特征量。另外，关于特征量提取部201及第2特征量提取部202也是同样的。

并且，例如，音频模型学习装置10及语音识别装置20为一体的装置。在音频模型学习装置10及语音识别装置20为一体的装置的情况下，在音频模型学习装置10和语音识别装置20中具备相同的功能的特征量提取部101和特征量提取部201、第2特征量提取部102和第2特征量提取部202、条件特征量计算部103和条件特征量计算部203、音频模型参数校正部104和音频模型参数校正部204、HMM状态的输出概率计算部105和HMM状态的输出概率计算部205可以是相同的功能部。

并且，音频模型学习装置10及语音识别装置20中的各个处理不限于图示的情况，可以调节处理顺序，也可以将处理合并或分离。例如，实施方式中的步骤S101～S104及步骤S201～S205可以更换处理顺序。

并且，在音频模型学习装置10及语音识别装置20中进行的各个处理中，全部或任意的一部分可由CPU等处理装置及通过处理装置而解析执行的程序来实现。在音频模型学习装置10及语音识别装置20中进行的各个处理作为通过有线逻辑构成的硬件而实现。

并且，在实施方式中说明的各个处理中，可以将作为自动进行的处理而说明的处理的全部或一部分以手动的方式进行。或者，在实施方式中说明的各个处理中，可以将作为手动进行的处理而说明的处理的全部或一部分通过公知的方法自动地进行。此外，关于包括上述及图示的处理顺序、控制顺序、具体的名称、各种的数据、参数的信息，除了特别记载的情况之外，能够适当变更。

(程序)

作为一实施方式，音频模型学习装置及语音识别装置可通过在期望的计算机安装作为软件包、在线软件而执行上述的音频模型学习或语音识别的音频模型学习程序或语音识别程序来安装。例如，通过使信息处理装置执行上述的音频模型学习程序或语音识别程序，从而可以将信息处理装置用作音频模型学习装置或语音识别装置。在此所谓的信息处理装置中包含台式或笔记本个人计算机。并且，此外，关于信息处理装置，智能手机、便携式电话机、PHS(Personal Handyphone System：个人手提电话系统)等移动体通信终端、进而PDA(Personal Digital Assistant：个人数字助理)等平板终端等属于其范畴。

并且，可将音频模型学习装置及语音识别装置作为服务器装置而安装，该服务器装置将用户所使用的终端装置作为客户端，向该客户端提供与上述的音频模型学习或语音识别相关的服务。例如，将音频模型学习装置作为提供输入学习用语音数据，输出音频条件的计算模型的音频模型学习服务的服务器装置而安装。并且，例如，将语音识别装置作为提供输入识别用语音数据，输出识别结果的单词串的语音识别服务的服务器装置而安装。在该情况下，音频模型学习装置及语音识别装置既可以作为Web服务器而安装，也可以作为通过外包而提供与上述的音频模型学习或语音识别相关的服务的云而安装。

图14是表示通过执行程序而实现音频模型学习装置或语音识别装置的计算机的一例的图。计算机1000例如具备存储器1010、CPU1020。并且，计算机1000具备硬盘驱动器接口1030、盘驱动器接口1040、串行端口接口1050、视频适配器1060、网络接口1070。这些各个部件通过总线1080而连接。

存储器1010包括ROM(Read Only Memory：只读存储器)1011及RAM(Random AccessMemory：随机存取存储器)1012。ROM1011例如存储BIOS(Basic Input Output System：基本输入输出系统)等的引导程序。硬盘驱动器接口1030与硬盘驱动器1090连接。盘驱动器接口1040与盘驱动器1100连接。例如，磁盘、光盘等可拆装的存储介质插入盘驱动器1100。串行端口接口1050例如与鼠标1110、键盘1120连接。视频适配器1060例如与显示器1130连接。

硬盘驱动器1090例如存储OS1091、应用程序1092、程序模块1093、程序数据1094。即，将规定音频模型学习装置或语音识别装置的各个处理的程序作为记载有通过计算机而可执行的代码的程序模块1093而安装。程序模块1093例如存储在硬盘驱动器1090。例如，用于执行与音频模型学习装置或语音识别装置中的功能结构相同的处理的程序模块1093存储在硬盘驱动器1090。另外，硬盘驱动器1090可通过SSD(Solid State Drive：固态硬盘)来代替。

并且，在上述的实施方式的处理中使用的设定数据作为程序数据1094而例如存储在存储器1010、硬盘驱动器1090。并且，CPU1020根据需要而将存储在存储器1010、硬盘驱动器1090的程序模块1093、程序数据1094读出到RAM1012而执行。

另外，程序模块1093、程序数据1094不限于存储在硬盘驱动器1090的情况，例如可存储到可拆装的存储介质，并介由盘驱动器1100等且通过CPU1020来读出。或者，程序模块1093及程序数据1094可存储于介由网络(LAN(Local Area Network：局域网)、WAN(WideArea Network：广域网)等)而连接的其他的计算机。并且，程序模块1093及程序数据1094可由其他的计算机介由网络接口1070并通过CPU1020来读出。

符号的说明

10音频模型学习装置

20语音识别装置

101，201特征量提取部

102，202第2特征量提取部

103，203条件特征量计算部

104，204音频模型参数校正部

105，205HMM状态的输出概率计算部

121误差计算部

122音频模型参数微分值计算部

123音频模型参数更新部

124条件特征量计算部的参数微分值计算部

125条件特征量计算部的参数更新部

126收敛判断部

206单词串检索部

150，250存储部

Claims

1.一种音频模型学习方法，其特征在于，包括：

特征量提取步骤，提取表示语音数据的特征的语音特征量；

音频条件特征量计算步骤，基于音频条件计算模型参数及所述语音特征量，利用音频条件的计算模型而计算音频条件特征量，该音频条件计算模型参数对由神经网络表示的所述音频条件的计算模型赋予特征，该音频条件特征量表示所述语音数据的音频条件的特征；

音频模型参数校正步骤，生成校正后参数，该校正后参数是基于所述音频条件特征量校正音频模型参数而得到的参数，该音频模型参数对结合了所述音频条件的计算模型的输出层的由神经网络表示的音频模型赋予特征；

音频模型参数更新步骤，基于所述校正后参数及所述语音特征量而更新所述音频模型参数；以及

音频条件计算模型参数更新步骤，基于所述校正后参数及所述语音特征量而更新所述音频条件计算模型参数。

2.根据权利要求1所述的音频模型学习方法，其特征在于，

在所述特征量提取步骤中，作为所述语音特征量而提取第一语音特征量及与所述第一语音特征量不同的第2特征量，

在所述音频条件特征量计算步骤中，基于所述音频条件计算模型参数及所述第2特征量而计算所述音频条件特征量，

在所述音频模型参数更新步骤中，基于所述校正后参数及所述第一语音特征量而更新所述音频模型参数，

在所述音频条件计算模型参数更新步骤中，基于所述校正后参数及所述第2特征量而更新所述音频条件计算模型参数。

3.一种语音识别方法，利用通过权利要求1所述的音频模型学习方法更新的所述音频模型参数及所述音频条件计算模型参数、将单词串的生成概率模型化而得到的语言模型而进行语音识别，

该语音识别方法的特征在于，包括：

语音识别用特征量提取步骤，提取表示语音数据的特征的语音特征量；

语音识别用音频条件特征量计算步骤，根据所述音频条件计算模型参数及所述语音特征量，利用所述音频条件的计算模型而计算音频条件特征量，该音频条件特征量表示所述语音数据的音频条件的特征；

语音识别用音频模型参数校正步骤，生成校正后参数，该校正后参数是基于所述音频条件特征量校正所述音频模型参数而得到的参数；以及

单词串检索步骤，利用基于所述语音特征量及所述校正后参数计算的所述音频模型的输出概率和所述语言模型的生成概率而输出单词串。

4.一种音频模型学习装置，其特征在于，具有：

特征量提取部，其提取表示语音数据的特征的语音特征量；

音频条件特征量计算部，其基于音频条件计算模型参数及所述语音特征量，利用音频条件的计算模型而计算音频条件特征量，该音频条件计算模型参数对由神经网络表示的所述音频条件的计算模型赋予特征，该音频条件特征量表示所述语音数据的音频条件的特征；

音频模型参数校正部，其生成校正后参数，该校正后参数是基于所述音频条件特征量校正音频模型参数而得到的参数，该音频模型参数对结合了所述音频条件的计算模型的输出层的音频模型赋予特征；

音频模型参数更新部，其基于所述校正后参数及所述语音特征量而更新所述音频模型参数；以及

音频条件计算模型参数更新部，其基于所述校正后参数及所述语音特征量而更新所述音频条件计算模型参数。

5.一种语音识别装置，其利用通过权利要求4所述的音频模型学习装置更新的所述音频模型参数及所述音频条件计算模型参数、将单词串的生成概率模型化而得到的语言模型而进行语音识别，

该语音识别装置的特征在于，其具有：

语音识别用特征量提取部，其提取表示语音数据的特征的语音特征量；

语音识别用音频条件特征量计算部，其基于所述音频条件计算模型参数及所述语音特征量，利用所述音频条件的计算模型而计算音频条件特征量，该音频条件特征量表示所述语音数据的音频条件的特征；

语音识别用音频模型参数校正部，其生成校正后参数，该校正后参数是基于所述音频条件特征量校正所述音频模型参数而得到的参数；以及

单词串检索部，其利用基于所述语音特征量及所述校正后参数计算的所述音频模型的输出概率和所述语言模型的生成概率而输出单词串。

6.一种音频模型学习程序，其使计算机作为权利要求4所述的音频模型学习装置而进行工作。

7.一种语音识别程序，其使计算机作为权利要求5所述的语音识别装置而进行工作。