CN105745700A

CN105745700A - 统计声学模型的自适应方法、适于统计声学模型的自适应的声学模型的学习方法、存储用于构建深度神经网络的参数的存储介质及用于进行统计声学模型的自适应的计算机程序

Info

Publication number: CN105745700A
Application number: CN201480063686.7A
Authority: CN
Inventors: 松田繁树; 卢绪刚
Original assignee: State-Run Research And Development Legal Person Nict
Current assignee: State-Run Research And Development Legal Person Nict
Priority date: 2013-11-27
Filing date: 2014-11-06
Publication date: 2016-07-06
Anticipated expiration: 2034-11-06
Also published as: US20160260428A1; CN105745700B; JP2015102806A; JP5777178B2; EP3076389A1; EP3076389A4; WO2015079885A1; US10629185B2

Abstract

提供一种有效进行利用特定条件的学习数据执行了DNN的声学模型的自适应且可提高精度的统计声学模型的自适应方法。在采用了DNN的声学模型的说话人自适应方法中，包括：第1存储装置分别存储不同的说话人的讲话数据(90～98)的步骤；准备按说话人区分的隐藏层模块(112～120)的步骤；在切换选择讲话数据(90～98)的同时，一面用与选出的讲话数据相对应的隐藏层模块(112～120)动态地置换特定层(110)，一面进行针对DNN(80)的所有层(42、44、110、48、50、52、54)的准备性学习的步骤；用初始隐藏层置换已完成准备性学习的DNN的特定层(110)的步骤；和将初始隐藏层以外的层的参数固定，采用特定说话人的声音数据进行DNN的学习的步骤。

Description

统计声学模型的自适应方法、适于统计声学模型的自适应的声学模型的学习方法、存储用于构建深度神经网络的参数的存储介质及用于进行统计声学模型的自适应的计算机程序

技术领域

本发明涉及在声音识别等识别技术中所使用的深度神经网络(以下，为简化记载而简称为“DNN”)，特别是涉及提高特定对象用的DNN的学习效率的技术。

背景技术

作为机械学习的1种方法，DNN备受瞩目。DNN例如适用于图像识别及声音识别等，并且有报告称，相对错误率比以前降低了20～30％等，可发挥出色的性能(非专利文献1～3)。

所谓DNN是指，具有比以往更多的层(layer)的神经网络。具体来说，DNN包含：输入层、输出层和设置于输入层与输出层之间的多个隐藏层。输入层具有多个输入节点(神经元：neuron)。输出层仅具有与辨别对象的数目相对应的数目的神经元。各隐藏层分别具有多个神经元。信息依次从输入层传播至隐藏层，最终在输出节点得到输出。根据该组成，存在输出节点所包含的节点数比其他层变多的倾向。

在DNN中，不仅是层的数目多，各层内的神经元数目也多。因此，用于学习的计算量很庞大。在以前进行这种计算几乎是不可能的，但随着计算机本身的高性能化、分散/并行处理技术的壮大及计算理论的发展，进行DNN学习也成为了可能。但是，在为了学习而使用大量数据的情况下，学习依然会需要很长时间。例如，在非专利文献4记载的实验中，使用1千万个200像素×200像素的图像作为学习数据，使用1000台16核计算机，这样的DNN学习据说是需要3天时间。

现有技术文献

非专利文献1：Y.Bengio，“LearningdeeparchitecturesforAI，”FoundationsandTrendsinMachineLearning，Vol.2，No.1，pp.1-127，2009.

非专利文献2：G.Hinton，L.Deng，D.Yu，G.Dahl，A.Mohamed，N.Jaitly，A.Senior，V.Vanhoucke，P.Nguyen，T.Sainath，andB.Kingsbury，“DeepNeuralNetworksforAcousticModelinginSpeechRecognition：TheSharedViewsofFourResearchGroups，”IEEESignalProcessingMagazine，Vol.29，No.6，pp.82-97，2012.

非专利文献3：A.Mohamed，G.Dahl，andG.Hinton，“AcousticModelingusingDeepBeliefNetworks，”IEEETransactionsonAudio，Speech，andLanguageProcessing，Vol.20，No.1，pp.14-22，2012.

非专利文献4：QuocV.Le，Marc′AurelioRanzato，RajatMonga，MatthieuDevin，KaiChen，GregS.Corrado，JeffDeanAndrewY.Ng，″BuildingHigh-levelFeaturesUsingLargeScaleUnsupervisedLearning，″Proc.ICML，2012.

非专利文献5：H.Liao，“Speakeradaptationofcontextdependentdeepneuralnetworks，”inProc.ICASSP，2013，pp.7947-7951.

发明内容

发明想要解决的课题

例如，在声音识别中，基于带音素标签的声音数据进行声学模型的机械学习。另外，通过预先对语料(corpus)内的单词或单词串的出现频率进行统计来准备语言模型。使用该声学模型及语言模型，对输入声音进行统计性的声音识别处理，将生成输入声音的相似度高的字符串作为识别结果来进行输出。

由于声音的特征因说话人的性别、年龄而不同，所以若根据说话人的性别及年龄来分别生成声学模型，能得到很高精度。为此，使用相同性别及年龄相仿的说话人的大量声音数据来进行声学模型的学习。另一方面，在已知识别对象的说话人是特定说话人的情况下，若仅使用该说话人的声音数据来进行声学模型的学习，则理论上针对该说话人的声音识别精度会很高。但是，很难大量地收集特定说话人的声音数据。在统计声音识别中，为了学习而需要大量的声音，所以很难如上述那样进行仅用于特定说话人的学习。

为了解决该问题，在以往的使用了基于HMM(隐马尔可夫模型)的声学模型的声音识别中，引入被称为SAT(SpeakerAdaptiveTraining：说话人自适应训练)的说话人自适应的方法，得到了很好的结果。在通常的HMM中，为了推测来自HMM的各状态的声学特征量的输出概率，采用GMM(GaussianMixtureModel：高斯混合模型)。SAT是如下的学习方法，即，通过将声音信号中依赖于说话人的声学的变动标准化，将包含GMM的识别用的参数最佳化，从而使声学模型自适应说话人，提高识别精度。将该方式的HMM称为SAT-HMM。

另一方面，最近，在基于HMM的声音识别装置中，为了进行非特定说话人的声音识别，提出了使用DNN来取代GMM的技术。以下，将这种使用DNN来取代GMM的基于HMM的声音识别方式称为“DNN-HMM”。由于已知DNN的辨别力高，所以期待通过DNN-HMM得到高的识别精度。

作为通过这种DNN进行说话人自适应的例子，有非专利文献5所示的方式。参照图1，在通过非专利文献5所示的说话人自适应方式实现说话人自适应的情况下，准备用于声学模型的经初始化的DNN30和包括特定说话人的声音的声音数据40。设DNN30包含：输入层42、输出层54和隐藏层44、46、48、50及52。采用这样准备好的声音数据40，进行DNN30的整体的学习，从而得到适应了说话人的DNN30。

但是，为了得到精度高的声音识别结果，仅采用特定说话人数据的声音数据的话，存在无法得到足够量的学习数据的问题。因此，考虑将上述的SAT-HMM的想法应用于DNN-HMM。在该情况下，最初，将由很多说话人的讲话数据构成的非特定说话人的声音数据40作为学习数据来进行DNN30的学习，生成非特定说话人的声学模型。之后，如图2所示，取代非特定说话人的声音数据40，准备特定说话人的说话人自适应用声音数据60。此外，决定DNN30之中用于说话人自适应的隐藏层(例如隐藏层46)。将该隐藏层以外的层的参数全部固定，使用声音数据60进行DNN30的学习。其结果，通过特定说话人的声音数据60，使隐藏层46自适应。通过使用进行了这样的学习的DNN30来取代以往的HMM中的GMM，从而得到适应了特定说话人的声学模型。

但是，在这种方法中，针对隐藏层46以外的层，参数被固定为进行非特定说话人的学习时的参数。因此，在说话人自适应中，只有在隐藏层46中需要吸收说话人的声学特征的差异。因此，若特定说话人的声音数据不充分，则依然存在无法高精度地进行DNN学习的问题。即，单纯地将以往的SAT-HMM的技术应用于DNN时，依然存在很难有效地提高声音识别的精度的问题。

这种问题，不仅会在进行特定说话人这样的条件下的声音识别的声学模型自适应时发生，例如当已知在特定的噪音环境这样的条件下进行声音识别时，或者使声学模型自适应该噪音环境时，或者进行针对共有一定声音特征的某群组(group)的声音识别这样的条件下的声学模型的学习时，在以上情况下也会发生上述的问题。

因此，本发明的目的在于，提供一种使用在特定条件下得到的学习数据来进行利用了DNN的声学模型的自适应时，能够有效地进行自适应，还能够提高精度的统计声学模型的自适应方法及适于统计声学模型的自适应的声学模型的学习方法。

用于解决课题的手段

本发明的第1方面涉及的自适应方法是针对特定条件(例如特定说话人的讲话数据或特定噪音下的讲话数据等)的声音识别用的统计声学模型的自适应方法。在该声学模型中使用DNN。该DNN包含3层以上的多个层。该方法包括：计算机可读取的第1存储装置分别存储多个条件下的讲话数据的步骤；计算机准备与多个条件相应的按多个条件区分的隐藏层模块的步骤；计算机在切换选择多个条件下的讲话数据的同时，一面用与选出的讲话数据相对应的隐藏层模块来动态地置换多个层内的特定层，一面进行针对DNN的所有层的准备性学习的步骤；计算机用预先准备的初始隐藏层来置换进行准备性学习的步骤中的学习已完成的DNN的特定层的步骤；计算机可读取的第2存储装置存储自适应对象的条件下的声音数据的步骤；和将在进行置换的步骤中得到的DNN的初始隐藏层以外的层的参数固定，从第2存储装置读出自适应对象的条件下的声音数据，进行DNN的学习的步骤。

优选，该自适应方法还包括：计算机在进行学习的步骤之前，采用讲话条件无区别的大量声音数据进行DNN的非特定条件的学习的步骤；和将进行非特定条件的学习的步骤中的学习后的DNN的特定层的隐藏层的参数存储到第3存储装置中的步骤。进行置换的步骤包括：计算机将第3存储装置中存储的隐藏层的参数复制到进行准备性学习的步骤中的学习已完成的DNN的特定层的参数上的步骤。

本发明的第2方面涉及的声学模型的学习方法是适于特定条件的声音识别用的统计声学模型的自适应的声学模型的学习方法。在该声学模型中使用DNN。该DNN包含3层以上的多个层。该学习方法包括：计算机可读取的第1存储装置分别存储多个条件下的讲话数据的步骤；计算机准备与多个条件相应的按多个条件区分的隐藏层模块的步骤；计算机在切换选择多个条件下的讲话数据的同时，一面用与选出的讲话数据相对应的隐藏层模块动态地置换多个层内的特定层，一面进行针对DNN的所有层的准备性学习的步骤；和计算机将进行准备性学习的步骤中的学习已完成的DNN的除特定层以外的层的参数存储到存储介质中的步骤。

优选，该学习方法还包括：计算机在进行学习的步骤之前，采用讲话条件无区别的大量声音数据进行DNN的非特定条件的学习的步骤；和将进行非特定条件的学习的步骤中的学习后的DNN的特定层的隐藏层的参数追加保存到存储介质中的步骤。

本发明的第3方面涉及的存储介质是存储了用于构建适于特定条件的声音识别用的统计声学模型的自适应的、声学模型的学习用DNN的参数的存储介质。该存储介质所存储的参数用于构建包含3层以上的多个层的DNN。存储介质还存储程序，该程序将使用存储介质所存储的参数构建的DNN的特定层以外的层的参数固定，使用声音数据来进行DNN的学习，从而进行DNN的仅特定层的学习。与存储介质所存储的DNN对应地预先确定该特定层。

本发明的第4方面涉及的计算机程序是用于进行特定条件的声音识别用的统计声学模型的自适应的计算机程序。在声学模型中使用DNN。该DNN包含3层以上的多个层。计算机程序使计算机执行以下步骤：在计算机可读取的第1存储装置中分别存储多个条件下的讲话数据的步骤；准备与多个条件相应的多个按条件区分的隐藏层模块的步骤；在切换选择多个条件下的讲话数据的同时，一面用与选出的讲话数据相对应的隐藏层模块动态地置换多个层内的特定层，一面进行针对DNN的所有层的准备性学习的步骤；用预先准备的初始隐藏层来置换进行准备性学习的步骤中的学习已完成的DNN的特定层的步骤；和将在进行置换的步骤中得到的DNN的参数存储到存储介质中的步骤。

附图说明

图1是用于说明在构成非特定说话人的声学模型的DNN的学习过程中应用现有技术的方法的图。

图2是用于说明在构成非特定说话人的声学模型的DNN的学习过程中应用现有技术的方法的下一个步骤的图。

图3是用于说明在本发明的实施方式涉及的DNN的学习中构成适于说话人自适应的声学模型的DNN的准备方法的图。

图4是用于说明在本发明的实施方式涉及的DNN的学习方法中说话人自适应用的隐藏层的学习方法的图。

图5是用于说明在本发明的实施方式涉及的DNN的学习方法中说话人自适应用的隐藏层的学习方法的图。

图6是用于说明实现图3所示的处理的装置的结构的图。

图7是以表格的形式将按照本发明的实施方式进行的实验结果与现有技术的结果进行对比后示出的图。

图8是在本发明的实施方式中表示进行构成适于说话人自适应的声学模型的DNN的学习的程序的控制结构的流程图。

图9是执行实施方式涉及的DNN的学习处理的计算机系统的外观图。

图10是表示图9所示的计算机的内部结构的框图。

具体实施方式

在以下的说明及附图中，对同一部件附加同一参考符号。因此，不再重复针对这些部件的详细说明。另外，以下的实施方式主要是针对与声音识别中的特定说话人这样的条件下的自适应相关的例子，但本发明并不限于这样的实施方式。例如，还能够应用于针对噪音环境这样的条件的自适应。

[结构]

如上所述，在使用了DNN的声学模型下进行说话人自适应的情况下，利用非特定说话人的声音数据进行DNN学习之后，只有特定的层需要利用成为自适应对象的说话人的声音数据来进行学习。此时，除该层以外的层的参数被固定，不进行学习。但是，这样往往会存在声音数据不足且用于自适应的学习需要花费很长时间的问题。为了解决这种问题，如以下所说明的那样，进行使用了DNN的声学模型的说话人自适应。根据实验，示出以下结果：通过采用该方法，能够准备有效进行用于特定说话人的说话人自适应且使用了DNN的声学模型。

在本实施方式中，当准备用于非特定说话人的声学模型的DNN时，前提是预先使用特定的层(以下将其称为“说话人自适应层”)进行说话人自适应。在该前提下，进行说话人自适应层以外的层的参数的准备性学习，以便有效地执行之后进行的针对说话人自适应层的说话人自适应。具体来说，如以下所述。

最初，在图1所示的方法中，使用全部的讲话数据来进行非特定说话人的DNN30的学习。DNN通常使用RestrictedBoltzmannMachine(RBM：限制玻尔兹曼机)来进行初始化。但是，RBM不一定适于非辨别性学习的声音识别等。因此，在本实施方式中，作为辨别性学习的一种方法，采用以下方法：借助误差反向传播(EBP)，使用Cross-Entropy(CE)损失最小化基准来对通过RBM已完成初始化的DNN进行学习。

DNN30基本上是通常的多层感知器网络。对DNN30的各节点分别赋予连接权重和偏置(bias)。在以下的说明中，设DNN30具有7个层。即，DNN30如在发明想要解决的课题部分所说明的那样，包含：输入层42；输出层54；和配置于输入层42和输出层54之间的5个隐藏层44、46、48、50及52。

在DNN30中，以矩阵形式将第t个层L_t和之前的第t-1个层L_t-1的节点的连接权重设为W_t。如上所述，在本说明书中，将通过基于EBP的学习得到的非特定说话人(Speaker-Independent)DNN30的层L_t及层L_t-1之间的第t个权重矩阵记为“W^SI _t”。在以下的说明中，将使用DNN30这样的非特定说话人的DNN的HMM声音识别方式称为SIDNN-HMM。“SI”的意思是非特定说话人。在以下的说明中也相同。

参照图3，在本实施方式中，在得到DNN30这样的SIDNN-HMM后，进行成为说话人自适应的对象的DNN80的准备性学习。在该准备性学习中，使用按说话人准备的大量声音数据90、92、…、98。DNN80也基本上是通常的多层感知器网络。对DNN80的各节点分别被赋予连接权重和偏置。与DNN30相同，DNN80也具有7个层(layer)。即，DNN80包含：输入层42；输出层54；配置于输入层42和输出层54之间的隐藏层44、说话人模块切换部110和隐藏层48、50及52。隐藏层44的输出被连接至说话人模块切换部110的输入。说话人模块切换部110的输出被连接至隐藏层48的输入。在声音数据90、92、…、98与输入层42的输入之间，设置有从声音数据90、92、…、98之中选择性地取出特定说话人的数据的说话人选择部100。可通过对DNN30的对应的层的参数进行复制，得到输入层42、隐藏层44、48、50及52和输出层54。

说话人模块切换部110包含：按说话人区分的模块112、114、…、118及120，构成与声音数据90、92、…、98的各说话人对应的隐藏层；输入选择部102，响应于说话人选择部100对说话人的选择，在按说话人区分的模块112、114、…、118及120之中，将与被选择的说话人对应的模块的输入结合到隐藏层44的输出上；和输出选择部104，响应于说话人选择部100对说话人的选择，在按说话人区分的模块112、114、…、118及120之中，将与被选择的说话人对应的模块的输出结合到隐藏层48的输入上。按说话人区分的模块112、114、…、118及120分别具有与隐藏层44等相同的结构，在本实施方式中，均使用将W^SI ₂复制到各自的权重矩阵而得到的结构。即，使用图1的DNN30的学习完成时的隐藏层46的参数。

通过该结构，如后所述，能够使用多个说话人的声音数据，在根据说话人，适当选择切换按说话人区分的模块112、114、…、118及120的同时，进行输入层42、隐藏层44、说话人模块切换部110、隐藏层48、50及52和输出层54的学习。在本实施方式中，此时还使用EBP学习。但是，由于表现声音数据的数据位数通常被限制，所以存在过度学习的危险性。因此，在本实施方式中，为了避免过度学习，给出了制约。该制约将后述。

如上所述，根据说话人，切换按说话人区分的模块112、114、…、118及120的同时，使用所有说话人的声音数据来进行DNN80的学习，从而完成输入层42、隐藏层44、隐藏层48、50及52和输出层54的学习。在本实施方式中，将这种学习称为准备性学习。准备性学习的目的不是进行按说话人区分的模块112、114、…、118及120的学习，而是为了得到已学习的输入层42、隐藏层44、48、50及52和输出层54，以便适于说话人自适应。如图4所示，通过用虚拟的隐藏层140来置换这样得到的DNN80的说话人模块切换部110，从而得到已完成准备性学习的DNN130。如后所述，该DNN130最适合于针对说话人模块切换部110的位置的隐藏层的说话人自适应中。因此，将DNN130的参数保存到存储介质，同时将进行仅说话人模块切换部110的位置的隐藏层的学习的程序(执行图2所示的处理的程序)保存到该存储介质中，从而将适合于进行DNN130的说话人自适应的数据保存到存储介质中。另外，此时的成为说话人自适应的对象的层被固定为说话人模块切换部110的位置的隐藏层，即使假设进行了针对该层以外的层的说话人自适应，也得不到好的结果

参照图4，说明对已完成准备性学习的DNN130进行说话人自适应的方法。预先准备说话人自适应用数据150。说话人自适应用数据150包含：成为自适应的对象的说话人的声音数据162；和按说话人区分的自适应用模块160。自适应用模块160虽然具有与按说话人区分的模块112、114、…、118及120相同的结构，但是相当于说话人自适应前的隐藏层的初始值。在本实施方式中，作为自适应用模块160，使用在图1及图2所示的方法下完成学习后的DNN30之中与说话人模块切换部110相同的位置的隐藏层46。即，将初始学习后的隐藏层46的权重矩阵W^mean ₂复制到自适应用模块160的权重矩阵。这里，“mean”是指在学习中使用所有说话人的数据。

作为说话人自适应的准备，将自适应用模块160复制到DNN130中的虚拟的隐藏层140(将自适应用模块160的权重矩阵复制到虚拟的隐藏层140的权重矩阵)，从而如图5所示那样，得到新的DNN180。以下，将这样得到的说话人自适应前的DNN180称为PT-SAT(Pre-TrainedSAT)网络。

如图5所示，将DNN180之中的输入层42、隐藏层44、48、50及52和输出层54的参数固定，使用声音数据162，仅进行按说话人区分的自适应用模块160的学习。学习与准备性学习相同，是使用了CE损失最小化基准的EBP学习，进行声音数据的规范化。在该学习结束时得到的DNN180成为基于声音数据162进行了说话人自适应的声学模型用的DNN。

作为前述的制约，在此，取代通常的学习而使用规范化EBP学习。考虑几个方法作为规范化的方法(定义)，在本实施方式中，使用：用于获得如图3所示的网络的初始值、即权重矩阵W^SI _tSD与用于获得如图4所示的网络的初始值、即权重矩阵W^mean _tSD之间的差异的L₂范数；和按说话人区分的模块的权重矩阵。在该学习中，虽然对按说话人区分的模块及自适应用模块用的学习数据的数量有限制，但这以外的层在足够多的数据下进行学习。因此，在本实施方式中，将该规范化项仅导入至按说话人区分的模块及自适应用模块。

用于SAT声音识别的学习的规范化项由下面式(1)来定义。

[数1]

R (Λ) = \frac{1}{2} | | W_{t S D} - {W^{m e a n}}_{t S D} | |_{2}^{2} + \frac{1}{2} | | b_{t S D} - {b^{m e a n}}_{t S D} | |_{2}^{2} - - - (1)

其中，W_tSD及b_tSD是第t_SD个层的按说话人区分的模块的权重矩阵和与其相对应的偏置向量，所谓W^mean _tSD及b^mean _tSD分别是说话人自适应即将开始之前(非特定说话人的学习后)的权重矩阵和偏置向量的初始值。

另外，为了得到图3所示的网络，用第t_SD个SIDNN的权重矩阵和与其相对应的偏置向量来置换式(1)中的W^mean _tSD及b^mean _tSD。

另外，在图3所示的结构下切换说话人的同时进行DNN80的准备性学习的情况下，若按照在某一说话人的讲话数据下的学习全部完成之后开始其他说话人的讲话数据下的学习这样按顺序来切换讲话数据，则有可能后面的讲话数据带来的影响在DNN80的各层中的残留比前面的讲话数据的影响多，因此并不是优选的。因此，优选采用以下的结构来进行准备性学习。

参照图6，说话人选择部100包括：随机选择部190，将声音数据90、92、…、98的声音数据分别分割成小片段并且附加对与各片段对应的说话人进行辨别的信息(称为说话人辨别信息)，进而按随机顺序对它们进行选择后结合到1个文件；随机数据存储部192，保存随机选择部190输出的文件；和数据读出部194，从开头起按顺序读出随机数据存储部192所存储的文件，将说话人辨别信息输出到说话人模块切换部110的输入选择部102及输出选择部104。数据读出部194的输出被连接至输入层42的输入上，以便将读出的数据还赋予给输入层42。

可通过如下的选择器来实现输入选择部102，该选择器根据来自数据读出部194的说话人辨别信息，选择按说话人区分的模块112、114、…、118及120之中与合适的说话人相对应的模块，将隐藏层44的输出连接到其输入上。输出选择部104也同样地可通过以下的选择器来实现，该选择器选择按说话人区分的模块112、114、…、118及120之中与合适的说话人相对应的模块，将隐藏层48的输入连接到其输出上。另外，在本实施方式中，隐藏层有5个，其中说话人模块切换部110被配置在第2个隐藏层的位置处。因此，在输入层42与输入选择部102之间只存在隐藏层44。但是，可变更说话人模块切换部110的位置，而且隐藏层的数目也不限于5个。假设说话人模块切换部110被配置在第3个隐藏层的位置处，则在输入层42与输入选择部102之间就存在2个隐藏层。

通过这样的构成，可以在随机选择各说话人的讲话数据的同时，以不会暂时偏向于一个说话人的讲话数据的顺序来进行DNN80的学习。其结果，可将讲话数据的选择顺序引起的影响抑制在最小限度内的同时，可进行DNN80的准备性学习。

[动作]

以上说明了构成的DNN的说话人自适应装置按照如以方式工作。预先准备多个说话人的声音数据90、92、…、98、和通过图1所示的方法进行了学习的非特定说话人的DNN30的隐藏层46。

参照图6，该说话人自适应装置在进行准备性学习之前，按照如下方式工作。随机选择部190将声音数据90、92、…、98的讲话数据分割成小片段，对各片段附加说话人辨别信息。随机选择部190进一步按照随机的顺序对这样准备的讲话数据的许多片段进行排列，并作为1个文件写入随机数据存储部192中。

若准备性学习开始，则图6所示的数据读出部194从随机数据存储部192的开头起按顺序读出声音数据的片段，将该说话人辨别信息赋予给输入选择部102及输出选择部104。输入选择部102根据该说话人辨别信息，选择按说话人区分的模块112、114、…、118及120之中与说话人辨别信息相对应的模块，将隐藏层44的输出连接至被选择的隐藏层的输入上。输出选择部104也同样根据来自数据读出部194的说话人辨别信息，选择按说话人区分的模块112、114、…、118及120之中与说话人辨别信息相对应的模块，将其输出连接至隐藏层48的输入上。在这样确立了DNN80的连接后，利用数据读出部194从随机数据存储部192读出的数据，遍历所有层来进行DNN80的学习。

若基于数据读出部194读出的片段的学习完成，则数据读出部194从随机数据存储部192读出下一片段，使用该片段再次执行上述的处理。

在针对随机数据存储部192所保存的文件中的所有片段完成了这样的处理的时间点，DNN80的准备性学习结束。通过用虚拟的隐藏层140置换DNN80的说话人模块切换部110，从而得到图4所示的DNN130。

通常，这样准备的DNN130和从DNN30(图1)复制了隐藏层46的参数而得到的自适应用模块160构成1套，其中，DNN30是预先作为非特定说话人的DNN而进行学习后得到的。例如，这些部分和图2所示的以往的用于进行学习的程序会成为成套产品，作为商品而被流通。若容易获得图2所示的程序，则还可以作为无该程序的成套产品而被流通。此时，如前述那样，由于成为自适应的对象的层被固定，因此即使将除此以外的层作为自适应的对象也没有意义。

想要构建基于已完成说话人自适应的DNN的声学模型的用户在获取到准备性学习已结束的DNN130、作为初始值的自适应用模块160、和进行图2所示的学习的程序之后，用自适应用模块160来置换DNN130的虚拟的隐藏层140。具体来说，将自适应用模块160的权重矩阵复制到虚拟的隐藏层140的权重矩阵。进一步地，准备成为说话人自适应对象的特定说话人的声音数据162，将装置设定成将声音数据162赋予给DNN130的输入。

在该状态下，如图5所示，将输入层42、隐藏层44、48、50及52和输出层54的参数固定，按顺序读出讲话数据，将该讲话数据作为学习数据，进行仅自适应用模块160的学习。其结果是，得到的学习后的DNN180为了声音数据162的说话人而被自适应，使用了该DNN180的声学模型成为为了该说话人而被自适应的声学模型。

[实验]

对上述实施方式涉及的系统，使用网页上的TED的演讲语料进行了精度的评价实验。为了进行实验，准备学习数据、评价数据和测试数据。

学习数据包括300名说话人的讲话数据。各说话人的讲话数据大约是30分钟的长度。学习数据的总计时间大约是150小时。

评价数据包括8名说话人的数据。评价数据的说话人都不是学习数据的说话人。该评价数据是为了确定DNN的超参数(CE损失最小化的学习率及标准化率等)的最佳值(对评价数据本身表现出较高的识别率的值)而使用的数据。

测试数据包括28名说话人。该数据被用作IWSLT2013的测试数据组。这些说话人都不同于学习数据的说话人和评价数据的说话人。

在实验中，实现了在使用以往的HMM的声音识别装置中取代HMM的各状态的GMM而使用上述DNN的声音识别装置。将其称为SAT-DNN-HMM。为了评价SAT-DNN-HMM，准备了：使用了成为基准的非特定说话人的DNN的HMM声音识别装置；和使用了以图2所示的方法完成了说话人自适应的DNN的HMM声音识别装置。将前者称为SI-DNN，将后者称为SA-DNN。“SI”是“Speaker-Independent”的简称，“SA”是“Speaker-Adapted”的简称。

SI-DNN采用了单纯的7层DNN，在RBM学习下对整个网络进行初始化之后，通过使用了学习数据的CE损失最小化进行了学习。

SA-DNN是借助从作为测试数据的28名说话人中选出的1个人的讲话数据来对SI-DNN的1个隐藏层进行了自适应而得到的。该隐藏层是与在SAT-DNN下进行了说话人自适应后的隐藏层相同的层。为了避免封闭(cloSed)形式的学习所伴有的问题，针对说话人自适应的各个对象说话人，将讲话数据分割成4个子群，采用4重交叉验证(CV)方式得到了识别结果。在该CV方式中，将1个子群用于测试，将剩余的3个子群作为学习数据，从而得到识别精度，然后改变用于测试的子群来进行4次上述的过程，将4次的识别精度的平均作为最终的识别精度。

针对SAT-DNN，如上所述那样，最初进行与SI-DNN相同的学习，准备用于说话人自适应的隐藏层的初始值。接着，准备与学习数据的说话人的数量相同数目(300)的按说话人区分的模块。接着，通过图3及图6所示的结构，使用这些按说话人区分的模块，进行DNN的准备性学习。然后，针对从28名测试用说话人中选择出的自适应对象的1名说话人，采用图4及图5所示的结构来进行说话人自适应。

在该SAT-DNN的说话人自适应中，由于学习数据受限，所以需要避免过度学习。因此，针对隐藏层140的权重和偏置的更新，应用式(1)中的制约项，分别将W^mean _lsd及b^mean _lsd变更成W^SI _lsd及b^SI _lsd。

最初将声音数据变换成一系列的声学特征向量。以20毫秒的长度，通过10毫秒的位移间隔的海明(Hamming)窗，计算出各向量。声学特征向量是39维，其要素是：12个MFCC系数(Mel-scaleFrequencyCepstrumCoefficient)、Log能量(logarithmicpower)、12个差分MFCC、差分Log能量、12个2次差分MFCC、2次差分Log能量。

进一步地，将连结连续的11个声学特征向量而得到向量(429维)作为DNN的输入。若以海明窗的位置为基准来考虑，则该429维的向量相当于将海明窗紧跟前的5个、海明窗内以及海明窗紧随其后的5个、即共计11个声学特征向量连结后得到的向量。该向量的各要素被标准化成其平均和方差分别为0及1。

在声音识别装置中，HMM都使用4-gram的语言模型。该语言模型是借助TED的演讲、新闻评论及英语的Gigaword(H.Yamamoto，Y.Wu，C.LHuang，X.Lu，P.R.Dixon，S.Matsuda，C.Hori，andH.Kashioka，“TheNICTASRSystemforIWSLT2012，”inProceedingsofIWSLT2012，2012.)的起始句进行学习后得到的。作为声学模型，使用通过BoostedMMI(最大互信息量：MaximumMutualInformation)学习进行学习后得到的文脉依赖声学模型。在进行DNN的学习时，例如，语言模型及状态迁移概率等HMM的参数全都被固定。

在声音识别中使用的DNN具有：429个输入节点；4909个输出节点；和各隐藏层每层512个节点。层有7个，在SA-DNN和SAT-DNN任一个情况下都使选择出的层从最初的隐藏层变化至最后的隐藏层以便将5个隐藏层之中的1层用于说话人自适应，从而对说话人自适应中的层的选择效果进行探讨。

在DNN的学习中，有时需要精密地调整学习率。因此，在学习的各反复阶段，基于针对评价数据的识别精度来进行如下的学习率的调整。

在针对评价数据的识别精度降低了的情况下，将学习率维持为与前一次的反复阶段(epoch)相同。在这以外的情况下，将学习率更新成前一次的一半，针对网络参数(权重等)，采用在前一次学习的epoch中错误率最低的参数，使用更新后的学习率重新开始针对这些量的学习。

针对SI-DNN声音识别装置及PT-SAT-DNN声音识别装置，将学习率的初始值设为0.004后开始学习，使用上述那样的学习率的更新规则来反复进行20次(相当于20次epoch)。同样，在进行图3及图6所示的DNN的学习时，也是学习率的初始值为0.004，epoch数为20，并且将制约系数设为0.1。

与此不同，在图5所示的说话人自适应的阶段中，将学习率固定为基于针对评价数据的识别精度而确定的值。将SA-DNN声音识别装置的说话人自适应的学习率设为0.005，将SAT-DNN声音识别装置的说话人自适应的学习率设为0.001。将制约系数设为0.1，反复进行10次这些说话人自适应的处理。该制约系数也是基于针对评价数据的识别精度来确定的。

[结果]

结果如图7所示。图7所示的结果是以单词错误率来评价了4个声音识别装置的性能。针对SA-DNN及SAT-DNN，是通过前述的CV方式得到的平均的单词错误率。在图7的表中，左端一栏所示的项目是作为说话人自适应的对象的隐藏层的编号。1相当于图1的隐藏层44，2相当于隐藏层46，以此类推，5相当于隐藏层52。对于SI-DNN来说，由于没有说话人自适应层，所以任一种情况下都示出相同的数值(26.4％)。

如由图7所明确的那样，SAT-DNN声音式装置实现了最低的单词错误率(18％)。该数值比基准的SI-DNN的值还低8.4个点。根据SA-DNN的结果可知，即使是针对SI-DNN的单纯的说话人自适应，也得到了18.7～20.0％这样低的单词错误率。这是比SI-DNN的值低6.4～7.7个点的数值。但是，比较针对SAT-DNN的结果与针对SA-DNN的结果可知，SAT-DNN明显带来了更好的结果。无论将哪个层设为说话人自适应的对象，都能得到比将相同层设为说话人自适应的对象的SA-DNN的数值更好的结果。

另一方面，PT-SAT-DNN的结果与SI-DNN相比，也是单词错误率稍高的值。因此，不能直接使用其本身。但是，若从对该PT-SAT-DNN的特定层进行说话人自适应而得到的SAT-DNN留下了如上所述的好结果的方面考虑，则可以认为PT-SAT-DNN是获得SAT-DNN的有效的起始平台。鉴于说话人自适应主要在用户环境下进行，因此由声音识别装置或软件售卖者准备PT-SAT-DNN，将成为说话人自适应的对象的特定的隐藏层的初始模块和PT-SAT-DNN的仅进行初始模块的学习的软件设为一组而保存到存储介质中，以商品的形式来提供，从而能够得到可有效进行用户的说话人自适应的处理且性能更优异的声音识别装置，其中，上述的PT-SAT-DNN将初始模块组合到了特定的隐藏层中。

根据图7的表还可知，在SA-DNN及SAT-DNN的任一个中，都是作为说话人自适应的对象的层是第3隐藏层时，得到了最低的单词错误率。虽然不能根据该结果直接这样说，但应该是：成为说话人自适应的对象的层越接近隐藏层的中央，说话人自适应的效果就越高。根据该结果能够推测出：在DNN中，在接近输入层的部分从输入中提取声音识别所需的一些声学特征并传递至上位的层；通过适当地进行说话人自适应，仿佛是将进行每个说话人的特征信息的处理的节点集中在中央附近的隐藏层；以及在接近输出装置的部分主要进行非特定说话人的语言处理。

若考虑这样的实验结果，则上述基于SAT-DNN的声音识别中的说话人自适应的方法被认为是还能够有效地应用于例如特定噪音环境下的声音识别及特定通信路径上的通信信道的自适应等使用了特定条件下的DNN的识别中。

[计算机中的实现]

上述DNN的学习装置能够通过计算机硬件和与计算机硬件协作的计算机程序来实现。在此，进行SIDNN的学习和图5所示的DNN的说话人自适应的程序能够分别利用执行图1及图2所示的处理的程序。以下，说明用于实现图6所示的结构的程序的控制结构。

参照图8，该程序包括：启动后最初进行存储区域的初始化、声音数据90、92、…、98及随机数据存储部192内的输出文件的打开等初始化处理的步骤220；将各个声音数据90、92、…、98分割成由小片段构成的分割数据，并赋予与各分割数据相对应的说话人的辨别信息的步骤222；以随机顺序连结分割数据，作为文件而写入随机数据存储部192中的步骤224；和从写入随机数据存储部192内的文件中按顺序读出分割数据，针对各数据执行以下的处理的步骤226。

步骤226包括：根据读出的分割数据所包含的说话人辨别信息，选择按说话人区分的模块112、114、…、118及120之中与该说话人辨别信息相对应的按说话人区分的模块的步骤228；和执行遍历所形成的DNN80的所有层的学习处理的步骤230。

通过对所有的分割数据进行步骤226的处理，DNN80的准备性学习结束。该程序将在步骤220中打开的文件全部关闭，将在步骤220及之后的处理中确保的存储器全部释放后结束执行。然后，通过用虚拟的隐藏层140来置换DNN80的说话人模块切换部110，从而得到准备性学习已完成的DNNl30。

[硬件结构]

图9示出了执行用于实现上述DNN的学习及说话人自适应的计算机程序的计算机系统930的外观，图10示出了计算机系统930的内部结构。

参照图9，该计算机系统930包括：具有存储器端口952及DVD(DigitalVersatileDisc)驱动器950的计算机940；键盘946；鼠标948；和监视器942。

参照图10，计算机940除了存储器端口952及DVD驱动器950以外，还包括：CPU(中央处理装置)956；与CPU956、存储器端口952及DVD驱动器950连接的总线966；存储开机程序等的读出专用存储器(ROM)958；以及与总线966连接且存储程序命令、系统程序及作业数据等的随机存取存储器(RAM)960。计算机系统930还包括提供连接到能够进行与其他终端的通信的网络的网络接口(I/F)944。

用于使计算机系统930作为上述实施方式的系统的各功能部起作用的计算机程序被存储在安装于DVD驱动器950或存储器端口952的DVD962或可移动存储器964中，进而被转送到硬盘954上。或者，程序也可以通过未图示的网络而发送至计算机940并存储到硬盘954中。程序在实际被执行时被加载到RAM960中。程序也可以从DVD962、从可移动存储器964、或经由网络而直接加载到RAM960。

该程序包括由用于使计算机940作为上述实施方式涉及的系统的各功能部起作用的多个命令构成的命令串。进行该动作所需的基本功能中的几个在实际执行时是动态地由在计算机940上工作的操作系统或第三方程序、或安装到计算机940的各种编程工具箱或程序库提供的。因此，该程序本身可以不必包含实现该实施方式的系统及方法所需的全部功能。该程序只要包含命令之中通过获得期望的结果的控制方式从计算机的存储装置内动态地调用合适的功能或编程工具箱内的合适的程序工具来实现作为上述系统的功能的命令即可。当然，也可以仅以程序方式提供全部所需的功能。

在图3～图10所示的本实施方式中，学习数据及各网络的参数等被存储在RAM960或硬盘954中。网络的参数可以进一步存储在USB存储器等可移动存储器964或DVD962等中，也可以经由网络等通信介质发送至其他计算机。

执行计算机程序时的计算机系统930的动作是众所周知的。因此，这里不再重复其详细情况。

[变形例]

上述实施方式涉及声音识别中的说话人自适应。但是，本发明也能仅应用于说话人自适应。例如，针对特定噪音环境下的声音识别也同样可以应用。在该情况下，预先决定DNN的一个或几个层以自适应噪音环境即可。收集各种噪音环境下的声音，按每个噪音环境的种类设为单独的学习数据。进一步地，按每个噪音环境来准备按噪音区分的模块，在DNN的特定层中，能够对这些按噪音区分的模块进行切换。使用每个噪音环境下的学习数据，与在上述实施方式中说明的讲话数据同样地，根据学习数据的噪音环境的种类切换按噪音区分的模块的同时，进行DNN的学习。通过完成该学习，从而完成DNN的准备性学习。

在自适应处理中，准备自适应对象的噪音环境下的声音数据，作为学习数据。在准备性学习完毕的DNN的上述特定层，设定以某种形式准备的初始模块。固定该特定层以外的层的参数，使用学习数据来执行DNN的学习。该学习的结果是，DNN能够很好地应用于自适应对象的噪音环境下的声音识别用的HMM中。

进一步地，在上述实施方式中，成为自适应对象的按说话人区分的模块仅为1个。但是，本发明并不限于这样的实施方式。理论上来说，成为自适应对象的模块可以是2个以上。也不需要将这些模块配置于连续的层。进一步地，成为自适应对象的模块的位置并不仅限于隐藏层。对于输入层或输出层的自适应也能够应用本发明。

此外，上述实施方式涉及使用DNN来计算HMM的状态输出概率的声学模型。但是，本发明涉及的DNN的自适应方法并不限于这样的形式。例如，也可以与上述实施方式同样地应用于使用DNN来进行声学分析并使用其结果来进行与以往相同的GMM-HMM的学习时的说话人自适应。

本次公开的实施方式仅仅是例示，本发明并不仅限于上述实施方式。本发明的范围在参考发明的详细说明的记载的基础上，由权利要求书的各权利要求来示出，包含与权利要求书记载的语句均等含义及范围内的所有的变更。

工业上的可利用性

本发明可应用于辅助在人与人或人与机器之间使用语言的交流的装置及服务，特别是，能够应用于针对特定说话人的发声的声音识别、特定噪音环境下的声音识别、或特定通信路径上的通信信道的自适应等使特定条件下的识别精度得到提高的交流辅助用装置及服务。

符号说明

30，80，130，180DNN

40，60，90，92，96，98，162声音数据

42输入层

44，46，48，50，52隐藏层

54输出层

100说话人选择部

102输入选择部

104输出选择部

110说话人模块切换部

112，114，118，120按说话人区分的模块

140虚拟的隐藏层

150说话人自适应用数据

160自适应用模块

190随机选择部

192随机数据存储部

194数据读出部

Claims

1.一种针对特定条件的声音识别用的统计声学模型的自适应方法，其特征在于，

所述声学模型是使用了深度神经网络、即DNN的声学模型，该DNN包含3层以上的多个层，

该自适应方法包括：

计算机可读取的第1存储装置分别存储多个条件下的讲话数据的步骤；

计算机准备与所述多个条件相应的按多个条件区分的隐藏层模块的步骤；

计算机在切换选择所述多个条件下的讲话数据的同时，一面用与选出的讲话数据相对应的隐藏层模块动态地置换所述多个层内的特定层，一面进行针对所述DNN的所有层的准备性学习的步骤；

计算机用预先准备的初始隐藏层置换进行所述准备性学习的步骤中的学习已完成的所述DNN的所述特定层的步骤；

计算机可读取的第2存储装置存储自适应对象的条件下的声音数据的步骤；和

将通过进行置换的步骤得到的DNN的所述初始隐藏层以外的层的参数固定，从所述第2存储装置读出所述自适应对象的条件下的声音数据，进行所述DNN的学习的步骤。

2.根据权利要求1所述的统计声学模型的自适应方法，其特征在于，还包括：

计算机在进行所述学习的步骤之前，采用讲话条件无区别的大量声音数据进行所述DNN的非特定条件的学习的步骤；和

将进行所述非特定条件的学习的步骤中的学习后的所述DNN的所述特定层的隐藏层的参数存储到第3存储装置中的步骤，

进行置换的步骤包括：

计算机将所述第3存储装置中存储的隐藏层的参数复制到进行所述准备性学习的步骤中的学习已完成的所述DNN的所述特定层的参数上的步骤。

3.一种适于特定条件的声音识别用的统计声学模型的自适应的声学模型的学习方法，其特征在于，

该学习方法包括：

计算机在切换选择所述多个条件下的讲话数据的同时，一面用与选出的讲话数据相对应的隐藏层模块动态地置换所述多个层内的特定层，一面进行针对所述DNN的所有层的准备性学习的步骤；和

计算机将已完成进行所述准备性学习的步骤中的学习的所述DNN的除所述特定层以外的层的参数存储到存储介质中的步骤。

4.根据权利要求3所述的适于特定条件的声音识别用的统计声学模型的自适应的声学模型的学习方法，其特征在于，还包括：

将进行所述非特定条件的学习的步骤中的学习后的所述DNN的所述特定层的隐藏层的参数追加保存到所述存储介质中的步骤。

5.一种存储用于构建声学模型用的深度神经网络、即DNN的参数的存储介质，其中声学模型适合于特定条件的声音识别用的统计声学模型的自适应，该存储介质的特征在于，

该存储介质所存储的参数用于构建包含3层以上的多个层的DNN，

所述存储介质还存储程序，该程序通过将使用所述存储介质所存储的参数构建的DNN的特定层以外的层的参数固定，使用声音数据进行所述DNN的学习，从而进行所述DNN的仅所述特定层的学习，

与所述存储介质所存储的DNN对应地预先确定所述特定层。

6.一种用于进行特定条件的声音识别用的统计声学模型的自适应的计算机程序，其特征在于，

所述声学模型是使用深度神经网络、即DNN的声学模型，该DNN包含3层以上的多个层，

所述计算机程序使计算机执行以下步骤：

在计算机可读取的第1存储装置中分别存储多个条件下的讲话数据的步骤；

准备与所述多个条件相应的多个按条件区分的隐藏层模块的步骤；

在切换选择所述多个条件下的讲话数据的同时，一面用与选出的讲话数据相对应的隐藏层模块动态地置换所述多个层内的特定层，一面进行针对所述DNN的所有层的准备性学习的步骤；

用预先准备的初始隐藏层置换进行所述准备性学习的步骤中的学习已完成的所述DNN的所述特定层的步骤；和

将在进行置换的步骤中得到的DNN的参数存储到存储介质中的步骤。