CN111557010A

CN111557010A - 学习装置和方法以及程序

Info

Publication number: CN111557010A
Application number: CN201880085177.2A
Authority: CN
Inventors: 柏木阳佑
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2018-01-10
Filing date: 2018-12-27
Publication date: 2020-08-18
Also published as: WO2019138897A1; US20210073645A1

Abstract

本技术涉及一种学习设备和方法以及程序，其使得可以以足够的识别精度和响应速度来执行语音识别。一种学习设备，包括模型学习单元，其基于以下来学习用于识别处理的模型：从学习数据提取的特征量；以及当特征量被输入到解码器时来自解码器的输出，该解码器用于识别处理并构成条件变分自动编码器。本技术可应用于学习设备。

Description

学习装置和方法以及程序

技术领域

本技术涉及学习装置和方法以及程序，并且更具体地涉及允许语音识别具有足够的识别精度和响应速度的学习装置和方法以及程序。

背景技术

近年来，对语音识别系统的需求不断增长，并且注意力已经集中在学习在语音识别系统中起重要作用的声学模型的方法上。

例如，作为学习声学模型的技术，已经提出了利用其属性未知的用户的语音作为训练数据的技术(例如，参见专利文献1)、使用不同语言的多个声学模型来学习目标语言的声学模型的技术(例如，参见专利文献2)等。

引文列表

专利文献

专利文献1：日本专利申请公开第2015-18491号

专利文献2：日本专利申请公开第2015-161927号

发明内容

本发明要解决的问题

顺便提及，假定普通的声学模型可以在大规模计算机等上运行，并且没有特别考虑声学模型的尺寸以实现高识别性能。随着声学模型的尺寸或比例的增加，使用声学模型的识别处理时的计算量相应地增加，导致响应速度降低。

然而，由于语音识别系统作为接口的有用性，因此也期望它们在小型设备等上高速运行。在这种情况下，很难使用考虑到大规模计算机构建的声学模型。

具体地，例如，在例如在不与网络通信的移动终端上操作的嵌入式语音识别中，由于硬件限制，难以操作大规模语音识别系统。需要一种减小声学模型的尺寸等的方法。

然而，在简单地减小声学模型的尺寸的情况下，语音识别的识别精度大大降低。因此，难以同时获得足够的识别精度和响应速度。因此，必须牺牲识别精度或响应速度，这成为在将语音识别系统用作接口时增加用户负担的因素。

鉴于这样的情况而做出了本技术，并且本技术旨在允许具有足够的识别精度和响应速度的语音识别。

问题解决方案

根据本技术的一个方面的学习装置包括模型学习单元，基于将从学习数据中提取的特征输入到用于构成条件变分自动编码器的识别处理的解码器时的解码器的输出和特征，来学习用于识别处理的模型。

根据本技术的一方面的学习方法或程序包括基于将从学习数据中提取的特征量输入到用于构成条件变分自动编码器的识别处理的解码器时的解码器的输出和特征，来学习用于识别处理的模型的步骤。

根据本技术的一方面，基于将从学习数据中提取的特征输入到用于构成条件变分自动编码器的识别处理的解码器时的解码器的输出和特征，来学习用于识别处理的模型。

发明的效果

根据本技术的一方面，可以以足够的识别精度和响应速度来执行语音识别。

注意，这里描述的效果不一定是限制性的，并且可以包括本公开中描述的任何效果。

附图说明

[图1]是示出学习装置的配置示例的图。

[图2]是示出条件变分自动编码器学习单元的配置示例的图。

[图3]是示出神经网络声学模型学习单元的配置示例的图。

[图4]是示出学习处理的流程图。

[图5]是示出条件变分自动编码器学习处理的流程图。

[图6]是示出神经网络声学模型学习处理的流程图。

[图7]是示出计算机的配置示例的图。

具体实施方式

在下文中，将参考附图描述应用本技术的实施例。

<第一实施例>

<学习装置的配置示例>

即使在声学模型的模型尺寸受到限制的情况下，本技术也能够获得足够的识别精度和响应速度。

在此，声学模型的尺寸，即声学模型的规模，是指声学模型的复杂度。例如，在通过神经网络形成声学模型的情况下，随着神经网络的层数增加，声学模型的复杂度增加，并且声学模型的规模(尺寸)增大。

如上所述，随着声学模型的规模增加，计算量增加，导致响应速度降低，但是使用声学模型的识别处理(语音识别)中的识别精度增加。

在本技术中，预先学习大规模的条件变分自动编码器，并且使用条件变分自动编码器来学习小型神经网络声学模型。因此，学习了小型神经网络声学模型以模仿条件变分自动编码器，从而可以获得能够以足够的响应速度实现足够的识别性能的声学模型。

例如，在声学模型的学习中使用比最终要获得的小规模(小尺寸)声学模型规模大的声学模型的情况下，在小规模声学模型的学习中使用更多数目的声学模型允许获得具有更高识别精度的声学模型。

在本技术中，例如，在学习小型神经网络声学模型时使用单个条件变分自动编码器。注意，神经网络声学模型是神经网络结构的声学模型，即，由神经网络形成的声学模型。

条件变分自动编码器包括编码器和解码器，并且具有改变潜变量输入而改变条件变分自动编码器的输出的特性。因此，即使在神经网络声学模型的学习中使用单个条件变分自动编码器的情况下，也可以进行与使用多个大规模声学模型的学习等同的学习，从而允许容易地获得具有小尺寸但具有足够识别精度的神经网络声学模型。

注意，以下作为示例描述以下情况：将条件变分自动编码器，更具体地，将构成条件变分自动编码器的解码器用作大规模声学模型，并且学习在规模上小于解码器的神经网络声学模型。

然而，通过学习获得的声学模型不限于神经网络声学模型，并且可以是任何其他声学模型。此外，通过学习获得的模型不限于声学模型，并且可以是在诸如图像识别的任何识别目标上的识别处理中使用的模型。

然后，下面将描述应用本技术的更具体的实施例。图1是示出应用了本技术的学习装置的配置示例的图。

图1所示的学习装置11包括标签数据保持单元21、语音数据保持单元22、特征提取单元23、随机数生成单元24、条件变分自动编码器学习单元25和神经网络声学模型学习单元26。

学习装置11学习神经网络声学模型，该神经网络声学模型对输入的语音数据执行识别处理(语音识别)，并且输出识别处理的结果。即，学习神经网络声学模型的参数。

这里，识别处理是识别基于输入语音数据的声音是否是预定识别目标声音的处理，例如，基于语音数据的声音的音素状态是哪个音素状态，换句话说，是预测识别目标声音是哪个识别目标声音的处理。当执行这种识别处理时，作为识别处理的结果，即，识别目标预测的结果，输出是识别目标声音的概率。

标签数据保持单元21将指示存储在语音数据保持单元22中的哪个识别目标声音学习语音数据是诸如学习语音数据的音素状态的标签的数据作为标签数据来保持。换句话说，由标签数据指示的标签是当对与标签数据相对应的语音数据执行识别处理时指示正确答案的信息，即，指示正确识别目标的信息。

例如，通过对基于文本信息预先准备的学习语音数据进行对准处理来获得这种标签数据。

标签数据保持单元21将其保持的标签数据提供给条件变分自动编码器学习单元25和神经网络声学模型学习单元26。

语音数据保持单元22保存预先准备的多条学习语音数据，并将这些语音数据提供给特征提取单元23。

注意，标签数据保持单元21和语音数据保持单元22以高速可读的状态存储标签数据和语音数据。

此外，在条件变分自动编码器学习单元25中使用的语音数据和标签数据可以与在神经网络声学模型学习单元26中使用的语音数据和标签数据相同或不同。

特征提取单元23执行例如傅立叶变换，并且然后使用梅尔滤波器组等对从语音数据保持单元22提供的语音数据进行滤波处理，从而将语音数据转换为声学特征。即，从语音数据提取声学特征。

特征提取单元23将从语音数据中提取的声学特征提供给条件变分自动编码器学习单元25和神经网络声学模型学习单元26。

注意，为了捕获语音数据的时间序列信息，通过计算语音数据的时间上不同的帧中的声学特征之间的差异而获得的差分特征可以连接到最终的声学特征中。此外，语音数据的时间连续帧中的声学特征可以被连接为最终的声学特征。

随机数生成单元24生成在条件变分自动编码器学习单元25中学习条件变分自动编码器以及在神经网络声学模型学习单元26中学习神经网络声学模型所需的随机数。

例如，随机数生成单元24根据诸如多维高斯分布的任意概率密度函数p(v)生成多维随机数v，并将其提供给条件变分自动编码器学习单元25和神经网络声学模型学习单元26。

在此，例如，多维随机数v是根据平均值是0矢量的多维高斯分布生成的，由于条件变分自动编码器的假设模型的局限性而具有对角元素为1而其他元素为0的协方差矩阵。

具体地，随机数生成单元24根据通过例如计算以下等式(1)给出的概率密度来生成多维随机数v。

[等式1]

p(v)＝N(v；O，I) …(1)

注意，在等式(1)中，N(v，0，I)表示多维高斯分布。特别地，N(v，0，I)中的0表示平均值，而I表示方差。

条件变分自动编码器学习单元25基于来自标签数据保持单元21的标签数据、来自特征提取单元23的声学特征以及来自随机数生成单元24的多维随机数v，学习条件变分自动编码器。

条件变分自动编码器学习单元25向神经网络声学模型学习单元26提供通过学习获得的条件变分自动编码器，更具体地，条件变分自动编码器的参数(以下称为条件变分自动编码器参数)。

神经网络声学模型学习单元26基于来自标签数据保持单元21的标签数据、来自特征提取单元23的声学特征、来自随机数生成单元24的多维随机数v，以及来自条件变分自动编码器学习单元25的条件变分自动编码器参数来学习神经网络声学模型。

在此，神经网络声学模型是规模(尺寸)小于条件变分自动编码器的声学模型。更具体地，神经网络声学模型是在规模上小于构成条件变分自动编码器的解码器的声学模型。这里所指的规模是声学模型的复杂度。

神经网络声学模型学习单元26将通过学习获得的神经网络声学模型，更具体地，神经网络声学模型的参数(以下，也称为神经网络声学模型参数)，输出到后续阶段。例如，当预测标签时，神经网络声学模型参数是在对输入声学特征执行的数据转换中使用的系数矩阵。

<条件变分自动编码器学习单元的配置示例>

接下来，将描述图1所示的条件变分自动编码器学习单元25和神经网络声学模型学习单元26的更详细的配置示例。

首先，将描述条件变分自动编码器学习单元25的配置。例如，条件变分自动编码器学习单元25被配置为如图2所示。

图2所示的条件变分自动编码器学习单元25包括神经网络编码器单元51、潜变量采样单元52、神经网络解码器单元53、学习成本计算单元54、学习控制单元55和网络参数更新单元56。

由条件变分自动编码器学习单元25学习的条件变分自动编码器例如是包括由神经网络形成的编码器和解码器的模型。在编码器和解码器中，解码器对应于神经网络声学模型，并且标签预测可以由解码器执行。

神经网络编码器单元51用作构成条件变分自动编码器的编码器。神经网络编码器单元51基于构成从网络参数更新单元56提供的条件变分自动编码器的编码器的参数(在下文中，也称为编码器参数)、从标签数据保持单元21提供的标签数据，以及从特征提取单元23提供的声学特征，来计算潜变量分布。

具体地，神经网络编码器单元51根据与标签数据相对应的声学特征来计算平均值μ和标准偏差矢量σ作为潜变量分布，并将它们提供给潜变量采样单元52和学习成本计算单元54。编码器参数是执行数据转换以计算平均值μ和标准偏差矢量σ时使用的神经网络参数。

潜变量采样单元52基于从随机数生成单元24提供的多维随机数v以及从神经网络编码器单元51提供的平均值μ和标准偏差矢量σ来采样潜变量z。

即，例如，潜变量采样单元52通过计算以下等式(2)来生成潜变量z，并将所获得的潜变量z提供给神经网络解码器单元53。

[等式2]

z＝v_t×σ_t+μ_t …(2)

请注意，在等式(2)中，v_t、σ_t、和μ_t分别表示根据多维高斯分布p(v)、标准偏差矢量σ和平均值μ生成的多维随机数v，并且v_t、σ_t、和μ_t中的t表示时间索引。此外，在等式(2)中，“x”表示矢量之间的元素积。在等式(2)的计算中，通过改变多维随机数v的平均值和方差来生成与新的多维随机数相对应的潜变量z。

神经网络解码器单元53用作构成条件变分自动编码器的解码器。

神经网络解码器单元53基于构成从网络参数更新单元56提供的条件变分自动编码器的解码器的参数(以下也称为解码器参数)、从特征提取单元23提供的声学特征，和从潜变量采样单元52提供的潜变量z，预测与声学特征相对应的标签，并将预测结果提供给学习成本计算单元54。

即，神经网络解码器单元53基于解码器参数、声学特征和潜变量z执行操作，作为标签预测结果，获得基于与声学特征相对应的语音数据的语音是由标签指示的识别目标语音的概率。

注意，解码器参数是在诸如用于预测标签的数据转换的操作中使用的神经网络的参数。

学习成本计算单元54基于来自标签数据保持单元21的标签数据、来自神经网络编码器单元51的潜变量分布以及来自神经网络解码器单元53的预测结果，计算条件变分自动编码器的学习成本。

例如，学习成本计算单元54基于标签数据、潜变量分布和标签预测结果，通过计算以下等式(3)来计算误差L作为学习成本。在等式(3)中，确定基于交叉熵的误差L。

[等式3]

注意，在等式(3)中，k_t是表示由标签数据表示的标签的指标，并且l_t是表示在标签数据所表示的标签中作为预测(识别)的正确答案的标签的指标。此外，在等式(3)中，δ(k_t,l_t)表示仅在k_t＝l_t的情况下该值成为1的δ函数。

此外，在等式(3)中，p_解码器(k_t)表示从神经网络解码器单元53输出的标签预测结果，并且p_编码器(v)表示包括从神经网络编码器单元51输出的平均值μ和标准偏差矢量σ的潜变量分布。

此外，在等式(3)中，KL(p_编码器(v)||p(v))是KL散度，表示潜变量分布之间的距离，即潜变量的分布p_编码器(v)和作为随机数生成单元24的输出的多维随机数的分布p(v)之间的距离。

对于由等式(3)确定的误差L，随着由条件变分自动编码器执行的标签预测的预测精度，即，预测的正确答案的百分比增加，误差L的值减小。可以说，这样的误差L表示条件变分自动编码器的学习的进展程度。

在条件变分自动编码器的学习中，更新条件变分自动编码器参数，即编码器参数和解码器参数，以使得误差L减小。

学习成本计算单元54将确定的误差L提供给学习控制单元55和网络参数更新单元56。

学习控制单元55基于从学习成本计算单元54提供的误差L，控制条件变分自动编码器的学习时的参数。

例如，在这里，使用误差反向传播方法来学习条件变分自动编码器。在那种情况下，学习控制单元55基于误差L确定诸如学习系数和批尺寸的误差反向传播方法的参数，并将所确定的参数提供给网络参数更新单元56。

网络参数更新单元56基于从学习成本计算单元54提供的误差L和从学习控制单元55提供的误差反向传播方法的参数，使用误差反向传播方法学习条件变分自动编码器。

即，网络参数更新单元56使用误差反向传播方法将编码器参数和解码器参数更新为条件变分自动编码器参数，以使得误差L减小。

网络参数更新单元56将更新的编码器参数提供给神经网络编码器单元51，并且将更新的解码器参数提供给神经网络解码器单元53。

此外，在网络参数更新单元56确定神经网络编码器单元51对网络参数更新单元56执行的学习处理的周期已经执行了一定次数，并且学习已经充分收敛的情况下，其完成了学习。然后，网络参数更新单元56将通过学习而获得的条件变分自动编码器参数提供给神经网络声学模型学习单元26。

<神经网络声学模型学习单元的配置示例>

接下来，将描述神经网络声学模型学习单元26的配置示例。例如，神经网络声学模型学习单元26被配置为如图3所示。

图3所示的神经网络声学模型学习单元26包括潜变量采样单元81、神经网络解码器单元82和学习单元83。

神经网络声学模型学习单元26使用从网络参数更新单元56提供的条件变分自动编码器参数和多维随机数v来学习神经网络声学模型。

潜变量采样单元81基于从随机数生成单元24提供的多维随机数v对潜变量采样，并将获得的潜变量提供给神经网络解码器单元82。换句话说，潜变量采样单元81用作生成单元，其基于多维随机数v生成潜变量。

例如，此处，多维随机数和潜变量都是在多维高斯分布的假设下进行的，其平均值为0矢量，具有一个协方差矩阵，其中对角元素为1，其他元素为0，因此多维随机数v直接作为潜变量输出。这是因为由于学习了条件变分自动编码器参数，上述等式(3)中的潜变量分布之间的KL散度已经充分收敛。

注意，潜变量采样单元81可以生成具有移动的平均值和标准偏差矢量的潜变量，如同潜变量采样单元52。

神经网络解码器单元82用作条件变分自动编码器的解码器，该条件变分自动编码器使用条件变分自动编码器参数，更具体地，是从网络参数更新单元56提供的解码器参数来执行标签预测。

神经网络解码器单元82基于从网络参数更新单元56提供的解码器参数、从特征提取单元23提供的声学特征以及从潜变量采样单元81提供的潜变量来预测与声学特征相对应的标签，并将预测结果提供给学习单元83。

即，神经网络解码器单元82对应于神经网络解码器单元53，基于解码器参数、声学特征和潜变量来执行诸如数据转换的操作，作为标签预测结果，获得基于与声学特征相对应的语音数据的语音是由标签指示的识别目标语音的概率。

对于标签预测，即对语音数据的识别处理，不需要构成条件变分自动编码器的编码器。然而，不可能仅学习条件变分自动编码器的解码器。因此，条件变分自动编码器学习单元25学习包括编码器和解码器的条件变分自动编码器。

学习单元83基于来自标签数据保持单元21的标签数据、来自特征提取单元23的声学特征以及从神经网络解码器单元82提供的标签预测结果，学习神经网络声学模型。

换句话说，学习单元83基于当声学特征和潜变量被输入到解码器时构成条件变分自动编码器的解码器的输出、声学特征和标签数据，学习神经网络声学模型参数。

通过在学习小规模神经网络声学模型中使用大规模解码器来执行类似于解码器的识别处理(语音识别)，其中执行标签预测，从而学习神经网络声学模型以模仿解码器。因此，可以得到尽管规模小但识别性能高的神经网络声学模型。

学习单元83包括神经网络声学模型91、学习成本计算单元92、学习控制单元93和网络参数更新单元94。

神经网络声学模型91用作通过基于从网络参数更新单元94提供的神经网络声学模型参数执行操作而获知的神经网络声学模型。

神经网络声学模型91基于从网络参数更新单元94提供的神经网络声学模型参数和来自特征提取单元23的声学特征来预测与声学特征相对应的标签，并将预测结果提供给学习成本计算单元92。

即，神经网络声学模型91基于神经网络声学模型参数和声学特征执行诸如数据转换的操作，作为标签预测结果，获得基于与声学特征相对应的语音数据的语音是由标签指示的识别目标语音的概率。神经网络声学模型91不需要潜变量，并且仅以声学特征作为输入来执行标签预测。

学习成本计算单元92基于来自标签数据保持单元21的标签数据、来自神经网络声学模型91的预测结果以及来自神经网络解码器单元82的预测结果，计算神经网络声学模型的学习成本。

例如，学习成本计算单元92基于标签数据、通过神经网络声学模型的标签预测的结果以及通过解码器的标签预测的结果来计算以下等式(4)，从而计算误差L作为学习成本。在等式(4)中，误差L是通过交叉熵来确定的。

[等式4]

注意，在等式(4)中，k_t是表示由标签数据表示的标签的指标，并且l_t是表示在标签数据所表示的标签中作为预测(识别)的正确答案的标签的指标。此外，在等式(4)中，δ(k_t,l_t)表示仅当k_t＝l_t时该值变为1的δ函数。

此外，在等式(4)中，p(k_t)表示从神经网络声学模型91输出的标签预测结果，而p_解码器(k_t)表示从神经网络解码器单元82输出的标签预测结果。

在等式(4)中，右侧的第一项表示标签数据的交叉熵，而右侧的第二项表示使用条件变分自动编码器的解码器参数的神经网络解码器单元82的交叉熵。

此外，等式(4)中的α是交叉熵的插值参数。可以预先在0≤α≤1的范围内自由选择插值参数α。例如，令α＝1.0，则执行神经网络声学模型的学习。

由等式(4)确定的误差L包括关于神经网络声学模型的标签预测结果与正确答案之间的误差的项，以及由神经网络声学模型的标签预测结果与由解码器进行的标签预测结果之间的误差的项。因此，误差L的值随着由神经网络声学模型进行的标签预测的准确性，即，正确答案的百分比增加而降低，并且随着由神经网络声学模型进行的预测结果接近于由解码器进行的预测结果而降低。

可以说，这样的误差L表示神经网络声学模型学习的进展程度。在神经网络声学模型的学习中，神经网络声学模型参数被更新，使得误差L减小。

学习成本计算单元92将确定的误差L提供给学习控制单元93和网络参数更新单元94。

学习控制单元93基于从学习成本计算单元92提供的误差L来控制在学习神经网络声学模型时的参数。

例如，在这里，使用误差反向传播方法来学习神经网络声学模型。在这种情况下，学习控制单元93基于误差L确定误差反向传播方法的参数，例如学习系数和批尺寸，并将确定的参数提供给网络参数更新单元94。

网络参数更新单元94基于从学习成本计算单元92提供的误差L和从学习控制单元93提供的误差反向传播方法的参数，使用误差反向传播方法学习神经网络声学模型。

即，网络参数更新单元94使用误差反向传播方法来更新神经网络声学模型参数，以使得误差L减小。

网络参数更新单元94将更新的神经网络声学模型参数提供给神经网络声学模型91。

此外，在网络参数更新单元94确定由潜变量采样单元81对网络参数更新单元94执行的学习处理的周期已经执行了一定次数，并且学习已经充分收敛的情况下，其完成了学习。然后，网络参数更新单元94将通过学习获得的神经网络声学模型参数输出到后续阶段。

如上所述的学习装置11可以构建声学模型学习，该声学模型学习以高性能模仿大规模模型的识别性能，同时保持神经网络声学模型的模型尺寸较小。这样，即使在诸如嵌入式语音识别的计算资源有限的计算环境中，也能够在防止响应时间增加的同时提供具有足够语音识别性能的神经网络声学模型，并且可以提高可用性。

<学习处理的说明>

接下来，将描述学习装置11的操作。即，下面将参考图4中的流程图描述由学习装置11执行的学习处理。

在步骤S11中，特征提取单元23从语音数据保持单元22提供的语音数据中提取声学特征，并将获得的声学特征提供给条件变分自动编码器学习单元25和神经网络声学模型学习单元26。

在步骤S12中，随机数生成单元24生成多维随机数v，并将其提供给条件变分自动编码器学习单元25和神经网络声学模型学习单元26。例如，在步骤S12中，执行上述等式(1)的计算以生成多维随机数v。

在步骤S13中，条件变分自动编码器学习单元25执行条件变分自动编码器学习处理，并将获得的条件变分自动编码器参数提供给神经网络声学模型学习单元26。注意，稍后将描述条件变分自动编码器学习处理的细节。

在步骤S14中，神经网络声学模型学习单元26基于从条件变分自动编码器学习单元25提供的条件变分自动编码器执行神经网络声学模型学习处理，并将得到的神经网络声学模型参数输出到后续阶段。

然后，当输出神经网络声学模型参数时，学习处理完成。注意，稍后将描述神经网络声学模型学习处理的细节。

如上所述，学习装置11学习条件变分自动编码器，并使用获得的条件变分自动编码器学习神经网络声学模型。由此，使用大规模的条件变分自动编码器，可以容易地获得小规模但具有足够高的识别精度(识别性能)的神经网络声学模型。即，通过使用获得的神经网络声学模型，可以以足够的识别精度和响应速度来执行语音识别。

<条件变分自动编码器学习处理的说明>

这里，将描述与图4的学习处理中的步骤S13的处理相对应的条件变分自动编码器学习处理。即，参照图5中的流程图，下面将描述由条件变分自动编码器学习单元25执行的条件变分自动编码器学习处理。

在步骤S41中，神经网络编码器单元51基于从网络参数更新单元56提供的编码器参数、从标签数据保持单元21提供的标签数据，以及从特征提取单元23提供的声学特征来计算潜变量分布。

神经网络编码器单元51将平均值μ和标准偏差矢量σ作为计算出的潜变量分布提供给潜变量采样单元52和学习成本计算单元54。

在步骤S42中，潜变量采样单元52基于从随机数生成单元24提供的多维随机数v以及从神经网络编码器单元51提供的平均值μ和标准偏差矢量σ，对潜变量z进行采样。即，例如，执行上述等式(2)的计算，并且生成潜变量z。

潜变量采样单元52将通过采样获得的潜变量z提供给神经网络解码器单元53。

在步骤S43中，神经网络解码器单元53基于从网络参数更新单元56提供的解码器参数、从特征提取单元23提供的声学特征以及从潜变量采样单元52提供的潜变量z来预测与声学特征相对应的标签。然后，神经网络解码器单元53将标签预测结果提供给学习成本计算单元54。

在步骤S44中，学习成本计算单元54基于来自标签数据保持单元21的标签数据、来自神经网络编码器单元51的潜变量分布以及来自神经网络解码器单元53的预测结果，计算学习成本。

例如，在步骤S44中，将上述等式(3)表示的误差L计算为学习成本。学习成本计算单元54将计算出的学习成本即误差L提供给学习控制单元55和网络参数更新单元56。

在步骤S45中，网络参数更新单元56确定是否完成条件变分自动编码器的学习。

例如，在更新条件变分自动编码器参数的处理已经被执行了足够的次数，并且在上次执行的步骤S44的处理中获得的误差L与在该时间之前紧接着执行的步骤S44的处理中获得的误差L之间的差已经变得小于或等于预定阈值的情况下，网络参数更新单元56确定学习将完成。

在步骤S45中确定学习还没有完成的情况下，此后处理进入步骤S46，以执行更新条件变分自动编码器参数的处理。

在步骤S46中，学习控制单元55基于从学习成本计算单元54提供的误差L，对条件变分自动编码器的学习进行参数控制，并且将通过参数控制确定的误差反向传播方法的参数提供给网络参数更新单元56。

在步骤S47中，网络参数更新单元56基于从学习成本计算单元54提供的误差L和从学习控制单元55提供的误差反向传播方法的参数，使用误差反向传播方法来更新条件变分自动编码器参数。。

网络参数更新单元56将更新的编码器参数提供给神经网络编码器单元51，并且将更新的解码器参数提供给神经网络解码器单元53。然后，此后，处理返回到步骤S41，并且使用更新的新编码器参数和解码器参数重复执行上述处理。

此外，在步骤S45中确定学习将完成的情况下，网络参数更新单元56将通过学习而获得的条件变分自动编码器参数提供给神经网络声学模型学习单元26并且条件变分自动编码器学习处理完成。当条件变分自动编码器学习处理完成时，图4中的步骤S13的处理完成。因此，此后，执行步骤S14的处理。

如上所述，条件变分自动编码器学习单元25学习条件变分自动编码器。通过这样预先学习条件变分自动编码器，可以将通过学习获得的条件变分自动编码器用于神经网络声学模型的学习。

<神经网络声学模型学习处理的说明>

此外，将描述与图4的学习处理中的步骤S14的过程相对应的神经网络声学模型学习处理。即，参照图6中的流程图，下面将描述由神经网络声学模型学习单元26执行的神经网络声学模型学习处理。

在步骤S71中，潜变量采样单元81基于从随机数生成单元24提供的多维随机数v对潜变量进行采样，并将获得的潜变量提供给神经网络解码器单元82。多维随机数v直接用作潜变量。

在步骤S72中，神经网络解码器单元82使用从网络参数更新单元56提供的条件变分自动编码器的解码器参数来执行标签预测，并将预测结果提供给学习成本计算单元92。

即，神经网络解码器单元82基于从网络参数更新单元56提供的解码器参数、从特征提取单元23提供的声学特征以及从潜变量采样单元81提供的潜变量来预测与声学特征相对应的标签。

在步骤S73中，神经网络声学模型91使用从网络参数更新单元94提供的神经网络声学模型参数执行标签预测，并将预测结果提供给学习成本计算单元92。

即，神经网络声学模型91基于从网络参数更新单元94提供的神经网络声学模型参数和来自特征提取单元23的声学特征，预测与声学特征相对应的标签。

在步骤S74中，学习成本计算单元92基于来自标签数据保持单元21的标签数据、来自神经网络声学模型91的预测结果以及来自神经网络解码器单元82的预测结果，计算神经网络声学模型的学习成本。

例如，在步骤S74中，将上述等式(4)表示的误差L计算为学习成本。学习成本计算单元92将计算出的学习成本即误差L提供给学习控制单元93和网络参数更新单元94。

在步骤S75中，网络参数更新单元94确定是否完成对神经网络声学模型的学习。

例如，在更新神经网络声学模型参数的处理已经被执行了足够的次数，并且在上次执行的步骤S74的处理中获得的误差L和在该时间之前紧接着执行的步骤S74的处理中获得的误差L之间的差已经变得小于或等于预定阈值的情况下，网络参数更新单元94确定学习将完成。

在步骤S75中确定学习还没有完成的情况下，此后处理进入步骤S76，以执行更新神经网络声学模型参数的处理。

在步骤S76中，学习控制单元93基于从学习成本计算单元92提供的误差L，对神经网络声学模型的学习进行参数控制，并将由参数控制确定的误差反向传播方法的参数提供给网络参数更新单元94。

在步骤S77中，网络参数更新单元94基于从学习成本计算单元92提供的误差L和从学习控制单元93中提供的误差反向传播方法的参数，使用误差反向传播方法来更新神经网络声学模型参数。。

网络参数更新单元94将更新的神经网络声学模型参数提供给神经网络声学模型91。然后，处理返回到步骤S71，并且使用更新的新神经网络声学模型参数重复执行上述处理。

此外，在步骤S75中确定学习将要完成的情况下，网络参数更新单元94将通过学习获得的神经网络声学模型参数输出到后续阶段，并且神经网络声学模型学习处理完成。当神经网络声学模型学习处理完成时，图4中的步骤S14的过程完成，因此，图4中的学习处理也完成。

如上所述，神经网络声学模型学习单元26使用通过预先学习获得的条件变分自动编码器来学习神经网络声学模型。因此，可以获得能够以足够的识别精度和响应速度执行语音识别的神经网络声学模型。

<计算机的配置示例>

顺便提及，上述一系列处理步骤可以由硬件执行，或者可以由软件执行。在通过软件执行一系列处理步骤的情况下，构成软件的程序被安装在计算机上。这里，计算机包括结合在专用硬件中的计算机，例如通用个人计算机，其可以通过安装各种程序来执行各种功能，等等。

图7是示出使用程序执行上述一系列处理步骤的计算机的硬件配置示例的框图。

在计算机中，中央处理单元(CPU)501、只读存储器(ROM)502和随机存取存储器(RAM)503通过总线504相互连接。

输入/输出接口505进一步连接到总线504。输入单元506、输出单元507、记录单元508、通信单元509和驱动器510连接到输入/输出接口505。

输入单元506例如包括键盘、鼠标、麦克风和成像设备。输出单元507例如包括显示器和扬声器。记录单元508例如包括硬盘和非易失性存储器。通信单元509例如包括网络接口。驱动器510驱动可移除记录介质511，例如磁盘、光盘、磁光盘或半导体存储器。

在如上所述配置的计算机中，CPU 501经由输入/输出接口505和总线504将例如记录在记录单元508上的程序加载到RAM 503中，并执行该程序，从而执行上述一系列处理步骤。

例如，由计算机(CPU 501)执行的程序可以被记录在作为要提供的封装介质等的可移除记录介质511上。此外，可以经由诸如局域网、互联网或数字卫星广播的有线或无线传输介质来提供程序。

在计算机中，可以通过将可移除记录介质511放入驱动器510中来经由输入/输出接口505将程序安装在记录单元508中。此外，程序可以经由有线或无线传输介质由通信单元509接收，并且安装在记录单元508中。此外，程序可以预先安装在ROM 502或记录单元508中。

注意，由计算机执行的程序可以是按照本说明书中描述的顺序按时间顺序执行处理的程序，或者可以是并行地或者在诸如进行调用时的必要时间执行处理的程序。

此外，本技术的实施例不限于上述实施例，并且可以在不脱离本技术的范围的情况下进行各种修改。

例如，本技术可以具有云计算的配置，其中一个功能由多个装置经由网络共享并且被共同处理。

此外，上述流程图中描述的每个步骤可以由单个装置执行，或者可以由多个装置共享并执行。

此外，在单个步骤中包括多个处理步骤的情况下，包含在单个步骤中的多个处理步骤可以由单个装置执行，或者可以由多个装置共享并执行。

此外，本技术可以具有以下配置。

(1)

一种学习装置，包括

模型学习单元，基于将从学习数据中提取的特征输入到用于构成条件变分自动编码器的识别处理的解码器时的所述解码器的输出和所述特征，来学习用于所述识别处理的模型。

(2)

根据(1)的学习装置，其中，

所述模型的规模小于所述解码器的规模。

(3)

根据(2)的学习装置，其中，

规模是所述模型的复杂度。

(4)

根据(1)至(3)中任一项的学习装置，其中，

所述数据是语音数据，并且所述模型是声学模型。

(5)

根据(4)的学习装置，其中，

所述声学模型包括神经网络。

(6)

根据(1)至(5)中任一项的学习装置，其中，

所述模型学习单元使用误差反向传播方法学习所述模型。

(7)

根据(1)至(6)中任一项的学习装置，还包括：

生成单元，基于随机数生成潜变量；和

所述解码器，输出基于所述潜变量和所述特征的所述识别处理的结果。

(8)

根据(1)至(7)中任一项的学习装置，还包括

学习所述条件变分自动编码器的条件变分自动编码器学习单元。

(9)

一种学习方法，包括

通过学习装置，基于将从学习数据中提取的特征输入到用于构成条件变分自动编码器的识别处理的解码器时的所述解码器的输出和所述特征，来学习用于所述识别处理的模型。

(10)

一种使计算机执行处理的程序，所述处理包括

基于将从学习数据中提取的特征输入到用于构成条件变分自动编码器的识别处理的解码器时的所述解码器的输出和所述特征，来学习用于所述识别处理的模型的步骤。

附图标记列表

11 学习装置

23 特征提取单元

24 随机数生成单元

25 条件变分自动编码器学习单元

26 神经网络声学模型学习单元

81 潜变量采样单元

82 神经网络解码器单元

83 学习单元。

Claims

1.一种学习装置，包括

2.根据权利要求1所述的学习装置，其中，

所述模型的规模小于所述解码器的规模。

3.根据权利要求2所述的学习装置，其中，

规模是所述模型的复杂度。

4.根据权利要求1所述的学习装置，其中，

所述数据是语音数据，并且所述模型是声学模型。

5.根据权利要求4所述的学习装置，其中，

所述声学模型包括神经网络。

6.根据权利要求1所述的学习装置，其中，

所述模型学习单元使用误差反向传播方法学习所述模型。

7.根据权利要求1所述的学习装置，还包括：

生成单元，基于随机数生成潜变量；和

所述解码器，输出基于所述潜变量和所述特征量的所述识别处理的结果。

8.根据权利要求1所述的学习装置，还包括

9.一种学习方法，包括

10.一种使计算机执行处理的程序，所述处理包括