CN106683663B

CN106683663B - 神经网络训练设备和方法以及语音识别设备和方法

Info

Publication number: CN106683663B
Application number: CN201610977394.5A
Authority: CN
Inventors: 李镐式; 崔喜烈
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2015-11-06
Filing date: 2016-11-07
Publication date: 2022-01-25
Anticipated expiration: 2036-11-07
Also published as: KR102494139B1; JP2017090912A; KR20170053525A; US20170133006A1; JP6861500B2; EP3166105B1; US10529317B2; EP3166105A1; CN106683663A

Abstract

提供一种神经网络训练设备和方法以及语音识别设备和方法。神经网络训练设备包括：初级训练器，被构造为基于干净的训练数据和与干净的训练数据对应的目标数据，来执行神经网络模型的初级训练；二级训练器，被构造为基于带噪训练数据和在神经网络模型的初级训练期间计算的针对干净的训练数据的输出类的输出概率分布，来执行已经执行初级训练的神经网络模型的二级训练。

Description

神经网络训练设备和方法以及语音识别设备和方法

本申请要求于2015年11月6日提交到韩国知识产权局的第10-2015-0156152号韩国专利申请的权益，所述韩国专利申请的全部公开出于所有的目的通过引用合并于此。

技术领域

下面的描述涉及神经网络训练设备和方法以及语音识别设备和方法。

背景技术

相比于以前的语音识别技术，最新的语音识别技术吸引了广泛的关注。引起这样的原因是，当实现语音识别技术时，即使在用户正在驾驶车辆或者执行对于用户很难使用他或她的手的其他任务时，除了互联网接入或者办公室或其他服务的使用能够满足各种用户的需求之外，可通过语音更加方便地操作因特网信息、电子商务或者各种普适环境的使用。

语音识别技术中的重要的问题是从周围环境有效地去除噪声。由于来自周围环境的噪声引起的训练环境与实际语音识别环境之间的不匹配是语音识别系统的语音识别性能下降的主要原因之一。

发明内容

提供本发明内容用于以简化的形式来介绍在下面具体实施方式中进一步描述的构思的选择。本发明内容不意在标识要求保护的主题的关键特征或必要特征，也不意在作为帮助确定要求保护的主题的范围而被使用。

在一个总体方面中，一种神经网络训练设备包括：初级训练器，被构造为基于干净的训练数据和与干净的训练数据对应的目标数据，来执行神经网络模型的初级训练；二级训练器，被构造为基于带噪训练数据和在神经网络模型的初级训练期间计算的针对干净的训练数据的输出类的概率分布，来执行已经执行初级训练的神经网络模型的二级训练。

二级训练器还可被构造为：使用带噪训练数据作为输入并且使用在神经网络模型的初级训练期间计算的针对干净的训练数据的输出类的概率分布作为目标，来执行已经执行初级训练的神经网络模型的二级训练。

带噪训练数据可包括：使干净的训练数据失真所得的数据或者干净的训练数据与训练噪声数据混合的数据。

神经网络模型可以是基于神经网络的声学模型。

初始训练器还可被构造为：使用执行神经网络模型的训练以从干净的训练数据获得目标数据的第一目标函数，来执行初级训练。

二级训练器还可被构造为：使用作为在神经网络模型的初级训练期间计算的针对干净的训练数据的输出类的概率分布与神经网络模型的输出层的激活函数的组合的第二目标函数，来执行二级训练。

二级训练器还可被构造为：使用作为以下两个目标函数的加权和的第二目标函数来执行二级训练：执行神经网络模型的训练以从干净的训练数据获得目标数据的目标函数，以及作为在神经网络模型的初级训练期间计算的针对干净的训练数据的输出类的概率分布与神经网络模型的输出层的激活函数的组合的目标函数。

在另一个总体方面中，一种神经网络训练方法包括：基于干净的训练数据和与干净的训练数据对应的目标数据，来执行神经网络模型的初级训练；基于带噪训练数据和在神经网络模型的初级训练期间计算的针对干净的训练数据的输出类的概率分布，来执行已经执行初级训练的神经网络模型的二级训练。

二级训练可包括：使用带噪训练数据作为输入并且使用在神经网络模型的初级训练期间计算的针对干净的训练数据的输出类的概率分布作为目标，来执行已经执行初级训练的神经网络模型的二级训练。

神经网络模型可以是基于神经网络的声学模型。

执行初级训练的步骤可包括：使用执行神经网络模型的训练以从干净的训练数据获得目标数据的第一目标函数，来执行初级训练。

执行二级训练的步骤可包括：使用作为在神经网络模型的初级训练期间计算的针对干净的训练数据的输出类的概率分布与神经网络模型的输出层的激活函数的组合的第二目标函数，来执行二级训练。

执行二级训练的步骤可包括：使用作为以下两个目标函数的加权和的第二目标函数来执行二级训练：执行神经网络模型的训练以从干净的训练数据获得目标数据的目标函数，以及作为在神经网络模型的初级训练期间计算的针对干净的训练数据的输出类的概率分布与神经网络模型的输出层的激活函数的组合的目标函数。

在另一个总体方面中，一种计算机可读存储介质存储在被处理器执行时使得处理器执行上述方法的指令。

在另一个总体方面中，一种语音识别设备包括：特征提取器，被构造为提取带噪语音数据的特征；音素概率计算器，被构造为使用声学模型来计算与提取的特征对应的音素的概率；其中，声学模型是已经执行了初级训练和二级训练的声学模型，其中，基于语音训练数据和与语音训练数据对应的音素序列执行初级训练，并且基于带噪语音训练数据和在声学模型的初级训练期间计算的针对语音训练数据的输出类的概率分布执行二级训练。

可使用语音训练数据作为输入并且使用与语音训练数据对应的音素序列作为目标，来执行声学模型的初级训练。

可使用带噪语音训练数据作为输入并且使用在声学模型的初级训练期间计算的针对语音训练数据的输出类的概率分布作为目标，来执行声学模型的二级训练。

带噪语音训练数据可包括：使语音训练数据失真所得的数据或者语音训练数据与训练噪声数据混合的数据。

声学模型可以是基于神经网络的声学模型。

可使用执行声学模型的训练以从语音训练数据获得音素的第一目标函数，来执行声学模型的初级训练。

可使用作为在声学模型的初级训练期间计算的针对语音训练数据的输出类的概率分布与声学模型的输出层的激活函数的组合的第二目标函数，来执行声学模型的二级训练。

可使用作为以下两个目标函数的加权和的第二目标函数来执行声学模型的二级训练：执行声学模型的训练以从语音训练数据获得音素的目标函数，以及作为在声学模型的初级训练期间计算的针对语音训练数据的输出类的概率分布与声学模型的输出层的激活函数的组合的目标函数。

在另一个总体方面中，一种神经网络训练设备包括：初级训练器，被构造为基于干净的训练数据和硬目标数据，来执行神经网络模型的初级训练；二级训练器，被构造为基于带噪训练数据和在神经网络模型的初级训练期间获得的软目标数据，来执行已经执行初级训练的神经网络模型的二级训练。

可通过使干净的训练数据失真或将干净的训练数据与噪声进行混合，来获得带噪训练数据。

软目标数据可以是在神经网络模型的初级训练期间计算的针对干净的训练数据的输出类的概率分布。

二级训练器还可被构造为：基于带噪训练数据、软目标数据和神经网络模型的输出层的激活函数，来执行二级训练。

从下面的具体实施方式、附图和权利要求，其他特征和方面将是清楚的。

附图说明

图1是示出神经网络训练设备的示例的示图。

图2是示出神经网络训练设备的另一示例的示图。

图3是示出语音识别设备的示例的框图。

图4是示出神经网络训练方法的示例的流程图。

图5是示出神经网络训练方法的另一示例的流程图。

图6是示出语音识别方法的示例的流程图。

图7是示出计算带噪语音数据的音素概率的方法的示例的流程图。

贯穿附图和具体实施方式，相同的参考标号表示相同的元件。附图可不成比例，并且为了清楚、说明和方便，附图中的元件的相对大小、比例和描绘可被夸大。

具体实施方式

提供下面详细的描述来帮助读者获得对在此描述的方法、设备和/或系统的全面理解。然而，在理解了本申请的公开之后，在此描述的方法、设备和/或系统的各种改变、修改和等同物将是清楚的。例如，在此描述的操作的顺序仅是示例，并且不受限于在此阐述的顺序，而是除了必须按特定的顺序发生的操作之外，在理解了本申请的公开之后将会清楚，操作顺序可被改变。另外，为了更加清楚和简明，本领域已知的特征的描述可被省略。

在此描述的特征可以以不同的形式来实现，并且不被解释为受限于在此描述的示例。相反，已经提供在此描述的示例，仅为了示出实现在此描述的方法、设备和/或系统的许多可行方式中的一些，这在理解了本申请的公开之后将是清楚的。

图1是示出神经网络训练设备的示例的示图。

神经网络训练设备100是使用多条件训练(MCT)技术训练神经网络模型的设备。在一个示例中，神经网络模型是包括多个隐藏层的基于神经网络的声学模型，但这仅是示例，神经网络模型不受限于此。可使用典型的反向传播技术(例如，梯度下降算法、随机梯度下降算法或其他反向传播技术)来训练神经网络模型。

参照图1，神经网络训练设备100可包括初级训练器110和二级训练器120。

初级训练器110基于干净的训练数据和与干净的训练数据对应的目标数据来执行神经网络模型的初级训练。换言之，初级训练器110基于干净的训练数据和硬目标数据来执行神经网络模型的初级训练。干净的训练数据是不包含噪声的训练数据。在一个示例中，初级训练器110使用干净的训练数据作为输入并且使用与干净的训练数据对应的目标数据作为目标，来执行神经网络模型的初级训练。

在一个示例中，初级训练器110使用执行神经网络模型的训练以从干净的训练数据获得对应的目标数据的目标函数(以下，称为第一目标函数)，来执行神经网络模型的初级训练。例如，第一目标函数可使用主要用于多类分类的交叉熵。这可以通过下面的等式1来表示。

在等式1中，n表示输入数据(即，干净的训练数据)的样本的索引，N表示输入数据的样本的总数量，k表示输出类的索引，K表示输出类的总数量，X_n表示干净的训练数据的第n样本，y_k(X_n)表示神经网络模型的输出层的激活函数。当针对X_n的第k输出类是目标类时，t_nk具有1值，否则，t_nk具有0值。

二级训练器120基于带噪训练数据和在神经网络模型的初级训练期间计算的针对干净的训练数据的输出类的概率分布，来执行已经执行初级网络训练的神经网络模型的二级训练。换言之，二级训练器120基于带噪训练数据和在神经网络模型的初级训练期间获得的软目标数据，来执行已经执行初级训练的神经网络模型的二级训练。其中，软目标数据是在神经网络模型的初级训练期间计算的针对干净的训练数据的输出类的概率分布。在一个示例中，二级训练器120使用带噪训练数据作为输入并且使用在神经网络模型的初级训练期间计算的针对干净的训练数据的输出类的概率分布作为目标，来执行神经网络模型的二级训练。带噪训练数据可以是使干净的训练数据失真所得的数据或者干净的训练数据与训练噪声数据混合的数据。例如，带噪训练数据可以是干净的训练数据与各种噪声数据混合的数据，或者可以是通过将各种修改(例如，在图像数据情况下的旋转、部分覆盖、颜色或照明度的改变或者其他修改，以及在语音数据情况下的混响或者其他修改)添加到干净的训练数据而生成的失真数据。

在一个示例中，二级训练器120使用执行训练以获得在神经网络模型的初级训练期间计算的针对干净的训练数据的输出类的概率分布的目标函数(以下，称为第二目标函数)，来执行已经执行初级训练的神经网络模型的二级训练。第二目标函数可以由在神经网络模型的初级训练期间计算的针对干净的训练数据的输出类的概率分布与神经网络模型的输出层的激活函数的组合组成。

例如，第二目标函数可使用主要用于多类分类的交叉熵。这可以通过下面的等式2来表示。

在等式2中，n表示输入数据(即，带噪训练数据)的样本的索引，N表示输入数据的样本的总数量，k表示输出类的索引，K表示输出类的总数量，X_n表示带噪训练数据的第n样本，y_k(X_n)表示神经网络模型的输出层的激活函数。s_nk表示作为在神经网络模型的初级训练期间计算的干净的训练数据的输出类的概率分布的针对第n干净的训练数据样本的第k输出类的概率分布。

在另一个示例中，第二目标函数可使用主要用于回归的欧几里得距离。这可以通过下面的等式3来表示。

在等式3中，n表示输入数据(即，带噪训练数据)的样本的索引，k表示输出类的索引，X_n表示带噪训练数据的第n样本，y_k(X_n)表示神经网络模型的输出层的激活函数。s_nk表示作为在神经网络模型的初级训练期间计算的干净的训练数据的输出类的概率分布的针对第n干净的训练数据样本的第k输出类的概率分布。

在另一个示例中，第二目标函数可以由等式1的目标函数与等式2的目标函数的加权和，或者等式1的目标函数与等式3的目标函数的加权和组成。这可以通过下面的等式4和等式5来表示。

在等式4和等式5中，λ表示权重，并且可根据系统的性能和应用被设置为各种值。

目前描述了初级训练器110和二级训练器120使用各自的目标函数训练神经网络模型的示例，但是第一目标函数和第二目标函数可被集成为单个集成目标函数。

在一个示例中，集成目标函数可通过下面的等式6来表示。

在等式6中，dn在输入为干净的训练数据时具有0值，在输入为带噪训练数据时具有1值。λ(d_n)表示权重，且在d_n为0时(即，在输入为干净的训练数据时)具有0值。λ(d_n)可在d_n为1时(即，在输入为带噪训练数据时)根据系统的性能和应用被设置为各种值。

在另一个示例中，集成目标函数可通过下面的等式7来表示。

在等式7中，d_n在输入为干净的训练数据时具有0值，在输入为带噪训练数据时具有1值。λ(d_n)表示权重，且在d_n为0时(即，在输入为干净的训练数据时)具有0值。λ(d_n)可在d_n为1时(即，在输入为带噪训练数据时)根据系统的性能和应用被设置为各种值。

图2是示出神经网络训练设备的另一示例的示图。

参照图2，当与图1的神经网络训练设备100相比时，神经网络训练设备200还包括数据获取器210、混合器220、特征提取器230和存储单元240。

数据获取器210获取用于训练神经网络模型的干净的训练数据和训练噪声数据。在一个示例中，数据获取器210从预定的数据库(DB)或外部装置获取干净的训练数据和训练噪声数据。

混合器220通过将干净的训练数据与训练噪声数据混合来生成带噪训练数据。可选择地，混合器220通过将各种改变(例如，在图像数据情况下的旋转、部分覆盖、颜色或照明度的改变或者其他修改，以及在语音数据情况下的混响或者其他修改)添加到干净的训练数据，来生成带噪训练数据。

特征提取器230使用预定的算法来提取干净的训练数据和带噪训练数据的特征(例如，滤波器组)。只要能够提取可从干净的训练数据和带噪训练数据识别出干净的训练数据和带噪训练数据中的每一个的特征，对于预定的算法的类型和功能就没有限制。

初级训练器110使用通过特征提取器230提取的干净的训练数据的特征数据作为输入来执行神经网络模型的初级训练，二级训练器120使用通过特征提取器230提取的带噪训练数据的特征数据作为输入来执行已经执行初级训练的神经网络模型的二级训练。

存储单元240存储通过初级训练器110获得的神经网络模型的初级训练结果以及在神经网络模型的初级训练期间计算的针对干净的训练数据的输出类的概率分布。

存储单元240可作为存储介质包括以下项中的任意一个、或任意两个或更多个的任意组合：闪存、硬盘、多媒体卡(MMC)、MMCmicro、存储卡(例如，安全数字(SD)存储卡或极速数字(XD)存储卡)、随机存取存储器(RAM)、静态随机存取存储器(SRAM)、只读存储器(ROM)、电可擦可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁存储器、磁盘和光盘。

在图2的示例中，存储单元240包括在神经网络训练设备200中，但不受限于此。换句话讲，存储单元240可如图2所示位于神经网络训练设备200的内部，或者可以是连接到神经网络训练设备200的分开的外部组件。

以下，将详细描述使用由图1的神经网络训练设备100或图2的神经网络训练设备200生成的声学模型的语音识别的设备。

图3是示出语音识别设备的示例的框图。语音设别设备300可以以硬件芯片的形式制造，并安装在电子装置中。电子装置可以是TV、导航单元、车载电子装置、智能电话、平板PC、智能手表、台式计算机、膝上型PC或可穿戴装置，但不受限于此。

参照图3，语音识别设备300包括输入单元310、声学模型存储单元320和计算器330。

输入单元310接收将被执行语音识别的带噪语音数据。带噪语音数据是混合有噪声的语音数据。

声学模型存储单元320存储预先训练的声学模型。声学模型可以是通过神经网络训练设备100或神经网络训练设备200训练的基于神经网络的声学模型。

在一个示例中，声学模型是作为基于神经网络的声学模型的使用MCT技术训练的声学模型。例如，声学模型是已经执行了初级训练和二级训练的声学模型，其中，基于语音训练数据和与语音训练数据对应的音素序列执行初级训练，并基于带噪语音训练数据和在声学模型的初级训练期间计算的针对语音训练数据的输出类的概率分布执行二级训练。训练的带噪语音训练数据可以是通过将语音训练数据与训练噪声数据进行混合获得的数据。

可使用等式1至等式7的目标函数中的任意一个来训练声学模型。例如，可使用等式1的目标函数来对声学模型执行初级训练，然后可使用等式2至等式5的目标函数中的一个来对声学模型执行二级训练。在另一个示例中，可使用等式6和等式7的集成目标函数中的一个来对声学模型执行初级训练和二级训练二者。

声学模型存储单元320可作为存储介质包括以下各项中的任意一个、或任意两个或更多个的任意组合：闪存、硬盘、多媒体卡(MMC)、MMCmicro、存储卡(例如，SD存储卡或XD存储卡)、RAM、SRAM、ROM、EEPROM、PROM、磁存储器、磁盘和光盘。

在图3的示例中，声学模型存储单元320包括在语音识别设备300中，但不受限于此。换句话讲，声学模型存储单元320可如图3所示位于语音识别设备300的内部，或者可以是连接到语音识别设备300的分开的外部组件。

计算器330使用存储在声学模型存储单元320中的声学模型来计算接收的带噪语音数据的音素概率。为了完成这个操作，计算器330包括特征提取器331和音素概率计算器332。

特征提取器331使用预定的算法来提取接收的带噪语音数据的特征。只要能够提取可从其他带噪语音数据中识别出带噪语音数据的特征，对于预定的算法的类型和功能就没有限制。

音素概率计算器332使用存储在声学模型存储单元320中的声学模型来计算与通过特征提取器331提取的带噪语音数据的特征对应的音素的概率。

在图3的示例中，语音识别设备300包括输入单元310和声学模型存储单元320，但是可根据系统的性能和应用省略输入单元310和声学模型存储单元320。

图4是示出神经网络训练方法的示例的流程图。可通过图1的神经网络训练设备100执行图4的神经网络训练方法。

参照图1和图4，在操作410中，神经网络训练设备100基于干净的训练数据和与干净的训练数据对应的目标数据，来执行神经网络模型的初级训练。例如，神经网络训练设备100使用干净的训练数据作为输入并且使用与干净的训练数据对应的目标数据作为目标，来执行神经网络模型的初级训练。神经网络模型可以是包括多个隐藏层的基于神经网络的声学模型，但这仅是示例，神经网络模型不受限于此。

在一个示例中，神经网络训练设备100使用等式1的目标函数(第一目标函数)来执行神经网络模型的初级训练。

在操作420中，神经网络训练设备100基于带噪训练数据和在神经网络模型的初级训练期间计算的针对干净的训练数据的输出类的概率分布，来执行已经执行初级训练的神经网络模型的二级训练。例如，神经网络训练设备100使用带噪训练数据作为输入并且使用在神经网络模型的初级训练期间计算的针对干净的训练数据的输出类的概率分布作为目标，来执行已经执行初级训练的神经网络模型的二级训练。带噪训练数据可以是使干净的训练数据失真所得的数据或者干净的训练数据与训练噪声数据混合的数据。例如，带噪训练数据可以是干净的训练数据与各种噪声数据混合的数据，或者可以是通过将各种修改(例如，在图像数据情况下的旋转、部分覆盖、颜色或照明度的改变或者其他修改，以及在语音数据情况下的混响或者其他修改)添加到干净的训练数据而生成的失真数据。

在一个示例中，神经网络训练设备100使用等式2至等式5的目标函数(第二目标函数)中的一个，来执行已经执行初级训练的神经网络模型的二级训练。

虽然已经描述了神经网络训练设备100在初级训练操作410和二级训练操作420中使用各自的目标函数(第一目标函数和第二目标函数)来训练神经网络模型的示例，但是第一目标函数和第二目标函数可被集成为单个集成目标函数。例如，神经网络训练设备100可使用等式6或等式7的集成目标函数，来执行初级训练操作410和二级训练操作420二者。

图5是示出神经网络训练方法的另一个示例的流程图。可通过图2的神经网络训练设备200来执行图5的神经网络训练方法。

当与图4的神经网络训练方法相比时，图5的神经网络训练方法还包括操作510至操作540。图5中的操作410和操作420与图4中的操作410和操作420相同，因此将省略它们的重复的描述。

参照图2和图5，在操作510中，神经网络训练设备200获取用于训练神经网络模型的干净的训练数据和训练噪声数据。在一个示例中，神经网络训练设备200从预定的DB或外部装置获取干净的训练数据和训练噪声数据。

在操作520中，神经网络训练设备200通过将干净的训练数据和训练噪声数据混合来生成带噪训练数据。可选择地，神经网络训练设备200可通过将各种修改(例如，在图像数据情况下的旋转、部分覆盖、颜色或照明度的改变或者其他修改，以及在语音数据情况下的混响或者其他修改)添加到干净的训练数据来生成带噪训练数据。

在操作530中，用于训练神经网络的神经网络训练设备200使用预定的算法，来提取干净的训练数据和带噪训练数据的特征(例如，滤波器组)。只要能够提取可从干净的训练数据和带噪训练数据识别出干净的训练数据和带噪训练数据中的每一个样本的特征，对于预定的算法的类型和功能就没有限制。

在操作540中，神经网络训练设备200存储神经网络模型的初级训练的初级训练结果以及在神经网络模型的初级训练期间计算的针对干净的训练数据的输出类的概率分布。

图6是示出语音识别方法的示例的流程图。可通过图3的语音识别设备300执行图6的语音识别方法。

参照图3和图6，在操作610中，语音识别设备300接收将被执行语音识别的带噪语音数据。带噪语音数据是混合有噪声的语音数据。在操作620中，语音识别设备300使用预先训练的声学模型来计算接收的带噪语音数据的音素概率。

声学模型可以是作为基于神经网络的声学模型的使用MCT技术训练的声学模型。例如，声学模型可以是已经执行了初级训练和二级训练的声学模型，其中，基于语音训练数据和与语音训练数据对应的音素序列执行初级训练，并基于带噪语音训练数据和在声学模型的初级训练期间计算的针对语音训练数据的输出类的概率分布执行二级训练。训练的带噪语音训练数据可以是通过将语音训练数据与训练噪声数据进行混合获得的数据。

在一个示例中，使用等式1至等式7的目标函数中的任意一个来训练声学模型。在一个示例中，使用等式1的目标函数来对声学模型执行初级训练，并使用等式2至等式5的目标函数中的一个来对已经执行了初级训练的声学模型执行二级训练。在另一个示例中，使用等式6和等式7的集成目标函数中的一个来对声学模型执行初级训练和二级训练二者。

图7是示出计算带噪语音数据的音素概率的方法的示例的流程图。图7的计算带噪语音数据的音素概率的方法是图6的操作620的示例。

参照图3和图7，在操作710中，语音识别设备300使用预定的算法来提取接收的带噪语音数据的特征。只要能够提取可从带噪语音数据的其他样本识别出带噪语音数据的每一个样本的特征，对于预定的算法的类型和功能就没有限制。

在操作720中，语音识别设备300使用预先训练的声学模型，来计算与带噪语音数据的提取的特征对应的音素的概率。

通过硬件组件来实现执行本申请中描述的操作的图1和图2中的初级训练器110和二级训练器120，图2中的数据获取器210、混合器220、提取器230和存储单元240，以及图3中的输入单元310、声学模型存储单元320、特征提取器331和音素概率计算器332，其中，硬件组件被构造为执行本申请中描述的由硬件组件执行的操作。可被用于在适当的情况下执行本申请中描述的操作的硬件组件的示例包括：控制器、传感器、生成器、驱动器、存储器、比较器、算术逻辑单元、加法器、减法器、乘法器、除法器、积分器以及被配置为执行本申请中描述的操作的任意其他电子组件。在其他示例中，执行本申请中描述的操作的硬件组件中的一个或多个硬件组件通过计算硬件(例如，通过一个或多个处理器或计算机)来实现。可通过一个或多个处理元件(诸如，逻辑门阵列、控制器和算术逻辑单元、数字信号处理器、微型计算机、可编程逻辑控制器、现场可编程门阵列、可编程逻辑阵列、微处理器或被构造为以定义的方式响应并执行指令以实现期望的结果的任意其他装置或装置的组合)来实现处理器或计算机。在一个示例中，处理器或计算机包括存储由处理器或计算机执行的指令或软件的一个或多个存储器，或者连接到存储由处理器或计算机执行的指令或软件的一个或多个存储器。通过处理器或计算机实现的硬件组件可执行指令或软件(诸如，操作系统(OS)和在OS上运行的一个或多个软件应用)，以执行本申请中描述的操作。硬件组件还可响应于指令或软件的执行来访问、操控、处理、创建并且存储数据。为了简单起见，单数术语“处理器”或“计算机”可用于本申请中所述的示例的描述，但是在其他的示例中，多个处理器或计算机可被使用，或者一个处理器或计算机可包括多个处理元件或多种类型的处理元件或二者。例如，单个硬件组件或者两个或更多个硬件组件可通过单个处理器、或者两个或更多个处理器、或者一个处理器和一个控制器来实现。一个或多个硬件组件可通过一个或多个处理器、或者一个处理器和一个控制器来实现，一个或多个其他硬件组件可通过一个或多个其他处理器、或者另一个处理器和另一个控制器来实现。一个或多个处理器或者一个处理器和一个控制器可实现单个硬件组件或者两个或更多个硬件组件。硬件组件可具有任意一个或多个不同的处理配置，其示例包括：单个处理器、独立处理器、并行处理器、单指令单数据(SISD)多处理、单指令多数据(SIMD)多处理、多指令单数据(MISD)多处理以及多指令多数据(MIMD)多处理。

图4至图7所示的执行本申请中描述的操作的方法通过计算硬件(例如，通过一个或多个处理器或计算机)来执行，一个或多个处理器或计算机如上所述地被实现为执行指令或软件，以执行本申请中描述的通过该方法执行的操作。例如，单个操作或者两个或更多个操作可通过单个处理器或者两个或更多个处理器或者一个处理器和一个控制器来执行。一个或多个操作可通过一个或多个处理器或者一个处理器和一个控制器来执行，并且一个或多个其他操作可通过一个或多个其他处理器或者另一个处理器和另一个控制器来执行。一个或多个处理器或者一个处理器和一个控制器可执行单个操作或者两个或更多个操作。

用于控制计算硬件(例如，一个或多个处理器或计算机)实现硬件组件并执行如上所述的方法的指令或软件可被编写为计算机程序、代码段、指令或它们的任意组合，以单独地或共同地指示或配置一个或多个处理器或者计算机如机器或专用计算机那样进行操作，以执行由硬件组件执行的操作和如上所述的方法。在一个示例中，指令或软件包括由一个或多个处理器或者计算机直接执行的机器代码(诸如，由编译器生成的机器代码)。在另一个示例中，指令或软件包括由一个或多个处理器或者计算机使用解释器执行的高级代码。可基于附图中所示的框图和流程图以及说明书(其公开了用于执行由硬件组件执行的操作和如上所述的方法的算法)中的相应描述，使用任意编程语言来编写指令或软件。

用于控制计算硬件(例如，一个或多个处理器或者计算机)实现硬件组件并且执行如上所述的方法的指令或软件以及任意相关联的数据、数据文件和数据结构可被记录、存储或固定在一个或多个非暂时性计算机可读存储介质中，或者可被记录、存储或固定在一个或多个非暂时性计算机可读存储介质上。非暂时性计算机可读存储介质的示例包括：只读存储器(ROM)、随机存取存储器(RAM)、闪存、CD-ROM、CD-R、CD+R、CD-RW、CD+RW、DVD-ROM、DVD-R、DVD+R、DVD-RW、DVD+RW、DVD-RAM、BD-ROM、BD-R、BD-R LTH、BD-RE、磁带、软盘、磁光数据存储装置、光学数据存储装置、硬盘、固态盘以及任何其它装置，其中，该任何其它装置被配置为：以非暂时性方式存储指令或软件以及任何相关联的数据、数据文件和数据结构，并且为一个或多个处理器或者计算机提供指令或软件以及任何相关联的数据、数据文件和数据结构，使得一个或多个处理器或者计算机能够执行指令。在一个示例中，指令或软件以及任何相关联的数据、数据文件和数据结构分布于联网的计算机系统，使得指令和软件以及任何相关联的数据、数据文件和数据结构通过一个或多个处理器或者计算机以分布的形式被存储、访问和执行。

虽然本公开包括特定的示例，但是在理解了本申请的公开之后将清楚，在不脱离权利要求和它们的等同物的精神和范围的情况下，可在这些示例中进行形式和细节的各种改变。在此描述的示例仅在描述性意义上被考虑，而不是为了限制的目的。每一个示例中的特征或方面的描述被认为可应用于其他示例中的相似特征或方面。如果描述的技术以不同的顺序被执行，和/或如果描述的系统、架构、装置或电路中的组件以不同方式被组合，和/或被其他组件或它们的等同物替换或补充，则可实现适当的结果。因此，本公开的范围不是由具体实施方式限定，而是由权利要求和它们的等同物限定，并且在权利要求和它们的等同物的范围内的所有变化将被解释为包括在本公开内。

Claims

1.一种神经网络训练设备，包括：

初级训练器，被构造为：使用干净的训练数据作为输入并且使用与干净的训练数据对应的目标数据作为目标，来执行神经网络模型的初级训练；

二级训练器，被构造为：使用带噪训练数据作为输入并且使用在神经网络模型的初级训练期间计算的针对干净的训练数据的输出类的概率分布作为目标，来执行已经执行初级训练的神经网络模型的二级训练。

2.根据权利要求1所述的神经网络训练设备，其中，带噪训练数据包括：使干净的训练数据失真所得的数据或者干净的训练数据与训练噪声数据混合的数据。

3.根据权利要求1所述的神经网络训练设备，其中，神经网络模型是基于神经网络的声学模型。

4.根据权利要求1所述的神经网络训练设备，其中，初始训练器还被构造为：使用执行神经网络模型的训练以从干净的训练数据获得目标数据的第一目标函数，来执行初级训练，其中，第一目标函数是用于多类分类的交叉熵。

5.根据权利要求1所述的神经网络训练设备，其中，二级训练器还被构造为：使用作为在神经网络模型的初级训练期间计算的针对干净的训练数据的输出类的概率分布与神经网络模型的输出层的激活函数的组合的第二目标函数，来执行二级训练。

6.根据权利要求1所述的神经网络训练设备，其中，二级训练器还被构造为：使用作为以下两个目标函数的加权和的第二目标函数来执行二级训练：执行神经网络模型的训练以从干净的训练数据获得目标数据的目标函数，以及作为在神经网络模型的初级训练期间计算的针对干净的训练数据的输出类的概率分布与神经网络模型的输出层的激活函数的组合的目标函数。

7.一种神经网络训练方法，包括：

使用干净的训练数据作为输入并且使用与干净的训练数据对应的目标数据作为目标，来执行神经网络模型的初级训练；

使用带噪训练数据作为输入并且使用在神经网络模型的初级训练期间计算的针对干净的训练数据的输出类的概率分布作为目标，来执行已经执行初级训练的神经网络模型的二级训练。

8.根据权利要求7所述的神经网络训练方法，其中，带噪训练数据包括：使干净的训练数据失真所得的数据或者干净的训练数据与训练噪声数据混合的数据。

9.根据权利要求7所述的神经网络训练方法，其中，神经网络模型是基于神经网络的声学模型。

10.根据权利要求7所述的神经网络训练方法，其中，执行初级训练的步骤包括：使用执行神经网络模型的训练以从干净的训练数据获得目标数据的第一目标函数，来执行初级训练，其中，第一目标函数是用于多类分类的交叉熵。

11.根据权利要求7所述的神经网络训练方法，其中，执行二级训练的步骤包括：使用作为在神经网络模型的初级训练期间计算的针对干净的训练数据的输出类的概率分布与神经网络模型的输出层的激活函数的组合的第二目标函数，来执行二级训练。

12.根据权利要求7所述的神经网络训练方法，其中，执行二级训练的步骤包括：使用作为以下两个目标函数的加权和的第二目标函数来执行二级训练：执行神经网络模型的训练以从干净的训练数据获得目标数据的目标函数，以及作为在神经网络模型的初级训练期间计算的针对干净的训练数据的输出类的概率分布与神经网络模型的输出层的激活函数的组合的目标函数。

13.一种语音识别设备，包括：

特征提取器，被构造为：提取带噪语音数据的特征；

音素概率计算器，被构造为：使用声学模型来计算与提取的特征对应的音素的概率；

其中，声学模型是已经执行了初级训练和二级训练的声学模型，

其中，使用语音训练数据作为输入并且使用与语音训练数据对应的音素序列作为目标，来执行声学模型的初级训练，

其中，使用带噪语音训练数据作为输入并且使用在声学模型的初级训练期间计算的针对语音训练数据的输出类的概率分布作为目标，来执行声学模型的二级训练。

14.根据权利要求13所述的语音识别设备，其中，带噪语音训练数据包括：使语音训练数据失真所得的数据或者语音训练数据与训练噪声数据混合的数据。

15.根据权利要求13所述的语音识别设备，其中，声学模型是基于神经网络的声学模型。

16.根据权利要求13所述的语音识别设备，其中，使用执行声学模型的训练以从语音训练数据获得音素的第一目标函数，来执行声学模型的初级训练，其中，第一目标函数是用于多类分类的交叉熵。

17.根据权利要求13所述的语音识别设备，其中，使用作为在声学模型的初级训练期间计算的针对语音训练数据的输出类的概率分布与声学模型的输出层的激活函数的组合的第二目标函数，来执行声学模型的二级训练。

18.根据权利要求13所述的语音识别设备，其中，使用作为以下两个目标函数的加权和的第二目标函数来执行声学模型的二级训练：执行声学模型的训练以从语音训练数据获得音素的目标函数，以及作为在声学模型的初级训练期间计算的针对语音训练数据的输出类的概率分布与声学模型的输出层的激活函数的组合的目标函数。

19.一种神经网络训练设备，包括：

初级训练器，被构造为：使用干净的训练数据作为输入并且使用硬目标数据作为目标，来执行神经网络模型的初级训练，其中，硬目标数据是与干净的训练数据对应的目标数据；

二级训练器，被构造为：使用带噪训练数据作为输入并且使用在神经网络模型的初级训练期间获得的软目标数据作为目标，来执行已经执行初级训练的神经网络模型的二级训练，其中，软目标数据是在神经网络模型的初级训练期间计算的针对干净的训练数据的输出类的概率分布。

20.根据权利要求19所述的神经网络训练设备，其中，通过使干净的训练数据失真或将干净的训练数据与噪声进行混合，来获得带噪训练数据。

21.根据权利要求19所述的神经网络训练设备，其中，二级训练器还被构造为：基于带噪训练数据、软目标数据和神经网络模型的输出层的激活函数，来执行二级训练。

22.一种存储指令的计算机可读介质，当由处理器执行所述指令时使得处理器执行权利要求7所述的方法。