CN112489633A

CN112489633A - 语音特征编码网络的训练方法、装置及存储介质

Info

Publication number: CN112489633A
Application number: CN202011253225.XA
Authority: CN
Inventors: 刘顺鹏; 傅强; 梁彧; 阿曼太; 蔡琳; 杨满智; 田野; 周忠义; 王杰; 金红; 陈晓光
Original assignee: Eversec Beijing Technology Co Ltd
Current assignee: Eversec Beijing Technology Co Ltd
Priority date: 2020-11-11
Filing date: 2020-11-11
Publication date: 2021-03-12
Anticipated expiration: 2040-11-11
Also published as: CN112489633B

Abstract

本发明公开了一种语音特征编码网络的训练方法、装置及存储介质，该方法包括：将语音数据输入至特征编码网络，得到语音特征，特征编码网络用于提取语音数据的特征；根据语音特征确定上下文特征；根据上下文特征和语音特征确定预测信息以及预测信息的目标信息，目标信息用于标记预测信息；根据预测信息和目标信息进行二分类；根据二分类结果对特征编码网络进行优化。本申请实施例提供的语音特征编码网络的训练方案，可以充分利用没有标注的语音数据，能够获取语义特征，提高带口音的语音识别率。

Description

语音特征编码网络的训练方法、装置及存储介质

技术领域

本发明实施例涉及人工智能技术，尤其涉及一种语音特征编码网络的训练方法、装置及存储介质。

背景技术

随着移动通信和互联网的发展，语音交流越来越频繁，用户产生的语音数据也越来越多，但语音数据大部分没有对应的文本标注。在语音识别任务中，神经网络模型的训练同时需要语音和对应的文本标注。

目前在为语音添加标注时，由人工对训练样本添加标注。但是，人工增加标注需要根据经验配置，且人工标注成本很高，导致大量未标注数据闲置，利用率低下。

发明内容

本发明提供一种语音特征编码网络的训练方法、装置及存储介质，以实现有效利用未标注数据，获取更多语义信息，同时也可以提高带口音的语音识别率。

第一方面，本发明实施例提供了一种语音特征编码网络的训练方法，包括：

将语音数据输入至特征编码网络，得到语音特征，特征编码网络用于提取语音数据的特征；

根据语音特征确定上下文特征；

根据上下文特征和语音特征确定预测信息以及预测信息的目标信息，目标信息用于标记预测信息；

根据预测信息和目标信息进行二分类；

根据二分类结果对特征编码网络进行优化。

第二方面，本发明实施例还提供了一种语音特征编码网络的训练装置，包括：

语音特征确定模块，用于将语音数据输入至特征编码网络，得到语音特征，特征编码网络用于提取语音数据的特征；

上下文特征确定模块，用于根据语音特征确定上下文特征；

预测信息确定模块，用于根据上下文特征和语音特征确定预测信息以及预测信息的目标信息，目标信息用于标记预测信息；

二分类模块，用于根据预测信息和目标信息进行二分类；

优化模块，用于根据二分类结果对特征编码网络进行优化。

第三方面，本发明实施例还提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行程序时实现如本申请实施例所示的语音特征编码网络的训练方法。

第四方面，本发明实施例还提供了一种包含计算机可执行指令的存储介质，计算机可执行指令在由计算机处理器执行时用于执行如本申请实施例所示的语音特征编码网络的训练方法。

本申请实施例提供的语音特征编码网络的训练方案，将语音数据输入至特征编码网络，得到语音特征，特征编码网络用于提取语音数据的特征；根据语音特征确定上下文特征；根据上下文特征和语音特征确定预测信息以及预测信息的目标信息，目标信息用于标记预测信息；根据预测信息和目标信息进行二分类；根据二分类结果对特征编码网络进行优化，相对于目前需要人工添加标注，本申请实施例能够根据初始特征编码网络输出的语音特征确定上下文特征，然后使用上下文特征和语音特征生成预测信息及其目标信息；对预测信息进行二分类，并根据二分类对特征编码网络进行优化，使得特征编码网络能够结合构建的上下文特征生成预测信息。预测信息包含了虚拟出的语音特征的上下文特征以及语音特征，二分类能够用于对预测信息进行分类，二分类结果包含不同目标信息对的概率，该概率能够用于对特征编码网络进行优化。通过多次训练，使得特征编码网络能够对未标注的语音数据进行识别，输出有效的语音特征。本申请实施例提供的语音特征编码网络的训练方案，无需人工对语音数据进行标注后再进行训练，能够有效利用未标注数据，获取更多语义信息，同时也可以提高带口音的语音识别率。

附图说明

图1是本发明实施例一中的语音特征编码网络的训练方法的流程图；

图2是本发明实施例一中的特征编码网络的结构示意图；

图3是本发明实施例一中的特征上下文网络的结构示意图；

图4是本发明实施例二中的语音特征编码网络的训练装置的结构示意图；

图5是本发明实施例三中的计算机设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图1为本发明实施例一提供的语音特征编码网络的训练方法的流程图，本实施例可适用于语音识别所用的特征编码网络进行训练的情况，该方法可以由进行特征编码网络的设备来执行，设备可以为计算机设备，具体包括如下步骤：

步骤110、将语音数据输入至特征编码网络，得到语音特征，特征编码网络用于提取语音数据的特征。

语音数据为需要识别的数据，通过特征编码网络对语音数据进行识别，识别结果为语音特征，语音特征用于表示语音数据。相对于目前需要人工对语音数据进行标记，然后输入至特征编码网络，本申请实施例提供了一种无需人工对语音数据进行编著，只需要将语音数据作为输入便可得到语义特征的技术方案。可选的，语音数据可以包括普通话的语音数据以及使用地方口音所说的语音数据。

示例性的，如图2所示，特征编码网络包括多层，每层由上至下依次为第一卷积单元210、第一归一单元220和第一激活单元230；上层的第一激活单元230的输出作为下层的第一卷积单元210的输入。

相应的，步骤110、将语音数据输入至特征编码网络，得到语音特征，可通过下述方式实施：将语音数据输入至特征编码网络的输入层，特征编码网络的输出层输出语音数据的语音特征。

如图2所示，特征编码网络包含多层，图2中给出了第N层的结构，第N层为特征编码网络中的任意一层，特征编码网络中每层的结构相同。假设特征编码网络共M层，则输入层为第1层，输出层为第M层，第N-1层的输出为第N层的输入，第N层的输入为第N+1层的输出。将语音数据输入至输入层后，按照上述传递方式，通过M层的传递，由第M层输出语音特征。输入层输出的输出数据作为第2层的输入，第2层的输出作为第3层的输入，依次类推，直至第M-1层的输出作为第M层的输入，第M层输出语音特征。

在对特征编码网络进行训练时，依次数据库中的语音数据，每次读取批处理信息B(batch_size)个语音数据。每个语音数据具有信号长度信息L(length)，用于表示语音数据的语音信号长度。可以使用读取批处理信息B和信号长度信息L表示语音数据signals，如signals＝[B，L]。

在每层中，第一卷积单元210用于按照特征维度D(dim)对输入数据进行卷积操作。其中，特征维度D又称为卷积核个数。可选的，特征维度D可以为256或512等。第一归一单元220用于对卷积结果进行归一处理。归一处理结果通过第一激活单元230的激活处理后，得到语音特征。其中，第一激活单元230使用的激活函数(activation function)可以为线性整流函数(Rectified Linear Unit,ReLU)。语音数据按照预设帧长度(如10ms)进行划分后，可以得到语音帧数T(time_step)，语音帧数T表示时间步数或语音帧数。语音帧数与预设帧长度的乘积为语音数据的时长。可以使用批处理信息B、特征维度D和语音帧数T表示语音特征Z，如Z＝[B，D，T]。

进一步的，为了语音帧数T和传统语音特征FBANK提取得到的帧数基本一致，即得到10ms一帧的特征数据，在构建特征编码网络时，需要满足T*10/1000约等于输入语音的时长，单位为秒。

步骤120、根据语音特征确定上下文特征。

根据语音特征生成语音特征的上下文特征。上下文特征可以通过神经网络构造。

示例性的，步骤120根据语音特征确定上下文特征可通过下述方式实施：

将语音特征输入至特征上下文网络，特征上下文网络用于获取语音特征上下文信息。

示例性的，如图3所示，特征上下文网络包括多层，每层由上至下依次为第二卷积单元310、第二归一单元320和第二激活单元330，第二归一单元320的输出和语音特征进行求和，求和结果作为第二激活单元330的输入；上层的第二激活单元330的输出作为下层的第二卷积单元310的输入，输入层的输入数据为语音特征，输出层的输出数据为上下文特征。

如图3所示，特征上下文网络包含多层，图3中给出了第N层的结构，第N层为特征上下文网络中的任意一层，特征上下文网络中每层的结构相同。假设特征上下文网络共M层，则输入层为第1层，输出层为第M层，第N-1层的输出为第N层的输入，第N层的输入为第N+1层的输出。将语音特征输入至输入层后，按照上述传递方式，通过M层的传递，由第M层输出上下文特征。输入层输出的输出数据作为第2层的输入，第2层的输出作为第3层的输入，依次类推，直至第M-1层的输出作为第M层的输入，第M层输出上下文特征。

特征上下文网络的输入为特征编码网络输出的语音特征Z＝[B，D，T]。特征上下文网络中第二卷积单元310按照特征维度D对输入数据进行卷积操作。第二归一单元320对卷积结果进行归一处理。归一处理结果与输入的语音特征(或上一层的输出数据)进行求和后，通过第二激活单元330的激活处理后，得到输出数据。其中，第二激活单元330使用的激活函数(activation function)可以为线性整流函数(Rectified Linear Unit,ReLU)。可以使用批处理信息B、特征维度D和语音帧数T表示上下文特征C，如C＝[B，D，T]。

步骤130、根据上下文特征和语音特征确定预测信息以及预测信息的目标信息，目标信息用于标记预测信息。

可选的，根据上下文特征使用反卷积进行上采样，得到上采样结果；

根据所述上采样结果进行随机采样，将采样结果作为负样本，负样本的目标信息为第一目标信息，将语音特征作为正样本，正样本的目标信息为第二目标信息；

根据正样本和负样本确定混合样本；

根据混合样本和上采样结果确定预测信息。

使用反卷积算法对上下文特征进行上采样，得到上采样结果。预测信息logits由混合样本和上采样结果所确定。混合样本由正样本和负样本组成。其中，正样本为步骤110中输出的语音特征。负样本为根据上采样结果进行随机采样所得。对随机采样得到的负样本，为其配置第一目标信息。将步骤110得到的语音特征作为正样本，为正样本配置第二目标信息。目标信息labels用于标记样本，正样本的第二目标信息可以为“1”，负样本的第一目标信息可以为“0”。可以假设正样本和负样本同分布。将正样本和负样本进行合并得到混合样本。

将混合样本和上采样结果进行矩阵点乘，然后将点乘结果求和，得到预测信息logits。

步骤140、根据预测信息和目标信息进行二分类。

在上述实施例的基础上，根据目标信息分别计算预测信息中正样本和负样本的概率，将概率作为二分类结果。

分别计算第一目标信息和第二目标信息计算相应概率。

示例性的，第一目标信息为“0”，第二目标信息为“1”。目标信息使用y表示。目标信息对应的样本为x。可以通过下述公式分别计算正样本和负样本的概率。

P(y＝0|x)＝1-p

步骤150、根据二分类结果对特征编码网络进行优化。

在上述实施例的基础上，步骤150可通过下述方式实施：

根据目标函数和二分类结果确定损失信息；

根据损失信息对特征编码网络进行优化。

在使用上述公职得到概率p后，将该概率p以及目标信息y代入下述目标函数计算损失信息L。

L＝-[ylogp+(1-y)log(1-p)]

根据损失信息可确定是否优化特征编码网络。若优化，则根据损失信息对特征编码网络进行优化。

进一步的，还包括：

根据优化后的特征编码网络提取目标语音数据的目标语音特征。

在通过上述步骤训练特征编码网络后，可以将需要进行特征转化的目标语音数据输入至特征编码网络，特征编码网络输出目标语音数据的目标语音特征。

本申请实施例提供的语音特征编码网络的训练方法，将语音数据输入至特征编码网络，得到语音特征，特征编码网络用于提取语音数据的特征；根据语音特征确定上下文特征；根据上下文特征和语音特征确定预测信息以及预测信息的目标信息，目标信息用于标记预测信息；根据预测信息和目标信息进行二分类；根据二分类结果对特征编码网络进行优化，相对于目前需要人工添加标注，本申请实施例能够根据初始特征编码网络输出的语音特征确定上下文特征，然后使用上下文特征和语音特征生成预测信息及其目标信息；对预测信息进行二分类，并根据二分类对特征编码网络进行优化，使得特征编码网络能够结合构建的上下文特征生成预测信息。预测信息包含了虚拟出的语音特征的上下文特征以及语音特征，二分类能够用于对预测信息进行分类，二分类结果包含不同目标信息对的概率，该概率能够用于对特征编码网络进行优化。通过多次训练，使得特征编码网络能够对未标注的语音数据进行识别，输出有效的语音特征。本申请实施例提供的语音特征编码网络的训练方法，无需人工对语音数据进行标注后再进行训练，能够获取更多语义信息。由于无需人工数据进行标注，因此可以使用具有不同地方口音的语音数据训练特征编码网络，进而训练得到的特征编码网络能够识别多种地方口音的语音数据，有效利用未标注数据，获取更多语义信息，同时也可以提高带口音的语音识别率。

实施例二

图4为本发明实施例二提供的语音特征编码网络的训练装置的结构示意图，本实施例可适用于语音识别所用的特征编码网络进行训练的情况，该装置包括：语音特征确定模块410、上下文特征确定模块420、预测信息确定模块430、二分类模块440以及优化模块450。

语音特征确定模块410，用于将语音数据输入至特征编码网络，得到语音特征，特征编码网络用于提取语音数据的特征；

上下文特征确定模块420，用于根据语音特征得到上下文特征；

预测信息确定模块430，用于根据上下文特征和语音特征确定预测信息以及预测信息的目标信息，目标信息用于标记预测信息；

二分类模块440，用于根据预测信息和目标信息进行二分类；

优化模块450，用于根据二分类结果对特征编码网络进行优化。

在上述实施例的基础上，预测信息确定模块430用于：

根据上下文特征使用反卷积进行上采样，得到上采样结果；

根据上采样结果进行随机采样，将采样结果作为负样本，负样本的目标信息为第一目标信息，将语音特征作为正样本，正样本的目标信息为第二目标信息；

根据正样本和负样本确定混合样本；

根据混合样本和上采样结果确定预测信息。

在上述实施例的基础上，二分类模块440用于：

根据目标信息分别计算预测信息中正样本和负样本的概率，将概率作为二分类结果。

在上述实施例的基础上，优化模块450用于：

根据目标函数和二分类结果确定损失信息；

根据损失信息对特征编码网络进行优化。

在上述实施例的基础上，上下文特征确定模块420用于：

将语音特征输入至特征上下文网络，特征上下文网络用于获取语音特征上下文信息；

特征上下文网络包括多层，每层由上至下依次为第二卷积单元、第二归一单元和第二激活单元，第二归一单元的输出和语音特征进行求和，求和结果作为第二激活单0元的输入；上层的第二激活单元的输出作为下层的第二卷积单元的输入，输入层的输入数据为语音特征，输出层的输出数据为上下文特征。

在上述实施例的基础上，还包括模型处理模块，用于根据优化后的特征编码网络提取目标语音数据的目标语音特征。

在上述实施例的基础上特征编码网络包括多层，每层由上至下依次为第一卷积单元、第一归一单元和第一激活单元；上层的第一激活单元的输出作为下层的第一卷积单元的输入；语音特征确定模块410用于：将语音数据输入至特征编码网络的输入层，特征编码网络的输出层输出语音数据的语音特征。

本申请实施例提供的语音特征编码网络的训练装置，语音特征确定模块410将语音数据输入至特征编码网络，得到语音特征，特征编码网络用于提取语音数据的特征；上下文特征确定模块420根据语音特征确定上下文特征；预测信息确定模块430根据上下文特征和语音特征确定预测信息以及预测信息的目标信息，目标信息用于标记预测信息；二分类模块440根据预测信息和目标信息进行二分类；优化模块450根据二分类结果对特征编码网络进行优化，相对于目前需要人工添加标注，本申请实施例能够根据初始特征编码网络输出的语音特征确定上下文特征，然后使用上下文特征和语音特征生成预测信息及其目标信息；对预测信息进行二分类，并根据二分类对特征编码网络进行优化，使得特征编码网络能够结合构建的上下文特征生成预测信息。预测信息包含了虚拟出的语音特征的上下文特征以及语音特征，二分类能够用于对预测信息进行分类，二分类结果包含不同目标信息对的概率，该概率能够用于对特征编码网络进行优化。通过多次训练，使得特征编码网络能够对未标注的语音数据进行识别，输出有效的语音特征。本申请实施例提供的语音特征编码网络的训练装置，无需人工对语音数据进行标注后再进行训练，能够有效利用未标注数据，获取更多语义信息，同时也可以提高带口音的语音识别率。

本发明实施例所提供的语音特征编码网络的训练装置可执行本发明任意实施例所提供的语音特征编码网络的训练方法，具备执行方法相应的功能模块和有益效果。

实施例三

图5为本发明实施例三提供的一种计算机设备的结构示意图，如图5所示，该计算机设备包括处理器50、存储器51、输入装置52和输出装置53；计算机设备中处理器50的数量可以是一个或多个，图5中以一个处理器50为例；计算机设备中的处理器50、存储器51、输入装置52和输出装置53可以通过总线或其他方式连接，图5中以通过总线连接为例。

存储器51作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本发明实施例中的语音特征编码网络的训练方法对应的程序指令/模块(例如，语音特征编码网络的训练装置中的语音特征确定模块410、上下文特征确定模块420、预测信息确定模块430、二分类模块440以及优化模块450)。处理器50通过运行存储在存储器51中的软件程序、指令以及模块，从而执行计算机设备的各种功能应用以及数据处理，即实现上述的语音特征编码网络的训练方法。

存储器51可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端的使用所创建的数据等。此外，存储器51可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器51可进一步包括相对于处理器50远程设置的存储器，这些远程存储器可以通过网络连接至计算机设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置52可用于接收输入的数字或字符信息，以及产生与计算机设备的用户设置以及功能控制有关的键信号输入。输出装置73可包括显示屏等显示设备。

实施例四

本发明实施例四还提供一种包含计算机可执行指令的存储介质，计算机可执行指令在由计算机处理器执行时用于执行一种语音特征编码网络的训练方法，该方法包括：

根据语音特征确定上下文特征；

根据预测信息和目标信息进行二分类；

根据二分类结果对特征编码网络进行优化。

在上述实施例的基础上，根据上下文特征和语音特征确定预测信息以及预测信息的目标信息，包括：

根据上下文特征使用反卷积进行上采样，得到上采样结果；

根据正样本和负样本确定混合样本；

根据混合样本和上采样结果确定预测信息。

在上述实施例的基础上，根据预测信息和目标信息进行二分类，包括：

在上述实施例的基础上，根据二分类结果对特征编码网络进行优化，包括：

根据目标函数和二分类结果确定损失信息；

根据损失信息对特征编码网络进行优化。

在上述实施例的基础上，根据语音特征确定上下文特征，包括：

在上述实施例的基础上，在根据二分类结果对特征编码网络进行优化之后，还包括：

在上述实施例的基础上，特征编码网络包括多层，每层由上至下依次为第一卷积单元、第一归一单元和第一激活单元；上层的第一激活单元的输出作为下层的第一卷积单元的输入；

将语音数据输入至特征编码网络，得到语音特征，包括：

将语音数据输入至特征编码网络的输入层，特征编码网络的输出层输出语音数据的语音特征。

当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的方法操作,还可以执行本发明任意实施例所提供的语音特征编码网络的训练方法中的相关操作。

通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本发明可借助软件及必需的通用硬件来实现，当然也可以通过硬件实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

值得注意的是，上述搜索装置的实施例中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种语音特征编码网络的训练方法，其特征在于，包括：

将语音数据输入至特征编码网络，得到语音特征，所述特征编码网络用于提取所述语音数据的特征；

根据所述语音特征确定上下文特征；

根据所述上下文特征和所述语音特征确定预测信息以及所述预测信息的目标信息，所述目标信息用于标记所述预测信息；

根据所述预测信息和所述目标信息进行二分类；

根据所述二分类结果对所述特征编码网络进行优化。

2.根据权利要求1所述的方法，其特征在于，所述根据所述上下文特征和所述语音特征确定预测信息以及所述预测信息的目标信息，包括：

根据所述上下文特征使用反卷积进行上采样，得到上采样结果；

根据所述上采样结果进行随机采样，将采样结果作为负样本，所述负样本的目标信息为第一目标信息，将所述语音特征作为正样本，所述正样本的目标信息为第二目标信息；

根据所述正样本和所述负样本确定混合样本；

根据所述混合样本和所述上采样结果确定预测信息。

3.根据权利要求2所述的方法，其特征在于，所述根据所述预测信息和所述目标信息进行二分类，包括：

根据所述目标信息分别计算所述预测信息中正样本和负样本的概率，将所述概率作为二分类结果。

4.根据权利要求3所述的方法，其特征在于，所述根据所述二分类结果对所述特征编码网络进行优化，包括：

根据目标函数和所述二分类结果确定损失信息；

根据所述损失信息对所述特征编码网络进行优化。

5.根据权利要求1所述的方法，其特征在于，所述根据所述语音特征确定上下文特征，包括：

将所述语音特征输入至特征上下文网络，所述特征上下文网络用于获取所述语音特征的上下文特征；

所述特征上下文网络包括多层，每层由上至下依次为第二卷积单元、第二归一单元和第二激活单元，所述第二归一单元的输出和所述语音特征进行求和，求和结果作为所述第二激活单0元的输入；上层的第二激活单元的输出作为下层的第二卷积单元的输入，输入层的输入数据为语音特征，输出层的输出数据为上下文特征。

6.根据权利要求1所述的方法，其特征在于，在根据所述二分类结果对所述特征编码网络进行优化之后，还包括：

7.根据权利要求1所述的方法，其特征在于，所述特征编码网络包括多层，每层由上至下依次为第一卷积单元、第一归一单元和第一激活单元；上层的第一激活单元的输出作为下层的第一卷积单元的输入；

所述将语音数据输入至特征编码网络，得到语音特征，包括：

将语音数据输入至所述特征编码网络的输入层，所述特征编码网络的输出层输出所述语音数据的语音特征。

8.一种语音特征编码网络的训练装置，其特征在于，包括：

语音特征确定模块，用于将语音数据输入至特征编码网络，得到语音特征，所述特征编码网络用于提取所述语音数据的特征；

上下文特征确定模块，用于根据所述语音特征确定上下文特征；

预测信息确定模块，用于根据所述上下文特征和所述语音特征确定预测信息以及所述预测信息的目标信息，所述目标信息用于标记所述预测信息；

二分类模块，用于根据所述预测信息和所述目标信息进行二分类；

优化模块，用于根据所述二分类结果对所述特征编码网络进行优化。

9.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-7中任一所述的语音特征编码网络的训练方法。

10.一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1-7中任一所述的语音特征编码网络的训练方法。