CN108133705A

CN108133705A - 基于对偶学习的语音识别与语音合成模型训练方法

Info

Publication number: CN108133705A
Application number: CN201711391634.4A
Authority: CN
Inventors: 杨华兴; 刘云浩
Original assignee: Ruan Technology Co Ltd
Current assignee: Ruan Technology Co Ltd
Priority date: 2017-12-21
Filing date: 2017-12-21
Publication date: 2018-06-08

Abstract

本发明提供一种基于对偶学习的语音识别与语音合成模型训练方法，包括以下步骤：首先，把语音识别作为“主任务”，语音合成作为“对偶任务”；使用待训练的语音识别模型，把语音数据A转化为文本B′；使用预先训练得到的文本语言模型，计算得到由语音数据A转化得到的文本是由人类书写而不是由机器生成的置信度；使用待训练的语音合成模型，把由语音数据A转化得到的文本B′，转化回语音数据A′；使用预先训练得到的语音语言模型，计算语音数据A′与原始的语音数据A之间的“重构相似度”；计算最终的“奖励”，使用强化学习技术中的REINFORCE算法对待训练的语音识别模型和语音合成模型的参数进行更新。本发明可节省由于收集数据而带来的大量成本开销。

Description

基于对偶学习的语音识别与语音合成模型训练方法

技术领域

本发明涉及语音识别与语音合成技术领域，特别的它是一种利用对偶学习的性质，使用大量的无标签的数据和强化学习技术、以无监督的方式对使用深度学习技术建立的语音识别和语音合成的模型进行训练的方法,可应用于语音识别、语音合成领域。

背景技术

语音是人们日常交流活动的最基本、也是最有效的一种方式。随着人工智能技术的日渐成熟，人们也希望能够通过直接对话的方式与计算机进行交流和传递信息，因此语音识别、语音合成也随之成为自然语言处理领域中的一大主题。语音转文字以及根据文字合成语音等各种形式的需求日渐扩大，比如：语音输入法的使用量呈现飞速的增长。

传统的语音识别与语音合成模型的训练方法需要大量的、一一对应的语音数据和文本数据，但收集足够数量的这样的一一对应的数据不仅是一个费时费力的工作，同时还很难保证收集到的数据的质量，另外，数据的收集也会带来很大的成本开销。没有足够数量的高质量数据成为提升语音识别与语音合成模型的准确度、转换效率等性能的一大阻碍。

因特网的高速普及、信息技术的飞速发展以及社交媒体的兴起，使得语音数据和文本数据飞速增长，比如：微信语音、语音输入、微博以及产品评论等。如果能够把这些海量的无标签的数据应用到语音识别、语音合成模型的建立和训练中，将会对两者性能的提升有很大帮助，并且可以节省由于收集数据而带来的大量的成本开销。

仔细观察可以发现，语音识别与语音合成有着天然的互为“对偶”任务的性质：语音识别将语音转化为相对应的文本，语音合成将给定的文本转化为相对应的语音。如果把其中一个看做是“主任务”，另一个看做是“对偶任务”，两者就可以形成一个“闭环”。在这个“闭环”进行的过程中会产生很多丰富的中间反馈信息，如果能够利用这些中间的反馈信息来训练语音识别与语音合成模型，将会很好的解决数据量较小和数据质量不高的问题。

发明内容

本发明的目的在于使用大量的无标签的数据，通过无监督的方法对语音识别和语音合成模型进行训练，从而改善现有的语音识别和语音合成模型的性能，同时节省由于收集数据而带来的大量的成本开销。

为了实现以上目的，本发明提出一种基于对偶学习的语音识别与语音合成模型训练方法，利用语音识别与语音合成互为“对偶”任务的性质，使用大量的无标签的数据和强化学习技术，对利用深度学习技术建立的语音识别和语音合成模型进行训练，包括以下步骤：

步骤S1，首先，把语音识别作为“主任务”，语音合成作为“对偶任务”；

步骤S2，从语音数据集D_A和文本数据集D_B中分别选取训练数据，根据“主任务”和“对偶任务”的选取来确定训练数据的形式；因为此处把语音识别看做是“主任务”，所以训练数据的形式是“语音A文本B”；

步骤S3，使用待训练的语音识别模型，把语音数据A转化为文本B′；

步骤S4，使用预先训练得到的文本语言模型，计算得到由语音数据A转化得到的文本是由人类书写而不是由机器生成的置信度，记作R₁；

步骤S5，使用待训练的语音合成模型，把由语音数据A转化得到的文本B′，转化回语音数据A′；

步骤S6，使用预先训练得到的语音语言模型，计算语音数据A′与原始的语音数据A之间的“重构相似度”，记作R₂；

步骤S7，计算最终的“奖励”，记作R＝α×R₁+(1-α)×R₂；

步骤S8，根据得到的最终“奖励”R，使用强化学习技术中的REINFORCE算法对待训练的语音识别模型和语音合成模型的参数进行更新；

最后，回到步骤S1，把语音合成作为“主任务”，语音识别作为“对偶任务”，把接下来的步骤中的数据进行对称的交换，重复执行步骤S1～S8，直到语音识别模型和语音合成模型都收敛或达到程序停止条件。

本发明的优点在于：本发明提供的方法不需要一一对应的语音数据和文本数据，从而能够很好的解决数据数量少、质量差的难题。该方法能够很好的节省由于收集数据而带来的大量的成本开销。本发明提供的方法最终得到的模型能达到和通过使用大量的一一对应的有标数据，以有监督的方式训练得到的模型相当的性能。

附图说明

图1为本发明的方法示意图。

具体实施方式

下面结合具体附图和实施例对本发明作进一步说明。

本发明的总体构思是：首先，使用较少的有标数据对语音识别模型以及语音合成模型进行预训练；然后，通过对偶学习的方法，使用大量的无标签的数据和强化学习技术、以无监督的方式对语音识别模型以及语音合成模型进行进一步的训练。

首先，定义算法的输入，包括：用于训练语音识别和语音合成模型的语音数据集D_A，文本数据集D_B；待训练的语音识别模型Θ_AB；待训练的语音合成模型Θ_BA；预先训练得到的，用于计算语音数据是由人类生成而不是由机器生成的置信度的语音语言模型LM_A；预先训练得到的，用于计算文本数据是由人类书写而不是由机器生成的置信度的文本语言模型LM_B；在更新参数时，用于控制两个语言模型所占权重的超参数α；,α∈(0,1)，通常取0.5；

参照图1，由于训练数据既包括音频数据又包括文本数据，训练前需要先对文本数据进行编码操作，对文本数据，这里采用词向量的编码方式，词向量的维度选择300，使用预先训练好的GloVe词向量；

对文本数据集D_B中的每个词，通过查表的方式得到每个词的词向量表示，形成词向量矩阵；

步骤S3，使用待训练的语音识别模型Θ_AB，把语音数据A转化为文本B′；

步骤S4，先通过查表的方式，将词向量矩阵形式的文本B′，解码为由单词组成的普通文本，用B″表示；

把解码后的普通文本B″输入已有的文本语言模型LM_B中，计算普通文本B″是由人类书写而不是由机器生成的置信度，记作R₁＝LM_B(B′)；

步骤S5，使用待训练的语音合成模型Θ_BA，把由语音数据A转化得到的词向量矩阵形式的文本B′，转化回语音数据，用A′表示；

步骤S6，把语音数据A′输入已有的语音语言模型LM_A中，计算语音数据A′与原始的语音数据A之间的“重构相似度”，记作R₂＝LM_A(A′)；

步骤S7，计算最终的“奖励”，记作R＝α×R₁+(1-α)×R₂；α∈(0,1)；

步骤S8，根据得到的最终“奖励”R，计算R对语音识别模型与语音合成模型各自参数的梯度；

计算R对语音识别模型参数的梯度，计算公式为：

计算R对语音合成模型参数的梯度，计算公式为：

其中，表示梯度，E表示期望，K表示此次训练中所用数据的个数，P表示概率；α∈(0,1)，表示用于控制两个语言模型所占权重的超参数；

使用强化学习技术中的REINFORCE算法，对待训练的语音识别模型的参数进行更新，更新公式为：

其中，γ₁∈(0,1)，表示学习率；

使用强化学习技术中的REINFORCE算法，对待训练的语音合成模型的参数进行更新，更新公式为：

其中，γ₂∈(0,1)，表示学习率；

如果程序收敛或者达到停止条件就停止程序，否则返回到不足S1,，然后，把语音合成作为“主任务”，语音识别作为“对偶任务”，；并在接下来的步骤中，把数据进行对称的交换，重复执行步骤S1～S8；

这种通过对偶学习的方法，使用大量的无标签的数据和强化学习技术、以无监督的方式对语音识别模型以及语音合成模型进行训练的方法，能够很好的提升模型性能，且能够节省大量的由于收集数据带来的成本开销。

本发明使用公开的GloVe在大规模语料库中预先通过无监督的方式训练好的词向量。它是在Wikipedia 2014、Gigaword 5数据集上训练得到的，总共有400000个词汇，且都已经转化为小写的形式，其中词向量的维度为300维。

综上所述，本发明提出的这种通过对偶学习的方法，使用大量的无标签的数据和强化学习技术、以无监督的方式对语音识别模型以及语音合成模型进行训练的方法，在可行性上是可以肯定的。它能够很好的保模型性能，同时能够节省由于收集数据带来的大量的成本开销。

最后所应说明的是，以上具体实施方式仅用以说明本发明的技术方案而非限制，尽管参照实例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于对偶学习的语音识别与语音合成模型训练方法，其特征在于，包括以下步骤：

步骤S2，从语音数据集D_A和文本数据集D_B中分别选取训练数据，根据“主任务”和“对偶任务”的选取来确定训练数据的形式；

2.如权利要求1所述的基于对偶学习的语音识别与语音合成模型训练方法，其特征在于，

步骤S1之前，定义：用于训练语音识别和语音合成模型的语音数据集D_A，文本数据集D_B；待训练的语音识别模型Θ_AB；待训练的语音合成模型Θ_BA；预先训练得到的，用于计算语音数据是由人类生成而不是由机器生成的置信度的语音语言模型LM_A；预先训练得到的，用于计算文本数据是由人类书写而不是由机器生成的置信度的文本语言模型LM_B；

对文本数据采用词向量的编码方式。

3.如权利要求2所述的基于对偶学习的语音识别与语音合成模型训练方法，其特征在于，

步骤S2中，对文本数据集D_B中的每个词，通过查表的方式得到每个词的词向量表示，形成词向量矩阵。

4.如权利要求3所述的基于对偶学习的语音识别与语音合成模型训练方法，其特征在于，

步骤S4具体包括：先通过查表的方式，将词向量矩阵形式的文本B′，解码为由单词组成的普通文本，用B″表示；

把解码后的普通文本B″输入已有的文本语言模型LM_B中，计算普通文本B″是由人类书写而不是由机器生成的置信度，记作R₁＝LM_B(B′)。

5.如权利要求4所述的基于对偶学习的语音识别与语音合成模型训练方法，其特征在于，

步骤S5，使用待训练的语音合成模型Θ_BA，把由语音数据A转化得到的词向量矩阵形式的文本B′，转化回语音数据，用A′表示。

6.如权利要求5所述的基于对偶学习的语音识别与语音合成模型训练方法，其特征在于，

步骤S6，把语音数据A′输入已有的语音语言模型LM_A中，计算语音数据A′与原始的语音数据A之间的“重构相似度”，记作R₂＝LM_A(A′)。

7.如权利要求5所述的基于对偶学习的语音识别与语音合成模型训练方法，其特征在于，

步骤S8具体包括：

根据得到的最终“奖励”R，计算R对语音识别模型与语音合成模型各自参数的梯度；

计算R对语音识别模型参数的梯度，计算公式为：

计算R对语音合成模型参数的梯度，计算公式为：

其中，γ₁∈(0,1)，表示学习率；

其中，γ₂∈(0,1)，表示学习率。