CN110390928A

CN110390928A - 一种自动拓增语料的语音合成模型训练方法和系统

Info

Publication number: CN110390928A
Application number: CN201910726585.8A
Authority: CN
Inventors: 徐波
Original assignee: GUANGDONG LIWEI NETWORK TECHNOLOGY CO LTD; Multi Benefit Network Co Ltd; Guangzhou Duoyi Network Co Ltd
Current assignee: GUANGDONG LIWEI NETWORK TECHNOLOGY CO LTD; Multi Benefit Network Co Ltd; Guangzhou Duoyi Network Co Ltd
Priority date: 2019-08-07
Filing date: 2019-08-07
Publication date: 2019-10-29
Anticipated expiration: 2039-08-07
Also published as: CN110390928B

Abstract

本发明公开了一种自动拓增语料的语音合成模型训练方法和系统，收集文本‑语音平行语料，记为原始语料；将每个语音、文本样本按照语音停顿分割成若干语音、文本片段，汇集语音、文本片段记为片段语料；构建语音合成模型；从原始语料中随机选择m个样本，将文本、语音样本分别拼接构成新的语料样本，记为原始构造语料；从片段语料中随机选择n个样本，将文本、语音片段分别拼接构成新的语料样本为片段构造语料；使用原始构造语料和片段构造语料训练语音合成模型；使用原始语料、片段语料和原始构造语料继续训练，直至得到能够稳定合成语音的语音合成模型。本发明提高语音合成模型的泛化能力和稳健程度，使得能够合成各种状况下的文本。

Description

一种自动拓增语料的语音合成模型训练方法和系统

技术领域

本发明涉及语音合成技术领域，特别是指一种自动拓增语料的语音合成模型训练方法和系统。

背景技术

语音合成(Text-To-Speech，TTS)，是一种可以将纯文本转换成带韵律节奏的语音的技术，和语音识别技术(Automatic Speech Recognition，ASR)共同成为智能语音交互中不可或缺的模块。语音识别是机器的耳朵，让机器听得懂；语音合成是机器的嘴巴，是让机器说得出。无论是地图导航、智能音响、语音助手等生活助理，还是自媒体播报和电子读物等电子媒体，语音合成技术都在发挥着越来越大的作用。

语音合成主要方法有：拼接法，参数法和深度学习方法。具体技术实现的关系如图1所示。

1.拼接法

用语言学标注系统跑一遍输入文本，得到一串语言学标注。然后从中选取所需的基本单位拼接而成，单位最好在语言学和声学特征上都类似，单位可以是音节、音素等。为追求合成语音的连贯性，也常使用双音子从一个音素的中央到下一个音素的中央作为单位。在工程实现中，使用强制对齐工具将录制的语音和文本在音素级别进行对齐，将语音数据被分割成单独的语音段，创建语音单元数据库。然后提取每个单元的语言环境和声学特征，将该数据库进一步增强。在合成的时候，使用构建好的单元数据库和预测到的音韵特征，在语音空间内执行维特比搜索，以找到单元合成的最佳路径。

优点：如果确保了音库覆盖全则合成稳定性好，稳定合成能够表达文本意思的语音。可以使用较简单的实现方式，合成速度快，消耗资源较少。直接使用真实的语音片段，可以最大限度保留语音音质，拼接粒度较大的语音质量较高，听起来比较自然。

缺点：数据库要求太大，需要保存大量原音信息，成本高。若库里音素切分出错、语言学标注出错，则最后合成的语音发音也会出错。通常情况拼接语音的粒度较小，合成的语音衔接不自然，语音效果较差。

2.参数法

文本抽象成语音学特征，再根据统计模型学习出从语音学特征到其声学特征的对应关系，再从预测出的声学特征还原成声音波形的过程。或者说，根据统计模型来产生每时每刻的语音参数，包括基频、共振峰频率等，然后把这些参数转化为波形。主要分为3个模块：前端处理、建模和声码器。参数法的核心是个预测问题，即根据学习得的东西预测出声学特征，然后还原成波形，目前主流是用神经网络来预测。在训练阶段对时长模型和声学模型进行建模，在合成阶段先通过时长模型和声学模型预测声学特征参数，然后对声学特征参数做后处理，最后经过声码器恢复语音。

优点：合成的语音效果较好，能够从声学特征中捕捉到发音的特点，合成的语音流畅度和韵律较好。如果对大量优质文本语音平行语料进行学习，能够合成稳定的语音。

缺点：由于输出的是声码器合成的声音，而声码器忽略对细节的描述，有损失。需要结合音素特征和声学特征，变量多，系统调参困难。需要大量优质文本语音平行语料，获取大量语料成本高。

3.深度学习方法

用神经网络直接学习文本端到声学特征端的对应关系，省去语言学标注输入文本这一步。用神经网络直接学习语言学标注端到帧级别的音频波形端的对应关系，即省去学习已标注文本的语言学和声学特征的对应关系，以及声码器复现声音信号的步骤。

优点：合成的声音整体效果好，深度学习对语音领域冲击巨大，在语音分离，语音降噪，说话人识别，语音识别和语音合成等多个细分领域都有显著的提升，深度学习方法具有极大的技术潜力。

缺点：深度学习的方法参数多，计算量大也是当前面临的问题，如tacotron模型的参数量是百万级别的。模型规模大，暂时只能部署在服务器端。如果需要训练得到稳定优质的深度学习语音合成模型，则需要大量的优质文本音频平行语料用于训练模型。

拼接法需要保存大量原音信息的音库，而获取原音音库成本高，并且在音库难以保证覆盖音素全面，总体合成效果不好。参数法带来了声学特征参数的过度平滑，音质损伤比较明显，并且需要大量优质的文本语音平行语料。深度学习方法参数量大，需要大量的文本语音平行语料来训练才能达到较好的效果。目前语音合成的方法都需要大量的语音文本平行语料，而获取大量的这些语料成本高，而且获取到的语料数量是有限的。语音合成模型训练需要大量的语料，现有的语音合成训练方法是多次重复使用已有的有限语料，故使得训练得到的模型容易对训练数据过拟合，降低了语音合成的泛化能力，导致对语料外的文本合成效果较差。重复使用已有的有限语料训练模型，因为语料的文本长度往往大多是适中长度，故使得模型合成适中长度的文本较好，但合成短文本和长文本则容易出现问题，语音合成的效果不稳健。

现有的深度学习方法的语音合成模型需要用大量优质的文本-语音平行语料进行训练，这个训练过程其实主要是让模型学习和发现音素和语音的对应关系。越多的语料对音素组合的覆盖度就越大，模型就越能发现音素和语音的关系，也就越能合成效果好的语音。但是收集大量优质的文本-语音平行语料是困难的事情，成本很高，而且收集到的语料数量往往达不到模型训练需要的数量。常用重复使用语料来达到模型训练需要的数量，这能够一定程度让模型发现音素和语音的关系，因为同一语料多次重复出现，容易让模型只是学习到了重复语料的特征，从而完美拟合这些重复出现的语料，而合成其他语料容易出现问题。重复使用语料训练，往往对短句和长句覆盖不全面，难以让模型学习到短句和长句的音素和语音的对应关系，故使得合成短句和长句容易出现问题。

发明内容

本发明提出一种自动拓增语料的语音合成模型训练方法和系统，提高语音合成模型的泛化能力和稳健程度，使得能够合成各种状况下的文本，能够稳定合成短文本、适中文本和长文本。本发明可以在有限的文本-语音平行语料上自动构建大量的不重复语料，大量不重复的语料包括了大量短文本语料和长文本语料，使得训练模型能够使用大量不重复的语料进行训练，从而更容易让模型学习到各种状况下的音素和语音的对应关系，从而使得训练得到的模型更加稳健，能够有效把各种状况下的文本转为语音，也能应对短文本和长文本的合成需求。

本发明的技术方案是这样实现的：

一种自动拓增语料的语音合成模型训练方法，包括以下步骤：

S1，收集文本-语音平行语料，记为原始语料A；

S2，将原始语料A的每个语音样本按照语音停顿分割成若干时长较短的语音片段；

S3，根据语音片段将对应的文本样本分割成若干文本片段；

S4，汇集所有的语音片段和文本片段，记为片段语料B；

S5，根据原始语料A和片段语料B构建深度学习方法的语音合成模型；

S6，从原始语料A中随机选择m个样本，将文本样本和语音样本分别拼接构成新的语料样本，记为原始构造语料C；

S7，从片段语料B中随机选择n个样本，将文本片段和语音片段分别拼接构成新的语料样本，称为片段构造语料D；

S8，使用原始构造语料C和片段构造语料D训练语音合成模型；

S9，降低学习率，使用原始语料A、片段语料B和原始构造语料C训练语音合成模型；

S10，得到能够稳定合成语音的语音合成模型。

作为本发明的优选实施例，步骤S1收集文本-语音平行语料具体包括以下方式：

收集、整理和筛选开源文本-语音平行语料或预先设置好需要录音的文本，然后通过录音员录音的方式收集语音样本或预先收集清晰的语音音频，通过语音识别转为文本，然后人工修正文本内容得到文本样本。

作为本发明的优选实施例，步骤S2中，预先设置语音安静时长的阈值，扫描语音样本，如果安静时长大于阈值则切分。

作为本发明的优选实施例，步骤S5中语音合成模型包括但不限于tacotron模型、gst模型、deepvoice3模型、TransformerTTS模型。

作为本发明的优选实施例，步骤S6中，预先设置m的取值集合，随机从m的取值集合中选取一个数值；用安静音频连接相邻的两段语音样本，用标点符号连接相邻的两段文本样本，预定义标点符合对应的安静音频时长。

作为本发明的优选实施例，步骤S7中，预先设置n的取值集合，随机从n的取值集合中选取一个数值；用安静音频连接相邻的两段语音样本，用标点符号连接相邻的两段文本样本，预定义标点符合对应的安静音频时长；设定直接连接语句的概率。

作为本发明的优选实施例，步骤S8中，在训练语音合成模型的过程中自动生成始构造语料C和片段构造语料D，设置最长语音时长阈值，大于阈值则舍弃并重新生成样本，以适应语音合成模型的超参数设置。

作为本发明的优选实施例，步骤S9中，原始语料A、片段语料B和原始构造语料C的数量一致，原始语料A、片段语料B重复使用。

一种自动拓增语料的语音合成模型训练系统，包括

语料收集单元，用于收集文本-语音平行语料，记为原始语料A；

语料分割单元，用于原始语料A的每个语音样本按照语音停顿分割成若干时长较短的语音片段，根据语音片段将对应的文本样本分割成若干文本片段，汇集所有的语音片段和文本片段，记为片段语料B；

第一语音合成单元，用于根据原始语料A和片段语料B构建深度学习方法的第一语音合成模型；

语料拼接单元，用于从原始语料A中随机选择m个样本，将文本样本和语音样本分别拼接构成新的语料样本，记为原始构造语料C；从片段语料B中随机选择n个样本，将文本片段和语音片段分别拼接构成新的语料样本，称为片段构造语料D；

第二语音合成单元，用于将原始构造语料C和片段构造语料D输入第一语音合成模型训练得出第二语音合成模型；

第三语音合成单元，用于使用原始语料A、片段语料B和原始构造语料C输入第二语音合成模型继续训练，直至得到能够稳定合成语音的语音合成模型。

本发明的有益效果在于：提高语音合成模型的泛化能力和稳健程度，使得能够合成各种状况下的文本，能够稳定合成短文本、适中文本和长文本。本发明可以在有限的文本-语音平行语料上自动构建大量的不重复语料，大量不重复的语料包括了大量短文本语料和长文本语料，使得训练模型能够使用大量不重复的语料进行训练，从而更容易让模型学习到各种状况下的音素和语音的对应关系，从而使得训练得到的模型更加稳健，能够有效把各种状况下的文本转为语音，也能应对短文本和长文本的合成需求。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为现有技术中语音合成技术的方法流程图；

图2为本发明一种自动拓增语料的语音合成模型训练方法的流程图；

图3为本发明一种自动拓增语料的语音合成模型训练系统的原理框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图2所示，本发明提出了一种自动拓增语料的语音合成模型训练方法，包括以下步骤：

S1，收集文本-语音平行语料，记为原始语料A；

步骤S1收集文本-语音平行语料具体包括以下方式：

步骤S2中，预先设置语音安静时长的阈值，扫描语音样本，如果安静时长大于阈值则切分。

S3，根据语音片段将对应的文本样本分割成若干文本片段；

1)可以人工听语音内容，然后依据语音内容切分文本，得到描述语音内容的文本。

2)可以用语音识别技术识别语音内容，然后和原文本匹配比对，截取文本描述语音内容的文本。

S4，汇集所有的语音片段和文本片段，记为片段语料B；片段语料B的样本语音时长较短，偏向于对短句的拟合。

步骤S5中语音合成模型包括但不限于tacotron模型、gst模型、deepvoice3模型、TransformerTTS模型。

S6，从原始语料A中随机选择m个样本，将文本样本和语音样本分别拼接构成新的语料样本，记为原始构造语料C；构成的原始构造语料C的语音时长偏长，偏向于增加对长句的拟合。

步骤S6中，预先设置m的取值集合，例如类别有1个，2个，3个等，随机从m的取值集合中选取一个数值，例如选择2个作为m；用安静音频连接相邻的两段语音样本，用标点符号连接相邻的两段文本样本，预定义标点符合对应的安静音频时长。例如逗号用0.5秒的时长，句号用1秒的时长。

预先设置语音片段的数量类别，例如类别有1个，2个，3个等，然后随机选择一个数量，例如选择2个作为n。构成的片段构造语料D中多数是适中时长的样本，偏向于大大增加音素组合的多样性。语音用短暂的安静音频或直接连接相邻的两段语音，文本用标点符号或直接连接相邻的两个句子。可以预习定义不同的标点符号对应不同的安静音频时长，例如逗号用0.5秒的时长，句号用1秒的时长。可以设定直接连接句子的概率，使得构造的句子符合正常句子的结构。

S8，使用原始构造语料C和片段构造语料D训练语音合成模型；

步骤S8中，在训练语音合成模型的过程中自动生成始构造语料C和片段构造语料D，设置最长语音时长阈值，大于阈值则舍弃并重新生成样本，以适应语音合成模型的超参数设置。

步骤S9中，原始语料A、片段语料B和原始构造语料C的数量一致，原始语料A、片段语料B重复使用。

S10，得到能够稳定合成语音的语音合成模型。

如图3所示，本发明还提出了一种自动拓增语料的语音合成模型训练系统，包括

本发明的框架是首先收集文本-语音平行语料，该语料称为原始语料；对原始语料的每个样本按照语音停顿切分语音，依据切分的语音切分文本，切分的语音和文本组成文本-语音平行语料，该语料称为片段语料；用原始语料和片段语料训练语音合成模型；随机从原始语料选择若干个样本构造一个样本，以此方式构造的全部样本组成原始构造语料；随机从片段语料选择若干个样本构造一个样本，以此方式构造的全部样本组成片段构造语料；用原始构造语料和片段构造语料继续训练语音合成模型；最后降低学习率，用原始语料，片段语料和原始构造语料，继续微调模型直至模型收敛稳定。

本发明的方法能够训练得到泛化能力更加好，合成短句和长句效果都比较好的语音合成模型，训练得到的模型能够很好地合成短文本，适中文本和长文本。为了直观说明问题，设计了对照实验。实验的数据是标贝科技开源的语音合成数据集，实验的语音合成模型是google提出的tacotron模型。

用标贝科技开源的语音合成数据集实验，数据集总共有效时长约12小时，共10000句话，算上标点符号平均每句话18个字。语料中的句子最少字数为4，而4字句子只有1个，6字以下句子只有20个。句子最多字数是37个，37字的句子只有2个，34字以上的句子数目只有10个。

对照组用google提出的tacotron语音合成模型进行实验，用标贝科技提供的开源语料直接训练模型。设置一批样本的数量是32，训练了10万步，即把语料重复使用了320次。模型收敛，文本和语音的对齐关系良好，在训练集和开发集上的效果都良好。用训练的模型合成6字到25字常规的文本，即新闻、对话、小说等文本，模型合成得到的语音总体比较好。用绕口令、重复句子、拗口句子等有挑战的文本来实验训练的模型，合成的语音则有较多问题，问题诸如合成语音错误、部分重复合成、发音模糊等。用1到5字的短句文本实验模型，合成的语音容易出现重复发音的情况，文本越短，合成出错情况越明显。用26字以上的长句文本实验模型，合成的语音后面部分容易出错，且有些夹杂噪声，文本长度越长，合成语音的效果越差。

实验组同样用google提出的tacotron语音合成模型训练，设置的超参数和对照组一样，也是训练10万步，这10万步中用到的语料极少重复的，语料的句子长度最短为1字，最长达到98字。训练10万步后，模型也已经稳定收敛，能够很好拟合训练集和开发集的语料。用6字到25字的常规的文本实验，模型能够很好合成语音，语音的效果略好于对照组。用有挑战的文本实验，模型能稳定合成语音，没有出现明显问题，发音韵律方面略逊色于常规的文本合成的语音。用短句文本实验模型，模型也能稳定合成出语音，没有明显问题。用长句文本实验，26字到80字的文本都能稳定合成出语音，语音效果良好，81字以上则部分出现尾部合成出错的情况。

总体来说用本发明的方案训练得到的模型比常规方案得到的模型效果好。主要是因为常规方案重复使用语料，能学习到的特征非常有限，故模型很受限制。而本发明的方案充分利用了语料的多样性，让模型学习到更加全面的特征，从而得到更加稳健的模型。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种自动拓增语料的语音合成模型训练方法，其特征在于，包括以下步骤：

S1，收集文本-语音平行语料，记为原始语料A；

S3，根据语音片段将对应的文本样本分割成若干文本片段；

S4，汇集所有的语音片段和文本片段，记为片段语料B；

S8，使用原始构造语料C和片段构造语料D训练语音合成模型；

S10，得到能够稳定合成语音的语音合成模型。

2.根据权利要求1所述的自动拓增语料的语音合成模型训练方法，其特征在于，步骤S1收集文本-语音平行语料具体包括以下方式：

3.根据权利要求1所述的自动拓增语料的语音合成模型训练方法，其特征在于，步骤S2中，预先设置语音安静时长的阈值，扫描语音样本，如果安静时长大于阈值则切分。

4.根据权利要求1所述的自动拓增语料的语音合成模型训练方法，其特征在于，步骤S5中语音合成模型包括但不限于tacotron模型、gst模型、deepvoice3模型、TransformerTTS模型。

5.根据权利要求1所述的自动拓增语料的语音合成模型训练方法，其特征在于，步骤S6中，预先设置m的取值集合，随机从m的取值集合中选取一个数值；用安静音频连接相邻的两段语音样本，用标点符号连接相邻的两段文本样本，预定义标点符合对应的安静音频时长。

6.根据权利要求1所述的自动拓增语料的语音合成模型训练方法，其特征在于，步骤S7中，预先设置n的取值集合，随机从n的取值集合中选取一个数值；用安静音频连接相邻的两段语音样本，用标点符号连接相邻的两段文本样本，预定义标点符合对应的安静音频时长；设定直接连接语句的概率。

7.根据权利要求1所述的自动拓增语料的语音合成模型训练方法，其特征在于，步骤S8中，在训练语音合成模型的过程中自动生成始构造语料C和片段构造语料D，设置最长语音时长阈值，大于阈值则舍弃并重新生成样本，以适应语音合成模型的超参数设置。

8.根据权利要求1所述的自动拓增语料的语音合成模型训练方法，其特征在于，步骤S9中，原始语料A、片段语料B和原始构造语料C的数量一致，原始语料A、片段语料B重复使用。

9.一种自动拓增语料的语音合成模型训练系统，其特征在于，包括