CN109036371A

CN109036371A - 用于语音合成的音频数据生成方法及系统

Info

Publication number: CN109036371A
Application number: CN201810796789.4A
Authority: CN
Inventors: 陆羽皓; 马达标
Original assignee: Beijing Guangnian Wuxian Technology Co Ltd
Current assignee: Beijing Guangnian Wuxian Technology Co Ltd
Priority date: 2018-07-19
Filing date: 2018-07-19
Publication date: 2018-12-18
Anticipated expiration: 2038-07-19
Also published as: CN109036371B

Abstract

本发明提供的用于语音合成的音频数据生成方法，其包含以下步骤：对文本数据中的文本特征进行提取，得到文本特征数据；通过神经网络结构对文本特征数据进行加速转化处理，将文本特征数据转化为声学特征数据；根据声学特征数据进行声音合成或选择拼接，得到音频数据。本发明，由于采用了特殊的反卷积结构，在不包含任何auto‑regressive结构，且使用极少的参数的前提下也能达到很好的语音合成效果，能够通过神经网络结构在保证声学特征预测精度的同时，减少计算延迟，减少计算资源需求，提高并发量，提升语音合成的速度，为改善人机交互体验做出贡献。

Description

用于语音合成的音频数据生成方法及系统

技术领域

本发明涉及人工智能领域，具体地说，涉及一种用于语音合成的音频数据生成方法及系统。

背景技术

对于基于语音的实时人机交互系统，为了达到最优的人机交互体验，从用户结束语音发音，到机器开始发出语音回复的时间称为“应答时间”。为了达到最优的人机交互体验，这三步骤的总时间应该在600ms左右。绝大多数语音人机交互系统，其信息处理过程需要依次经过ASR-NLP-TTS三个步骤。然而目前大量高自然度的TTS接口的延迟在150ms以上，严重压缩了其他两个步骤(ASR，NLP)的处理时间，并因此限制了其他两个步骤中的信息处理的复杂程度和精度，为了改善人机交互体验，需要提升TTS即语音合成的速度。

因此，本发明提供了一种基用于语音合成的音频数据生成方法及系统。

发明内容

为解决上述问题，本发明提供了一种用于语音合成的音频数据生成方法，所述方法包含以下步骤：

对文本数据中的文本特征进行提取，得到文本特征数据；

通过神经网络结构对所述文本特征数据进行加速转化处理，将所述文本特征数据转化为声学特征数据；

根据所述声学特征数据进行声音合成或选择拼接，得到音频数据。

根据本发明的一个实施例，还包括：

通过调整模型对所述文本特征数据进行调整，得到调整后的文本特征数据，所述调整模型包含时程模型或注意力模型。

根据本发明的一个实施例，通过神经网络结构对所述调整后的文本特征数据进行加速转化处理，将所述调整后的文本特征数据转化为声学特征数据的步骤，包括：

对所述调整后的文本特征数据进行不同时间跨度上的采样，得到抽象度不同的多个待融合数据；

依据所述待融合数据的抽象度依次将多个待融合数据融合，得到融合数据；

通过声学模型对所述融合数据进行声学处理，得到所述声学特征数据。

根据本发明的一个实施例，对所述调整后的文本特征数据进行不同时间跨度上的采样，得到抽象度不同的多个待融合数据的步骤，包含以下步骤：

通过插值下采样方法、全卷积层采样方法以及扩张卷积层采样方法中的任一项或任几项的组合对所述调整后的文本特征数据进行不同时间跨度上的采样。

根据本发明的一个实施例，依据所述待融合数据的抽象度依次将多个待融合数据融合，得到融合数据的步骤，包含以下步骤：

从抽象度最高的待融合数据开始，依次经过反卷积层与抽象度仅次于当前数据的待融合数据进行融合，得到融合数据。

根据本发明的一个实施例，通过声学模型对所述融合数据进行声学处理，得到所述声学特征数据的步骤，包含以下步骤：

对所述融合数据经过线性映射层处理得到声学特征数据，其中所述文本特征包含：音标、语调、断句或韵律标记、句法依存树、分词标记、词性标注、语义权重以及语向量中的一项或任几项的组合。

根据本发明的另一个方面，还提供了一种程序产品，其包含用于执行如上任一项所述的方法步骤的一系列指令。

根据本发明的另一个方面，还提供了一种用于语音合成的音频数据生成系统，所述系统包含：

文本特征提取模块，其用于对文本数据中的文本特征进行提取，得到文本特征数据；

声学特征数据生成模块，其用于通过神经网络结构对所述文本特征数据进行加速转化处理，将所述文本特征数据转化为声学特征数据；

音频数据生成模块，其用于根据所述声学特征数据进行声音合成或选择拼接，得到音频数据。

根据本发明的另一个方面，还提供了一种智能机器人，该智能机器人采用用于语音合成的音频数据生成系统的服务。

根据本发明的一个实施例，该智能机器人为儿童专用机器人。

本发明提供的用于语音合成的音频数据生成方法及系统能够将文本数据转化为音频数据，由于采用了特殊的反卷积结构，在不包含任何auto-regressive结构，且使用极少的参数的前提下也能达到很好的语音合成效果，能够通过神经网络结构在保证声学特征预测精度的同时，减少计算延迟，减少计算资源需求，提高并发量，提升语音合成的速度，为改善人机交互体验做出贡献。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例共同用于解释本发明，并不构成对本发明的限制。在附图中：

图1显示了根据本发明的一个实施例的用于语音合成的音频数据生成方法流程图；

图2显示了根据本发明的另一个实施例的用于语音合成的音频数据生成方法流程图；

图3显示了根据本发明的一个实施例的用于语音合成的音频数据生成系统的结构框图；

图4显示了根据本发明的一个实施例的用于语音合成的音频数据生成系统中神经网络的结构示意图；以及

图5显示了根据本发明的一个实施例的用于语音合成的音频数据生成系统模块框图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，以下结合附图对本发明实施例作进一步地详细说明。

图1显示了根据本发明的一个实施例的用于语音合成的音频数据生成方法流程图。

如图1所示，在步骤S101中，对文本数据中的文本特征进行提取，得到文本特征数据。在本发明的一个实施例中，文本特征包含：音标、语调、断句或韵律标记、句法依存树、分词标记、词性标注、语义权重以及语向量中的一项或任几项的组合。

另外，获得文本特征数据的方式可以是自然语言处理算法(NLP，NaturalLanguage Processing)。自然语言处理算法可以对文本数据进行分词处理，将文本数据根据词组进行切分，获得多个切分后的文本数据。自然语言处理算法可以对切分后的文本数据进行词性分析，分析词组的性质。一般来说，词组的性质分为动词、形容词以及名词等。另外，自然语言处理算法还可以对文本数据进行依存句法分析、摘要分析以及情感分析等。通过以上处理，可以对文本数据中的文本特征进行提取，得到文本特征数据。

在本发明的一个实施例中，步骤S101后，还包含通过调整模型对文本特征数据进行调整，得到调整后的文本特征数据，调整模型包含时程模型或注意力模型。

接着，在步骤S102中，通过神经网络结构对文本特征数据进行加速转化处理，将文本特征数据转化为声学特征数据。一般来说，目前将文本特征转化为声学特征这一过程都存在延迟，影响了文本至声音的转化效率。因此，在本步骤中，通过神经网络对文本特征数据进行加速化处理，缩短转化的时间，提升转化的效率。

在本步骤中，对传统的能够将文本特征转化为声学特征的声学模型进行了优化，提升了转化的速度。传统的声学模型采用隐马尔可夫模型(Hidden Markov Model，HMM)，高斯混合模型(Gaussian Mixed Model，GMM)或全连接神经网络(Deep Neural Networks，DNN)，可以达到较快的速度，但合成的声音自然度较低。为了使合成的声音具有高自然度，声学模型都会采用一些计算量非常大的神经网络结构，常见的结构如循环神经网络(Recurrent Neural Network，RNN)，或一些带有自回归(auto-regressive)特点的卷积神经网络(Convolutional Neural Network，CNN)。

在一个实施例中，对调整后的文本特征数据进行不同时间跨度上的采样，得到抽象度不同的多个待融合数据。然后，依据待融合数据的抽象度依次将多个待融合数据融合，得到融合数据。最后，通过声学模型对融合数据进行声学处理，得到声学特征数据。以上方法与其他声学模型相比较计算延迟极大降低，并发量得到明显提升。

最后，在步骤S103中，根据声学特征数据进行声音合成或选择拼接，得到音频数据。根据本发明的一个实施例，对声学特征进行合成可以采用合成器，对声学特征进行选择拼接可以采用音频单元选择与拼接模块。

一般来说，声学特征指对音频进行有损压缩后得到的，与音频存在编码和解码关系的特征。目前来说，声学特征视选用的合成器类型不同可包括但不限于：MCC-BAP-LF0特征，其包含梅尔倒谱系数、band aperiodicities以及对数尺度基频的向量，在时间尺度堆叠为矩阵，可通过开源软件WORLD等从音频中分解并还原为音频。频谱矩阵，可通过离散傅立叶变换从音频中分解，并通过griffin-lim算法还原为音频。基于深度学习的分布式表征矩阵，可通过经过恰当训练的神经网络合成器如WaveNet还原为音频。

图2显示了根据本发明的另一个实施例的用于语音合成的音频数据生成方法流程图。

如图2所示，在步骤S201中，对调整后的文本特征数据进行不同时间跨度上的采样，得到抽象度不同的多个待融合数据。根据本发明的一个实施例，通过插值下采样方法、全卷积层采样方法以及扩张卷积层采样方法中的任一项或任几项的组合对调整后的文本特征数据进行不同时间跨度上的采样。

然后，在步骤S202中，依据待融合数据的抽象度依次将多个待融合数据融合，得到融合数据。根据本发明的一个实施例，从抽象度最高的待融合数据开始，依次经过反卷积层(反卷积层deconvolution layer又称转置卷积层transposed convolution layer，具体原理参考论文，Zeiler,Matthew D.,Graham W.Taylor,and Rob Fergus."Adaptivedeconvolutional networks for mid and high level feature learning."ComputerVision(ICCV),2011IEEE International Conference on.IEEE,2011.)与抽象度仅次于当前数据的待融合数据进行融合，得到融合数据。

经过步骤S201中采样得到抽象程度不同的N组特征，特征1的抽象程度比2要高，特征2的抽象程度比3要高，以此类推。从抽象程度高的特征开始，经过一个反卷积层，跟仅次于它的特征融合。抽象程度高的特征因为时间跨度大，在时间维度上的压缩更大，因此需要先经过反卷积层，将时间维度扩展，才能和下一个特征进行融合。

融合有多种方法，最简单的是向量加法，也可以设计复杂的神经网络层。根据本发明的一个实施例，融合的方法是设计了带有门结构的卷积神经网络层，门结构可以对输入的特征进行取舍，只保留对此任务最相关的部分。

最后，在步骤S203中，通过声学模型对融合数据进行声学处理，得到声学特征数据。根据本发明的一个实施例，对融合数据经过线性映射层处理得到声学特征数据。

根据本发明的一个实施例，如图2所示的神经网络的需要经过一个训练过程后才能投入使用，训练阶段需要提供若干训练用的文本特征和声学特征的组合。在推理阶段，此模型接收到经过适当处理的文本特征，并生成对应的声学特征，继而通过合成器或音频单元选择与拼接模块，得到最终的声音。

此外，本发明还可以配合一种程序产品，其包含用于语音合成的音频数据生成方法步骤的一系列指令。程序产品能够运行计算机指令，计算机指令包括计算机程序代码，计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。

程序产品可以包括：能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。

需要说明的是，程序产品包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，程序产品不包括电载波信号和电信信号。

图3显示了根据本发明的一个实施例的用于语音合成的音频数据生成系统的结构框图。

如图3所示，本发明提供的音频数据生成系统可以分为四大部分：

第一部分为文本提取。需要将文本数据中的文本特征提取出来，得到文本特征数据。

对于文本数据，需要对文本数据中的文本特征进行提取，得到文本特征数据。一般来说，文本特征包含：音标、语调、断句或韵律标记、句法依存树、分词标记、词性标注、语义权重以及语向量中的一项或任几项的组合。在实际应用中，可以通过时程模型或者注意力模型对文本特征数据进行调整，以得到调整后的文本特征数据。

第二部分为文本特征到声学特征的转化过程，需要将文本特征数据转化为声学特征数据。得到调整后的文本特征数据后，本发明提供的神经网络结构将文本特征数据加速转化为声学特征数据。目前来说，将文本转化为声学的声学模型精度以及速度上都存在一定的缺陷，因此，本发明提供了一种神经网络结构，在保证转化精确度的同时，加速文本到声学的转化过程。

第三部分为训练。根据本发明的一个实施例，为了保证神经网络结构的准确率，可以提前对神经网络结构进行训练，经过一个训练过程才能投入使用，在训练阶段，提供若干训练用的文本特征和声学特征的组合。在推理阶段，此模型接收到经过适当处理的文本特征，并生成对应的声学特征，继而通过合成器或音频单元选择与拼接模块，得到最终的声音。

第四部分为声学特征到音频数据的转化过程。经过神经网络结构处理过的文本特征数据转化为声学特征数据，为了得到文本到音频的转变，需要将声学特征数据转化为音频数据。一般来说，声学特征指对音频进行有损压缩后得到的，与音频存在编码和解码关系的特征。在一个实施例中，通过合成器或音频单元选择拼接模块可以将声学特征转化为音频数据。

图4显示了根据本发明的一个实施例的用于语音合成的音频数据生成系统中神经网络的结构示意图。

如图4所示，本发明提出了一类新型的用于语音合成声学模型的神经网络，其特征在于包含了多个不同尺度的一维反卷积层，使声学模型同时兼具循环神经网络(RNN，Recurrent Neural Network)的高声音自然度和极高的推理速度。其输入为文本特征，输出为声学特征。网络结构如图4所示，目的在于保证声学特征预测精度的同时，充分利用图形处理器(GPU，Graphics Processing Unit)硬件特征，减少计算延迟，减少计算资源需求，提高并发量。

本发明提供的神经网络结构如图4所示。首先，从多尺度，即不同时间跨度上对文本特征进行采样，通过插值下采样方法、全卷积层采样方法以及扩张卷积层采样方法中的任一项或任几项的组合对调整后的文本特征数据进行不同时间跨度上的采样。在实施例中，全卷积层的跨度(stride)可以大于一。

接着，经过多尺度下的采样，得到抽象程度不同的N组特征，特征1的抽象程度比2要高，特征2的抽象程度比3要高，以此类推。从抽象度最高的待融合数据开始，依次经过反卷积层与抽象度仅次于当前数据的待融合数据进行融合，得到融合数据。抽象程度高的特征因为时间跨度大，在时间维度上的压缩更大，因此需要先经过反卷积层，将时间维度扩展，才能和下一个特征进行融合。特别地，我们发现在反卷积层上附加额外的时间坐标信息能达到更好的语音合成效果。

融合有多种方法，可以是向量加法，也可以设计复杂的神经网络层。在一个实施例中，融合的方法是设计了带有门结构的卷积神经网络层，门结构可以对输入的特征进行取舍，只保留对此任务最相关的部分。

目前来说，GPU在硬件结构上拥有大量的流处理器(streaming multiprocessor)，这使得GPU非常擅长将大规模计算任务(如大规模矩阵乘法)拆分成可以并行运算的小任务并将这些小任务分配给不同的计算块(block)。但具有自回归(auto-regressive)特性的神经网络(如RNN，autoregressive CNN，wavenet等)的每一部推导的步骤需要依赖上一步推导的结果，因此不能被完全并行，不能很好的利用GPU的特性，尤其在以文本到语音(TTS)的声学模型为代表的长时程时间序列预测任务上，会导致两个非常明显的缺陷。其一是单句语音合成的延迟，其二是GPU的计算资源没有得到有效的利用，造成较大的成本浪费。而对于本发明所公开的实施例中，本发明提供的神经网络由于采用了特殊的反卷积结构，在不包含任何auto-regressive结构，且使用极少的参数的前提下也能达到很好的语音合成效果。

为了解决RNN的第一个缺陷，工程上常采用一些模型简化方案，如以损失模型精度为代价，从双向RNN变为单项RNN，或采用一些模型简化策略如门控循环单元(GatedRecurrent Unit，GRU)或QRNN算法(Quasi-Recurrent Neural Networks)。为了解决第二个缺陷，一些更复杂的工程优化包括依靠批次调度(batch dispatch)提升GPU的利用率，但代价是进一步增加了语音合成任务的延迟。

另一类尝试采用存储块(memory block)结构或卷积神经网络(ConvolutionalNeural Network，CNN)结构，较好地解决了以上问题，但这些方法的速度改进非常有限，且得到的音效仍然比RNN更差。

因此，在于其他声学模型相比较来说，本发明提供的神经网络由于采用了特殊的反卷积结构，在不包含任何auto-regressive结构，且使用极少的参数的前提下也能达到很好的语音合成效果，能够提升将文本特征转化为声学特征的速度，并且在损失函数层面，跟经典RNN不相上下。计算延迟极大降低，并发量得到明显提升。

如图5所示，系统包含文本特征提取模块401、声学特征数据生成模块402以及音频数据生成模块403。其中，文本特征提取模块401包含提取单元4011以及调整单元4012。声学特征数据生成模块402包含采样单元4021、融合单元4022以及声学处理单元4023。音频数据生成模块403包含合成器4031以及选择拼接单元4032。

文本特征提取模块401用于对文本数据中的文本特征进行提取，得到文本特征数据。提取单元401可以通过自然语言算法对文本数据中的文本特征数据进行提取。调整单元4012用于通过调整模型对文本特征数据进行调整，得到调整后的文本特征数据，所述调整模型包含时程模型或注意力模型。

声学特征数据生成模块402用于通过神经网络结构对文本特征数据进行加速转化处理，将所述文本特征数据转化为声学特征数据。采样单元4021用于对调整后的文本特征数据进行不同时间跨度上的采样，得到抽象度不同的多个待融合数据。融合单元4022用于依据待融合数据的抽象度依次将多个待融合数据融合，得到融合数据。声学处理单元4023用于通过声学模型对所述融合数据进行声学处理，得到声学特征数据。

音频数据生成模块403用于根据声学特征数据进行声音合成或选择拼接，得到音频数据。合成器4031以及选择拼接单元4032能够对声学特征进行合成以及选择拼接，得到音频数据。

根据一个实施例，本发明提到的智能机器人具备特定的形象和预设属性，可以具备自然语言理解、视觉感知、触摸感知、语言输出、情感表情动作输出等AI能力。智能机器人可以为儿童专用机器人。

在本发明中，智能机器人可以采用本发明提供的用于语音合成的音频数据生成系统进行服务，将文本数据转化为音频数据，进而与用户601展开交互。

应该理解的是，本发明所公开的实施例不限于这里所公开的特定结构、处理步骤或材料，而应当延伸到相关领域的普通技术人员所理解的这些特征的等同替代。还应当理解的是，在此使用的术语仅用于描述特定实施例的目的，而并不意味着限制。

说明书中提到的“一个实施例”或“实施例”意指结合实施例描述的特定特征、结构或特性包括在本发明的至少一个实施例中。因此，说明书通篇各个地方出现的短语“一个实施例”或“实施例”并不一定均指同一个实施例。

虽然本发明所公开的实施方式如上，但所述的内容只是为了便于理解本发明而采用的实施方式，并非用以限定本发明。任何本发明所属技术领域内的技术人员，在不脱离本发明所公开的精神和范围的前提下，可以在实施的形式上及细节上作任何的修改与变化，但本发明的专利保护范围，仍须以所附的权利要求书所界定的范围为准。

Claims

1.一种用于语音合成的音频数据生成方法，其特征在于，所述方法包含以下步骤：

对文本数据中的文本特征进行提取，得到文本特征数据；

2.如权利要求1所述的方法，其特征在于，还包括：

3.如权利要求2所述的方法，其特征在于，通过神经网络结构对所述调整后的文本特征数据进行加速转化处理，将所述调整后的文本特征数据转化为声学特征数据的步骤，包括：

4.如权利要求3所述的方法，其特征在于，对所述调整后的文本特征数据进行不同时间跨度上的采样，得到抽象度不同的多个待融合数据的步骤，包含以下步骤：

5.如权利要求3所述的方法，其特征在于，依据所述待融合数据的抽象度依次将多个待融合数据融合，得到融合数据的步骤，包含以下步骤：

6.如权利要求3所述的方法，其特征在于，通过声学模型对所述融合数据进行声学处理，得到所述声学特征数据的步骤，包含以下步骤：

7.一种程序产品，其包含用于执行如权利要求1-6中任一项所述的方法步骤的一系列指令。

8.一种用于语音合成的音频数据生成系统，其特征在于，所述系统包含：

9.一种智能机器人，其特征在于，该智能机器人采用用于语音合成的音频数据生成系统的服务。

10.如权利要求9所述的方法，其特征在于，该智能机器人为儿童专用机器人。