CN113362801A

CN113362801A - 基于梅尔谱对齐的音频合成方法、系统、设备及存储介质

Info

Publication number: CN113362801A
Application number: CN202110650777.2A
Authority: CN
Inventors: 周明康; 罗超; 陈子浩; 邹宇; 李巍; 严丽
Original assignee: Ctrip Travel Information Technology Shanghai Co Ltd
Current assignee: Ctrip Travel Information Technology Shanghai Co Ltd
Priority date: 2021-06-10
Filing date: 2021-06-10
Publication date: 2021-09-07

Abstract

本发明提供了基于梅尔谱对齐的音频合成方法、系统、设备及存储介质，该方法包括：预训练一音频合成神经网络，用于建立基于包含多个中文分词的文本中每个音素对应的向量与声学特征帧段落的对应关系，声学特征帧段落包括至少一个声学特征帧；将一文本进行正则化处理；将文本内容基于分词网络进行分词操作获得的每个分词转化为拼音，并获得对应的声学模型向量；将声学模型向量输入音频合成神经网络，获得整个文本对应的声学特征帧段落；基于整个文本对应的声学特征帧段落合成可播放音频波形。本发明能够并行生成声学特征，耗时不会随着文本的长度的增加线性增长，大大减少了长文本话术的合成耗时。

Description

基于梅尔谱对齐的音频合成方法、系统、设备及存储介质

技术领域

本发明涉及账单自动生成领域，具体地说，涉及基于梅尔谱对齐的音频合成方法、系统、设备及存储介质。

背景技术

近些年，随着深度学习技术的发展，以及计算机硬件计算能力的提升，基于深度学习的端到端语音合成技术越来越成熟。端到端语音合成技术一般包含三个模块，一般流程如下：输入文本--前端处理--声学模型--声码器--音频波形。其中，前端处理模块主要对输入的文本进行预处理工作，将文本转换为数组，包括：

1)去除文本中的乱码、非标准符号等；

2)将规范化的文本进行分词，数字、时间等进行处理，如“2021-03-29”转换为“二零二一年三月二十九日”；

3)将处理后的文本转为拼音，根据自建索引字典，将拼音(音素/字母)转换为对应的字典的索引值。

声学模型将输入的文本特征，转为对应的声学特征，因为音频和文本都是有时序特征，因此，之前提出的声学模型很多都是基于自回归的方式，即预测梅尔谱当前帧时，需要依赖之前预测过的特征，因此，模型耗时会随着文本长度而线性增长。

对于在线旅游公司而言，每天需要外呼大量的电话，包括智能机器人客服，外呼通知播报电话等，特别是外呼通知播报电话，会有大量的长文本话术，采用自回归模型耗时会随着文本长度线性增长，用户等待时间过长，体检较差，不符合以用户为中心的服务宗旨，

因此，本发明提供了一种基于梅尔谱对齐的音频合成方法、系统、设备及存储介质。

发明内容

针对现有技术中的问题，本发明的目的在于提供基于梅尔谱对齐的音频合成方法、系统、设备及存储介质，克服了现有技术的困难，能够并行生成声学特征，耗时不会随着文本的长度的增加线性增长，大大减少了长文本话术的合成耗时。

本发明的实施例提供一种基于梅尔谱对齐的音频合成方法，包括以下步骤：

S100、预训练一音频合成神经网络，用于建立基于包含多个中文分词的文本中每个音素对应的向量与声学特征帧段落的对应关系，所述声学特征帧段落包括至少一个声学特征帧；

S110、将一文本进行正则化处理；

S120、将文本内容基于分词网络进行分词操作获得的每个分词转化为拼音，并获得对应的声学模型向量；

S130、将声学模型向量输入所述音频合成神经网络，获得整个文本对应的声学特征帧段落；以及

S140、基于所述整个文本对应的声学特征帧段落合成可播放音频波形。

优选地，所述步骤S100中包括以下步骤：

S101、采集音频文件；

S102、获得所述音频文件的文本和音频文件的声学特征；

S103、对所述文本内容基于分词网络进行分词操作获得的每个分词转化为拼音；以及

S104、建立一音频合成神经网络，将所述音频文件的文本和音频文件的声学特征输入所述音频合成神经网络，使得所述分词的拼音中的音素对应的向量与声学特征在帧时序上进行对齐，获得每个分词的拼音中的所述音素的向量对应的声学特征帧。

优选地，所述步骤S103中的分词网络与所述步骤S120中的分词网络相同。

优选地，所述步骤S110中包括以下步骤：

S111、去除文本中的乱码、非标准符号字符；以及

S112、将文本中的数字、时间转换为中文汉字。

优选地，所述步骤S120中包括以下步骤：

S121、将文本中的内容转化为中文汉字；

S122、将文本进行中文分词操作；

S123、获得每个分词对应的中文汉字的拼音；以及

S124、基于所述拼音获得每个分词对应音素序列；

S125、将文本对应的音素序列转化为对应的索引值，并获得对应的声学模型向量。

优选地，所述步骤S130中，通过所述音频合成神经网络，将所述声学模型向量按照的所述汉字在所述文本的循序转化为文本对应的声学特征帧段落。

优选地，所述步骤S140中，使用基于生成对抗网络的MelGAN声码器模型，将所述声学特征帧段落转成一段可播放的梅尔频谱。

本发明的实施例还提供一种基于梅尔谱对齐的音频合成系统，用于实现上述的基于梅尔谱对齐的音频合成方法，所述基于梅尔谱对齐的音频合成系统包括：

预训练模块，预训练一音频合成神经网络，用于建立基于包含多个中文分词的文本中每个音素对应的向量与声学特征帧段落的对应关系，所述声学特征帧段落包括至少一个声学特征帧；

预处理模块，将一文本进行正则化处理；

分词向量模块，将文本内容基于分词网络进行分词操作获得的每个分词转化为拼音，并获得对应的声学模型向量；

声学特征模块，将声学模型向量输入所述音频合成神经网络，获得整个文本对应的声学特征帧段落；

音频合成模块，基于所述整个文本对应的声学特征帧段落合成可播放音频波形。

本发明的实施例还提供一种基于梅尔谱对齐的音频合成设备，包括：

处理器；

存储器，其中存储有所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行上述基于梅尔谱对齐的音频合成方法的步骤。

本发明的实施例还提供一种计算机可读存储介质，用于存储程序，所述程序被执行时实现上述基于梅尔谱对齐的音频合成方法的步骤。

本发明的目的在于提供基于梅尔谱对齐的音频合成方法、系统、设备及存储介质，能够并行生成声学特征，耗时不会随着文本的长度的增加线性增长，大大减少了长文本话术的合成耗时。对比自回归方式模型，本发明提出的网络合成音频的实时率(音频时长/耗时)可以达到124.7，大大超过现有技术对比自回归方式模型的实时率。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显。

图1是本发明的基于梅尔谱对齐的音频合成方法的流程图。

图2是本发明的基于梅尔谱对齐的音频合成方法中声学模型的示意图。

图3是本发明的基于梅尔谱对齐的音频合成系统的模块示意图。

图4是本发明的基于梅尔谱对齐的音频合成设备的结构示意图。以及

图5是本发明一实施例的计算机可读存储介质的结构示意图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的实施方式。相反，提供这些实施方式使得本发明将全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的结构，因而将省略对它们的重复描述。

图1是本发明的基于梅尔谱对齐的音频合成方法的流程图。如图1所示，本发明的实施例提供一种基于梅尔谱对齐的音频合成方法，包括以下步骤：

S100、预训练一音频合成神经网络，用于建立基于包含多个中文分词的文本中每个音素对应的向量与声学特征帧段落的对应关系，上述声学特征帧段落包括至少一个声学特征帧。

S110、将一文本进行正则化处理。

S120、将文本内容基于分词网络进行分词操作获得的每个分词转化为拼音，并获得对应的声学模型向量。本发明中的分词网络为现有的或者未来发明的具有分析功能的模块，能够对自然语义的文本进行分词操作，将文本分成一个一个词组(或者短语)，但不以此为限。

S130、将声学模型向量输入上述音频合成神经网络，获得整个文本对应的声学特征帧段落。

S140、基于上述整个文本对应的声学特征帧段落合成可播放音频波形，但不以此为限。

本发明中使用梅尔谱声学特征，针对该特性，本发明提出一种基于非自回归方式的声学模型TripAcuNet。其中，声码器的主要作用是将生成的声学特征(梅尔谱)转为可播放的音频波形，本发明中，使用了基于生成对抗网络的MelGAN声码器模型。其中，MelGAN是Lyrebird基于GAN框架设计的Neural Vocoder模型，模型主打轻量级架构，以及快速高质量语音合成。MelGAN模型使用基于Mel Spectrogram的特征作为输入，逐步上采样到语音长度，在上采样之间加入卷积块计算频域到时域的变换。最后输出即为固定帧数的语音。将整个上采样过程作为生成器(Generator)部分，嵌套到GAN框架中进行训练，并针对语音的特有性质调整判别器(Discriminator)以及目标函数，使得训练更为稳定有效。

其中，音素(phone)，是根据语音的自然属性划分出来的最小语音单位，依据音节里的发音动作来分析，一个动作构成一个音素。音素分为元音与辅音两大类。如汉语音节啊(ā)只有一个音素，爱(ài)有两个音素，代(dài)有三个音素等。用国际音标标注语音的方法称作标音法，有宽式和严式两种。宽式标音法以能辨义的音位标音，严式标音法则以严格的音素区别来标音，尽量表现各音素间的区别，宽式标音法采用的符号有限，而严式标音法所采用的符号极多，但两者各有用途。音素是构成音节的最小单位或最小的语音片段，是从音质的角度划分出来的最小的线性的语音单位。音素是具体存在的物理现象。国际音标(由国际语音学会制定，用来统一标示各国语音的字母。也称为“国际语音学字母”、“万国语音学字母”)的音标符号与全人类语言的音素一一对应。

在一个优选实施例中，上述步骤S100中包括以下步骤：

S101、采集音频文件。

S102、获得上述音频文件的文本和音频文件的声学特征。

S103、对上述文本内容基于分词网络进行分词操作获得的每个分词转化为拼音。

S104、建立一音频合成神经网络，将上述音频文件的文本和音频文件的声学特征输入上述音频合成神经网络，使得上述分词的拼音中的音素对应的向量与声学特征在帧时序上进行对齐，获得每种分词的拼音中的上述音素的向量对应的声学特征帧，但不以此为限。

在一个优选实施例中，上述步骤S103中的分词网络与上述步骤S120中的分词网络相同，但不以此为限。

在一个优选实施例中，上述步骤S110中包括以下步骤：

S111、去除文本中的乱码、非标准符号字符。

S112、将文本中的数字、时间转换为中文汉字，但不以此为限。

本实施例中，对输入的文本进行正则化处理，去除乱码、非标准标点符号等。将金额、时间类的数字转成英文单词，如“2021-03-29”转为“二零二一年三月二十九日”。将规则化处理后的文本转为拼音，根据自建索引字典，将拼音(音素/字母)转换为对应的字典的索引值，构建成声学模型能够处理的向量。

在一个优选实施例中，上述步骤S120中包括以下步骤：

S121、将文本中的内容转化为中文汉字。

S122、将文本进行中文分词操作。

S123、获得每个分词对应的中文汉字的拼音。

S124、基于上述拼音获得每个分词对应音素序列。

S125、将文本对应的音素序列转化为对应的索引值，并获得对应的声学模型向量，但不以此为限。

本实施例中，因为文本长度和梅尔谱长度不一致，多帧梅尔谱特征会对应到文本中的一个字，因此声学模型需要学习文本和梅尔谱的对齐关系，即一个字(音素)对应到梅尔谱特征中是哪几帧。不同与自回归模型使用attention机制去学习文本和梅尔谱特征的对齐关系，本发明提出的基于非自回归方式的声学模型TripAcuNet中，单独有一个文本和梅尔谱对齐模块，通过训练这个模块，在预测时可以准确预测出文本和梅尔谱特征的对齐关系，不需要像自回归模型那样，一帧一帧的预测梅尔谱特征。(本发明提出的声学模型TripAcuNet主要结构如附图3所示。)

在一个优选实施例中，上述步骤S130中，通过上述音频合成神经网络，将上述声学模型向量按照的上述汉字在上述文本的循序转化为文本对应的声学特征帧段落，但不以此为限。

在一个优选实施例中，上述步骤S140中，使用基于生成对抗网络的MelGAN声码器模型，将上述声学特征帧段落转成一段可播放的梅尔频谱。本发明中，声码器使用了基于生成对抗网络的MelGAN声码器模型，将声学模型生成的梅尔谱转成可播放音频波形，但不以此为限。

本发明要解决的问题：研发一种基于非自回归的语音合成方法，合成音频耗时不会随着文本长度的增加线性增加，提升音频合成实时率，满足外呼机器人及外呼电话的需求，提升减少用户等待时间，提升用户体验。本发明通过提出一种基于非自回归的语音合成方法，包括前端处理、声学建模和声码器三个部分，该技术包括以下步骤：

(1)前端处理。

酒店每天有大量的订单，线上的文本数据情况也较复杂，因此，本发明首先对需要合成的文本信息进行正则化处理，去除乱码和非标准符号等，并且将中文符号替换成对应的英文符号；数字在不同的场景中发音不同，因此根据匹配统计的关键词替换数字为不同的汉字，如：“房价为423元”转为“房价为四百二十三元”，“房间号501”转为“房间号五零一”；最后将规范化的文本通过分词，转成拼音，根据自建索引字典，将拼音(音素/字母)转换为对应的字典的索引值，构建成声学模型能够处理的向量，经过一个embedding层，将输入的文本转为了模型能够处理的向量。

(2)声学模型建模

图2是本发明的基于梅尔谱对齐的音频合成方法中声学模型的示意图。如图2所示，本发明提出的声学模型TripAcuNet结构如图2所示，模型主体2结构采用了multi headattention的结构，用于文本特征提取和声学特征生成，不同于自回归模型结构采用attention机制学习文本和声学特征的对齐关系，本发明提出了一个对齐模块1，由两层线性层和一层卷积层组成，训练时，使用真实的文本和声学特征对齐数据作为label去训练，预测时，直接根据文本音素经过FFT Block模块3提取的特征，预测每个音素对应的声学特征(梅尔谱)的长度(帧数)，因为对齐模块的输入是整个输入文本音素序列特征，预测结果为整个文本音素序列对应的声学特征长度，因此，不需要像自回归模型那样，单个音素的预测，大大提升了声学特征的合成速度，不会随着文本长度增加，耗时成线性增加。

(3)声码器

声码器使用了基于生成对抗网络的MelGAN声码器模型，将声学模型生成的梅尔谱转成可播放音频波形。

(4)数据集准备及模型训练

数据集中的话术从酒店客服和酒店商家通话记录中统计得到，并由专门的人工客服去录音棚录制，总共录制了40000条16KHz的音频，音频总时长约40小时，每条音频对应的文本由专门的人工进行核对。文本和声学特征对齐关系，通过开源工具Montreal ForcedAligner获取，并且根据音频中的不同停顿时长，建立了四层级的韵律停顿，使得训练的模型合成效果更加自然逼真。

因场景含有大量的简单英文，例如“WIFI”、“大床房A”，因此，本发明自研了一套含有场景常见的英文的中英文的音素表，其中中文直接转换为声韵母，英文除场景常见单词通过CMU字典转换，其余均转换为大写字母，按照字母进行发音。

在模型训练时，本发明分步训练声学模型TripAcuNet和声码器MelGAN，训练中均使用英伟达生产的V100 GPU。训练声学模型时，设置的batch size为64，梅尔谱特征使用80维，模型输入为文本音素，输出为梅尔谱特征，损失函数包含两部分，对齐模块的损失函数和生成梅尔谱部分的损失函数，两部分损失函数均采用了均方差损失函数，并采用了不同的权重，损失函数计算函数如下：

L_all＝αL_ali+βL_mel

优化器采用了adam，每迭代训练一万次，进行测试一次模型效果，并观察损失降低情况，直至损失不在降低为止。

声码器训练时，利用训练好的声学模型，合成训练数据集中的文本音素，得到对应的梅尔谱特征，作为声码器的输入，输出为真实的音频，同样每迭代训练一万次，进行测试一次模型效果，并观察损失降低情况，直至损失不在降低为止。

图3是本发明的基于梅尔谱对齐的音频合成系统的模块示意图。如图3所示，本发明的基于梅尔谱对齐的音频合成系统5包括：

预训练模块51，预训练一音频合成神经网络，用于建立基于包含多个中文分词的文本中每个音素对应的向量与声学特征帧段落的对应关系，上述声学特征帧段落包括至少一个声学特征帧。

预处理模块52，将一文本进行正则化处理。

分词向量模块53，将文本内容基于分词网络进行分词操作获得的每个分词转化为拼音，并获得对应的声学模型向量。

声学特征模块54，将声学模型向量输入上述音频合成神经网络，获得整个文本对应的声学特征帧段落。

音频合成模块55，基于上述整个文本对应的声学特征帧段落合成可播放音频波形。

本发明的基于梅尔谱对齐的音频合成系统能够并行生成声学特征，耗时不会随着文本的长度的增加线性增长，大大减少了长文本话术的合成耗时。对比自回归方式模型，本发明提出的网络合成音频的实时率(音频时长/耗时)可以达到124.7，大大超过现有技术对比自回归方式模型的实时率。

本发明实施例还提供一种基于梅尔谱对齐的音频合成设备，包括处理器。存储器，其中存储有处理器的可执行指令。其中，处理器配置为经由执行可执行指令来执行的基于梅尔谱对齐的音频合成方法的步骤。

如上所示，该实施例本发明的基于梅尔谱对齐的音频合成系统能够并行生成声学特征，耗时不会随着文本的长度的增加线性增长，大大减少了长文本话术的合成耗时。对比自回归方式模型，本发明提出的网络合成音频的实时率(音频时长/耗时)可以达到124.7，大大超过现有技术对比自回归方式模型的实时率。

所属技术领域的技术人员能够理解，本发明的各个方面可以实现为系统、方法或程序产品。因此，本发明的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“平台”。

图4是本发明的基于梅尔谱对齐的音频合成设备的结构示意图。下面参照图4来描述根据本发明的这种实施方式的电子设备600。图4显示的电子设备600仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图4所示，电子设备600以通用计算设备的形式表现。电子设备600的组件可以包括但不限于：至少一个处理单元610、至少一个存储单元620、连接不同平台组件(包括存储单元620和处理单元610)的总线630、显示单元640等。

其中，存储单元存储有程序代码，程序代码可以被处理单元610执行，使得处理单元610执行本说明书上述电子处方流转处理方法部分中描述的根据本发明各种示例性实施方式的步骤。例如，处理单元610可以执行如图1中所示的步骤。

存储单元620可以包括易失性存储单元形式的可读介质，例如随机存取存储单元(RAM)6201和/或高速缓存存储单元6202，还可以进一步包括只读存储单元(ROM)6203。

存储单元620还可以包括具有一组(至少一个)程序模块6205的程序/实用工具6204，这样的程序模块6205包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线630可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

电子设备600也可以与一个或多个外部设备700(例如键盘、指向设备、蓝牙设备等)通信，还可与一个或者多个使得用户能与该电子设备600交互的设备通信，和/或与使得该电子设备600能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口650进行。并且，电子设备600还可以通过网络适配器660与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。网络适配器660可以通过总线630与电子设备600的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备600使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储平台等。

本发明实施例还提供一种计算机可读存储介质，用于存储程序，程序被执行时实现的基于梅尔谱对齐的音频合成方法的步骤。在一些可能的实施方式中，本发明的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当程序产品在终端设备上运行时，程序代码用于使终端设备执行本说明书上述电子处方流转处理方法部分中描述的根据本发明各种示例性实施方式的步骤。

图5是本发明的计算机可读存储介质的结构示意图。参考图5所示，描述了根据本发明的实施方式的用于实现上述方法的程序产品800，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本发明的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

综上，本发明的目的在于提供基于梅尔谱对齐的音频合成方法、系统、设备及存储介质，能够并行生成声学特征，耗时不会随着文本的长度的增加线性增长，大大减少了长文本话术的合成耗时。对比自回归方式模型，本发明提出的网络合成音频的实时率(音频时长/耗时)可以达到124.7，大大超过现有技术对比自回归方式模型的实时率。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种基于梅尔谱对齐的音频合成方法，其特征在于，包括以下步骤：

S110、将一文本进行正则化处理；

2.根据权利要求1所述的基于梅尔谱对齐的音频合成方法，其特征在于，所述步骤S100中包括以下步骤：

S101、采集音频文件；

S102、获得所述音频文件的文本和音频文件的声学特征；

3.根据权利要求2所述的基于梅尔谱对齐的音频合成方法，其特征在于，所述步骤S103中的分词网络与所述步骤S120中的分词网络相同。

4.根据权利要求1所述的基于梅尔谱对齐的音频合成方法，其特征在于，所述步骤S110中包括以下步骤：

S111、去除文本中的乱码、非标准符号字符；以及

S112、将文本中的数字、时间转换为中文汉字。

5.根据权利要求1所述的基于梅尔谱对齐的音频合成方法，其特征在于，所述步骤S120中包括以下步骤：

S121、将文本中的内容转化为中文汉字；

S122、将文本进行中文分词操作；

S123、获得每个分词对应的中文汉字的拼音；

S124、基于所述拼音获得每个分词对应音素序列；以及

6.根据权利要求5所述的基于梅尔谱对齐的音频合成方法，其特征在于，所述步骤S130中，通过所述音频合成神经网络，将所述声学模型向量按照的所述汉字在所述文本的循序转化为文本对应的声学特征帧段落。

7.根据权利要求1所述的基于梅尔谱对齐的音频合成方法，其特征在于，所述步骤S140中，使用基于生成对抗网络的MelGAN声码器模型，将所述声学特征帧段落转成一段可播放的梅尔频谱。

8.一种基于梅尔谱对齐的音频合成系统，用于实现权利要求1所述的基于梅尔谱对齐的音频合成方法，其特征在于，包括：

预处理模块，将一文本进行正则化处理；

声学特征模块，将声学模型向量输入所述音频合成神经网络，获得整个文本对应的声学特征帧段落；以及

9.一种基于梅尔谱对齐的音频合成设备，其特征在于，包括：

处理器；

存储器，其中存储有所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行权利要求1至7任意一项所述基于梅尔谱对齐的音频合成方法的步骤。

10.一种计算机可读存储介质，用于存储程序，其特征在于，所述程序被处理器执行时实现权利要求1至7任意一项所述基于梅尔谱对齐的音频合成方法的步骤。