CN113763922A

CN113763922A - 音频合成方法和装置、存储介质及电子设备

Info

Publication number: CN113763922A
Application number: CN202110517152.9A
Authority: CN
Inventors: 张泽旺
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-05-12
Filing date: 2021-05-12
Publication date: 2021-12-07

Abstract

本发明公开了一种音频合成方法和装置、存储介质及电子设备。其中，该方法包括：获取待处理的文本序列；将文本序列转换为抽象特征序列；将抽象特征序列输入具有单调性约束条件的权重分配网络，以得到抽象特征序列对应的语境向量，其中，权重分配网络是基于离散化的混合逻辑分布结构所构建的网络；获取与语境向量匹配的音频频谱信息；利用音频频谱信息合成与文本序列匹配的目标音频。本发明解决了由于音频合成模型不稳定造成的合成音频准确性较低的技术问题。

Description

音频合成方法和装置、存储介质及电子设备

技术领域

本发明涉及计算机领域，具体而言，涉及一种音频合成方法和装置、存储介质及电子设备。

背景技术

如今，为了提高人机交互效率，在越来越多的应用或业务中，开始使用合成音频来为用户提供定制化辅助服务，如使用合成音频来为用户播报新闻，或为用户提供地图导航服务等，从而实现解放用户的双手，无需用户再对触屏设备输入交互控制指令。

但目前相关技术提供的音频合成技术，不仅需要使用大量的语料对音频合成模型进行训练，而且训练出的音频合成模型还常常会出现漏读、重复读等问题，难以保证合成音频的稳定性，同时也难以保证所合成的音频的准确性。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种音频合成方法和装置、存储介质及电子设备，以至少解决由于音频合成模型不稳定造成的合成音频准确性较低的技术问题。

根据本发明实施例的一个方面，提供了一种音频合成方法，包括：获取待处理的文本序列；将上述文本序列转换为抽象特征序列；将上述抽象特征序列输入具有单调性约束条件的权重分配网络，以得到上述抽象特征序列对应的语境向量，其中，上述权重分配网络是基于散化的混合逻辑分布结构所构建的网络；获取与上述语境向量匹配的音频频谱信息；利用上述音频频谱信息合成与上述文本序列匹配的目标音频。

根据本发明实施例的另一方面，还提供了一种音频合成装置，包括：第一获取模块，用于获取待处理的文本序列；转换模块，用于将上述文本序列转换为抽象特征序列；输入模块，用于将上述抽象特征序列输入具有单调性约束条件的权重分配网络，以得到上述抽象特征序列对应的语境向量，其中，上述权重分配网络是基于离散化的混合逻辑分布结构所构建的网络；第二获取模块，用于获取与上述语境向量匹配的音频频谱信息；合成模块，用于利用上述音频频谱信息合成与上述文本序列匹配的目标音频。

根据本发明实施例的又一方面，还提供了一种计算机可读的存储介质，该计算机可读的存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述音频合成方法。

根据本发明实施例的又一方面，还提供了一种电子设备，包括存储器和处理器，上述存储器中存储有计算机程序，上述处理器被设置为通过所述计算机程序执行上述的音频合成方法。

在本发明实施例中，采用将文本序列转换为抽象特征序列，利用具有单调性约束条件的权重分配网络将抽象特征序列转换为语境向量，进而将获取与语境向量匹配的音频频谱信息，利用音频频谱信息生成目标音频的方式，通过权重分配网络生成具备单调性约束条件的语境向量，从而将具备单调性约束条件的语境向量应用在频谱获取和音频生成的过程中，避免了在音频合成过程中发生遗漏、重复、方向错误等问题，达到了确保音频合成在方向上的单调稳定性的目的，从而实现了保证音频合成模型在音频合成过程中的准确和稳定的技术效果，进而解决了由于音频合成模型不稳定造成的合成音频准确性较低的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的一种可选的音频合成方法的应用环境的示意图；

图2是根据本发明实施例的一种可选的音频合成方法的流程示意图；

图3是根据本发明实施例的一种可选的音频合成方法的流程示意图；

图4是根据本发明实施例的一种可选的音频合成方法的流程示意图；

图5是根据本发明实施例的一种可选的音频合成方法的流程示意图；

图6是根据本发明实施例的一种可选的音频合成方法的流程示意图；

图7是根据本发明实施例的一种可选的音频合成方法的流程示意图；

图8是根据本发明实施例的一种可选的声学模型的结构示意图；

图9是根据本发明实施例的一种可选的音频合成方法的流程示意图；

图10是根据本发明实施例的一种可选的音频对抗生成网络的结构示意图；

图11是根据本发明实施例的一种可选的音频合成装置的结构示意图；

图12是根据本发明实施例的一种可选的电子设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

根据本发明实施例的一个方面，提供了一种音频合成方法，可选地，上述音频合成方法可以但不限于应用于如图1所示的环境中。终端设备102通过网络110与服务器122进行数据交互。服务器122中运行有数据库124和处理引擎126。处理引擎126通过获取数据库124中存储的数据，并对数据进行处理。

终端设备102收集文本序列，并将文本序列通过网络110发送给服务器122，服务器122中处理引擎126依次执行S102至S110。从数据库124中获取待处理的文本序列。在获取到文本序列的情况下，将文本序列转换为抽象特征序列。在得到抽象特征序列的情况下，将抽象特征序列输入具有单调性约束条件的权重分配网络，得到抽象特征序列对应的语境向量。权重分配网络是基于离散化的混合逻辑分布结构所构建的网络。在得到语境向量的情况下，获取与语境向量匹配的音频频谱信息。利用获取到的音频频谱信息，合成与文本序列匹配的目标音频。

服务器122将合成的目标音频通过网络110发送给终端设备102，从而得到与文本序列匹配的目标音频。

可选地，在本实施例中，上述终端设备可以是配置有目标客户端的终端设备，可以包括但不限于以下至少之一：手机(如Android手机、IOS手机等)、笔记本电脑、平板电脑、掌上电脑、MID(Mobile Internet Devices，移动互联网设备)、PAD、台式电脑、智能电视等。目标客户端可以是具备收集文本序列并能够播放目标音频的客户端，不限于是视频客户端、即时通信客户端、浏览器客户端、教育客户端等。上述网络可以包括但不限于：有线网络，无线网络，其中，该有线网络包括：局域网、城域网和广域网，该无线网络包括：蓝牙、WIFI及其他实现无线通信的网络。上述服务器可以是单一服务器，也可以是由多个服务器组成的服务器集群，或者是云服务器。上述仅是一种示例，本实施例中对此不作任何限定。

作为一种可选的实施方式，如图2所示，上述音频合成方法包括：

S202，获取待处理的文本序列；

S204，将文本序列转换为抽象特征序列；

S206，将抽象特征序列输入具有单调性约束条件的权重分配网络，以得到抽象特征序列对应的语境向量，其中，权重分配网络是基于离散化的混合逻辑分布结构所构建的网络；

S208，获取与语境向量匹配的音频频谱信息；

S210，利用音频频谱信息合成与文本序列匹配的目标音频。

可选地，文本序列可以是获取到的音频语料进行文本转换得到的文本序列。生成与文本序列匹配的目标音频可以是利用目标声学模型和音频对抗生成网络生成与文本序列对应的音频语料在音质上匹配的音频。在音质上匹配不限于是在音色上相似。

可选地，目标声学模型不限于用语根据文本序列获取匹配的音频频谱信息，利用音频对抗生成网络根据音频频谱信息合成目标音频。目标声学模型不限于是基于序列建模(sequence-to-sequence，简称Seq2seq)结构的模型，包括依次连接的特征提取网络、权重分配网络和目标频谱生成网络。音频对抗生成网络不限于是采用生成式对抗网络(Generative Adversarial Networks，简称GAN)框架结构的合成器。

可选地，文本序列不限于通过目标声学模型中的特征提取网络转换为抽象特征序列。特征提取网络不限于包括音素特征转换和内容编码器(Content Encoder)。

可选地，音素特征转换不限于用于将文本序列转为包含语言学特征(LinguisticFeature)的音素序列，语言学特征中的特征信息不限于包括：中文音素、英文音素、中文韵母声调、词语边界、短语边界、句子边界。

可选地，内容编码器(Content Encoder)不限于用于将文本序列对应的音素序列转换为抽象特征序列。内容编码器(Content Encoder)不限于是第二预处理网络和残差连接网络，将经过第二预处理网络处理后的音素序列输入残差连接网络。残差连接网络可以是由一维卷积层集合、高速网络、双向GRU网络共同构成的网络模型，用于提高音素序列转换为抽象特征序列的准确性。

可选地，权重分配网络不限于用于将抽象特征序列映射为包含上下文信息的语境向量。权重分配网络可以但不限于是离散化的混合逻辑斯蒂分布(mixture of logistic，MOL)的注意力模型网络。利用离散化的MOL分布使权重分配网络输出的语境具备单调性约束条件。

可选地，利用目标声学模型中的目标频谱生成网络获取与语境向量匹配的音频频谱信息。音频频谱信息不限于是梅尔谱信息。梅尔谱(mel spectrogram，简称mel)是通过对声学信号进行傅里叶变换后，再经梅尔尺度变化得到的频谱。

在本申请实施例中，采用将文本序列转换为抽象特征序列，利用具有单调性约束条件的权重分配网络将抽象特征序列转换为语境向量，进而将获取与语境向量匹配的音频频谱信息，利用音频频谱信息生成目标音频的方式，通过权重分配网络生成具备单调性约束条件的语境向量，从而将具备单调性约束条件的语境向量应用在频谱获取和音频生成的过程中，避免了在音频合成过程中发生遗漏、重复、方向错误等问题，达到了确保音频合成在方向上的单调稳定性的目的，从而实现了保证音频合成模型在音频合成过程中的准确和稳定的技术效果，进而解决了由于音频合成模型不稳定造成的合成音频准确性较低的技术问题。

作为一种可选的实施方式，上述获取与语境向量匹配的音频频谱信息包括：

在与权重分配网络连接的目标频谱生成网络中，获取与语境向量匹配的一个或至少两个音频帧的帧频谱信息，其中，目标频谱生成网络中配置有计时器，计时器用于对目标频谱生成网络中所生成的音频频谱信息进行切分，以生成各个音频帧各自对应的帧频谱信息。

可选地，目标频谱生成网络可以是包括第一预处理子网络和多层长短记忆网络构成的梅尔谱残差网络(Spectrogram Residual Network)。第一预处理子网络作为目标频谱生成网络中的预处理网络，在第一预处理子网络对语境向量进行处理后，输入至多层长短记忆网络，以获取帧频谱信息。

可选地，以目标频谱生成网络包括两层长短记忆网络为例，则目标频谱生成网络包括第一预处理子网络，第一长短记忆网络和第二长短记忆网络。将第一预处理子网络输出的梅尔谱信息作为输入至第二长短记忆网络的输入信息，将以长短记忆网络输出的梅尔谱信息作为当前帧的帧频谱信息的输入信息，构建梅尔谱残差网络。通过多层长短记忆网络构建多层梅尔谱残差网络，从而经过残差连接提高帧频谱信息生成的准确性。

可选地，计时器可以是用于预测停止符号(Stop Token)的全连接网络。在停止符号出现的情况下，对生成的音频频谱信息进行切分，以生成各个音频帧各自对应的帧频谱信息。

可选地，目标频谱生成网络在生成当前音频帧的帧频谱信息时，将上一帧的帧频谱信息作为输入以生成当前帧的帧频谱信息。上一帧的帧频谱信息不限于输入至第一预处理子网络，以输入目标频谱生成网络中。

在本申请实施例中，利用在目标频谱生成网络中，利用多层长短记忆网络生成梅尔谱残差网络结构，从而在帧频谱信息生成过程中，提高帧频谱信息生成的准确性，以提高目标音频合成的准确性。

作为一种可选的实施方式，如图3所示，上述在与权重分配网络连接的目标频谱生成网络中，获取与语境向量匹配的一个或至少两个音频帧的帧频谱信息包括：

在目标频谱生成网络中依次执行以下操作，以生成帧频谱信息：

S302，获取当前从权重分配网络接收到的语境向量，以及在当前所要生成的当前音频帧之前的上一个音频帧的参考帧频谱信息；

S304，将语境向量及参考帧频谱信息输入第一预处理子网络和多层长短记忆网络中，以生成当前音频帧的当前帧频谱信息。

可选地，参考帧频谱信息是当前音频帧之前的上一个音频帧的帧频谱信息。将上一个音频帧的帧频谱信息作为参考帧频谱信息和语境向量作为第一预处理子网络的输入，以使目标频谱生成网络经过第一预处理子网络和多层长短记忆网络生成当前帧的帧频谱信息。

作为一种可选的实施方式，如图4所示，在获取待处理的文本序列之前，还包括：

S402，构建初始声学模型，其中，初始声学模型包括：用于提取特征的特征提取网络、初始权重分配网络、初始频谱生成网络；

S404，使用第一样本语料对初始声学模型进行预训练，直至达到第一生成收敛条件以得到参考声学模型，其中，第一生成收敛条件指示已生成的音频频谱信息与对应的标签频谱信息之间的差异小于第一阈值：

S406，使用第二样本语料对参考声学模型进行训练，直至得到第二生成收敛条件以得到目标声学模型，其中，第二生成收敛条件指示已生成的音频频谱信息与对应的标签频谱信息之间的差异小于第二阈值，第二样本语料的数量小于第一样本语料的数量，目标声学模型中包括完成训练的特征提取网络、权重分配网络及目标频谱生成网络。

可选地，第一样本语料可以是包含多个对象的多语言语料。第二样本的语料的数量小于第一样本语料的数量可以是第二样本的语料所包含的对象数量小于第一样本的语料所包含的对象数量。例如，第一样本语料可是包含较多对象，例如五十人的语料，第二样本语料可以是目标对象的语料。通过利用第一样本语料使得初始声学模型训练为具备普适性的参考声学模型，再利用目标对象的第二样本语料对参考声学模型进行针对性的训练，从而得到目标声学模型。

可选地，对初始声学模型进行预训练不限于是对初始声学模型中包括的特征提取网络、初始权重分配网络、初始频谱生成网络中的各个参数进行优化。对于初始声学模型中包含的参数进行优化，不限于使用随机梯度下降算法(Stochastic Gradient Descent，SGD)对初始参数进行优化。

可选地，第二阈值小于第一阈值。通过第二样本语料对参考声学模型进行参数优化，使得生成的音频频谱信息与标签频谱信息之间的差异变化，从而使得目标声学模型生成的帧频谱信息的准确性高于参考声学模型生成的帧频谱信息。

在本申请实施例中，对初始声学模型使用语料数量较多的第一样本语料进行训练，得到参考声学模型，对参考声学模型使用语料较少的第二样本语料进行训练，得到具备针对性的目标声学模型，使得参考声学模型具备普适性的同时，可以实现对参考声学模型进行语料微调，从而基于目标对象较少的语料进行训练，就可以基于参考声学模型得到目标声学模型，减少了得到目标声学模型所需的语料。

作为一种可选的实施方式，如图5所示，在使用第二样本语料对参考声学模型进行训练的过程中，还包括：

S502，获取参考声学模型在训练过程中每次得到的频谱训练结果；

S504，在频谱训练结果指示调整参考声学模型中的各个模型参数的情况下，对处于非冻结状态下的权重分配网络和频谱生成网络中的网络参数进行更新，并对处于冻结状态下的特征提取网络中的网络参数保持。

可选地，在获取到参考声学模型的情况下，将特征提取网络中包括的网络参数调整至冻结状态。在冻结状态下，网络参数保持不变，不跟随参考声学模型的训练进行参数的更新优化。

可选地，频谱训练结果指示调整模型参数可以是为达到第二生成收敛条件，当前频谱生成网络生成的音频频谱信息与对应的标签频谱信息之间的差异大于或等于第二阈值。

在本申请实施例中，通过对参考声学模型的特征提取网络中的网络参数进行冻结，在对参考声学模型进行训练时，在调整模型参数时，只优化更新权重分配网络和频谱生成网络中的网络参数，可以在得到参考声学模型的情况下，固定特征提取网络中的参数提高迁移训练的稳定性，同时，可以通过减少所需训练调整的参数数量，以提高目标声学模型的训练效率，从而提高目标音频的合成效率。

作为一种可选的实施方式，如图6所示，在构建初始声学模型之后，还包括：

S602，获取音源对象的发音表征向量；

S604，在对参考声学模型进行训练的过程中，将音源对象的发音表征向量加入到训练中的特征提取网络中的第二预处理网络、训练中的特征提取网络中的残差连接网络、训练中的权重分配网络中的门控循环结构以及训练中的频谱生成网络的多层长短记忆网络。

可选地，音源对象的发音表征向量可以是对参考声学模型进行训练的第二样本语料对应的目标对象的发音表征向量(speaker embedding)。在参考声学模型的每一次参数优化过程中，均加入发音表征向量。

在本申请实施例中，在对参考声学模型进行参数优化的过程中，结合音源对象的发音表征向量将音源对象的发音特征融入参数优化过程中，在多个过程中均结合发音表征向量，避免了只将发音表征向量输入至一个过程中，而随着模型深入计算使得发音表征向量被稀释。在参考声学模型的训练过程中，多次进行发音表征向量的特征干预，充分体现与音源对象相关的发音特征，以使得训练得到的目标声学模型是与音源对象在音色相似度上更匹配，在提高音色相似匹配度的同时，可以基于音源特征向量加快对于参考声学模型的训练速度，从而提高目标声学模型的训练效率，提高目标音频的生成效率。

作为一种可选的实施方式，如图7所示，在文本序列为中文文本序列的情况下，在构建初始声学模型之后，还包括：

S702，获取中文文本序列的音调特征；

S704，在对参考声学模型进行训练的过程中，将音调特征加入到训练中的特征提取网络中的第二预处理网络之后的网络结构中。

可选地，在文本序列中包括中文文本序列的情况下，获取中文文本序列的音调特征，音调特征用于指示中文文本的发音音调。

可选地，将音调特征作为特征提取网络中的残差连接网络的输入特征，输入至特征提取网络中的残差连接网络中，利用残差连接网络将音调特征输入至参考声学模型的各个层级。

在本申请实施例中，将中文的音调特征输入至第二预处理网络之后的残差连接网络中，避免了第二预处理网络在对噪声进行处理时对音调特征的影响，提升对于音调特征对于噪声的抗干扰性。同时还能够通过残差连接网络将音调特征输入至参考声学模型的不同网络层级中，在不同的层级的训练中，提高中文音调的处理准确性，从而得到在音调上处理准确性更高的目标声学模型，通过提高目标声学模型的音调准确性，提高目标音频生成的发音准确性。

训练得到目标声学模型不限于如图8所示。特征提取网络包括用于实现文本序列转换为音素序列的text-to-linguistic convertor和内容编码器。内容编码器包括第二预处理网络Pre-net和残差连接网络res-CBHG。权重分配网络包括注意力权重模型MOL-attention和门循环控制单元GRU。目标频谱生成网络包括第一预处理网络pre-net和两层长短记忆网络res-LSTM。

将文本序列setence输入至text-to-linguistic convertor，将文本序列转换为音素特征构成的音素序列。将转换的音素序列输入至内容编码器中，利用内容编码器中的第二预处理网络Pre-net，结合输入的发音表征向量speaker embedding对音素序列进行预处理，将预处理后的音素序列和音调特征输入残差连接网络中，同时向残差连接网络中再次输入发音表征向量speaker embedding，通过残差连接网络处理得到抽象特征序列。将得到的抽象特征序列输入至权重分配网络，通过将发音表征向量speaker embedding、上一帧梅尔谱信息predicted mel、上一次得到的语境向量Context，同时输入至门循环控制单元GRU，获取离散化的混合逻辑斯蒂分布注意力模型(MOL-attention)输出的具备单调性的、包含上下文特征的当前语境向量Context。

将当前语境向量Context和上一帧梅尔谱信息predicted mel作为输入，输入至目标频谱生成网络的第一预处理网络pre-net进行预处理。利用第一预处理网络pre-net的输出作为第二层长短记忆网络的输入，第一层长短记忆网络的输出作为生成当前梅尔谱信息Previous mel的输入，构建具备残差连接结构的目标频谱生成网络。同时，在目标频谱生成网络中包括由停止预测单元stop prediction和时延长短记忆网络TD-LSTM构成的计时器，用于指示完成当前梅尔谱信息Previous mel的生成。

上述的目标声学模型，利用具有单调约束能力的混合离散分布的注意力权重模型MOL-attention实现对于文本序列的语境向量的输出，增强了语境向量输出的单调性和稳定性。在内容编码器和频谱生成模型中均增加残差连接结构，使得在对初始声学模型和参考声学模型使用梯度下降算法进行参数优化过程中，声学模型对于输出梅尔谱信息的准确性和稳定性，同时也加快了声学模型的收敛速度，提高声学模型的训练效率。通过发音特征向量充分融入到声学模型的多个网络结构中，既加快了声学模型的训练速度，同时避免了发音特征向量在训练过程中被稀释，提高音频在音色上的相似度，从而提高目标音频的准确性。同时，将音调特征输入在内容编码器的残差连接网络中，提高目标音频在音调上的准确性，同时通过残差连接网络，有效地保证了迁移学习过程中音调的准确性。

同时，在声音模型的训练中，通过先基于大量预料对初始声学模型进行训练，得到具备迁移能力的参考声学模型，再对参考声学模型中的具备迁移能力的参数进行冻结，基于音源对象的少量预料对参考声学模型进行微调，得到目标声学模型，实现了基于音源对象少量语料的音频信息的预测和生成。在提高声学模型的稳定性、准确性的基础上，提高声学模型的训练效率，从而提高目标音频合成的准确性和合成效率。

作为一种可选的实施方式，利用音频频谱信息合成与文本序列匹配的目标音频包括：

将音频频谱信息输入音频对抗生成网络中，以得到目标音频，其中，音频对抗生成网络中包括用于生成音频的生成子网络和用于判别的判别子网络，判别子网络包括：对音频频谱信息中的相位信息进行判别的相位判别子网络、对音频频谱信息中的周期信息进行判别的周期判别子网络。

可选地，音频对抗生成网络中包括生成子网络和判别子网络。判别子网络用于对生成子网络合成的音频进行判别，在合成的音频通过判别子网络的判别的情况下，输出目标音频。

可选地，生成子网络可以但不限于是编码网络-解码网络结构。编码网络由卷积神经网络组成，用于提取输入音频频谱信息包含的频谱特征。解码网络是反卷积神经网络组成，用于根据编码网络得到的频谱特征，根据损失函数对应的约束条件。

可选地，损失函数可以但不限于包括多分辨率傅里叶变换损失multi-resolutionSTFT loss和多分辨率梅尔频谱残差损失multi-resolution mel-spectrogram loss。基于两个损失函数加权求和得到生成子网络的损失函数。

可选地，判别子网络可以但不限于是全卷积神经网络，用于判断输入的频谱信息与标签频谱信息的相似概率。判别子网络中包括对音频频谱信息中包含的相位信息进行相似概率判别的相位判别子网络和对音频频谱信息中包含的周期信息进行相似判别的周期判别子网络。

在本申请实施例中，通过生成子网络和判别子网络的设置，进一步生成子网络和判别子网络的对抗性，在频谱信息合成目标音频的过程中，对频谱进行判别式的合成，综合频率判别以及周期判别，通过对合成音频在多维度的判别，提高合成的目标音频的准确性。同时，利用两个损失函数配合，加快音频对抗生成网络的收敛速度，提高目标音频的合成效率。

作为一种可选的实施方式，如图9所示，在获取待处理的文本序列之前，还包括：

S902，使用正样本音频对和负样本音频对，来对初始音频对抗生成网络进行交叉对抗训练，直至达到收敛条件，其中，正样本音频对包括待判别音频和标签音频，负样本音频对包括在生成子网络中基于待判别音频的音频频谱信息生成的参考音频和标签音频；

S904，在训练过程中，使用正样本音频对来训练判别子网络，直至训练出的判别子网络达到第一判别条件，其中，第一判别条件指示判别子网络识别出待判别音频为标签音频的第一置信度大于第三阈值；

S906，保存判别子网络的网络参数；

S908，使用负样本音频对来训练初始生成子网络，直至判别子网络达到第二判别条件，其中，第二判别条件指示判别子网络识别出参考音频为标签音频的第二置信度大于第四阈值，根据参考音频与标签音频之间的傅里叶变换损失，以及参考音频与标签音频之间的梅尔谱残差损失，调整训练中的生成子网络的网络参数。

可选地，对于生成子网络和判别子网络的训练多次循环进行。训练过程中的每一次训练不限于是：首先训练判别子网络，向判别子网络输入正样本音频对，通过周期信息和相位信息的综合判别，增强待判别音频和标签音频的辨别能力，基于周期信息判别和相位信息判别调整判别子网络的参数，在判别子网络输出结果指示待判别音频是概率大于第三阈值的情况下，固定当前判别子网络的判别参数，并训练生成子网络。利用生成子网络生成的参考音频作为待判别音频，利用傅里叶变换损失和梅尔谱残差损失对生成子网络的网络参数进行更新优化，使得生成的参考音频作为待判别音频输入至当前判别子网络中，得到的输出结果指示参考音频是标签音频的概率大于第四阈值。在达到条件的情况下，固定当前生成子网络的网络参数，对判别子网络进行再一次训练，由此循环。

音频对抗生成网络的网络模型不限于如图10所示。音频对抗生成网络包括生成子网络generator和判别子网络predicted audio。生成子网络generator中的损失函数包括多分辨率傅里叶变换损失multi-resolution STFT loss和多分辨率梅尔频谱残差损失multi-resolution mel-spectrogram loss。判别子网络predicted audio包括相位判别子网络phase-aware frequency discriminator和周期判别子网络multi perioddiscriminator。

将梅尔谱信息输入至生成子网络generator中，将生成的音频输入至判别子网络predicted audio进行判别，在通过判别子网络判别的情况下，将生成的音频作为目标音频。

在本申请实施例中，通过在生成子网络中引入了multi-resolution STFT loss和multi-resolution mel-spectrogram loss，加快生成子网络的收敛速度，提高目标音频的生成效率。同时，引用multi period discriminator结合phase-aware frequencydiscriminator，将相位信息连同振幅信息作为相位判别，结合周期信息判别构成判别子网络，对生成的音频进行对抗性的判别，从而提高了目标音频生成的准确性。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

根据本发明实施例的另一个方面，还提供了一种用于实施上述音频合成方法的音频合成装置。如图11所示，该装置包括：

第一获取模块1102，用于获取待处理的文本序列；

转换模块1104，用于将文本序列转换为抽象特征序列；

输入模块1106，用于将抽象特征序列输入具有单调性约束条件的权重分配网络，以得到抽象特征序列对应的语境向量，其中，权重分配网络是基于离散化的混合逻辑分布结构所构建的网络；

第二获取模块1108，用于获取与语境向量匹配的音频频谱信息；

合成模块1110，用于利用音频频谱信息合成与文本序列匹配的目标音频。

可选地，上述第二获取模块1108还用于：在与权重分配网络连接的目标频谱生成网络中，获取与语境向量匹配的一个或至少两个音频帧的帧频谱信息，其中，目标频谱生成网络中配置有计时器，计时器用于对目标频谱生成网络中所生成的音频频谱信息进行切分，以生成各个音频帧各自对应的帧频谱信息。

可选地，上述第二获取模块1108还用于在与权重分配网络连接的目标频谱生成网络中，获取与语境向量匹配的一个或至少两个音频帧的帧频谱信息包括：在目标频谱生成网络中依次执行以下操作，以生成帧频谱信息：获取当前从权重分配网络接收到的语境向量，以及在当前所要生成的当前音频帧之前的上一个音频帧的参考帧频谱信息；将语境向量及参考帧频谱信息输入第一预处理子网络和多层长短记忆网络中，以生成当前音频帧的当前帧频谱信息。

可选地，上述音频生成装置还包括第一训练模块，用于在获取待处理的文本序列之前：

构建初始声学模型，其中，初始声学模型包括：用于提取特征的特征提取网络、初始权重分配网络、初始频谱生成网络；

使用第一样本语料对初始声学模型进行预训练，直至达到第一生成收敛条件以得到参考声学模型，其中，第一生成收敛条件指示已生成的音频频谱信息与对应的标签频谱信息之间的差异小于第一阈值：

使用第二样本语料对参考声学模型进行训练，直至得到第二生成收敛条件以得到目标声学模型，其中，第二生成收敛条件指示已生成的音频频谱信息与对应的标签频谱信息之间的差异小于第二阈值，第二样本语料的数量小于第一样本语料的数量，目标声学模型中包括完成训练的特征提取网络、权重分配网络及目标频谱生成网络。

可选地，上述第一训练模块还用于：在使用第二样本语料对参考声学模型进行训练的过程中，获取参考声学模型在训练过程中每次得到的频谱训练结果；在频谱训练结果指示调整参考声学模型中的各个模型参数的情况下，对处于非冻结状态下的权重分配网络和频谱生成网络中的网络参数进行更新，并对处于冻结状态下的特征提取网络中的网络参数保持。

可选地，上述第一训练模块还用于：在构建初始声学模型之后，获取音源对象的发音表征向量；在对参考声学模型进行训练的过程中，将音源对象的发音表征向量加入到训练中的特征提取网络中的第二预处理网络、训练中的特征提取网络中的残差连接网络、训练中的权重分配网络中的门控循环结构以及训练中的频谱生成网络的多层长短记忆网络。

可选地，上述第一训练模块还用于：在文本序列为中文文本序列的情况下，在构建初始声学模型之后，获取中文文本序列的音调特征；在对参考声学模型进行训练的过程中，将音调特征加入到训练中的特征提取网络中的第二预处理网络之后的网络结构中。

可选地，上述合成模块1110还用于将音频频谱信息输入音频对抗生成网络中，以得到目标音频，其中，音频对抗生成网络中包括用于生成音频的生成子网络和用于判别的判别子网络，判别子网络包括：对音频频谱信息中的相位信息进行判别的相位判别子网络、对音频频谱信息中的周期信息进行判别的周期判别子网络。

可选地，上述音频生成装置还包括第二训练模块，用于在获取待处理的文本序列之前：

使用正样本音频对和负样本音频对，来对初始音频对抗生成网络进行交叉对抗训练，直至达到收敛条件，其中，正样本音频对包括待判别音频和标签音频，负样本音频对包括在生成子网络中基于待判别音频的音频频谱信息生成的参考音频和标签音频；

在训练过程中，使用正样本音频对来训练判别子网络，直至训练出的判别子网络达到第一判别条件，其中，第一判别条件指示判别子网络识别出待判别音频为标签音频的第一置信度大于第三阈值；

保存判别子网络的网络参数；

使用负样本音频对来训练初始生成子网络，直至判别子网络达到第二判别条件，其中，第二判别条件指示判别子网络识别出参考音频为标签音频的第二置信度大于第四阈值，其中，根据参考音频与标签音频之间的傅里叶变换损失，以及参考音频与标签音频之间的梅尔谱残差损失，调整训练中的生成子网络的网络参数。

根据本发明实施例的又一个方面，还提供了一种用于实施上述音频合成方法的电子设备，该电子设备可以是图1所示的终端设备或服务器。本实施例以该电子设备为服务器为例来说明。如图12所示，该电子设备包括存储器1202和处理器1204，该存储器1202中存储有计算机程序，该处理器1204被设置为通过计算机程序执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述电子设备可以位于计算机网络的多个网络设备中的至少一个网络设备。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

S1，获取待处理的文本序列；

S2，将文本序列转换为抽象特征序列；

S3，将抽象特征序列输入具有单调性约束条件的权重分配网络，以得到抽象特征序列对应的语境向量，其中，权重分配网络是基于离散化的混合逻辑分布结构所构建的网络；

S4，获取与语境向量匹配的音频频谱信息；

S5，利用音频频谱信息合成与文本序列匹配的目标音频。

可选地，本领域普通技术人员可以理解，图12所示的结构仅为示意，电子装置电子设备也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices，MID)、PAD等终端设备。图12其并不对上述电子装置电子设备的结构造成限定。例如，电子装置电子设备还可包括比图12中所示更多或者更少的组件(如网络接口等)，或者具有与图12所示不同的配置。

其中，存储器1202可用于存储软件程序以及模块，如本发明实施例中的音频合成方法和装置对应的程序指令/模块，处理器1204通过运行存储在存储器1202内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的音频合成方法。存储器1202可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器1202可进一步包括相对于处理器1204远程设置的存储器，这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。其中，存储器1202具体可以但不限于用于存储文本序列和目标音频等信息。作为一种示例，如图12所示，上述存储器1202中可以但不限于包括上述音频合成装置中的第一获取模块1102，转换模块1104，输入模块1106，第二或暗区模块1108，合成模块1110。此外，还可以包括但不限于上述音频合成装置中的其他模块单元，本示例中不再赘述。

可选地，上述的传输装置1206用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中，传输装置1206包括一个网络适配器(Network Interface Controller，NIC)，其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中，传输装置1206为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

此外，上述电子设备还包括：显示器1208，用于显示上述文本序列；和连接总线1210，用于连接上述电子设备中的各个模块部件。

在其他实施例中，上述终端设备或者服务器可以是一个分布式系统中的一个节点，其中，该分布式系统可以为区块链系统，该区块链系统可以是由该多个节点通过网络通信的形式连接形成的分布式系统。其中，节点之间可以组成点对点(P2P，Peer To Peer)网络，任意形式的计算设备，比如服务器、终端等电子设备都可以通过加入该点对点网络而成为该区块链系统中的一个节点。

根据本申请的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述音频合成方面的各种可选实现方式中提供的方法。其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述计算机可读的存储介质可以被设置为存储用于执行以下步骤的计算机程序：

S1，获取待处理的文本序列；

S2，将文本序列转换为抽象特征序列；

S4，获取与语境向量匹配的音频频谱信息；

S5，利用音频频谱信息合成与文本序列匹配的目标音频。

可选地，在本实施例中，本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(Random Access Memory，RAM)、磁盘或光盘等。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的客户端，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种音频合成方法，其特征在于，包括：

获取待处理的文本序列；

将所述文本序列转换为抽象特征序列；

将所述抽象特征序列输入具有单调性约束条件的权重分配网络，以得到所述抽象特征序列对应的语境向量，其中，所述权重分配网络是基于离散化的混合逻辑分布结构所构建的网络；

获取与所述语境向量匹配的音频频谱信息；

利用所述音频频谱信息合成与所述文本序列匹配的目标音频。

2.根据权利要求1所述的方法，其特征在于，所述获取与所述语境向量匹配的音频频谱信息包括：

在与所述权重分配网络连接的目标频谱生成网络中，获取与所述语境向量匹配的一个或至少两个音频帧的帧频谱信息，其中，所述目标频谱生成网络中配置有计时器，所述计时器用于对所述目标频谱生成网络中所生成的音频频谱信息进行切分，以生成各个音频帧各自对应的所述帧频谱信息。

3.根据权利要求2所述的方法，其特征在于，在与所述权重分配网络连接的目标频谱生成网络中，获取与所述语境向量匹配的一个或至少两个音频帧的帧频谱信息包括：

在所述目标频谱生成网络中依次执行以下操作，以生成所述帧频谱信息：

获取当前从所述权重分配网络接收到的所述语境向量，以及在当前所要生成的当前音频帧之前的上一个音频帧的参考帧频谱信息；

将所述语境向量及所述参考帧频谱信息输入第一预处理子网络和多层长短记忆网络中，以生成所述当前音频帧的当前帧频谱信息。

4.根据权利要求1所述的方法，其特征在于，在所述获取待处理的文本序列之前，还包括：

构建初始声学模型，其中，所述初始声学模型包括：用于提取特征的特征提取网络、初始权重分配网络、初始频谱生成网络；

使用第一样本语料对所述初始声学模型进行预训练，直至达到第一生成收敛条件以得到参考声学模型，其中，所述第一生成收敛条件指示已生成的音频频谱信息与对应的标签频谱信息之间的差异小于第一阈值：

使用第二样本语料对所述参考声学模型进行训练，直至得到第二生成收敛条件以得到目标声学模型，其中，所述第二生成收敛条件指示已生成的音频频谱信息与对应的标签频谱信息之间的差异小于第二阈值，所述第二样本语料的数量小于所述第一样本语料的数量，所述目标声学模型中包括完成训练的特征提取网络、所述权重分配网络及所述目标频谱生成网络。

5.根据权利要求4所述的方法，其特征在于，在所述使用第二样本语料对所述参考声学模型进行训练的过程中，还包括：

获取所述参考声学模型在训练过程中每次得到的频谱训练结果；

在所述频谱训练结果指示调整所述参考声学模型中的各个模型参数的情况下，对处于非冻结状态下的权重分配网络和频谱生成网络中的网络参数进行更新，并对处于冻结状态下的所述特征提取网络中的网络参数保持。

6.根据权利要求4所述的方法，其特征在于，在所述构建初始声学模型之后，还包括：

获取音源对象的发音表征向量；

在对所述参考声学模型进行训练的过程中，将所述音源对象的所述发音表征向量加入到训练中的特征提取网络中的第二预处理网络、所述训练中的特征提取网络中的残差连接网络、训练中的权重分配网络中的门控循环结构以及训练中的频谱生成网络的多层长短记忆网络。

7.根据权利要求4所述的方法，其特征在于，在所述文本序列为中文文本序列的情况下，在所述构建初始声学模型之后，还包括：

获取所述中文文本序列的音调特征；

在对所述参考声学模型进行训练的过程中，将所述音调特征加入到训练中的特征提取网络中的第二预处理网络之后的网络结构中。

8.根据权利要求1所述的方法，其特征在于，所述利用所述音频频谱信息合成与所述文本序列匹配的目标音频包括：

将所述音频频谱信息输入音频对抗生成网络中，以得到所述目标音频，其中，所述音频对抗生成网络中包括用于生成音频的生成子网络和用于判别的判别子网络，所述判别子网络包括：对所述音频频谱信息中的相位信息进行判别的相位判别子网络、对所述音频频谱信息中的周期信息进行判别的周期判别子网络。

9.根据权利要求8所述的方法，其特征在于，在所述获取待处理的文本序列之前，还包括：

使用正样本音频对和负样本音频对对初始音频对抗生成网络进行交叉对抗训练，直至达到收敛条件，其中，所述正样本音频对包括待判别音频和标签音频，所述负样本音频对包括在所述生成子网络中基于待判别音频的音频频谱信息生成的参考音频和所述标签音频；

在训练过程中，使用所述正样本音频对来训练判别子网络，直至训练出的判别子网络达到第一判别条件，其中，所述第一判别条件指示所述判别子网络识别出所述待判别音频为所述标签音频的第一置信度大于第三阈值；

保存所述判别子网络的网络参数；

使用所述负样本音频对来训练所述初始生成子网络，直至所述判别子网络达到第二判别条件，其中，所述第二判别条件指示所述判别子网络识别出所述参考音频为所述标签音频的第二置信度大于第四阈值，根据所述参考音频与所述标签音频之间的傅里叶变换损失，以及所述参考音频与所述标签音频之间的梅尔谱残差损失，调整训练中的生成子网络的网络参数。

10.一种音频合成装置，其特征在于，包括：

第一获取模块，用于获取待处理的文本序列；

转换模块，用于将所述文本序列转换为抽象特征序列；

输入模块，用于将所述抽象特征序列输入具有单调性约束条件的权重分配网络，以得到所述抽象特征序列对应的语境向量，其中，所述权重分配网络是基于离散化的混合逻辑分布结构所构建的网络；

第二获取模块，用于获取与所述语境向量匹配的音频频谱信息；

合成模块，用于利用所述音频频谱信息合成与所述文本序列匹配的目标音频。

11.一种计算机可读的存储介质，其特征在于，所述计算机可读的存储介质包括存储的程序，其中，所述程序运行时执行所述权利要求1至9任一项中所述的方法。

12.一种电子设备，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为通过所述计算机程序执行所述权利要求1至9任一项中所述的方法。