CN112786005A

CN112786005A - 信息合成方法、装置、电子设备和计算机可读存储介质

Info

Publication number: CN112786005A
Application number: CN202011624655.8A
Authority: CN
Inventors: 侯秋侠; 刘丹
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2020-12-30
Filing date: 2020-12-30
Publication date: 2021-05-11
Anticipated expiration: 2040-12-30
Also published as: KR20230127293A; JP2024502049A; EP4273854A1; WO2022141714A1; CN112786005B

Abstract

本发明提供了一种信息合成方法、信息合成装置、电子设备和计算机可读存储介质。根据已训练的自动编解码网络得到第一目标分布，并基于第一目标分布得到目标采样编码；通过已训练的第二编码器对输入信息进行编码，得到输入信息的目标编码；通过已训练的第一解码器根据目标编码对目标采样编码进行解码，得到输出信息。其中，第一目标分布表征从第一编码器输入端到输出端的后验分布，在训练自动编解码网络的过程中，第一编码器与第二编码器的输入样本一一对应，且第二编码器确定的先验分布用于预测第一目标分布。本申请的技术方案可用于语音合成领域，最终合成的语音在韵律、停顿和文字发音等方面具有更好的表现。

Description

信息合成方法、装置、电子设备和计算机可读存储介质

技术领域

本发明涉及机器学习领域，具体的，涉及一种信息合成方法、信息合成装置、电子设备和计算机可读存储介质。

背景技术

近些年，随着信息的发展及人工智能的兴起，人机交互变得越来越重要。其中语音合成是国内外人机交互研究的热点。

传统的语音合成包括前端文本分析、参数预测以及声音编码器(声码器)三个部分。其中前端文本分析主要通过文本信息来预测发音序列、韵律边界等语音特征，通常需要足够多的文本样本以完成对发音规则的积累，同时，其还需要完成对发音时长的预测。经前端文本分析之后，参数预测主要负责预测各种声学参数，然后所得到的预测结果输入声码器中进行声音合成，以得到语音信息。

随着全球化的发展与各国交流的不断深入，多语种合成已经成为信息沟通和人机交互中的越来越重要的部分。传统语音合成中主要采用有前端的处理方式，即，前端文本分析需要专业的语言学技术人员对文本信息进行处理。然而，多语种合成的场景需要掌握不同语言的音素词典和发音规则，在缺少这些音素词典、发音规则的前提下，前端文本分析很难完成对声学前端的建模。在这一背景下，端到端TTS(即文本到语音，text to speech)的多语种合成首选采用“无前端”的处理方式，即通过机器学习的方式来替代语言学技术人员对文本信息进行处理。

由于没有人工的预分析，无前端的处理方式需要为训练语音合成系统提供大量的数据。在传统语音合成领域中，这些数据需要有足够高的音质，以避免负责语音合成的模型因为样本质量不足而无法准确的学习到语音特征和发音规则。但是，符合音质要求的多语种录音数据较难获取。对每个语种来说，可用于合成的录音样本数据在时长上甚至可能只有不到1小时。在这种情况下，只能退而求其次，使用录音质量较差的数据。由于录音质量较差的数据往往来源比较杂，具有较低的数据信噪比低以及潜在的发音错误，很容易使得端到端的语音合成模型在学习的过程中出现错误，最终导致模型出现发音重复、发音错误、发音含糊以及丢音等问题。

因此，如何能够利用数量和质量不理想的录音数据来实现一种高效准确的无前端语音合成方案，是本领域技术人员亟待解决技术问题。

发明内容

有鉴于此，本发明提供了一种信息合成方法、信息合成装置、电子设备和计算机可读介质，以利用数量和质量不理想的录音数据来实现一种高效准确的无前端的语音合成方案。

本发明实施例的第一方面提供了一种信息合成方法，包括：根据已训练的自动编解码网络，得到第一目标分布，其中，所述第一目标分布表征从所述第一编码器输入端到所述第一编码器输出端的后验分布，在训练所述自动编解码网络的过程中，所述第一编码器与所述第二编码器的输入样本一一对应，且所述第二编码器确定的先验分布用于预测所述第一目标分布；基于第一目标分布得到目标采样编码；已训练的所述第二编码器对输入信息进行编码，得到输入信息的目标编码；以及，已训练的所述第一解码器根据所述目标编码对所述目标采样编码进行解码，得到输出信息。

在本申请实施例中，所述信息合成方法还包括：对所述第一编码器、所述第二编码器和所述第一解码器进行训练，得到所述已训练的第一编码器、所述已训练的第二编码器和所述已训练的第一解码器。

在本申请实施例中，在对所述第一编码器、所述第二编码器和所述第一解码器进行训练之前，所述信息合成方法还包括：基于预训练样本组初始化所述第二编码器，其中，所述预训练样本组中各样本的类型与输入信息一致。

在本申请实施例中，对所述第一编码器、所述第二编码器和所述第一解码器进行训练包括：将第一样本组和第二样本组输入所述自动编解码网络，其中，所述第一样本组包含第一样本，所述第一样本的类型与所述输出信息的类型一致，所述第二样本组包含第二样本，所述第二样本的类型与所述输入信息的类型一致，且所述第二样本与所述第一样本一一对应；以及，调整所述第一编码器、所述第二编码器、所述第一解码器的参数，直到所述自动编解码网络对所述第一样本组的重构损失符合预设条件。

在本申请实施例中，所述重构损失根据以下步骤获得：所述第一编码器根据各第一样本确定第一分布参数，其中，所述第一分布参数用于表征第一编码的第一分布，且所述第一编码为所述第一样本的编码；基于所述第一分布参数得到各第一样本的采样编码；所述第二编码器对所述第二样本组进行编码，得到所述第二样本的第二编码；根据所述第二编码得到第二分布参数，其中，所述第二分布参数用于表征所述第二编码的第二分布，且所述第二样本的第二编码对应于所述第一样本的第一编码；基于所述第一分布参数和所述第二分布参数，得到所述第一分布和所述第二分布的第一差异程度；所述第一解码器根据各第一样本对应的第二样本的第二编码对该第一样本的采样编码进行解码，得到该第一样本的重构样本，其中，各第一样本的所述重构样本构成重构样本组；基于所述第一样本组和所述重构样本组，得到所述第一样本组和所述重构样本组的第二差异程度；以及，基于所述第一差异程度和所述第二差异程度，得到所述重构损失。其中，所述已训练的第一编码器的参数为所述重构损失满足预设条件时的所述第一编码器的参数，所述第一目标分布为所述重构损失满足所述预设条件时的所述第一分布。

在本申请实施例中，所述预设条件为：所述重构损失为最小值；或者，所述重构损失小于预设值。

在本申请实施例中，在调整所述第一编码器、所述第二编码器、所述第一解码器的参数，直到所述第一样本组的重构损失符合预设条件的过程中，第一比重的所述第一差异程度在梯度回传时回传至所述第一编码器且不回传至第二编码器，第二比重的所述第一差异程度在梯度回传时回传至所述第二编码器且不回传至第一编码器，且所述第一比重小于所述第二比重。

在本申请实施例中，所述第一差异程度为所述第一分布和所述第二分布的相对熵。

在本申请实施例中，所述第一分布与所述第二分布为同类型的概率分布。

在本申请实施例中，所述第一编码器为条件变分自动编码器的编码端，所述第一解码器为条件变分自动编码器的解码端。

在本申请实施例中，所述第二编码器为基于变换器的双向编码器表示模型。

在本申请实施例中，所述输入信息为文本，所述输出信息为语音。

在本申请实施例中，所述第一解码器根据所述语音中已解码的历史输出信息与所述文本中的上下文文本来确定下一帧的语音信息。

在本申请实施例中，在对所述第一编码器、所述第二编码器和所述第一解码器进行训练时，所述第一编码器和所述第二编码器无需输入音素以及人工提取的文本特征。

本发明实施例的第二方面提供了一种信息合成装置，应用于包含第一编码器、第二编码器和第一解码器的自动编解码网络。该信息合成装置包括：分布获取模块，用于根据已训练的自动编解码网络，得到第一目标分布，其中，所述第一目标分布表征从所述第一编码器输入端到所述第一编码器输出端的后验分布，在训练所述自动编解码网络的过程中，所述第一编码器与所述第二编码器的输入样本一一对应，且所述第二编码器确定的先验分布用于预测所述第一目标分布；采样模块，用于基于第一目标分布得到目标采样编码；编码模块，用于通过已训练的所述第二编码器对输入信息进行编码，得到输入信息的目标编码；以及，解码模块，用于通过已训练的所述第一解码器根据所述目标编码对所述目标采样编码进行解码，得到输出信息。

在本申请实施例中，所述信息合成装置还包括：训练模块，用于对所述第一编码器、所述第二编码器和所述第一解码器进行训练，得到所述已训练的第一编码器、所述已训练的第二编码器和所述已训练的第一解码器。

在本申请实施例中，所述信息合成装置还包括：初始化模块，用于基于预训练样本组初始化所述第二编码器，其中，所述预训练样本组中各样本的类型与输入信息一致。

本发明实施例的第三方面提供了一种电子设备，包括存储器和处理器，所述存储器存储有指令，当所述指令被所述处理器运行时，所述设备执行前述任一信息合成方法。

本发明实施例的第四方面提供了一种非暂态计算机可读存储介质，所述存储介质存储有指令，当所述指令被所述处理器运行时，执行前述任一信息合成方法。

本申请实施例提供的语音合成方法和语音合成装置，根据已训练的自动编解码网络得到第一目标分布，并基于第一目标分布得到目标采样编码；通过已训练的第二编码器对输入信息进行编码，得到输入信息的目标编码；通过已训练的第一解码器根据目标编码对目标采样编码进行解码，得到输出信息。其中，第一目标分布表征从第一编码器输入端到输出端的后验分布，在训练自动编解码网络的过程中，第一编码器与第二编码器的输入样本一一对应，且第二编码器确定的先验分布用于预测第一目标分布。由此，解码后的输出信息与输入信息的对应关系能够高度还原(或者模拟)训练样本中第一编码器和第二编码器的输入样本之间的对应关系，从而使得所获得的输出信息能够很好的对应输入信息。本方案在语音合成领域，特别是多语种语音合成领域，能够放宽对语音样本质量的限制，从而获得大量的训练样本，使得最终合成的语音在韵律、停顿和文字发音等方面具有更好的表现。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例中一种信息合成方法的流程示意图；

图2为本申请实施例中另一种信息合成方法的流程示意图；

图3为本申请实施例中又一种信息合成方法的流程示意图；

图4为本申请实施例中训练第一解码器、第二解码器和第一编码器的信息流示意图；

图5为本申请实施例中利用已训练的第一解码器、第二解码器和第一编码器进行信息合成的信息流示意图；

图6为本申请实施例中一种信息合成方法在语音合成应用场景下的信息流示意图；

图7为本申请实施例中又一种信息合成方法的流程示意图；

图8为本申请实施例中一种信息合成装置的结构示意图；

图9为本申请实施例中另一种信息合成装置的结构示意图；

图10为本申请实施例中又一种信息合成装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以下首先对本发明所使用的一部分术语进行介绍。

编码器(encoder)：即自动编码器(Autoencoder)结构中的编码侧，用于将输入映射为编码(也成隐变量、隐藏表示)。

解码器(decoder)：即自动编码器结构中的解码侧，用于将编码映射为输出，通常情况下，该输出在一定程度上是对编码侧输入的重构。

Tacotron模型：一种基于注意力(Attention)机制的端到端常规语音合成模型，能够基于文本直接生成语音。

BERT模型：即基于变换器的双向编码器表示模型(Bidirectional EncoderRepresentations from Transformers)，是一种使用深度双向的无监督的语言表示、且仅使用纯文本语料库进行预训练的模型，属于自然语言处理的预训练技术，由谷歌公司(Google Inc.)与2018年提出，其主要目的是理解用户搜索语句的含义，抽取文本中包含的韵律信息。

VAE模型：即条件变分自动编码器(Variational Autoencoder)，是一种基于自动编码器结构的生成模型，其对隐变量分布进行强假设，使用变分方法来学习隐藏表示，从而在训练函数中引入额外的损失分量和SGVB(随机梯度变分贝叶斯，Stochastic GradientVariational Bayes)估计量。

本申请实施例的一个方面提供了一种信息合成方法。在本实施例中，上述信息合成方法可应用于包含第一编码器、第二编码器和第一解码器模型的自动编解码网络。该自动编解码网络可以通过硬件、软件、或两者的结合来实施。比如，该自动编解码网络可存在于由服务器和终端所构成的硬件环境中，服务器和终端之间通过网络进行连接，该网络包括但不限于局域网、城域网或广域网。此时，以上编码器和解码器可通过运行在服务器和终端上的软件来实现，或者通过内嵌于服务器和终端上的硬件中的命令来实现。需要注意的是，以上编码器和解码器也可全部运行在服务器或者终端上，本实施例对此不做限制。

下面结合图1所示的步骤进一步描述上述信息合成方法，图1是本申请实施例中一种信息合成方法的流程示意图。如图1所示，该信息合成方法包括：

S101，根据已训练的自动编解码网络，得到第一目标分布。其中，第一目标分布表征从第一编码器输入端到第一编码器输出端的后验分布，在训练所述自动编解码网络的过程中，第一编码器与第二编码器的输入样本一一对应，且第二编码器确定的先验分布用于预测第一目标分布。

在本步骤中，首先从已训练好的自动编解码网络获取第一目标分布。通常情况下，第一目标分布可根据自动编码网络中的第一编码器部分得到，也可以根据第二编码器部分得到。第一编码器和第二编码器可以为人工神经网络模型，其可以包含例如一个或多个卷积层和/或池化层，以提取输入其中的信息的特征。此时，第一目标分布可视为编码器所提取的特征的分布，其具体的形式由第一编码器和/或第二编码器的模型确定。

第一目标分布可以是预设类型的分布。比如，如果预设的分布为正态分布(也称为高斯分布)，那么所获取的参数中可包含该正态分布的期望和标准差，或者所获取的参数经过运算之后可获得该正态分布的期望和标准差。当然，预设类型的分布也可以是其他类型的分布，只要能够通过第一编码器和/或第二编码器确定其表达即可。通常情况下，该第一目标分布是一个多维的分布。

可以理解，训练自动编解码网络的过程中包含训练第一编码器和第二编码器的过程，即，第一编码器和第二编码器的参数被迭代调整。在训练过程中，第一编码器的输入样本与第二编码器的输入样本一一对应，是为了保证自动编解码网络在后续的重构过程中所生成的输出信息与第二编码器的输入信息相对应。第一编码器通过对其输入样本进行编码，可以提取输入样本中的特征，提取的特征相对输入样本的条件概率服从一个依赖于第一编码器模型的后验分布，即从第一编码器输入端到输出端的后验分布。第二编码器通过对其输入样本进行编码，可以提取输入样本中的特征，这些特征会服从一个由输入样本和第二编码器的参数所决定的先验分布。在训练中通过第二编码器来预测第一目标分布，即通过不断调整第二编码器和第一编码器的参数，使得该先验分布与从第一编码器输入端到输出端的后验分布相互近似，比如使二者尽可能相同。需要注意，这里“尽可能相同”可以指两者的差异低于某一阈值，也可以指两者的差异在特定区间内取得最小值，也可以指在训练过程中两者的差异在一定迭代步数内取得最小值，本申请的具体实施方式不限于此，可根据实际应用需求来确定。

在训练过程结束后，可根据已训练的第一编码器和/或第二编码器确定的第一目标分布。相应的，在本步骤中通过这些参数即可得到训练过程中所确定的第一目标分布。

在一种可能的实现方式中，该第一编码器模型为VAE模型。可以理解，该第一编码器模型也可以为其他包含神经网络层的编码器模型，此处不对其具体形式进行限定。

S102，基于第一目标分布，得到目标采样编码。

在步骤S101中获取第一目标分布之后，可以通过第一目标分布执行随机采样的操作，以获得采样编码。当然，也可以直接使用第一目标分布的参数，例如均值，来得到目标采样编码，具体可以是对该参数进行采样编码，得到目标采样编码。可以理解，当第一目标分布为多维分布时，得到的采样编码是一个向量。

S103，已训练的第二编码器对输入信息进行编码，得到输入信息的目标编码。

将输入信息输入第二编码器，从而使得第二编码器能够对输入信息进行编码。第二编码器可以是人工神经网络模型，其可以包含例如一个或多个卷积层和/或池化层，此时对输入信息进行编码的过程相当于从中提取相应的特征。比如，当输入信息为语音时，可以从中提取声音的韵律、停顿、基频等声音特征；当输入信息为文本时，可以从中提取文本的断句、分词、语义等文本特征；而当输入信息为图片时，可以从中提取图片中的形状、色彩、特定目标物体等图片特征。所得到的目标编码可反映所提取的特征的强度等信息。

在一种可能的实现方式中，该第二编码器模型为BERT模型。此时，输入信息可以为文本。

需要注意，本实施例中并不限定得到目标采样编码和得到目标编码的先后顺序，即不限定步骤S101、S102与S103之间的执行顺序。在一种实施方式中，可以在获得目标采样编码之后再获取目标编码，即先执行步骤S101和S102再执行步骤S103。在另一种实施方式中，可以在获得目标编码之后再获取目标采样编码，即先执行步骤S103再执行步骤S101和S102。在又一种实施方式中，可以同时获取目标采样编码和目标编码，即在执行步骤S101和S102的过程中同步执行步骤S103。

例如，可以是先得到输入信息的目标编码，进而目标编码通过输入全连接层得到第一目标分布的参数，对第一目标分布的参数进行拟合得到第一目标分布；对第一目标分布采样得到目标采样编码。或者，可以直接通过目标编码得到第一目标分布，然后对第一目标分布采样得到目标采样编码。

S104，已训练的第一解码器根据目标编码对目标采样编码进行解码，得到输出信息。

在获得目标编码和目标采样编码之后，可以将其输入第一解码器来完成解码过程。由于解码的对象是通过第一目标分布采样获得的目标采样编码，且该第一目标分布所表征的是第一编码器输入端到输出端的后验分布，所以该输出信息实际上是第一解码器参照第一编码器在训练过程中的输入样本所重构出的新样本，该新样本与第一编码器的在训练时的输入样本具有相同的类型。同时，根据目标编码进行解码可以理解为该解码的过程以目标编码作为条件。目标编码是通过第二编码器对输入信息进行编码而获得的，因此该输出信息实际上受到输入信息的约束，即与该输入信息对应。由于在训练过程中第一编码器和第二编码器的输入是一一对应的，且使用了第二编码器编码后获得的先验分布对第一目标分布进行了预测，此时解码后的输出信息与输入信息的对应关系能够高度还原(或者模拟)训练样本中第一编码器和第二编码器的输入样本之间的对应关系。即，所获得的输出信息能够很好的对应输入信息。

在本申请实施例中，上述信息合成方法可应用于语音合成技术。所述输入信息为文本，所述输出信息为语音。相应的，第一编码器和第二编码器为声码器的编码侧，所述第一解码器为声码器的解码侧。在训练过程中，可以将一一对应的语音样本和文本样本分别输入第一编码器和第二编码器，以分别提取语音特征和文本特征。通过第二编码器使用文本特征的先验分布来预测从语音到语音特征的后验分布，使得从训练后的自动编解码网络得到的第一目标分布与文本特征的分布近似。

在传统的端到端语音合成方案中，比如Tacotron模型，其基于注意力机制的语音合成会收到语音样本中噪音的干扰，从而对录音质量提出了很高的要求，限制了能够获取到的训练样本数量，最终会影响训练结果。在本申请实施例中的技术方案中，由于文本样本中不存在语音噪音，在训练中基于文本特征的先验分布预测第一目标分布可以有效屏蔽语音样本中的噪音对最终生成的语音的干扰，从而获得高质量的合成语音。这样，在训练时就能够放宽对语音样本质量的限制，从而获得大量的训练样本，使得训练后的模型在生成语音的韵律、停顿和文字发音等方面具有更好的表现。由于多语种语音合成对各个语言的样本质量均有较强的依赖，该优点在多语种语音合成技术中会更加明显。

在一种实施方式中，第一编码器和第一解码器分别为VAE模型的编码侧模型和解码侧模型，第二编码器的编码结果可作为标签来约束第一解码器的解码过程，即与第一编码器、第二编码器和第一解码器在整体上构成CVAE(条件变分自动编码器，ConditionalVariational Autoencoder)结构。

在一种实施方式中，第二编码器为BERT模型。传统的无前端音合成方案(比如Tacotron模型)的前端处理比较简单，往往使用卷积层和长短期记忆网络，该结构框架简单，虽然在前端输入为音素或者人工提取文本特征时能够取得不错的结果，但在无前端时仅能依靠通常几百小时的音频和对应文本作为训练样本，难以理解文本含义和捕捉语句的韵律信息。相比之下，经过大量文本的预训练，BERT模型可以在多语种文本分析上获得很高的评分，尤其是在语义理解、语义表示等任务上有突出的表现，因此能够很好的克服传统的无前端音合成方案的缺点。

综上，通过本申请实施例提供的信息合成方法，根据已训练的自动编解码网络的参数得到第一目标分布，并基于第一目标分布采样得到目标采样编码；通过已训练的第二编码器对输入信息进行编码，得到输入信息的目标编码；通过已训练的第一解码器以目标编码作为解码条件，对目标采样编码进行解码，得到输出信息。其中，在训练过程中，第一编码器与第二编码器的输入样本一一对应，且第二编码器用于预测第一目标分布。由此，解码后的输出信息与输入信息的对应关系能够高度还原(或者模拟)训练样本中第一编码器和第二编码器的输入样本之间的对应关系，从而使得所获得的输出信息能够很好的对应输入信息。本方案在语音合成领域，特别是多语种语音合成领域，能够放宽对语音样本质量的限制，从而获得大量的训练样本，使得最终合成的语音在韵律、停顿和文字发音等方面具有更好的表现。

图2是本申请实施例中另一种信息合成方法的流程示意图。在图1所示流程的基础上，该信息合成方法进一步包括：

S105，对第一编码器、第二编码器和第一解码器进行训练，以得到已训练的第一编码器、已训练的第二编码器和已训练的第一解码器。

从对S101的描述中可以看出，在将自动编解码网络应用于信息合成之前，可首先对其进行训练。通常来说，训练的目的是为了学习编码和解码的映射网络函数，以寻找一个较优或者最优的编解码网络。在训练中，通常会将训练样本输入自动编解码网络，而后根据训练目标对第一编码器、第二编码器和第一解码器的参数进行迭代调整，直到自动编解码网络符合与训练目标相关的预设条件。

在一种实现方式中，上述训练目标可以设定为减小自动编解码网络对样本的重构损失。相应的，上述预设条件具体为自动编解码网络对样本的重构损失符合预设条件。如图3所示，此时步骤S105还可以进一步包括：

S1051，将第一样本组和第二样本组输入所述自动编解码网络。其中，所述第一样本组包含第一样本，所述第一样本的类型与所述输出信息的类型一致，所述第二样本组包含第二样本，所述第二样本的类型与所述输入信息的类型一致，且所述第二样本与所述第一样本一一对应。

可以理解，自动编解码网络中的各个部分(如第一编码器、第二编码器和第一解码器)信息合成过程和训练过程中承担了相似的功能，各自的输入端和输出端在这两个过程中也会对应相同类型的信息。所以，第二编码器在训练过程中输入的第二样本与在信息合成过程输入的输入信息类型一致。虽然在信息合成过程中可能未直接使用第一编码器的输入端，但在信息合成时，自动编解码网络的解码端(即第一解码器)对目标采样编码进行解码以获取输出信息，其本质上是对第一编码器输入侧进行模仿以重构出新样本。也就是说，该新样本(即输出信息)需要与输入第一编码器的样本类似，即需要属于同一类型，如同为语音、文本、图片等。因此在训练过程中，输入第一编码器的第一样本也需要同属于这一类型，以便自动编解码网络对第一样本组进行重构。

S1052，判断自动编解码网络对第一样本组的重构损失是否符合预设条件。如符合预设条件，则按照前述实施例执行步骤S101至S104。如不符合预设条件，则执行步骤S1053。

S1053，调整所述第一编码器、所述第二编码器、所述第一解码器的参数。在执行完步骤S1053之后，返回步骤S1052进行判断。

在一种实施方式中，预设条件设定为重构损失达到最小值。可以理解，这里的最小值可以指重构损失在第一编码器、第二编码器、第一解码器的全部参数取值空间内的最小值，也可以指在重构损失在第一编码器、第二编码器、第一解码器的部分参数取值空间内的最小值，还可以指在预设的迭代步数之内所取得的最小值。本申请实施例不限定于此，可根据实际应用环境按需调整。

在一种实施方式中，预设条件设定为重构损失小于(或者小于等于)预设值。也就是说，只要重构损失降低到某一阈值，即判断其已满足预设条件，从而结束训练步骤。

由此可见，步骤S1052和S1053在整体上通过迭代循环实现了调整第一编码器、第二编码器、第一解码器模型的参数，直到自动编解码网络对第一样本组的重构损失符合预设条件。

需要注意，在实际应用中，如果多次信息合成的应用场景相似，自动编解码网络可仅在首次信息合成时进行训练，在后续的合成中继续使用已训练好的自动编解码网络。另外，也可以针对特定类型的应用场景记录下训练好的第一编码器、第二编码器和第一解码器的参数，在每次对应的信息合成中直接使用这些参数，而不需要每次都重复训练。也就是说，在图1所对应的实施例中，可能在语音合成开始时第一编码器、第二编码器和第一解码器的参数已经预先通过训练调整至符合应用需求的状态，从而不需要执行步骤S105。

上述重构损失是在训练中用来判断训练过程是否可以结束的指标。在一种实施方式中，重构损失可以通过以下方式获得，如图4所示。图4为本申请实施例中训练第一解码器、第二编码器和第一编码器的信息流示意图，其中实线箭头表示从第一样本组和第二样本组获得重构损失的信息流，虚线箭头所表示根据重构损失反馈调整第一解码器、第二编码器和第一编码器的信息流，实线框用于示意性的表示信息流中的参数(比如标量、向量、矩阵等)，虚线框用于示意性的表示对参数进行运算的操作(比如函数、模型等)。

请参考图4中的实线箭头部分，即获得重构损失的过程。首先，第一编码器根据各第一样本确定第一分布参数。其中，第一分布参数用于表征第一编码的第一分布，且第一编码为第一样本的编码。这里的第一分布可以视为训练过程中第一目标分布的中间状态。类似的，该第一分布可以理解为从第一样本到第一编码的后验分布，通常为预设的分布类型。在实际应用中，第一编码器可先对各第一样本进行编码，得到代表第一样本的第一编码，然后根据每个第一样本的第一编码来确定该后验分布的第一分布参数。具体的，可以通过第一编码器中内嵌的一个或多个全连接层根据第一编码来获得该第一分布参数。当该第一分布参数包含多个元素(例如均值、方差等)，每个全连接层可用于获得其中一个元素。通常情况下，该第一分布是一个多维分布，其维度对应了第一样本组中第一样本的数量(也即第二样本组中第二样本的数量)。

在得到第一分布之后，会执行与信息合成过程类似的步骤。首先，基于第一分布，得到各第一样本的采样编码。同时，第二编码器对第二样本组进行编码，得到第二样本的第二编码。然后，根据第二编码得到第二分布参数。具体的，可以通过第二编码器中内嵌的一个或多个全连接层根据第二编码来获得该第二分布参数。当该第二分布参数包含多个元素(例如均值、方差等)，每个全连接层可用于获得其中一个元素。其中，第二分布参数用于表征第二编码的第二分布，且第二样本的第二编码对应于第一样本的第一编码。这里的第二编码代表了第二编码器从第二样本中所提取的特征，第二分布直接由第二样本决定，实质上为第二编码的先验分布。接下来，第一解码器以各第一样本对应的第二样本的第二编码为条件，对该第一样本的采样编码进行解码，以得到该第一样本的重构样本。各第一样本的重构样本构成重构样本组。

可以理解，为了在信息合成过程中输入信息能够较好的对输出信息进行约束，需要用第二分布对第一目标分布进行预测，因此第二样本的第二编码需要对应于所述第一样本的第一编码。比如，当第一样本和第二样本分别为对应的语音样本和文本样本时，第二编码中代表句间停顿的分量可对应于第一编码中代表文本分句的分量。

接下来计算重构损失。首先，基于第一分布参数和第二分布参数，得到第一分布和第二分布的第一差异程度。可以理解，训练过程中的一个重要目标即使用第二分布去预测最终的第一分布(即第一目标分布)，因此两者之前的差异是用于评价训练结果的重要参数。这里的第一差异程度可以通过第一差异函数进行计算，该计算的形式包含但不限于差值计算、分布参数的均方误差计算、相对熵计算、交叉熵计算等，本申请实施例对此不作限制，只要能反映两个分布的差异即可。

同时，基于第一样本组、重构样本组和第二差异函数，得到第一样本组和重构样本组的第二差异程度。可以理解，第一解码器的重要任务即生成与第一样本类似的新样本，因此重构的还原程度同样是评价损失的重要参数。这里的第二差异程度可以通过第二差异函数进行计算，该计算的形式包含但不限于差值计算、分布参数的均方误差计算等，本申请实施例对此不作限制，只要能反映两个样本组的差异即可。

最后，基于第一差异程度和第二差异程度，得到重构损失。也就是说在重构损失中需要同时考虑第一分布和第二分布的差异，以及第一样本组和第二样本组的差异。这里的重构损失可以通过重构损失函数进行计算，该计算的形式包含但不限于加和、相乘、加权、指数运算等，本申请实施例对此不作限制，只要重构损失与第一差异程度和第二差异程度均成正相关即可。

在一种实施方式中，为了便于计算第一差异程度，第一分布和第二分布可以采用相同类型的分布。例如，第一分布和第二分布均采用正态分布，此时，第一分布参数可以包含第一分布的期望与方差，第二分布参数可以包含第二分布的期望与方差。

接下来请参考图4中的虚线箭头部分，即反馈重构损失的过程。在反馈时，重构损失可以同时反馈至第一编码器(反馈A)、第二编码器(反馈B)和第一解码器(反馈C)。其中，反馈A、反馈B和反馈C可以相同也可以不同，即重构损失可以以相同的形式反馈，也可以以不同的形式反馈(比如反馈重构损失函数的不同部分，或反馈基于重构损失的不同运算结果)。由于训练是一个迭代的过程，每次判定计算得到的重构损失不符合预设条件时，都要依据这次得到的重构损失来判断如何对自动编解码网络的参数进行调整。在一种实施方式中，反馈是通过重构损失的梯度回传来实现的，即基于本次得到的重构损失与上次得到的重构损失得到重构损失的变化梯度，并将梯度反馈到自动编解码网络，作为调整第一编码器、第二编码器和第一解码器参数的依据。

在上述过程中，降低重构损失会伴随降低第一差异程度。由于第一编码器和第二编码器的参数均可能依据回传的梯度进行调整，第一差异程度的减小本质上即第一分布和第二分布相互靠近的过程，即从第一样本组到第一特征的后验分布和第二样本组的第二特征的先验分布相互靠近的过程。如前所述，信息合成的目的本质上是在输入信息的控制下重构出类似于第一样本的输出信息，因此训练过程的目的是为了让自动编解码网络在先验分布的限制之下让后验分布从第一样本组中学习到尽可能多的信息。所以，如果训练时先验分布对后验分布限制过强(即第一分布向第二分布靠近的程度过多，第二分布向第一分布靠近的程度过少)，最终得到的后验分布会与因为过于偏向先验分布导致学习到的有用信息过少。

为了解决上述问题，在一种实施方式中可对重构损失进行处理之后再执行梯度回传。比如，可将重构损失分为第一部分和第二部分：第一部分的重构损失相对第二分布(即相对第二解码器的参数)梯度断掉不回传梯度，即其该部分的重构损失的梯度变化不影响对第二解码器参数的调整；第二部分的重构损失相对第一分布(即相对第一解码器的参数)梯度断掉不回传梯度，即该部分的重构损失的梯度变化不影响对第一解码器参数的调整。此时，即可通过控制第一部分和第二部分在重构损失中所占的比重，来控制第一分布和第二分布在训练中向彼此靠近的程度。通常情况下，预设第一部分在重构损失中所占的比重大于第二部分，以防止第一分布一味地靠近第二分布而损失对第一样本组中有用信息的学习。

在训练过程完成之后，即得到符合预设条件的重构损失之后，即可获得已训练的第一编码器、第二编码器和第一解码器。接下来可执行前述步骤S101至S104所示的信息合成过程，此时，可基于已训练的第一编码器和/或第二编码器的参数和/或第一和/或第二编码器对应的输入来确定第一分布参数，即，可将最终的第一分布作为第一目标分布。

与图4所示的训练过程相对应，图5为本申请实施例中利用已训练的第一解码器、第二编码器和第一编码器进行信息合成的信息流示意图。如图5所示，在信息合成过程中，根据已训练的自动编解码网络(图5中为根据已训练的第一编码器)确定第一目标分布之后，可依据第一目标分布采样，得到目标采样编码。例如，第一分布是正态分布，那么第一目标分布显然同样是正态分布，目标采样编码即为从该正态分布中采样所得到的一个样本。可以理解，虽然图5示出从已训练的第一解码器的参数中获得第一目标分布，但由于此时第一分布和第二分布经过训练过程已经相互靠近到符合预设条件的程度，也可以基于已训练的第二编码器获得第一目标分布，其效果是相似的。例如，文本信息输入第二编码器，第二编码器得到文本编码，文本编码经过全连接层得到的参数作为第一目标分布的参数，通过第一目标分布的参数拟合得到第一目标分布。

同时，已训练的第二解码器对输入信息进行编码，以得到对应输入信息的目标编码。然后，将目标编码和目标采样编码同时输入第二解码器，使得第二解码器以第一编码为条件对目标采样编码进行解码，以得到输出信息。例如，第二解码器对应条件变分自动解码器的解码端，此时目标编码可作为标签参与解码过程。可以理解，输出信息一方面与输入信息相对应，另一方面是与第一样本相似的新信息，与第一样本具有相同的类型，也就是说，此时自动编解码网络完成了信息合成的过程。

为了便于清楚的理解前述信息合成方法，以下将以语音合成应用场景为例，描述本申请的具体实施例。图6为本申请实施例中一种信息合成方法在语音合成应用场景下的信息流示意图。在本实施例中，输入信息、第二样本均设定为文本类型的信息，即文本输入Y，输出信息f(z,Y’)、第一样本均设定为语音类型的信息，即第一样本为语音输入X。自动语音编码网络设定为采用Tacotron解码框架和变换器(Transformer)编码框架，具体的，第一编码器设定为VAE编码器的编码端，第二编码器设定为BERT编码器，第一解码器为VAE编码器对应的解码端，与VAE编码端和BERT编码器的输出构成CVAE结构。在上述结构中，VAE编码端主要承担了增加语音合成过程的韵律和稳定性的功能，BERT编码器主要承担了文本语义理解、捕捉文本语句韵律的功能。

首先来看图6中的训练过程。在本实施例中，训练自动编解码网络时可无需向第一编码器和第二编码器输入音素和人工提取的文本特征，仅需输入一一对应第一样本和第二样本，即文本-语音样本对<y,x>，其中y为输入的文本(第二样本组Y中的第二样本)，x为输入的语音(第一样本组X中的第一样本)。通常，x的形式可以为语音波形文件(wave文件)或者根据wave文件提取的基频倒谱特征。

本实施例中，VAE编码端基于X确定第一分布参数，进而确定出从第一样本到第一编码的后验分布，可表示为Q(Z|X)，其中Z表示X的经过VAE编码端之后的隐层特征，即第一编码Z＝VAE_encoder(X)。BERT编码器根据Y获得第二编码Y'，然后可对第二编码的分布按照预定的分布类型进行拟合，获得第二分布参数，进而确定出第二编码的先验分布，可表示为P(Z'|Y)，其中Z'表示Y经过BERT编码器之后的第二编码，由于第二编码Z'与第一编码Z相互对应，因此P(Z'|Y)也可以理解为P(Z|Y)，即第一编码Z的先验分布。

在一种实施方式中，第一分布和第二分布均为正态分布，即：

Q(Z|X)＝N₁(μ₁(X),Σ₁(X))，P(Z|Y)＝N₂(μ₂(Y),Σ₂(Y))。

此时，第一分布参数包含期望μ₁(X)和方差Σ₁(X)，通常情况下这里的μ₁(X)和Σ₁(X)可以表现为向量的形式，其包含的元素数量等于第一样本组X中第一样本x的数量，即每个x均可对应的一个方差和一个期望。类似的，第二分布参数包含μ₂(Y)和方差Σ₂(Y)。

在获得第一分布和第二分布之后，可以获得第一差异程度，本实施例中设定为第一分布和第二分布的相对熵，用KL(Kullback-Leibler)散度的形式来表示，例如，第一差异函数可如公式(1)所示。

L₁＝D_KL(Q(Z|X)||P(Z|Y)) (1)

其中，D_KL表示求KL散度。当第一分布和第二分布均为正态分布时，公式(1)可表示为L₁＝D_KL(N₁(μ₁(X),Σ₁(X))||N₂(μ₂(Y),Σ₂(Y)))。

然后，可根据N₁采样得到对应于X的一组隐层特征Z。可将Y'作为标签输入解码端，控制其对该隐层特征Z进行解码，以得到自动编解码网络重构的X，即重构样本组f(Z,Y')。可以理解，在解码过程中Y'中对应每个第二样本y的第二编码y'所控制的是对该第二样本y所对应的第一样本x的重构，因此，f(Z,Y')中的重构样本数量与X中的第一样本数量一致。此时，可以获得第二差异程度，本实施例中可设定为第一样本组与重构样本组之间的均方误差(Mean Square Error)，例如，第二差异函数可如公式(2)所示。

L₂＝MSE(X,f(Z,Y'))＝||X-f(Z,Y')||² (2)

其中，MSE表示求均方误差。

因此，可以将自动编解码网络的整体重构损失L表示为：

L＝L₁+L₂＝D_KL(Q(Z|X)||P(Z|Y))+||X-f(Z,Y')||² (3)

上述重构损失中，L₂中均方误差的约束有助于VAE编码端从第一样本组X中学习到有助于语音合成的信息(比如韵律)，而L₁中KL散度的约束可以使得VAE编码端在学到有助于合成的信息的同时受到分布上的限制。可以理解，上述虽然将L表示为L₁和L₂的和，但本申请实施例不限于此，实际应用中还可以采用其他的形式，比如L₁和L₂的乘积、L₁和L₂的加权等等，只要L与L₁和L₂均成正相关即可。

在得到重构损失L之后，可利用梯度回传将L反馈至自动编解码网络，以供其对第一编码器、第二编码器和第一解码器进行调整。在一种实施方式中，为了避免先验分布对后验分布的过度限制，可将重构损失L中的L₁分为两部分参与梯度回传，即：

L＝α·D_KL(Q(Z|X)||sg(P(Z|Y)))+β·D_KL(sg(Q(Z|X))||P(Z|Y))+||X-f(Z,Y')||²(4)

其中，α和β分别表示两项KL散度的在L₁中的比重，除去比重的区别，两项KL散度的大小相同。其中，sg表示梯度断掉不回传梯度，即sg后括号内的分布在反馈过程中不受该项梯度变化的影响。因此，上述公式中的第一项KL散度表示后验分布向先验分布的靠近程度，该项回传至第一编码器(即VAE编码端)用于对其进行参数调整，不回传至第二编码器(即BERT编码器)。上述公式中的第二项KL散度表示先验分布向后验分布的靠近程度，该项回传至第二编码器用于对其进行参数调整，不回传至第一编码器。以上三项共同构成重构损失函数的共训模型。可以理解，第二编码器在训练过程中主要的需求是从第一样本中学习规律，以在合成过程中将该规律充分应用于基于输入信息的样本重构中，所以通常情况下需要让先验分布更多的向后验分布靠近。为了使得后验分布向先验分布靠近的程度小于先验分布向后验分布靠近的程度，通常设置α<β，比如10α＝β。

以上训练过程与现有的语音合成方法至少有两处较大的区别。

首先，传统的语音合成方法(比如Tacotron)使用简单的编码-解码模型来预测组中的输出，通常解码端要根据编码端编码之后的上下文文本C以及已经解码获得的历史语音帧序列x₁,x₂,…,x_T-1来预测当前语音帧x_T，即

其中P_θ表示从前一语音帧到后一语音帧的条件概率。然而，使用的语音数据往往包含大量的噪音还有潜在的发音错误，大大增加了数据的不确定性，而且这种不确定性较难用对应的文本数据描述，上述简单的编码-解码模型无法吸收这些噪音和发音错误，导致模型学习的难度加大。相比之下，本申请实施例中的第一编码器(例如VAE编码端网络)可以利用对第一分布来模拟这些噪音和发音错误，甚至还可以模拟通常难以建模的韵律，因此在预测语音帧时除了使用历史序列和上下文文本C提供的韵律之外，还能进一步使用第一编码器提供给的隐层特征Z来学习这些噪音、发音错误和韵律，即当前语音帧可近似表示为

从而降低模型的学习难度。可以理解，当本申请的技术方案应用于其他领域时，输入信息和输出信息可以为其他类型的信息，此时上述历史语音帧序列可以替换为相应的历史输出信息，这里不再一一赘述。

其次，在传统的VAE模型中，即使后验分布假设为正态分布，先验分布也往往会在使用标准正态分布来对后验分布进行预测，即使用N(0,1)。这导致在预测后验分布之后，送入解码端的输入为零或者接近零，这样虽然可以去除一部分噪声，但隐层特征Z中所包含的韵律信息也会丢失，导致合成的结果中虽然叫噪声较少但韵律起伏也很低。相比之下，本申请实施例中利用第二编码器对第二样本进行编码，而后利用编码结果获得的先验分布对后验分布进行预测，由于该先验分布包含了与语音数据对应的文本特征，保留了与语音对应的韵律起伏，从而避免了在去除噪声的同时损失语音的韵律信息。

接下来看图6中的语音合成过程。图6中虚线框内的语音合成部分大致描述了该过程。在语音合成时，由于第一解码器(即VAE解码端)没有真实的x输入，所以无法如训练过程中那样基于X来得到第一分布。此时，直接使用经过先验分布预测的第一目标分布来采样得到目标采样编码Z(即隐藏特征Z)，该目标采样编码Z和第二编码器(即BERT编码器)编码文本Y产生的目标编码Y'一起输入解码端，通过解码合成对应于Y的语音f(Z,Y')。可以理解，此时采样得到的目标采样编码Z仍然可视为语音信号的隐藏特征，而第二编码器是处理的是文本输入，因此Z中包含了一些第二编码器所不能处理的韵律和噪音信息。所以，后验分布从先验分布中所学习的主要是从文本预测出来的韵律信息，这些韵律信息可以进一步降低最终合成出来的语音中的噪声。

需要注意，虽然图6展示了语音合成的应用场景，即基于文本信息生成语音信息，但本申请实施例的信息合成方法还可应用于其他应用场景。比如，可以基于文本信息生成图片信息，也可以基于图片信息生成语音信息，还可以基于语音信息生成文本信息，等等，只需要将第一解码器、第二解码器和第一编码器替换为相应的人工神经网络模型即可。

以上主要结合步骤S105进行了描述，即描述了本申请实施例中包含训练过程的语音合成方法。在一些实施例中，为了提高训练过程和语音合成的效率，可以在整体训练自动编解码网络之前首先对第二编码器进行预训练。图7为本申请实施例中又一种信息合成方法的流程示意图。如图7所示，在图2所示方法的基础上，在步骤S105之前，信息合成方法还可以包括：

S106，基于预训练样本组初始化第二编码器。

本步骤中，预训练样本组包含一个或多个预训练样本。通常，预训练样本的类型与输入信息的类型相同，且其数量较大，以将第二编码器的参数初始化，增加其对输入信息和第二样本组的理解，提升自动编解码网络预测的合理性。比如，当第二编码器为BERT模型时，预训练样本组为大量文本，这样可以通过大量易获取的文本预料还增加所合成的输出信息(如语音合成)的韵律，弥补前端缺失带来的合成语音断句不合理、停顿不合理的潜在问题。

接下来以多语种语音合成为例，介绍本申请实施例的信息合成方法相对现有技术的优势。表1为谷歌(Google Inc.)翻译系统与应用本申请实施例的信息合成方法的语音合成系统(以下称为Base系统)在同一测听背景下的平均主观意见评分(Mean OpinionScore)的评测结果。评测对象为六个小语种语言的语音合成自然度(比如节奏和音色)，六个小语种为葡萄牙语、印地语、印尼语、德语、意大利语和马来语。

表1谷歌翻译系统与Base系统的MOS评分对比

语种	Google	Base
			葡萄牙语	3.78	3.68
印地语	3.85	2.99
			印尼语	3.03	3.94
德语	3.4	3.76
			意大利语	3.33	4.02
马来语	无语音	3.76
			平均	3.48	3.69

从表1中的对比可以看出，在语音合成方面，无论是单个语种的MOS还是整体的平均MOS，Base系统的表现均优于谷歌翻译系统。

本申请实施例的另一个方面提供了一种信息合成装置。在本实施例中，上述信息合成装置可应用于包含第一编码器、第二编码器和第一解码器模型的自动编解码网络。该自动编解码网络的细节可以参加前述方法实施例，这里不再赘述。

下面结合图8进一步描述上述信息合成装置，图8为本申请实施例中一种信息合成装置的结构示意图。如图8所示，该信息合成装置包括：

分布获取模块801，用于根据已训练的自动编解码网络的参数，得到第一目标分布，其中，第一目标分布表征从第一编码器输入端到第一编码器输出端的后验分布，在训练自动编解码网络的过程中，第一编码器与第二编码器的输入样本一一对应，且第二编码器确定的先验分布用于预测第一目标分布；

采样模块802，用于基于第一目标分布采样，得到目标采样编码；

编码模块803，用于通过已训练的第二编码器对输入信息进行编码，得到输入信息的目标编码；以及

解码模块804，用于通过已训练的第一解码器以目标编码作为解码条件，对目标采样编码进行解码，得到输出信息。

图9为本申请实施例中另一种信息合成装置的结构示意图。在图8所示结构的基础上，该信息合成装置进一步包括：

训练模块805，用于对第一编码器、第二编码器和第一解码器进行训练，得到已训练的第一编码器、已训练的第二编码器和已训练的第一解码器。

在一种实施方式中，训练模块805包括：

输入单元，用于将第一样本组和第二样本组输入所述自动编解码网络，其中，第一样本组包含第一样本，第一样本的类型与所述输出信息一致，第二样本组包含第二样本，第二样本的类型与所述输入信息的类型一致，且第二样本与第一样本一一对应；以及

调整单元，用于调整第一编码器、第二编码器、第一解码器的参数，直到所述自动编解码网络对所述第一样本组的重构损失符合预设条件。

在一种实施方式中，预设条件为重构损失为最小值，或者重构损失小于预设值。

在一种实施方式中，重构损失根据以下步骤获得：第一编码器根据各第一样本确定第一分布参数，其中，第一分布参数用于表征第一编码的第一分布，且第一编码为第一样本的编码；基于第一分布采样，得到各第一样本的采样编码；第二编码器对第二样本组进行编码，得到第二样本的第二编码；根据第二编码得到第二分布参数，其中，第二分布参数用于表征第二编码的第二分布，且第二样本的第二编码对应于第一样本的第一编码；基于第一分布参数和第二分布参数，得到第一分布和第二分布的第一差异程度；第一解码器根据各第一样本对应的第二样本的第二编码对该第一样本的采样编码进行解码，得到该第一样本的重构样本，其中，各第一样本的重构样本构成重构样本组；基于第一样本组和重构样本组，得到第一样本组和重构样本组的第二差异程度；以及基于第一差异程度和第二差异程度，得到重构损失；其中，已训练的第一编码器的参数为重构损失满足预设条件时的第一编码器的参数，第一目标分布为重构损失满足预设条件时的第一分布。

在一种实施方式中，第一差异程度为第一分布和第二分布的相对熵。

在一种实施方式中，第一比重的第一差异程度在梯度回传时回传至第一编码器且不回传至第二编码器，第二比重的所述第一差异程度在梯度回传时回传至所述第二编码器且不回传至第一编码器，且所述第一比重小于所述第二比重

在一种实施方式中，第一分布与第二分布为同类型的概率分布。

在一种实施方式中，第一分布与第二分布为正态分布，第一分布参数和第二分布参数均包含正态分布的期望与方差。

图10为本申请实施例中另一种信息合成装置的结构示意图。在图9所示结构的基础上，该信息合成装置进一步包括：

初始化模块806，用于基于预训练样本组初始化所述第二编码器，其中，所述预训练样本组中各样本的类型与输入信息一致。

在一种实施方式中，第一编码器为条件变分自动编码器的编码端，第一解码器为条件变分自动编码器的解码端。

在一种实施方式中，第二编码器为基于变换器的双向编码器表示模型。

在一种实施方式中，输入信息为文本，输出信息为语音。

在一种实施方式中，第一解码器根据语音信息中已解码的历史帧序列与文本信息中的上下文文本来确定下一帧的语音信息。

在一种实施方式中，在对第一编码器、第二编码器和第一解码器进行训练时，第一编码器和第二编码器无需输入音素以及人工提取的文本特征。

通过本申请实施例提供的信息合成装置，根据已训练的自动编解码网络的参数得到第一目标分布，并基于第一目标分布采样得到目标采样编码；通过已训练的第二编码器对输入信息进行编码，得到输入信息的目标编码；通过已训练的第一解码器以目标编码作为解码条件，对目标采样编码进行解码，得到输出信息。其中，第一目标分布表征从第一编码器输入端到输出端的后验分布，在训练自动编解码网络的过程中，第一编码器与第二编码器的输入样本一一对应，且第二编码器确定的先验分布用于预测第一目标分布。由此，解码后的输出信息与输入信息的对应关系能够高度还原(或者模拟)训练样本中第一编码器和第二编码器的输入样本之间的对应关系，从而使得所获得的输出信息能够很好的对应输入信息。本方案在语音合成领域，特别是多语种语音合成领域，能够放宽对语音样本质量的限制，从而获得大量的训练样本，使得最终合成的语音在韵律、停顿和文字发音等方面具有更好的表现。

本申请实施例的又一个方面提供了一种电子设备。该电子设备包括存储器和处理器，所述存储器存储有指令，当所述指令被所述处理器运行时，所述设备执行前述任一信息合成方法。

本申请实施例的又一个方面提供了一种非暂态计算机可读存储介质。该存储介质存储有指令，当所述指令被所述处理器运行时，执行前述任一信息合成方法。

所述计算机可读存储介质包含程序命令、数据文件、数据结构等、或它们的组合。被记录在计算机可读存储介质中的程序可被设计或被配置以实现本发明的方法。计算机可读存储介质包括用于存储并执行程序命令的硬件系统。硬件系统的示例有磁介质(诸如硬盘、软盘、磁带)、光介质(诸如CD-ROM和DVD)、磁光介质(诸如软光盘、ROM、RAM、闪存等)。程序包括由编译器编译的汇编语言代码或机器代码和由解释器解释的更高级语言代码。硬件系统可利用至少一个软件模块来实施以符合本发明。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性的描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以针对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法实施例相关部分说明即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种信息合成方法，应用于包含第一编码器、第二编码器和第一解码器的自动编解码网络，其特征在于，所述方法包括：

根据已训练的自动编解码网络，得到第一目标分布，其中，所述第一目标分布表征从所述第一编码器输入端到所述第一编码器输出端的后验分布，在训练所述自动编解码网络的过程中，所述第一编码器与所述第二编码器的输入样本一一对应，且所述第二编码器确定的先验分布用于预测所述第一目标分布；

基于第一目标分布得到目标采样编码；

已训练的所述第二编码器对输入信息进行编码，得到输入信息的目标编码；以及

已训练的所述第一解码器根据所述目标编码对所述目标采样编码进行解码，得到输出信息。

2.根据权利要求1所述的信息合成方法，其特征在于，还包括：

对所述第一编码器、所述第二编码器和所述第一解码器进行训练，得到所述已训练的第一编码器、所述已训练的第二编码器和所述已训练的第一解码器。

3.根据权利要求2所述的信息合成方法，其特征在于，在对所述第一编码器、所述第二编码器和所述第一解码器进行训练之前，还包括：

基于预训练样本组初始化所述第二编码器，其中，所述预训练样本组中各样本的类型与输入信息一致。

4.根据权利要求2所述的信息合成方法，其特征在于，对所述第一编码器、所述第二编码器和所述第一解码器进行训练包括：

将第一样本组和第二样本组输入所述自动编解码网络，其中，所述第一样本组包含第一样本，所述第一样本的类型与所述输出信息的类型一致，所述第二样本组包含第二样本，所述第二样本的类型与所述输入信息的类型一致，且所述第二样本与所述第一样本一一对应；以及

调整所述第一编码器、所述第二编码器、所述第一解码器的参数，直到所述自动编解码网络对所述第一样本组的重构损失符合预设条件。

5.根据权利要求4所述的信息合成方法，其特征在于，所述重构损失根据以下步骤获得：

所述第一编码器根据各第一样本确定第一分布参数，其中，所述第一分布参数用于表征第一编码的第一分布，且所述第一编码为所述第一样本的编码；

基于所述第一分布参数得到各第一样本的采样编码；

所述第二编码器对所述第二样本组进行编码，得到所述第二样本的第二编码；

根据所述第二编码得到第二分布参数，其中，所述第二分布参数用于表征所述第二编码的第二分布，且所述第二样本的第二编码对应于所述第一样本的第一编码；

基于所述第一分布参数和所述第二分布参数，得到所述第一分布和所述第二分布的第一差异程度；

所述第一解码器根据各第一样本对应的第二样本的第二编码对该第一样本的采样编码进行解码，得到该第一样本的重构样本，其中，各第一样本的所述重构样本构成重构样本组；

基于所述第一样本组和所述重构样本组，得到所述第一样本组和所述重构样本组的第二差异程度；以及

基于所述第一差异程度和所述第二差异程度，得到所述重构损失；

其中，所述已训练的第一编码器的参数为所述重构损失满足预设条件时的所述第一编码器的参数，所述第一目标分布为所述重构损失满足所述预设条件时的所述第一分布。

6.根据权利要求4所述的信息合成方法，其特征在于，所述预设条件为：

所述重构损失为最小值；或者，

所述重构损失小于预设值。

7.根据权利要求5所述的信息合成方法，其特征在于，在调整所述第一编码器、所述第二编码器、所述第一解码器的参数，直到所述第一样本组的重构损失符合预设条件的过程中：

第一比重的所述第一差异程度在梯度回传时回传至所述第一编码器且不回传至第二编码器，第二比重的所述第一差异程度在梯度回传时回传至所述第二编码器且不回传至第一编码器，且所述第一比重小于所述第二比重。

8.根据权利要求5中任一项所述的信息合成方法，其特征在于，所述第一差异程度为所述第一分布和所述第二分布的相对熵。

9.根据权利要求5所述的信息合成方法，其特征在于，所述第一分布与所述第二分布为同类型的概率分布。

10.根据权利要求1至9中任一项所述的信息合成方法，其特征在于，所述第一编码器为条件变分自动编码器的编码端，所述第一解码器为条件变分自动编码器的解码端。

11.根据权利要求1至9中任一项所述的信息合成方法，其特征在于，所述第二编码器为基于变换器的双向编码器表示模型。

12.根据权利要求1至9中任一项所述的信息合成方法，其特征在于，所述输入信息为文本，所述输出信息为语音。

13.根据权利要求12中所述的信息合成方法，其特征在于，所述第一解码器根据所述语音中已解码的历史输出信息与所述文本中的上下文文本来确定下一帧的语音信息。

14.根据权利要求12所述的信息合成方法，其特征在于，在对所述第一编码器、所述第二编码器和所述第一解码器进行训练时，所述第一编码器和所述第二编码器无需输入音素以及人工提取的文本特征。

15.一种信息合成装置，应用于包含第一编码器、第二编码器和第一解码器的自动编解码网络，其特征在于，包括：

分布获取模块，用于根据已训练的自动编解码网络，得到第一目标分布，其中，所述第一目标分布表征从所述第一编码器输入端到所述第一编码器输出端的后验分布，在训练所述自动编解码网络的过程中，所述第一编码器与所述第二编码器的输入样本一一对应，且所述第二编码器确定的先验分布用于预测所述第一目标分布；

采样模块，用于基于第一目标分布得到目标采样编码；

编码模块，用于通过已训练的所述第二编码器对输入信息进行编码，得到输入信息的目标编码；以及

解码模块，用于通过已训练的所述第一解码器根据所述目标编码对所述目标采样编码进行解码，得到输出信息。

16.一种电子设备，包括存储器和处理器，其特征在于，所述存储器存储有指令，当所述指令被所述处理器运行时，所述设备执行根据权利要求1至9、13和14中任一项所述的信息合成方法。

17.一种非暂态计算机可读存储介质，其特征在于，所述存储介质存储有指令，当所述指令被所述处理器运行时，执行根据权利要求1至9、13和14中任一项所述的信息合成方法。