CN112837673A

CN112837673A - 基于人工智能的语音合成方法、装置、计算机设备和介质

Info

Publication number: CN112837673A
Application number: CN202011638582.8A
Authority: CN
Inventors: 缪陈峰; 梁爽; 马骏; 王少军
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2020-12-31
Filing date: 2020-12-31
Publication date: 2021-05-25
Anticipated expiration: 2040-12-31
Also published as: WO2022141870A1; CN112837673B

Abstract

本申请涉及大数据技术领域，特别是涉及一种基于人工智能的语音合成方法、装置、计算机设备和存储介质。所述方法包括：接收语音合成请求，语音合成请求携带有待合成语音的文本数据；对文本数据进行编码处理，得到对应文本数据的文本特征；对文本特征进行预测处理，得到对应文本特征的对齐信息；基于对齐信息，构建对应文本特征的对齐矩阵；通过对齐矩阵，对文本特征进行对齐转换，得到对应语音合成请求的目标语音。采用本方法能够提升语音合成准确性。本申请还涉及区块链技术领域，语音合成请求、文本特征、对齐信息、对齐矩阵以及目标语音等均可以上传至区块链。

Description

基于人工智能的语音合成方法、装置、计算机设备和介质

技术领域

本申请涉及大数据技术领域，特别是涉及一种基于人工智能的语音合成方法、装置、计算机设备和介质。

背景技术

随着神经网络模型的发展，基于神经网络的语音合成(Text To Speech，TTS)技术已经越来越升入人们的生活中。

在传统方式中，基于神经网络的语音合成系统分为两大类，即自回归和非自回归模型，自回归模型存在合成音频时间长以及效果差的问题，而非自回归模型受限于输入输出长度不一致，很难对齐，从而合成的语音效果较差，准确性低。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提升语音合成准确性的基于人工智能的语音合成方法、装置、计算机设备和介质。

一种基于人工智能的语音合成方法，所述方法包括：

接收语音合成请求，语音合成请求携带有待合成语音的文本数据；

对文本数据进行编码处理，得到对应文本数据的文本特征；

对文本特征进行预测处理，得到对应文本特征的对齐信息；

基于对齐信息，构建对应文本特征的对齐矩阵；

通过对齐矩阵，对文本特征进行对齐转换，得到对应语音合成请求的目标语音。

在其中一个实施例中，通过对齐矩阵，对文本特征进行对齐转换，得到对应语音合成请求的目标语音，包括：

通过对齐矩阵，对文本特征进行对齐转换，得到对应文本特征对齐后的语音特征；

对语音特征进行解码处理，生成对应语音合成请求的目标语音。

在其中一个实施例中，对文本特征进行预测处理，得到对应文本特征的对齐信息为预先训练的预测模型预测的，预测模型的训练方式包括：

获取训练数据对，训练数据对包括配对的文本训练数据以及语音训练数据；

对文本训练数据以及语音训练数据分别进行编码处理，得到对应文本训练数据的文本特征以及对应语音训练数据的语音特征；

将文本特征输入初始预测模型中，对初始预测模型进行训练，并通过初始预测模型输出对应文本特征的预测结果；

根据文本特征以及语音特征，生成对应训练数据对的对齐矩阵；

根据对齐矩阵以及预测结果，确定初始预测模型的模型损失，并基于模型损失，对初始预测模型进行迭代训练，得到预测模型。

在其中一个实施例中，根据文本特征以及语音特征，生成对应训练数据对的对齐矩阵，包括：

基于文本特征，确定对应文本特征的文本特征向量；

基于语音特征，确定对应语音特征的语音特征向量；

根据文本特征向量以及语音特征向量，生成对应训练数据对的对齐矩阵。

在其中一个实施例中，根据文本特征以及语音特征，生成对应训练数据对的对齐矩阵之后，还包括：

根据对齐矩阵，对文本训练数据进行对齐转换，得到文本转换语音特征；

对文本转换语音特征进行解码转换，生成对应文本训练数据的转换语音数据；

根据转换语音数据以及语音训练数据，计算解码转换的转换损失，并根据转换损失进行迭代训练，直至转换损失稳定。

在其中一个实施例中，上述方法还包括：

将语音合成请求、文本特征、对齐信息、对齐矩阵以及目标语音中的至少一个上传至区块链节点中进行存储。

一种基于人工智能的语音合成装置，所述装置包括：

语音合成请求接收模块，用于接收语音合成请求，语音合成请求携带有待合成语音的文本数据；

编码处理模块，用于对文本数据进行编码处理，得到对应文本数据的文本特征；

预测处理，用于对文本特征进行预测处理，得到对应文本特征的对齐信息；

对齐矩阵构建模块，用于基于对齐信息，构建对应文本特征的对齐矩阵；

对齐转换模块，用于通过对齐矩阵，对文本特征进行对齐转换，得到对应语音合成请求的目标语音。

在其中一个实施例中，对齐转换模块，包括：

语音特征生成子模块，用于通过对齐矩阵，对文本特征进行对齐转换，得到对应文本特征对齐后的语音特征；

解码处理模块，用于对语音特征进行解码处理，生成对应语音合成请求的目标语音。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述任一实施例所述方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一实施例所述的方法的步骤。

上述基于人工智能的语音合成方法、装置、计算机设备和介质，通过接收语音合成请求，语音合成请求携带有待合成语音的文本数据；对文本数据进行编码处理，得到对应文本数据的文本特征；对文本特征进行预测处理，得到对应文本特征的对齐信息；基于对齐信息，构建对应文本特征的对齐矩阵；通过对齐矩阵，对文本特征进行对齐转换，得到对应语音合成请求的目标语音。从而，可以根据文本数据对应的文本特征对对应的对齐信息预测，并基于预测得到的对齐信息进行对齐矩阵的建立，并进行对齐转换，可以解决传统方式中文本数据与语音数据难以对齐的问题，可以提升目标语音的生成效果，提升准确性。

附图说明

图1为一个实施例中基于人工智能的语音合成方法的应用场景图；

图2为一个实施例中基于人工智能的语音合成方法的流程示意图；

图3为另一个实施例中基于人工智能的语音合成方法的示意图；

图4为一个实施例中预测模型训练过程的示意图；

图5为一个实施例中基于人工智能的语音合成装置的结构框图；

图6为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的基于人工智能的语音合成方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104进行通信。用户可以通过终端102生成语音合成请求，并发送至服务器104，语音合成请求携带有待合成语音的文本数据,。服务器104在接收到语音合成请求后，可以对文本数据进行编码处理，得到对应文本数据的文本特征。然后服务器104可以对文本特征进行预测处理，得到对应文本特征的对齐信息，并基于对齐信息，构建对应文本特征的对齐矩阵。进一步，服务器104可以通过对齐矩阵，对文本特征进行对齐转换，得到对应语音合成请求的目标语音。其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，如图2所示，提供了一种基于人工智能的语音合成方法，以该方法应用于图1中的服务器为例进行说明，包括以下步骤：

步骤S202，接收语音合成请求，语音合成请求携带有待合成语音的文本数据。

其中，语音合成请求是指请求合成语音数据的请求，语音合成请求中可以包括待合成语音的文本数据，例如，文本内容“abc”等。

在本实施例中，文本数据可以包括但不限于各种不同语言或者是不同表现形式的文本数据，例如，可以是中文汉字，也可以是数字，或者是英文字符等。

在本实施例中，用户可以通过终端设备输入待合成的语音对应的文本数据，然后通过终端设备生成语音合成请求，并发送至服务器。服务器在接收到语义合成请求的时候，可以基于语音合成请求中的文本数据，进行后续的处理。

步骤S204，对文本数据进行编码处理，得到对应文本数据的文本特征。

其中，编码处理是指将文本数据转变为高维文本特征的处理过程。

在本实施例中，服务器在获取到语音合成请求后，可以对语音合成请求进行解析处理，以从中解析出对应的文本数据。

进一步，参考图3，服务器可以将解析得到的文本数据输入文本编码器，即Text-Encoder中，并通过文本编码器对文本数据进行编码处理，生成对应文本数据的文本特征，或者也可以称之为文本特征向量。

具体地，服务器可以通过Text-Encoder将文本数据拆分为多个文本字符，然后将哥哥文本字符转化为文本特征向量。

步骤S206，对文本特征进行预测处理，得到对应文本特征的对齐信息。

其中，对齐信息是指与文本特征所对应的初始对齐矩阵，通过初始对齐矩阵可以建立与文本特征与对应语音数据之间的对应关系。

在本实施例中，初始对齐矩阵可以表示为π，初始对齐矩阵π可以是一个一维向量，π_j表示向量矩阵π的第j个向量元素，且满足关系式Δπ_j＝π_j-π_j-1，且0≤Δπ_j≤1。

在本实施例中，服务器可以通过预先训练完成的预测模型，对得到的文本特征进行预测处理，以得到对应文本特征的对齐信息。继续参考图3，服务器可以通过A.P.Predictor(Aligned position predictor，对齐位置预测器)对文本特征进行预测处理。

步骤S208，基于对齐信息，构建对应文本特征的对齐矩阵。

其中，对齐矩阵是指用于对文本特征进行对齐转换的矩阵，对齐矩阵可以用于对文本特征进行对齐转换，以得到时间对齐后的数据。

在本实施例中，服务器可以基于预测到的对齐信息，即初始对齐矩阵π，构建对应文本特征的对齐矩阵。

例如，服务器可以根据初始对齐矩阵π以及文本特征p_i，构建对应文本特征的对齐矩阵α，具体可以通过如下公式(1)表示：

其中，α_i,j表示对齐矩阵α中第i行第j列的矩阵元素，p_i表示文本特征中的第i个特征，p_m表示文本特征中的第m个特征，δ代表对齐方差，T₁表示文本特征的长度。

步骤S210，通过对齐矩阵，对文本特征进行对齐转换，得到对应语音合成请求的目标语音。

具体地，服务器可以根据得到的对齐矩阵，对文本数据对应的各文本特征进行对齐转换，转换为对应的语音数据，以得到对应所述语音合成请求的目标语音。

在本实施例中，服务器得到的目标语音可以是语音频谱或者是语音，例如，服务器可以通过语义生成器直接生成语音频谱，或者是通过声码器直接生成语音。

上述基于人工智能的语音合成方法中，通过接收语音合成请求，语音合成请求携带有待合成语音的文本数据；对文本数据进行编码处理，得到对应文本数据的文本特征；对文本特征进行预测处理，得到对应文本特征的对齐信息；基于对齐信息，构建对应文本特征的对齐矩阵；通过对齐矩阵，对文本特征进行对齐转换，得到对应语音合成请求的目标语音。从而，可以根据文本数据对应的文本特征对对应的对齐信息预测，并基于预测得到的对齐信息进行对齐矩阵的建立，并进行对齐转换，可以解决传统方式中文本数据与语音数据难以对齐的问题，可以提升目标语音的生成效果，提升准确性。

在其中一个实施例中，通过对齐矩阵，对文本特征进行对齐转换，得到对应语音合成请求的目标语音，可以包括：通过对齐矩阵，对文本特征进行对齐转换，得到对应文本特征对齐后的语音特征；对语音特征进行解码处理，生成对应语音合成请求的目标语音。

其中，语音特征是指对应于语音格式数据的特征数据，即对应语音数据的特征数据。

在本实施例中，语音数据可以是指语音频谱或者是语音，或者是二者的组合，本申请对此不作限制。

在本实施例中，服务器可以通过对齐矩阵，将文本特征中各特征数据进行一一对齐转换，转换为对应位置的语音特征。继续参考图3，服务器可以通过重构模块Align.reconstruction，将文本编码器Text-Encoder生成的文本特征对齐转换为对应目标语音的语音特征。

在本实施例中，服务器对各文本特征进行对齐转换可以是并行进行的，从而可以提升对齐转换的效率，节约对齐转换的时间。

进一步，服务器在完成对文本特征的转换后，可以通过对转换得到的语音特征进行解码处理，即通过图3中生成器Decoder将语音特征解码为对应的目标语音。

具体地，服务器通过生成器Decoder将向量化的语音特征转换为一段一段的声音信号，然后按照先后顺序，将声音信号组合成语音数据，并输出为目标语音。

上述实施例中，通过对齐矩阵对文本特征进行对齐转换，得到对应文本特征且对齐后的语音特征，使得生成的语音特征较为准确，进而可以提升解码处理后生成的目标语音的准确性。

在其中一个实施例中，对文本特征进行预测处理，得到对应文本特征的对齐信息为预先训练的预测模型预测的，预测模型的训练方式可以包括：获取训练数据对，训练数据对包括配对的文本训练数据以及语音训练数据；对文本训练数据以及语音训练数据分别进行编码处理，得到对应文本训练数据的文本特征以及对应语音训练数据的语音特征；将文本特征输入初始预测模型中，对初始预测模型进行训练，并通过初始预测模型输出对应文本特征的预测结果；根据文本特征以及语音特征，生成对应训练数据对的对齐矩阵；根据对齐矩阵以及预测结果，确定初始预测模型的模型损失，并基于模型损失，对初始预测模型进行迭代训练，得到预测模型。

其中，训练数据对是指包括配对的文本训练数据以及对应的语音训练数据的数据，例如，文本数据“abc”及其对应的语音频谱或者是语音。

在本实施例中，服务器可以通过编码器对文本训练数据以及语音训练数据分别进行编码处理。参考图4，例如，服务器可以通过文本编码器Text-Encoder对文本训练数据进行拆分，并进行编码处理，得到对应文本训练数据的文本特征，以及通过频谱编码器Mel-Encoder将语音训练数据拆分为多段语音，并进行编码转化，得到对应语音训练数据的语音特征。该文本特征以及语音特征均为向量化的特征数据。

进一步，服务器可以将文本特征输入初始预测模型中，通过初始预测模型的学习训练，并预测输出文本特征的预测结果，即预测对应文本特征的预测对齐矩阵，该预测对齐矩阵为预测得到的将文本特征对齐转换为语音训练数据的初始矩阵。

在本实施例中，继续参考图4，初始预测模型可以是图中的A.P.Predictor(Aligned position predictor，对齐位置预测器)。

在本实施例中，为了简化模型的训练复杂度，初始预测模型训练输出得到的预测对齐矩阵可以是一维的向量矩阵，可以通过π表示，π_j表示向量矩阵π的第j个向量元素，且满足关系式π₀＝0，Δπ_j＝π_j-π_j-1，且0≤Δπ_j≤1。

其中，0≤Δπ_j≤1表示向量矩阵π中，前一向量元素必然大于后一向量元素，预测模型是单调递增的模型。

在本实施例中，继续参考图4，服务器还可以通过索引映射向量生成器(indexmapping vector Generator，IMV Generator)，根据文本训练数据以及语音训练数据，生成索引映射向量(index mapping vector，IMV)，即对齐矩阵，该对齐矩阵为将文本训练数据对齐转化为语音训练数据的标准矩阵。

在本实施例中，对齐矩阵可以通过α表示，α_i,j表示对齐矩阵α中第i行第j列的矩阵元素。

在本实施例中，为了使得预测模型可以仅根据文本数据预测得到对应的语音数据，预测对齐矩阵π与对齐矩阵α之间需要满足如下对应关系，即如公式(2)所示。

其中，p_i为文本特征。

进一步，服务器可以根据预测得到的预测对齐矩阵和根据文本训练数据以及语音训练数据得到的对齐矩阵进行模型损失的计算，即计算初始预测模型的模型损失A.P.Loss。

在本实施例中，服务器可以基于文本特征将一维的预测对齐矩阵π转换为二维的预测对齐矩阵，然后基于二维的预测对齐矩阵与对齐矩阵α进行模型损失的计算。

进一步，服务器可以通过计算得到的模型损失A.P.Loss对初始预测模型进行参数更新，并进行迭代训练，直至模型损失A.P.Loss趋于稳定，模型训练完成。

在本实施例中，服务器也可以设定模型训练的新来参数，例如，训练次数，新来精度等，以使得基于训练参数进行模型的训练。

上述实施例中，通过对初始预测模型进行训练，得到预测模型，然后通过训练完成的预测模型进行对齐信息的预测，可以提升得到的对齐信息的准确性，进而可以提升得到的目标语音的准确性。

在其中一个实施例中，根据文本特征以及语音特征，生成对应训练数据对的对齐矩阵，可以包括：基于文本特征，确定对应文本特征的文本特征向量；基于语音特征，确定对应语音特征的语音特征向量；根据文本特征向量以及语音特征向量，生成对应训练数据对的对齐矩阵。

在本实施例中，服务器可以基于得到的文本特征以及语音特征，确定对应的文本特征向量以及语音特征向量，文本特征向量可以表示为P，p_i标识文本特征向量中第i个向量元素，文本特征向量P中向量元素数量为t1，语音特征向量可以表示为Q，q_j表示语音特征向量中第j个向量元素，语音特征向量Q中向量元素数量为t2。

进一步，服务器基于确定的文本特征向量以及语音特征向量，通过索引映射向量生成器IMV Generator建立对应的对齐矩阵IMV，例如，根据文本特征向量P以及语音特征向量Q建立对齐矩阵α，对齐矩阵α为t1*t2的矩阵。

上述实施例中，通过对训练数据对中的文本训练数据以及语音训练数据分别进行编码处理，得到对应文本训练数据的文本特征以及对应语音训练数据的语音特征，然后基于文本特征，确定文文本长度，基于语音特征，确定语音长度，并根据文本长度以及语音长度，生成对应训练数据对的对齐矩阵，可以使得得到的对齐矩阵为对应文本训练数据以及语音训练数据的标准矩阵，可以提升模型训练的准确性，进而提升预测的准确性。

在其中一个实施例中，根据文本特征以及语音特征，生成对应训练数据对的对齐矩阵之后，还可以包括：根据对齐矩阵，对文本训练数据进行对齐转换，得到文本转换语音特征；对文本转换语音特征进行解码转换，生成对应文本训练数据的转换语音数据；根据转换语音数据以及语音训练数据，计算解码转换的转换损失，并根据转换损失进行迭代训练，直至转换损失稳定。

继续参考图4，服务器通过索引映射向量生成器IMV Generator生成对应训练数据对的对齐矩阵IMV后，可以将文本训练数据以及对齐矩阵IMV输入重构模块Align.reconstruction中，通过对齐矩阵IMV对文本训练数据进行对齐转换，生成对应的文本转换语音特征。

进一步，服务器可以通过生成器Decoder对生成的本转换语音特征进行解码处理，以生成对应文本训练数据对应的转换语音数据。

在本实施例中，服务器可以根据生成的转换语音数据以及训练数据对中的语音训练数据，进行损失计算，以确定在对文本转换语音特征进行解码转换过程中的转换损失。

在本实施例中，转换损失主要是生成器Decoder的生成转换损失Decoder Loss。服务器可以基于计算得到的生成转换损失Decoder Loss对生成器Decoder进行迭代训练，并在生成转换损失Decoder Loss区域稳定时，确定生成器Decoder训练完成。

上述实施例中，通过根据对齐矩阵，对文本训练数据进行对齐转换，得到文本转换语音特征，然后对文本转换语音特征进行解码转换，生成对应文本训练数据的转换语音数据，并根据转换语音数据以及语音训练数据，计算解码转换的转换损失，并根据转换损失进行迭代训练，直至转换损失稳定，从而，可以使得解码转换处理更加准确，可以提升生成的目标语音的准确性。

在其中一个实施例中，上述方法还可以包括：将语音合成请求、文本特征、对齐信息、对齐矩阵以及目标语音中的至少一个上传至区块链节点中进行存储。

其中，区块链是指分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Block chain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。

具体地，区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

在本实施例中，服务器可以将语音合成请求、文本特征、对齐信息、对齐矩阵以及目标语音中的一个或者多个数据上传并存储于区块链的节点中，以保证数据的私密性和安全性。

上述实施例中，通过将语音合成请求、文本特征、对齐信息、对齐矩阵以及目标语音中至少一个上传至区块链并存储于区块链的节点中，从而可以保障存储至区块链节点中数据的私密性，可以提升数据的安全性。

应该理解的是，虽然图2的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图5所示，提供了一种基于人工智能的语音合成装置，包括：语音合成请求接收模块100、编码处理模块200、预测处理300、对齐矩阵构建模块400以及对齐转换模块500，其中：

语音合成请求接收模块100，用于接收语音合成请求，语音合成请求携带有待合成语音的文本数据。

编码处理模块200，用于对文本数据进行编码处理，得到对应文本数据的文本特征。

预测处理300，用于对文本特征进行预测处理，得到对应文本特征的对齐信息。

对齐矩阵构建模块400，用于基于对齐信息，构建对应文本特征的对齐矩阵。

对齐转换模块500，用于通过对齐矩阵，对文本特征进行对齐转换，得到对应语音合成请求的目标语音。

在其中一个实施例中，对齐转换模块500可以包括：

语音特征生成子模块，用于通过对齐矩阵，对文本特征进行对齐转换，得到对应文本特征对齐后的语音特征。

在其中一个实施例中，预测处理300对文本特征进行预测处理，得到对应文本特征的对齐信息为预先训练的预测模型预测的。上述装置还可以包括：

训练模块，用于根据预设的训练方式进行预测模型的训练。

在本实施例中，训练模块可以包括：

训练数据对获取子模块，用于获取训练数据对，训练数据对包括配对的文本训练数据以及语音训练数据。

编码处理子模块，用于对文本训练数据以及语音训练数据分别进行编码处理，得到对应文本训练数据的文本特征以及对应语音训练数据的语音特征。

训练与预测子模块，用于将文本特征输入初始预测模型中，对初始预测模型进行训练，并通过初始预测模型输出对应文本特征的预测结果。

对齐矩阵建立子模块，用于根据文本特征以及语音特征，生成对应训练数据对的对齐矩阵。

模型损失计算子模块，用于根据对齐矩阵以及预测结果，确定初始预测模型的模型损失，并基于模型损失，对初始预测模型进行迭代训练，得到预测模型。

在其中一个实施例中，对齐矩阵建立子模块可以包括：

文本特征向量确定单元，用于基于文本特征，确定对应文本特征的文本特征向量。

语音特征向量确定单元，用于基于语音特征，确定对应语音特征的语音特征向量。

对齐矩阵建立单元，用于根据文本特征向量以及语音特征向量，生成对应训练数据对的对齐矩阵。

在其中一个实施例中，上述装置还可以包括：

文本转换语音特征生成模块，用于根据文本特征以及语音特征，生成对应训练数据对的对齐矩阵之后，根据对齐矩阵，对文本训练数据进行对齐转换，得到文本转换语音特征。

解码转换模块，用于对文本转换语音特征进行解码转换，生成对应文本训练数据的转换语音数据。

转换损失计算模块，用于根据转换语音数据以及语音训练数据，计算解码转换的转换损失，并根据转换损失进行迭代训练，直至转换损失稳定。

在其中一个实施例中，上述装置还可以包括：

存储模块，用于将语音合成请求、文本特征、对齐信息、对齐矩阵以及目标语音中的至少一个上传至区块链节点中进行存储。

关于基于人工智能的语音合成装置的具体限定可以参见上文中对于基于人工智能的语音合成方法的限定，在此不再赘述。上述基于人工智能的语音合成装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储语音合成请求、文本特征、对齐信息、对齐矩阵以及目标语音等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于人工智能的语音合成方法。

本领域技术人员可以理解，图6中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，该存储器存储有计算机程序，该处理器执行计算机程序时实现以下步骤：接收语音合成请求，语音合成请求携带有待合成语音的文本数据；对文本数据进行编码处理，得到对应文本数据的文本特征；对文本特征进行预测处理，得到对应文本特征的对齐信息；基于对齐信息，构建对应文本特征的对齐矩阵；通过对齐矩阵，对文本特征进行对齐转换，得到对应语音合成请求的目标语音。

在其中一个实施例中，处理器执行计算机程序时实现通过对齐矩阵，对文本特征进行对齐转换，得到对应语音合成请求的目标语音，可以包括：通过对齐矩阵，对文本特征进行对齐转换，得到对应文本特征对齐后的语音特征；对语音特征进行解码处理，生成对应语音合成请求的目标语音。

在其中一个实施例中，处理器执行计算机程序时实现对文本特征进行预测处理，得到对应文本特征的对齐信息为预先训练的预测模型预测的，预测模型的训练方式可以包括：获取训练数据对，训练数据对包括配对的文本训练数据以及语音训练数据；对文本训练数据以及语音训练数据分别进行编码处理，得到对应文本训练数据的文本特征以及对应语音训练数据的语音特征；将文本特征输入初始预测模型中，对初始预测模型进行训练，并通过初始预测模型输出对应文本特征的预测结果；根据文本特征以及语音特征，生成对应训练数据对的对齐矩阵；根据对齐矩阵以及预测结果，确定初始预测模型的模型损失，并基于模型损失，对初始预测模型进行迭代训练，得到预测模型。

在其中一个实施例中，处理器执行计算机程序时实现根据文本特征以及语音特征，生成对应训练数据对的对齐矩阵，可以包括：基于文本特征，确定对应文本特征的文本特征向量；基于语音特征，确定对应语音特征的语音特征向量；根据文本特征向量以及语音特征向量，生成对应训练数据对的对齐矩阵。

在其中一个实施例中，处理器执行计算机程序时实现根据文本特征以及语音特征，生成对应训练数据对的对齐矩阵之后，还可以实现以下步骤：根据对齐矩阵，对文本训练数据进行对齐转换，得到文本转换语音特征；对文本转换语音特征进行解码转换，生成对应文本训练数据的转换语音数据；根据转换语音数据以及语音训练数据，计算解码转换的转换损失，并根据转换损失进行迭代训练，直至转换损失稳定。

在其中一个实施例中，处理器执行计算机程序时还可以实现以下步骤：将语音合成请求、文本特征、对齐信息、对齐矩阵以及目标语音中的至少一个上传至区块链节点中进行存储。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：接收语音合成请求，语音合成请求携带有待合成语音的文本数据；对文本数据进行编码处理，得到对应文本数据的文本特征；对文本特征进行预测处理，得到对应文本特征的对齐信息；基于对齐信息，构建对应文本特征的对齐矩阵；通过对齐矩阵，对文本特征进行对齐转换，得到对应语音合成请求的目标语音。

在其中一个实施例中，计算机程序被处理器执行时实现通过对齐矩阵，对文本特征进行对齐转换，得到对应语音合成请求的目标语音，可以包括：通过对齐矩阵，对文本特征进行对齐转换，得到对应文本特征对齐后的语音特征；对语音特征进行解码处理，生成对应语音合成请求的目标语音。

在其中一个实施例中，计算机程序被处理器执行时实现对文本特征进行预测处理，得到对应文本特征的对齐信息为预先训练的预测模型预测的，预测模型的训练方式可以包括：获取训练数据对，训练数据对包括配对的文本训练数据以及语音训练数据；对文本训练数据以及语音训练数据分别进行编码处理，得到对应文本训练数据的文本特征以及对应语音训练数据的语音特征；将文本特征输入初始预测模型中，对初始预测模型进行训练，并通过初始预测模型输出对应文本特征的预测结果；根据文本特征以及语音特征，生成对应训练数据对的对齐矩阵；根据对齐矩阵以及预测结果，确定初始预测模型的模型损失，并基于模型损失，对初始预测模型进行迭代训练，得到预测模型。

在其中一个实施例中，计算机程序被处理器执行时实现根据文本特征以及语音特征，生成对应训练数据对的对齐矩阵，可以包括：基于文本特征，确定对应文本特征的文本特征向量；基于语音特征，确定对应语音特征的语音特征向量；根据文本特征向量以及语音特征向量，生成对应训练数据对的对齐矩阵。

在其中一个实施例中，计算机程序被处理器执行时实现根据文本特征以及语音特征，生成对应训练数据对的对齐矩阵之后，还可以实现以下步骤：根据对齐矩阵，对文本训练数据进行对齐转换，得到文本转换语音特征；对文本转换语音特征进行解码转换，生成对应文本训练数据的转换语音数据；根据转换语音数据以及语音训练数据，计算解码转换的转换损失，并根据转换损失进行迭代训练，直至转换损失稳定。

在其中一个实施例中，计算机程序被处理器执行时还可以实现以下步骤：将语音合成请求、文本特征、对齐信息、对齐矩阵以及目标语音中的至少一个上传至区块链节点中进行存储。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种基于人工智能的语音合成方法，其特征在于，所述方法包括：

接收语音合成请求，所述语音合成请求携带有待合成语音的文本数据；

对所述文本数据进行编码处理，得到对应所述文本数据的文本特征；

对所述文本特征进行预测处理，得到对应所述文本特征的对齐信息；

基于所述对齐信息，构建对应所述文本特征的对齐矩阵；

通过所述对齐矩阵，对所述文本特征进行对齐转换，得到对应所述语音合成请求的目标语音。

2.根据权利要求1所述的方法，其特征在于，所述通过所述对齐矩阵，对所述文本特征进行对齐转换，得到对应所述语音合成请求的目标语音，包括：

通过所述对齐矩阵，对所述文本特征进行对齐转换，得到对应所述文本特征对齐后的语音特征；

对所述语音特征进行解码处理，生成对应所述语音合成请求的目标语音。

3.根据权利要求1所述的方法，其特征在于，所述对所述文本特征进行预测处理，得到对应所述文本特征的对齐信息为预先训练的预测模型预测的，所述预测模型的训练方式包括：

获取训练数据对，所述训练数据对包括配对的文本训练数据以及语音训练数据；

对所述文本训练数据以及所述语音训练数据分别进行编码处理，得到对应所述文本训练数据的文本特征以及对应所述语音训练数据的语音特征；

将所述文本特征输入初始预测模型中，对所述初始预测模型进行训练，并通过所述初始预测模型输出对应所述文本特征的预测结果；

根据所述文本特征以及所述语音特征，生成对应所述训练数据对的对齐矩阵；

根据所述对齐矩阵以及所述预测结果，确定所述初始预测模型的模型损失，并基于所述模型损失，对所述初始预测模型进行迭代训练，得到所述预测模型。

4.根据权利要求3所述的方法，其特征在于，所述根据所述文本特征以及所述语音特征，生成对应所述训练数据对的对齐矩阵，包括：

基于所述文本特征，确定对应所述文本特征的文本特征向量；

基于所述语音特征，确定对应所述语音特征的语音特征向量；

根据所述文本特征向量以及所述语音特征向量，生成对应所述训练数据对的对齐矩阵。

5.根据权利要求3所述的方法，其特征在于，所述根据所述文本特征以及所述语音特征，生成对应所述训练数据对的对齐矩阵之后，还包括：

根据所述对齐矩阵，对所述文本训练数据进行对齐转换，得到文本转换语音特征；

对所述文本转换语音特征进行解码转换，生成对应所述文本训练数据的转换语音数据；

根据所述转换语音数据以及所述语音训练数据，计算所述解码转换的转换损失，并根据所述转换损失进行迭代训练，直至所述转换损失稳定。

6.根据权利要求1至5任一项所述的方法，其特征在于，所述方法还包括：

将所述语音合成请求、所述文本特征、所述对齐信息、所述对齐矩阵以及所述目标语音中的至少一个上传至区块链节点中进行存储。

7.一种基于人工智能的语音合成装置，其特征在于，所述装置包括：

语音合成请求接收模块，用于接收语音合成请求，所述语音合成请求携带有待合成语音的文本数据；

编码处理模块，用于对所述文本数据进行编码处理，得到对应所述文本数据的文本特征；

预测处理，用于对所述文本特征进行预测处理，得到对应所述文本特征的对齐信息；

对齐矩阵构建模块，用于基于所述对齐信息，构建对应所述文本特征的对齐矩阵；

对齐转换模块，用于通过所述对齐矩阵，对所述文本特征进行对齐转换，得到对应所述语音合成请求的目标语音。

8.根据权利要求7所述的装置，其特征在于，所述对齐转换模块，包括：

语音特征生成子模块，用于通过所述对齐矩阵，对所述文本特征进行对齐转换，得到对应所述文本特征对齐后的语音特征；

解码处理模块，用于对所述语音特征进行解码处理，生成对应所述语音合成请求的目标语音。

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至5或6中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至5或6中任一项所述的方法的步骤。