CN110136690B

CN110136690B - 语音合成方法、装置及计算机可读存储介质

Info

Publication number: CN110136690B
Application number: CN201910438778.3A
Authority: CN
Inventors: 彭话易; 程宁; 王健宗
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-05-22
Filing date: 2019-05-22
Publication date: 2023-07-14
Anticipated expiration: 2039-05-22
Also published as: WO2020232860A1; CN110136690A

Abstract

本发明涉及人工智能技术领域，公开了一种语音合成方法，该方法包括：将源说话人的语音数据转换为文本内容，并将所述文本内容转化为文本向量；将所述文本向量转化为源说话人的梅尔语谱图；获取目标说话人的语音信号，并将所述目标说话人的语音信号转换为目标说话人的梅尔频率倒谱系数特征；将所述源说话人的梅尔语谱图以及所述目标说话人的梅尔频率倒谱系数特征输入至经过训练的语谱特征转换模型中，得到目标说话人的梅尔语谱图；及将所述目标说话人的梅尔语谱图转换为所述文本内容对应的语音并输出。本发明还提出一种语音合成装置以及一种计算机可读存储介质。本发明可以实现语音合成系统的音色转换。

Description

语音合成方法、装置及计算机可读存储介质

技术领域

本发明涉及人工智能技术领域，尤其涉及一种语音合成方法、装置及计算机可读存储介质。

背景技术

随着科技的发展，计算机已经可以通过语音合成系统进行说话，普通用户很容易听懂并接受。然而，现有能说话的计算机往往只能按照一个模式或者一种声音进行说话。然而终端用户却往往有着更高的需求，比如，用户可能希望计算机能够以用户自己的声音进行朗读。因此在这种情况下，显然现有的计算机已不能满足这样的需求。

发明内容

本发明提供一种语音合成方法、装置及计算机可读存储介质，其主要目的在于提供一种可以实现语音合成系统的音色转换的方案。

为实现上述目的，本发明提供的一种语音合成方法，包括：

接收源说话人的语音数据，将所述源说话人的语音数据转换为文本内容，并将所述文本内容转化为文本向量；

将所述文本向量转化为源说话人的梅尔语谱图；

获取目标说话人的语音信号，并将所述目标说话人的语音信号转换为目标说话人的梅尔频率倒谱系数特征；

将所述源说话人的梅尔语谱图输入至一个经过训练的语谱特征转换模型中，以将所述源说话人的梅尔语谱图转换为目标梅尔语谱图，并将所述目标梅尔语谱图作为训练值以及将所述目标说话人的梅尔频率倒谱系数特征作为标签值输入至一个损失函数中，当所述损失函数输出的损失值大于或等于预设阈值时，对所述目标梅尔语谱图进行变换调整，直到所述损失函数输出的损失值小于所述预设阈值时，将所述目标梅尔语谱图作为所述目标说话人的梅尔语谱图输出；及

将所述目标说话人的梅尔语谱图转换为所述文本内容对应的语音并输出。

可选地，所述将所述文本内容转化为文本向量包括：

将所述文本内容中的汉字进行分词操作，将得到的分词转译为带有声调的汉语拼音，通过独热编码的方式，将转译得到的汉语拼音中的拼音字母和声调数字转换为一维文本向量，再按照时间序列将所述一维文本向量转化为二维的所述文本向量。

可选地，所述将所述文本向量转化为源说话人的梅尔语谱图，包括：

利用经过训练的序列到序列的神经网络模型，将所述二维文本向量转化为源说话人的梅尔语谱图，其中，所述经过训练的序列到序列的神经网络模型采用Tacotron架构，并使用预设语音数据库进行训练，该预设语音数据库包含了多个说话人在安静环境下用录音设备录制的语音文件以及每条语音所对应的文本文件。

可选地，所述语谱特征转换模型包括预训练的卷积神经网络模型以及一个两层的基于双向LSTM的循环神经网络，其中，所述将所述源说话人的梅尔语谱图输入至一个经过训练的语谱特征转换模型中，以将所述源说话人的梅尔语谱图转换为目标梅尔语谱图，包括：

将所述源说话人的梅尔语谱图通过所述预训练的卷积神经网络以进行时序压缩；

对经过时序压缩的梅尔语谱图按照时序进行分帧，每一帧的梅尔频率倒谱系数特征加上目标说话人的身份特征，并输入至所述循环神经网络中进行处理，该循环神经网络逐帧将源说话人的梅尔频率倒谱系数特征转换为目标梅尔频率倒谱系数特征，得到所述目标梅尔语谱图。

可选地，所述将源说话人的梅尔语谱图通过预训练的卷积神经网络以进行时序压缩，包括：

将源说话人的梅尔语谱图输入所述卷积神经网络模型的输入层，该梅尔语谱图依次进入一个7*7的卷积层，3*3的最大值池化层，4个卷积模块，最后在softmax层输出经过时序压缩的梅尔语谱图。

此外，为实现上述目的，本发明还提供一种语音合成装置，该装置包括存储器和处理器，所述存储器中存储有可在所述处理器上运行的语音合成程序，所述语音合成程序被所述处理器执行时实现如下步骤：

将所述文本向量转化为源说话人的梅尔语谱图；

可选地，所述将所述文本内容转化为二维文本向量包括：

将所述文本内容中的汉字进行分词操作，将得到的分词转译为带有声调的汉语拼音，通过独热编码的方式，将转译得到的汉语拼音中的拼音字母和声调数字转换为一维文本向量，再按照时间序列将所述一维文本向量转化为所述二维文本向量。

将所述源说话人的梅尔语谱图通过所述预训练的卷积神经网络模型以进行时序压缩；

对经过时序压缩的梅尔语谱图按照时序进行分帧，每一帧的梅尔频率倒谱系数特征加上目标说话人的身份特征，并输入至所述循环神经网络中进行处理，该循环神经网络逐帧将源说话人的梅尔频率倒谱系数特征转换为目标说话人的梅尔频率倒谱系数特征，得到所述目标梅尔语谱图。

可选地，所述将源说话人的梅尔语谱图通过预训练的卷积神经网络以进行时序上的压缩，包括：

将所述源说话人的梅尔语谱图输入所述卷积神经网络的输入层，该梅尔语谱图依次进入一个7*7的卷积层，3*3的最大值池化层，4个卷积模块，最后在softmax层输出经过时序压缩的梅尔语谱图。

此外，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有语音合成程序，所述语音合成程序可被一个或者多个处理器执行，以实现如上所述的语音合成方法的步骤。

本发明提出的语音合成方法、装置及计算机可读存储介质利用一个预先训练的语谱特征转换模型将将源说话人的梅尔语谱图转换目标说话人的梅尔语谱图，从而将利用源说话人的音色输出的文本内容转换为利用目标说话人的音色输出，实现了语音合成系统的音色转换。

附图说明

图1为本发明一实施例提供的语音合成方法的流程示意图；

图2为本发明一实施例提供的语音合成方法中将文本内容转化为文本向量的示意图；

图3为本发明一实施例提供的语音合成方法中语谱特征转换模型的结构示意图；

图4为本发明一实施例提供的语音合成装置的内部结构示意图；

图5为本发明一实施例提供的语音合成装置中语音合成程序的模块示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明提供一种语音合成方法。参照图1所示，为本发明一实施例提供的语音合成方法的流程示意图。该方法可以由一个装置执行，该装置可以由软件和/或硬件实现。

在本实施例中，语音合成方法包括：

S1、接收源说话人的语音数据，将所述源说话人的语音数据转换为文本内容，并将所述文本内容转化为文本向量。

本发明通过一个文本嵌入模块将所述文本内容中的汉字转换为文本向量。

本发明利用所述文本嵌入模块将输入的文本内容中的汉字进行分词操作，然后将得到的分词转译为带有声调(用1-5表示普通话的四种声调和轻声)的汉语拼音，例如，将一个分词“您好”转换为“nin2hao3”。

进一步地，本发明通过独热编码的方式，将转译得到的汉语拼音中的拼音字母和声调数字转换为一维文本向量，再按照时间序列将其转化为一个二维文本向量，参阅图2所示。

S2、将所述文本向量转化为源说话人的梅尔语谱图。

本发明较佳实施例通过将所述文本向量输入到一个梅尔语谱生成模块中，将所述文本向量转化为源说话人的梅尔语谱图。

本发明所述梅尔语谱生成模块接收所述文本嵌入模块传递来的文本向量，并利用经过训练的序列到序列的神经网络模型，将所述文本向量转化为源说话人的梅尔语谱图。

本发明所述经过训练的序列到序列的神经网络模型采用Tacotron架构，并使用了一份不公开的语音数据库进行训练。该语音数据库包含了一位女性说话人(即源说话人)在安静环境下，用专用录音设备录制的总时长约30个小时的语音文件，以及每条语音所对应的文本文件。输入的文本向量经过训练过的序列到序列的神经网络模型映射之后，会被转换为源说话人的梅尔语谱图。

所述梅尔语谱图是一种基于梅尔频率倒谱系数(Mel Frequency CepstrumCoefficient,MFCC)特征的频谱图。为获得所述梅尔频率倒谱系数特征，本发明首先使用Preemphasis滤波器提高高频信号和信噪比，其公式为：y(t)＝x(t)-αx(t-1)，式中x为信号输入，y为信号输出，x(t)为t时刻的信号，x(t-1)为(t-1)的信号，α一般取0.97。根据所述Preemphasis滤波器得到提高了高频信号和信噪比之后的t时刻的信号输出y(t)。接着进行短时傅里叶变换。为了模拟人耳对高频信号的抑制，本发明利用一组包含多个三角滤波器的滤波组件(filterbank)对经过短时傅里叶变换的线性谱进行处理得到低维特征，并强调低频部分，弱化高频部分，从而得到所述梅尔频率倒谱系数特征。

优选地，在进行傅里叶变换前，为了防止能量泄露本发明较佳实施例会使用汉宁窗函数。所述汉宁窗可以看作是3个矩形时间窗的频谱之和，或者说是3个sin(t)型函数之和，而括号中的两项相对于第一个谱窗向左、右各移动了π/T，从而使旁瓣互相抵消，消去高频干扰和漏能。

S3、获取目标说话人的语音信号，并将所述目标说话人的语音信号转换为目标说话人的梅尔频率倒谱系数特征。

S4、将所述源说话人的梅尔语谱图输入至一个经过训练的语谱特征转换模型中，以将所述源说话人的梅尔语谱图转换为目标梅尔语谱图，并将所述目标梅尔语谱图作为训练值以及将所述目标说话人的梅尔频率倒谱系数特征作为标签值输入至一个损失函数中，当所述损失函数输出的损失值大于或等于预设阈值时，对所述目标梅尔语谱图进行变换调整，直到所述损失函数输出的损失值小于所述预设阈值时，将所述目标梅尔语谱图作为所述目标说话人的梅尔语谱图输出。

本发明所述语谱特征转换模型包括卷积神经网络(Convolutional NeuralNetworks，CNN)模型和基于双向LSTM的循环神经网络(Recurrent Neural Network，RNN)模型。本发明将所述源说话人的梅尔语谱图通过一层预训练的卷积神经网络进行时序上的压缩以更好的对梅尔语谱图中的特征进行表示，处理过的梅尔语谱图会按照时序进行分帧，每一帧的梅尔频率倒谱系数特征将会加上目标说话人的身份特征，然后输入至一个两层的基于双向LSTM的循环神经网络中进行处理，该双向LSTM的循环神经网络逐帧的将源说话人的梅尔语谱图转换为目标梅尔语谱图。进一步地，本发明将所述转换得到的目标梅尔语谱图作为训练值，将上述步骤S3得到的目标说话人的梅尔频率倒谱系数特征作为标签值输入至一个损失函数中，当所述损失函数输出的损失值大于或等于预设阈值时，对所述目标梅尔语谱图进行变换调整，直到所述损失函数输出的损失值小于所述预设阈值时，将目标梅尔语谱图作为所述源说话人的梅尔语谱图输出。

本发明较佳实施例中，所述语谱特征转换模型的结构如图3所示。

所述卷积神经网络以及基于双向LSTM的循环神经网络也使用了一个非公开的语音数据集进行了训练。该语音数据集包含了N位(较佳的，N为10)位女性说话人的录音(每位说话人都有时长约1小时语音文件)，并且10位说话人所录制的文本内容都是相同的。其中有一位女性说话人也录制了上述训练的序列到序列的神经网络模型所用的语音数据库。因此该位说话人被作为源说话人。而其余九位说话人则被当作目标说话人，并分别给予1-9的身份编号。该编号将在所述卷积神经网络以及基于双向LSTM的循环神经网络训练以及之后推理时，作为目标说话人身份向量嵌入相对应的梅尔频率倒谱系数特征中。

所述卷积神经网络是一种前馈神经网络，它的人工神经元可以响应一部分覆盖范围内的周围单元，其基本结构包括两层，其一为特征提取层，每个神经元的输入与前一层的局部接受域相连，并提取该局部的特征。一旦该局部特征被提取后，它与其它特征间的位置关系也随之确定下来；其二是特征映射层，网络的每个计算层由多个特征映射组成，每个特征映射是一个平面，平面上所有神经元的权值相等。特征映射结构采用影响函数核小的sigmoid函数作为卷积网络的激活函数，使得特征映射具有位移不变性。此外，由于一个映射面上的神经元共享权值，因而减少了网络自由参数的个数。卷积神经网络中的每一个卷积层都紧跟着一个用来求局部平均与二次提取的计算层，这种特有的两次特征提取结构减小了特征分辨率。

输入层：输入层是整个卷积神经网络唯一的数据输入口，主要用于定义不同类型的数据输入。

卷积层：对输入卷积层的数据进行卷积操作，输出卷积后的特征图。

下采样层(Pooling层)：Pooling层对传入数据在空间维度上进行下采样操作，使得输入的特征图的长和宽变为原来的一半。

全连接层：全连接层和普通神经网络一样，每个神经元都与输入的所有神经元相互连接，然后经过激活函数进行计算。

输出层：输出层也被称为分类层，在最后输出时会计算每一类别的分类分值。

在本发明实施例中，输入层为源说话人梅尔语谱图，该梅尔语谱图依次进入一个7*7的卷积层，3*3的最大值池化层，随后进入4个卷积模块。每个卷积模块从具有线性投影的构建块开始，随后是具有本体映射的不同数量的构建块，最后在softmax层输出经过时序压缩的梅尔语谱。

所述循环神经网络通常用于描述动态的序列数据，随着时间的变化而动态调整自身的网络状态，并且不断进行循环传递。在传统的神经网络模型中，神经元从输入层到隐藏层，再从隐藏层到输出层，层与层之间是全连接或者局部连接的方式，且在数据的传递中，会丢失上一层计算过程中产生的特征信息，而RNN所不同于传统神经网络模型的地方在于一个序列当前的输出与前面的输出也有关。具体的表现形式为网络会对前面的信息进行记忆并应用与当前输出的计算中，即隐藏层之间的解点不再是无连接的而是有链接的，并且隐藏层的输出不仅包括输入层的输出，还包括上一时刻隐藏层的输出。

在本发明实施例中，将利用时序进行分帧的梅尔频率倒谱系数特征输入到两层的基于LSTM的循环神经网络模型中，利用梯度下降法求解损失函数。

在神经网络中，所述损失函数用来评价网络模型输出的预测值

与真实值Y之间的差异。这里用/>

来表示损失函数，它是一个非负实数函数，损失值越小，网络模型的性能越好。根据深度学习中神经元基本公式，各层输入、输出分别为

C_i＝(z_i)，/>

为第l层网络第i个神经元的输出，Ws_i-1为第l层网络第i个神经元到第l+1层网络中第j个神经元的链接，U为第l层网络第i个神经元的权重，x_i第l层网络第i个神经元，C_i为输出层各单元的输出值，根据这一输入输出公式，利用MSE建立损失函数/>

式中Y_i为一个batch中第i个数据的正确答案，而/>

为神经网络给出的预测值。同时为缓解梯度消散问题，选择ReLU函数relu(x)＝max(0,x)作为激活函数，式中x为神经网络的输入值，该函数满足仿生学中的稀疏性，只有当输入值高于一定数目时才激活该神经元节点，当输入值低于0时进行限制，当输入上升到某一阈值以上时，函数中自变量与因变量呈线性关系。

本发明较佳实施例利用梯度下降算法求解所述损失函数。梯度下降算法是神经网络模型训练最常用的优化算法。为找到损失函数

的最小值，需要沿着与梯度向量相反的方向-L/dy更新变量y，这样可以使得梯度减少最快，直至损失收敛至最小值，参数更新公式如下：L＝L-αdL/dy,α表示学习率，从而可以获取最终的神经网络参数用于识别梅尔语谱图。

进一步地，本发明利用Softmax函数输入分类标签。

所述Softmax是对逻辑回归的推广，逻辑回归用于处理二分类问题，其推广的Softmax回归则用于处理多分类问题。根据所输入梅尔频率倒谱系数特征，通过该激活函数获得所有类别输出概率的最大值，其核心公式为：

假设所属类别共有K个类，x_k表示类别为k的样本，x_j表示所属类别为j的样本，并因此得到目标梅尔语谱图。

S5、将所述目标说话人的梅尔语谱图转换为所述文本内容对应的语音并输出。

本发明较佳实施例利用语音生成模块将目标说话人的梅尔语谱图合成为语音。

语音生成模块用于处理梅尔语谱图并生成高保真以及高自然度的语音。本发明在获得了目标说话人的梅尔语谱图后，使用一个语音生成模块，把梅尔语谱图作为条件输入，生成目标说话人的语音。该语音生成模块采用了一种叫做WaveNet的声码器。当输入不同目标说话人的梅尔语谱图时，该声码器可以根据所述梅尔语谱图生成不同目标说话人的的高保真声音。

本发明较佳实施例中所使用的WaveNet声码器，也是由一个非公开的语音数据集训练而成，该数据集与训练卷积神经网络所用的语音数据集为同一数据集。所述WaveNet是一个端到端的TTS(text to speech)模型，其主要概念是因果卷积，所谓因果卷积的意义就是WaveNet在生成t时刻的元素时，只能使用0到t-1时刻的元素值。由于声音文件是时间上的一维数组，16KHz的采样率的文件，每秒钟就会有16000个元素，而上面所说的因果卷积的感受野非常小，即使堆叠很多层也只能使用到很少的数据来生成t时刻的的元素，为了扩大卷积的感受野，WaveNet采用了堆叠了多层带洞卷积来增到网络的感受野，使得网络生成下一个元素的时候，能够使用更多之前的元素数值。

本发明还提供一种语音合成装置。参照图4所示，为本发明一实施例提供的语音合成装置的内部结构示意图。

在本实施例中，语音合成装置1可以是PC(Personal Computer，个人电脑)，也可以是智能手机、平板电脑、便携计算机等终端设备。该语音合成装置1至少包括存储器11、处理器12，通信总线13，以及网络接口14。

其中，存储器11至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、磁性存储器、磁盘、光盘等。存储器11在一些实施例中可以是语音合成装置1的内部存储单元，例如该语音合成装置1的硬盘。存储器11在另一些实施例中也可以是语音合成装置1的外部存储设备，例如语音合成装置1上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，存储器11还可以既包括语音合成装置1的内部存储单元也包括外部存储设备。存储器11不仅可以用于存储安装于语音合成装置1的应用软件及各类数据，例如语音合成程序01的代码等，还可以用于暂时地存储已经输出或者将要输出的数据。

处理器12在一些实施例中可以是一中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器或其他数据处理芯片，用于运行存储器11中存储的程序代码或处理数据，例如执行语音合成程序01等。

通信总线13用于实现这些组件之间的连接通信。

网络接口14可选的可以包括标准的有线接口、无线接口(如WI-FI接口)，通常用于在该装置1与其他电子设备之间建立通信连接。

可选地，该装置1还可以包括用户接口，用户接口可以包括显示器(Display)、输入单元比如键盘(Keyboard)，可选的用户接口还可以包括标准的有线接口、无线接口。可选地，在一些实施例中，显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode，有机发光二极管)触摸器等。其中，显示器也可以适当的称为显示屏或显示单元，用于显示在语音合成装置1中处理的信息以及用于显示可视化的用户界面。

图4仅示出了具有组件11-14以及语音合成程序01的语音合成装置1，本领域技术人员可以理解的是，图4示出的结构并不构成对语音合成装置1的限定，可以包括比图示更少或者更多的部件，或者组合某些部件，或者不同的部件布置。

在图4所示的装置1实施例中，存储器11中存储有语音合成程序01；处理器12执行存储器11中存储的语音合成程序01时实现如下步骤：

步骤一、接收源说话人的语音数据，将所述源说话人的语音数据转换为文本内容，并将所述文本内容转化为文本向量。

步骤二、将所述文本向量转化为源说话人的梅尔语谱图。

步骤三、获取目标说话人的语音信号，并将所述目标说话人的语音信号转换为目标说话人的梅尔频率倒谱系数特征。

步骤四、将所述源说话人的梅尔语谱图输入至一个经过训练的语谱特征转换模型中，以将所述源说话人的梅尔语谱图转换为目标梅尔语谱图，并将所述目标梅尔语谱图作为训练值以及将所述目标说话人的梅尔频率倒谱系数特征作为标签值输入至一个损失函数中，当所述损失函数输出的损失值大于或等于预设阈值时，对所述目标梅尔语谱图进行变换调整，直到所述损失函数输出的损失值小于所述预设阈值时，将所述目标梅尔语谱图作为所述目标说话人的梅尔语谱图输出。

本发明所述语谱特征转换模型包括卷积神经网络(Convolutional NeuralNetworks，CNN)模型和基于双向LSTM的循环神经网络(Recurrent Neural Network，RNN)模型。本发明将所述源说话人的梅尔语谱图通过一层预训练的卷积神经网络以进行时序上的压缩以更好的对梅尔语谱中的特征进行表示，处理过的梅尔语谱图会按照时序进行分帧，每一帧的梅尔频率倒谱系数特征将会加上目标说话人的身份特征，然后输入至一个两层的基于双向LSTM的循环神经网络中进行处理，该双向LSTM的循环神经网络逐帧的将源说话人的梅尔语谱图转换为目标梅尔语谱图。进一步地，本发明将所述转换得到的目标梅尔语谱图作为训练值，将上述步骤S3得到的目标说话人的梅尔频率倒谱系数特征作为标签值输入至一个损失函数中，当所述损失函数输出的损失值大于或等于预设阈值时，对所述目标梅尔语谱图进行变换调整，直到所述损失函数输出的损失值小于所述预设阈值时，将目标梅尔语谱图作为所述源说话人的梅尔语谱图输出。

与真实值Y之间的差异。这里用/>

C_i＝(z_i)，/>

为第l层网络第i个神经元的输出，Ws_i-1为第l层网络第i个神经元到第l+1层网络中第j个神经元的链接，U为第l层网络第i个神经元的权重，x_i第l层网络第i个神经元，C_j为输出层各单元的输出值，根据这一输入输出公式，利用MSE建立损失函数/>

式中Y_i为一个batch中第i个数据的正确答案，而/>

进一步地，本发明利用Softmax函数输入分类标签。

步骤五、将所述目标说话人的梅尔语谱图转换为所述文本内容对应的语音并输出。

可选地，在其他实施例中，语音合成程序01还可以被分割为一个或者多个模块，一个或者多个模块被存储于存储器11中，并由一个或多个处理器(本实施例为处理器12)所执行以完成本发明，本发明所称的模块是指能够完成特定功能的一系列计算机程序指令段，用于描述语音合成程序在语音合成装置中的执行过程。

例如，参照图5所示，为本发明语音合成装置一实施例中的语音合成程序的程序模块示意图，该实施例中，语音合成程序可以被分割为文本嵌入模块10、梅尔语谱生成模块20、语谱特征转换模块30及语音生成模块40，示例性地：

所述文本嵌入模块10用于：接收源说话人的语音数据，将所述源说话人的语音数据转换为文本内容，并将所述文本内容转化为文本向量。

可选地，所述文本嵌入模块10具体用于将所述文本内容中的汉字进行分词操作，然后将得到的分词转译为带有声调的汉语拼音，并通过独热编码的方式，将转译得到的汉语拼音中的拼音字母和声调数字转换为一维文本向量，再按照时间序列将其转化为一个二维的所述文本向量。

所述梅尔语谱生成模块20用于：将所述文本向量转化为源说话人的梅尔语谱图。

可选地，梅尔语谱生成模块20利用经过训练的序列到序列的神经网络模型，将所述二维文本向量转化为源说话人的梅尔语谱图，其中，所述经过训练的序列到序列的神经网络模型采用Tacotron架构，并使用预设语音数据库进行训练，该预设语音数据库包含了多个说话人在安静环境下用录音设备录制的语音文件以及每条语音所对应的文本文件。

所述语谱特征转换模块30用于：获取目标说话人的语音信号，并将所述目标说话人的语音信号转换为目标说话人的梅尔频率倒谱系数特征，将所述源说话人的梅尔语谱图输入至一个经过训练的语谱特征转换模型中，以将所述源说话人的梅尔语谱图转换为目标梅尔语谱图，并将所述目标梅尔语谱图作为训练值以及将所述目标说话人的梅尔频率倒谱系数特征作为标签值输入至一个损失函数中，当所述损失函数输出的损失值大于或等于预设阈值时，对所述目标梅尔语谱图进行变换调整，直到所述损失函数输出的损失值小于所述预设阈值时，将所述目标梅尔语谱图作为所述目标说话人的梅尔语谱图输出。

可选地，所述语谱特征转换模块30将所述源说话人的梅尔语谱图通过所述预训练的卷积神经网络以进行时序压缩，对经过时序压缩的梅尔语谱图按照时序进行分帧，每一帧的梅尔频率倒谱系数特征加上目标说话人的身份特征，并输入至所述循环神经网络中进行处理，该循环神经网络逐帧将源说话人的梅尔频率倒谱系数特征转换为目标说话人的梅尔频率倒谱系数特征，得到所述训练值。

所述语音生成模块40用于：将所述目标说话人的梅尔语谱图转换为所述文本内容对应的语音并输出。

上述文本嵌入模块10、梅尔语谱生成模块20、语谱特征转换模块30和语音生成模块40等程序模块被执行时所实现的功能或操作步骤与上述实施例大体相同，在此不再赘述。

此外，本发明实施例还提出一种计算机可读存储介质，所述计算机可读存储介质上存储有语音合成程序，所述语音合成程序可被一个或多个处理器执行，以实现如下操作：

将所述文本向量转化为源说话人的梅尔语谱图；

本发明计算机可读存储介质具体实施方式与上述语音合成装置和方法各实施例基本相同，在此不作累述。

需要说明的是，上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。并且本文中的术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种语音合成方法，其特征在于，所述方法包括：

将所述文本向量转化为源说话人的梅尔语谱图；

将所述源说话人的梅尔语谱图和所述目标说话人的身份特征输入至一个经过训练的语谱特征转换模型中，以将所述源说话人的梅尔语谱图转换为目标梅尔语谱图，并将所述目标梅尔语谱图作为训练值以及将所述目标说话人的梅尔频率倒谱系数特征作为标签值输入至一个损失函数中，当所述损失函数输出的损失值大于或等于预设阈值时，对所述目标梅尔语谱图进行变换调整，直到所述损失函数输出的损失值小于所述预设阈值时，将所述目标梅尔语谱图作为所述目标说话人的梅尔语谱图输出；及

利用语音生成模块将所述目标说话人的梅尔语谱图作为条件输入，转换为所述文本内容对应的语音并输出。

2.如权利要求1所述的语音合成方法，其特征在于，所述将所述文本内容转化为文本向量包括：

将所述文本内容中的汉字进行分词操作，将得到的分词转译为带有声调的汉语拼音，通过独热编码的方式，将转译得到的汉语拼音中的拼音字母和声调数字转换为一维文本向量，再按照时间序列将所述一维文本向量转化为二维文本向量。

3.如权利要求2所述的语音合成方法，其特征在于，所述将所述文本向量转化为源说话人的梅尔语谱图，包括：

4.如权利要求1所述的语音合成方法，其特征在于，所述语谱特征转换模型包括预训练的卷积神经网络模型以及一个两层的基于双向LSTM的循环神经网络，其中，所述将所述源说话人的梅尔语谱图和所述目标说话人的身份特征输入至一个经过训练的语谱特征转换模型中，以将所述源说话人的梅尔语谱图转换为目标梅尔语谱图，包括：

5.如权利要求4所述的语音合成方法，其特征在于，所述将源说话人的梅尔语谱图通过预训练的卷积神经网络模型以进行时序压缩，包括：

将所述源说话人的梅尔语谱图输入所述卷积神经网络模型的输入层，该梅尔语谱图依次进入一个7*7的卷积层，3*3的最大值池化层，4个卷积模块，最后在softmax层输出经过时序压缩的梅尔语谱图。

6.一种语音合成装置，其特征在于，所述装置包括存储器和处理器，所述存储器上存储有可在所述处理器上运行的语音合成程序，所述语音合成程序被所述处理器执行时实现如下步骤：

将所述文本向量转化为源说话人的梅尔语谱图；

利用语音生成模块将所述目标说话人的梅尔语谱图转换作为条件输入，为所述文本内容对应的语音并输出。

7.如权利要求6所述的语音合成装置，其特征在于，所述将所述文本内容转化为二维文本向量包括：

8.如权利要求6所述的语音合成装置，其特征在于，所述语谱特征转换模型包括预训练的卷积神经网络模型以及一个两层的基于双向LSTM的循环神经网络，其中，所述将所述源说话人的梅尔语谱图和所述目标说话人的身份特征输入至一个经过训练的语谱特征转换模型中，以将所述源说话人的梅尔语谱图转换为目标梅尔语谱图，包括：

将所述源说话人的梅尔语谱图通过所述预训练的神经网络模型以进行时序压缩；

9.如权利要求8所述的语音合成装置，其特征在于，所述将源说话人的梅尔语谱图通过预训练的卷积神经网络模型以进行时序压缩，包括：

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有语音合成程序，所述语音合成程序可被一个或者多个处理器执行，以实现如权利要求1至5中任一项所述的语音合成方法的步骤。