CN110136692B

CN110136692B - 语音合成方法、装置、设备及存储介质

Info

Publication number: CN110136692B
Application number: CN201910360783.7A
Authority: CN
Inventors: 孔德威
Original assignee: Beijing Xiaomi Mobile Software Co Ltd
Current assignee: Beijing Xiaomi Mobile Software Co Ltd
Priority date: 2019-04-30
Filing date: 2019-04-30
Publication date: 2021-12-14
Anticipated expiration: 2039-04-30
Also published as: CN110136692A

Abstract

本发明提供一种语音合成方法、装置、设备及存储介质。该方法包括：语音合成装置首先对获取到的文本信息进行预处理，得到文本信息的文本向量；再将文本向量输入至预设的声学模型，得到文本向量对应的第一声学参数向量，其中声学模型用于根据记忆矩阵对文本向量进行处理得到第一声学参数向量；最后根据第一声学参数向量合成文本信息对应的语音信息。由于声学模型中记忆矩阵是不断更新的，实现了对历史文本信息更有效的记忆，提升了声学模型整体的预测效果，进而提升语音信息的输出质量。

Description

语音合成方法、装置、设备及存储介质

技术领域

本发明实施例涉及数据处理技术领域，尤其涉及一种语音合成方法、装置、设备及存储介质。

背景技术

语音合成和语音识别技术是实现人机语音通信，建立一个有听和讲能力的口语系统所必须的两项关键技术。语音合成，又称文语转换(Text to Speech)技术，能将任意文字信息实时转化为标准流畅的语音朗读出来，相当于给机器装上了人工嘴巴。语音合成的目标是使合成的语音可懂、清晰、自然而富有表现力。

传统的语音合成方法是基于统计学习和决策树的隐马尔科夫-高斯混合模型(Hidden markov model,HMM)和深度神经网络模型(Deep neural network,DNN)。上述模型需要大量样本数据进行训练，预测效果不稳定，合成的语音信息质量较差。

发明内容

本发明提供一种语音合成方法、装置、设备及存储介质，提升了文本信息对应的语音信息的输出质量。

本发明的第一方面提供一种语音合成方法，包括：

获取用户输入的文本信息；

对所述文本信息进行预处理，得到所述文本信息的文本向量；

将所述文本向量输入至预设的声学模型，得到所述文本向量对应的第一声学参数向量，所述声学模型用于根据记忆矩阵对所述文本向量进行处理得到所述第一声学参数向量；

根据所述第一声学参数向量合成所述文本信息对应的语音信息。

可选地，所述记忆矩阵预先存储多个时刻的隐层向量和预设权重值；所述声学模型用于根据记忆矩阵中所述多个时刻的隐层向量和所述预设权重值对所述文本向量进行处理得到所述第一声学参数向量。

在一种可能的实现方式中，所述将所述文本向量输入至预设的声学模型，得到所述文本向量对应的第一声学参数向量之前，所述方法还包括：

获取训练样本集合，所述训练样本集合包括：样本文本信息、和所述样本文本信息对应的语音信息；

对所述样本文本信息进行预处理，得到样本文本向量；

对所述样本文本信息对应的语音信息进行预处理，得到声学参数向量；

建立初始声学模型；

通过将所述样本文本向量作为所述初始声学模型的输入，将与所述样本文本向量对应的声学参数向量作为所述初始声学模型的输出，对所述初始声学模型进行训练，得到所述声学模型。

在一种可能的实现方式中，所述通过将所述样本文本向量作为所述初始声学模型的输入，将与所述样本文本向量对应的声学参数向量作为所述初始声学模型的输出，对所述初始声学模型进行训练，得到所述声学模型，包括：

将所述训练样本集合中的至少一个样本文本向量输入至初始声学模型，得到预测的声学参数向量；

比较预测的声学参数向量与所述至少一个样本文本向量对应的声学参数向量，根据比较结果确定声学参数向量的损失值；

若所述损失值小于或者等于预设损失值，将所述初始声学模型作为所述声学模型。

在一种可能的实现方式中，所述方法还包括：

若所述损失值大于所述预设损失值，调整所述初始声学模型的所述记忆矩阵的预设权重值；

继续执行对所述初始声学模型的训练过程。

可选地，所述第一声学参数向量包括谱参数，基频数据和时长。

本发明的第二方面提供一种语音合成装置，包括：

第一获取模块，用于获取用户输入的文本信息；

第一处理模块，用于对所述文本信息进行预处理，得到所述文本信息的文本向量；

合成模块，用于根据所述第一声学参数向量合成所述文本信息对应的语音信息。

在一种可能的实现方式中，所述记忆矩阵预先存储多个时刻的隐层向量和预设权重值；所述声学模型用于根据记忆矩阵中所述多个时刻的隐层向量和所述预设权重值对所述文本向量进行处理得到所述第一声学参数向量。

在一种可能的实现方式中，所述装置还包括第二获取模块、第二处理模块；

所述第二获取模块，用于将所述文本向量输入至预设的声学模型，得到所述文本向量对应的第一声学参数向量之前，获取训练样本集合，所述训练样本集合包括：样本文本信息、和所述样本文本信息对应的语音信息；

所述第二处理模块，用于对所述样本文本信息进行预处理，得到样本文本向量；对所述样本文本信息对应的语音信息进行预处理，得到声学参数向量；

建立初始声学模型；

在一种可能的实现方式中，所述第二处理模块包括第一处理子模块；

所述第一处理子模块，用于将所述训练样本集合中的至少一个样本文本向量输入至初始声学模型，得到预测的声学参数向量；

在一种可能的实现方式中，所述第二处理模块还包括第二处理子模块；

若所述损失值大于所述预设损失值，所述第二处理子模块，用于调整所述初始声学模型的所述记忆矩阵的预设权重值；

继续执行对所述初始声学模型的训练过程。

本发明的第三方面提供一种电子设备，包括：

存储器；

处理器；以及

计算机程序；

其中，所述计算机程序存储在所述存储器中，并被配置为由所述处理器执行以实现如本发明第一方面任一项所述的方法。

本发明的第四方面提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行以实现如本发明第一方面任一项所述的方法。

本发明实施例提供一种语音合成方法、装置、设备及存储介质。该方法包括：语音合成装置首先对获取到的文本信息进行预处理，得到文本信息的文本向量；再将文本向量输入至预设的声学模型，得到文本向量对应的第一声学参数向量，其中声学模型用于根据记忆矩阵对文本向量进行处理得到第一声学参数向量；最后根据第一声学参数向量合成文本信息对应的语音信息。由于声学模型中记忆矩阵是不断更新的，实现了对历史文本信息更有效的记忆，提升了声学模型整体的预测效果，进而提升语音信息的输出质量。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的语音合成方法的系统架构图；

图2为本发明一实施例提供的语音合成方法的流程示意图；

图3为本发明实施例提供的声学模型的结构示意图；

图4为本发明一实施例提供的声学模型训练过程的示意图；

图5为本发明一实施例提供的语音合成装置的结构示意图；

图6为本发明另一实施例提供的语音合成装置的结构示意图；

图7为本发明一实施例提供的电子设备的硬件结构示意图；

图8为本发明一实施例提供的终端设备的结构示意图；

图9为本发明一实施例提供的服务器的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，本文中使用的术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

语音合成一般分为参数合成和拼接合成。参数合成是提取语音的参数，再由声码器合成语音；拼接合成是由原始语音的小片段拼接合成语音。本实施例提供的语音合成属于参数合成。参数合成语音的质量取决于声学模型的质量和合成器(声码器)的质量。本实施例提供的声学模型用于根据输入的文本向量预测声学参数向量，预测效果直接影响语音信息的合成质量。

图1为本发明实施例提供的语音合成方法的系统架构图。如图1所示，本实施例的系统架构包括终端设备11、12，无线网络13以及服务器14。终端设备11、12通过无线网络13连接服务器14。终端设备11、12通过无线网络13向服务器14发送文本信息，服务器14根据终端设备11、12发送的文本信息生成文本信息对应的语音信息，将语音信息返回终端设备11、12。用户可以通过终端设备11、12上安装的各种应用程序APP，例如输入法APP、文本处理类APP等，输入待合成的文本信息。

本实施例的终端设备可以是具有文字输入功能的电子设备，包括但不限于是智能手机、笔记本电脑、平板电脑等。本实施例的服务器是具有语音合成功能的服务器，用于根据终端设备发送的文本信息生成文本信息对应的语音信息。

需要说明的是，本实施例提供的语音合成方法的执行主体为语音合成装置，该装置可以通过软件和/或硬件实现，可以设置在服务器侧，也可以设置在终端设备侧，对此本实施例不作具体限定。

下面以具体地实施例对本发明的技术方案进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例不再赘述。

图2为本发明一实施例提供的语音合成方法的流程示意图。如图2所示，本实施例提供的语音合成方法包括如下步骤：

S201、获取用户输入的文本信息；

S202、对文本信息进行预处理，得到文本信息的文本向量；

语音合成装置获取到用户输入的文本信息后，对文本信息进行分词、注音、韵律标注等预处理，得到文本信息的文本向量。文本向量包括多个分词，每一个分词对应的音素、音节、音素时长等。

S203、将文本向量输入至预设的声学模型，得到文本向量对应的第一声学参数向量；

声学模型用于根据记忆矩阵对文本向量进行处理得到第一声学参数向量。

本实施例的声学模型不同于传统的声学模型。传统的声学模型采用两层LSTM(Long Short-Term Memory，长短期记忆神经网络)网络，网络中神经元为一个LSTM单元。本实施例提出的声学模型采用一层网络，网络中的神经元是一个记忆矩阵。声学模型中的记忆矩阵预先存储多个时刻的隐层向量和预设权重值。预设权重值包括初始隐层向量的权重值、文本向量的权重值、以及记忆矩阵内部权重值。其中，记忆矩阵内部权重值随着时间的推移不断更新。

图3为本发明实施例提供的声学模型的结构示意图。下面结合图3对声学模型中记忆矩阵的更新规则进行详细说明。下面几个公式示出了记忆矩阵的更新规则：

h₀(t+1)＝f(Wh(t)+Cx(t)) (2)

h_i+1(t+1)＝f([W·h(t)+C·x(t)]+A(t)h_i(t+1)) (3)

A(t)＝λA(t-1)+ηh(t)h(t)^T (4)

h′_i+1(t+1)＝f(LN[W·h(t)+C·x(t)+A(t)h_i(t+1)]) (5)

式中，h(t)为t时刻的隐层向量。t时刻有n个隐层向量，如图3所示，分别为h₀(t+1)、h₁(t+1)、h₂(t+1)…h_n-1(t+1)，每一个隐层向量都是由前一个隐层向量计算得到，参见公式(3)。

λ为衰减值，取值为0.95；η为学习率，取值为0.5；A(t)为记忆矩阵内部权重值，A(t)随着时间的推移不断更新，参见公式(4)。

W为初始隐层向量的权重值，C为文本向量的权重值，f函数为线性整流函数(Rectified Linear Unit,ReLU)是神经网络中常用的激活函数，通常指代以斜波函数及其变种为代表的非线性函数。

h(t)h(t)^T为隐层向量的外积，h(t)^T为隐层向量的转置。

h_i+1'(t+1)为经过层参数归一化后的隐层向量，LN表示层的归一化。

具体地，本实施例的声学模型用于根据记忆矩阵中多个时刻的隐层向量、初始隐层向量的权重值、文本向量的权重值、记忆矩阵内部权重值，对文本向量进行处理，得到第一声学参数向量。

基于声学模型中的记忆矩阵来预测文本向量对应的第一声学参数向量，由于记忆矩阵内部的权重值是不断更新的，实现了对历史文本信息更有效的记忆，提升了声学模型整体的预测效果，进而提升语音信息的输出质量。

S204、根据第一声学参数向量合成文本信息对应的语音信息。

本实施例中，第一声学参数包括谱参数、基频数据和时长。其中，谱参数决定了音质和音色，基频数据决定了音高，时长决定了每个分词对应的发音时长。语音合成装置根据声学模型输出的第一声学参数，利用合成器生成或者从预设语音库中挑选语音单元来完成文本信息对应的语音信息的最后生成。

本实施例提供的语音合成方法，语音合成装置首先对获取到的文本信息进行预处理，得到文本信息的文本向量；再将文本向量输入至预设的声学模型，得到文本向量对应的第一声学参数向量，其中声学模型用于根据记忆矩阵对文本向量进行处理得到第一声学参数向量；最后根据第一声学参数向量合成文本信息对应的语音信息。由于声学模型中记忆矩阵是不断更新的，实现了对历史文本信息更有效的记忆，提升了声学模型整体的预测效果，进而提升语音信息的输出质量。

在上述实施例的基础上，本实施例示出了上述声学模型的训练过程。图4为本发明一实施例提供的声学模型训练过程的示意图。如图4所示，声学模型的训练过程包括如下步骤：

S401、获取训练样本集合，训练样本集合包括样本文本信息、和样本文本信息对应的语音信息；

本实施例中，语音合成装置可以通过多种方式获取训练样本集合。一种可能的实现方式中，训练样本集合预先存储于电子设备中，语音合成装置通过有线或者无线连接的方式从电子设备中获取训练样本集合。另一种可能的实现方式中，训练样本集合预先存储于语音合成装置的存储器中，语音合成装置直接从存储器中获取训练样本集合。

本实施例中的训练样本集合具体可以包括样本文本信息，以及样本文本信息对应的不同发音人的语音信息，也可以包括样本信息，以及样本文本信息对应的目标发音人的语音信息，对此本实施例不作具体限定。

S402、对样本文本信息进行预处理，得到样本文本向量；

S403、对样本文本信息对应的语音信息进行预处理，得到声学参数向量；

语音合成装置在进行声学模型训练之前，需要对样本文本集合中的样本文本信息以及样本文本信息对应的语音信息进行预处理。

具体地，语音合成装置对样本文本信息进行分词、注音、韵律标注等预处理，得到样本文本向量。样本文本向量包括多个分词，每一个分词对应的音素、音节、音素时长等。语音合成装置对样本文本信息对应的语音信息进行韵律分析，得到语音信息对应的声学参数向量，声学参数包括谱参数、基频数据和时长。

S404、建立初始声学模型；

S405、通过将样本文本向量作为初始声学模型的输入，将与样本文本向量对应的声学参数向量作为初始声学模型的输出，对初始声学模型进行训练，得到声学模型。

语音合成装置可以从电子设备或者本地存储器上获取初始声学模型，其中初始声学模型为未经训练或者未达到预设条件的神经网络模型。本实施例的神经网络模型由记忆矩阵构成，记忆矩阵作为模型中的神经元，记忆矩阵存储了多个时刻的隐层向量和预设权重值。

语音合成装置将训练样本集合中的至少一个样本文本向量输入至初始声学模型，得到预测的声学参数向量；比较预测的声学参数向量与至少一个样本文本向量对应的声学参数向量，根据比较结果确定初始声学模型是否满足预设条件；若初始声学模型满足预设条件，将初始声学模型作为声学模型；若初始声学模型不满足预设条件，语音合成装置自动调整初始声学模型中记忆矩阵的预设权重值，具体调整的是初始隐层向量的权重值和文本向量的权重值，根据调整后的权重值继续执行初始声学模型的上述训练过程，直至初始声学模型满足预设条件，停止对初始声学模型的训练。

需要说明的是，调整权重值之后，对初始声学模型进行再训练时，重新选取训练样本集合中未训练过的样本文本信息和样本文本信息对应的语音信息。

具体地，比较预测的声学参数向量与样本文本向量对应的声学参数向量，得到声学参数向量的损失值，例如谱参数、基频数据、时长的损失值。若谱参数、基频数据、时长的损失值均小于预设损失值，可认为初始声学模型满足预设条件。需要说明的是，谱参数的预设损失值、基频数据的预设损失值和时长的损失值可以相同，也可以不同，对此本实施例不做具体限定。损失值可以由损失函数计算得到。通常损失函数越小，声学模型的预测性能越好，可以根据实际需求设置损失函数。

经过对初始声学模型的训练过程得到满足预设条件的声学模型，语音合成装置基于该声学模型获取文本向量对应的声学参数向量，再利用合成器生成语音信息。

图5为本发明一实施例提供的语音合成装置的结构示意图，如图5所示，本实施例提供的语音合成装置，包括：第一获取模块51、第一处理模块52和合成模块53。

第一获取模块51，用于获取用户输入的文本信息；

第一处理模块52，用于对所述文本信息进行预处理，得到所述文本信息的文本向量；

合成模块53，用于根据所述第一声学参数向量合成所述文本信息对应的语音信息。

图6为本发明另一实施例提供的语音合成装置的结构示意图，在图5所示装置的基础上，如图6所示，本实施例提供的语音合成装置还包括：第二获取模块54、第二处理模块55；

所述第二获取模块54，用于将所述文本向量输入至预设的声学模型，得到所述文本向量对应的第一声学参数向量之前，获取训练样本集合，所述训练样本集合包括：样本文本信息、和所述样本文本信息对应的语音信息；

所述第二处理模块55，用于对所述样本文本信息进行预处理，得到样本文本向量；

建立初始声学模型；

可选地，所述第二处理模块55包括：第一处理子模块56；

所述第一处理子模块56，用于将所述训练样本集合中的至少一个样本文本向量输入至初始声学模型，得到预测的声学参数向量；

可选地，所述第二处理模块55还包括：第二处理子模块57；

继续执行对所述初始声学模型的训练过程。

本实施例提供的语音合成装置，可以执行上述方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

本发明实施例还提供一种电子设备，如图7所示，本发明实施例仅以图7为例进行说明，并不表示本发明仅限于此。

图7为本发明一实施例提供的电子设备的硬件结构示意图，如图7所示，本实施例提供的电子设备，包括：

存储器701；

处理器702；以及

计算机程序；

其中，计算机程序存储在存储器701中，并被配置为由处理器702执行以实现如前述任一项方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

可选的，存储器701既可以是独立的，也可以跟处理器702集成在一起。

当存储器701是独立于处理器702之外的器件时，电子设备还包括：

总线703，用于连接存储器701和处理器702。

在上述电子设备的实施例中，应理解，处理器可以是中央处理单元(英文：CentralProcessing Unit，简称：CPU)，还可以是其他通用处理器、数字信号处理器(英文：DigitalSignal Processor，简称：DSP)、专用集成电路(英文：Application Specific IntegratedCircuit，简称：ASIC)等。通用处理器可以是微处理器或者处理器也可以是任何常规的处理器等，而前述的存储器可以是只读存储器(英文：read-only memory，缩写：ROM)、随机存取存储器(英文：random access memory，简称：RAM)、快闪存储器、硬盘或者固态硬盘。结合本发明实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

上述总线可以是工业标准体系结构(Industry Standard Architecture，ISA)总线、外部设备互连(Peripheral Component，PCI)总线或扩展工业标准体系结构(ExtendedIndustry Standard Architecture，EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，本申请附图中的总线并不限定仅有一根总线或一种类型的总线。

本发明实施例还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器702执行以实现如上方法实施例中语音合成装置所执行的各个步骤。

图8为本发明一实施例提供的终端设备的结构示意图。例如，该终端设备可以是智能手机、平板电脑等。

如图8所示，终端设备800可以包括以下一个或多个组件：处理组件801，存储器802，电源组件803，多媒体组件804，音频组件805，输入/输出(I/O)的接口806，传感器组件807，以及通信组件808。

处理组件801通常控制终端设备800的整体操作，诸如与显示，数据通信，多媒体操作和记录操作相关联的操作。处理组件801可以包括一个或多个处理器809来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件801可以包括一个或多个模块，便于处理组件801和其他组件之间的交互。例如，处理组件801可以包括多媒体模块，以方便多媒体组件804和处理组件801之间的交互。

存储器802被配置为存储各种类型的数据以支持在终端设备800的操作。这些数据的示例包括用于在终端设备800上操作的任何应用程序或方法的指令，各类数据，消息，图片，视频等。存储器802可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件803为终端设备800的各种组件提供电力。电源组件803可以包括电源管理系统，一个或多个电源，及其他与为终端设备800生成、管理和分配电力相关联的组件。

多媒体组件804包括在终端设备800和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与触摸或滑动操作相关的持续时间和压力。

音频组件805被配置为输出和/或输入音频信号。例如，音频组件805包括一个麦克风(MIC)，当终端设备800处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器802或经由通信组件808发送。在一些实施例中，音频组件805还包括一个扬声器，用于输出音频信号。

I/O接口806为处理组件801和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。

传感器组件807包括一个或多个传感器，用于为终端设备800提供各个方面的状态评估。例如，传感器组件807可以检测到终端设备800的打开/关闭状态，组件的相对定位，例如组件为终端设备800的显示器和小键盘，传感器组件807还可以检测终端设备800或终端设备800一个组件的位置改变，用户与终端设备800接触的存在或不存在，终端设备800方位或加速/减速和终端设备800的温度变化。传感器组件807可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件807还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，传感器组件807还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件808被配置为便于终端设备800和其他设备之间有线或无线方式的通信。终端设备800可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件808经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，通信组件808还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，终端设备800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述语音合成方法的步骤。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器802，上述指令可由终端设备800的处理器809执行以完成上述语音合成方法。例如，非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

图9为本发明一实施例提供的服务器的结构示意图。如图9所示，服务器900包括处理组件901，其进一步包括一个或多个处理器，以及由存储器902所代表的存储器资源，用于存储可由处理组件901的执行的指令，例如应用程序。存储器902中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件901被配置为执行指令，以执行上述语音合成方法的步骤。

服务器900还可以包括一个电源组件903被配置为服务器900的电源管理，一个有线或无线网络接口904被配置为将服务器900连接到网络，和一个输入输出(I/O)接口905。服务器900可以操作基于存储在存储器902的操作系统，例如Windows ServerTM，Mac OSXTM，UnixTM,LinuxTM，FreeBSDTM或类似。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由权利要求书指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求书来限制。

Claims

1.一种语音合成方法，其特征在于，包括：

获取用户输入的文本信息；

将所述文本向量输入至预设的声学模型，得到所述文本向量对应的第一声学参数向量，所述声学模型用于根据记忆矩阵中多个时刻的隐层向量和预设权重值，对所述文本向量进行处理得到所述第一声学参数向量，所述预设权重值包括初始隐层向量的权重值、文本向量的权重值以及记忆矩阵内部权重值，所述记忆矩阵内部权重值随时间更新；

根据所述第一声学参数向量合成所述文本信息对应的语音信息；

其中，所述记忆矩阵的更新规则包括如下公式：

h₀(t+1)＝f(Wh(t)+Cx(t)) (2)

h_i+1(t+1)＝f([W·h(t)+C·x(t)]+A(t)h_i(t+1)) (3)

A(t)＝λA(t-1)+ηh(t)h(t)^T (4)

h′_i+1(t+1)＝f(LN[W·h(t)+C·x(t)+A(t)h_i(t+1)]) (5)

式中，h(t)为t时刻的隐层向量，t时刻有n个隐层向量，分别为h₀(t+1)、h₁(t+1)、h₂(t+1)…h_n-1(t+1)，h₀(t+1)根据公式(2)确定，h₁(t+1)、h₂(t+1)…h_n-1(t+1)根据公式(3)确定；

λ为衰减值，η为学习率，A(t)为记忆矩阵内部权重值，A(t)根据公式(4)随时间更新；

W为初始隐层向量h(t)的权重值，C为文本向量x(t)的权重值，f函数为线性整流函数，h(t)h(t)^T为隐层向量的外积，h(t)^T为隐层向量的转置，h_i+1'(t+1)为经过层参数归一化后的隐层向量，LN表示层的归一化。

2.根据权利要求1所述的方法，其特征在于，所述将所述文本向量输入至预设的声学模型，得到所述文本向量对应的第一声学参数向量之前，所述方法还包括：

对所述样本文本信息进行预处理，得到样本文本向量；

建立初始声学模型；

3.根据权利要求2所述的方法，其特征在于，所述通过将所述样本文本向量作为所述初始声学模型的输入，将与所述样本文本向量对应的声学参数向量作为所述初始声学模型的输出，对所述初始声学模型进行训练，得到所述声学模型，包括：

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

继续执行对所述初始声学模型的训练过程。

5.根据权利要求1所述的方法，其特征在于，所述第一声学参数向量包括谱参数，基频数据和时长。

6.一种语音合成装置，其特征在于，包括：

第一获取模块，用于获取用户输入的文本信息；

合成模块，用于根据所述第一声学参数向量合成所述文本信息对应的语音信息；

其中，所述记忆矩阵的更新规则包括如下公式：

h₀(t+1)＝f(Wh(t)+Cx(t)) (2)

h_i+1(t+1)＝f([W·h(t)+C·x(t)]+A(t)h_i(t+1)) (3)

A(t)＝λA(t-1)+ηh(t)h(t)^T (4)

h′_i+1(t+1)＝f(LN[W·h(t)+C·x(t)+A(t)h_i(t+1)]) (5)

7.根据权利要求6所述的装置，其特征在于，所述装置还包括第二获取模块、第二处理模块；

所述第二处理模块，用于对所述样本文本信息进行预处理，得到样本文本向量；

建立初始声学模型；

8.根据权利要求7所述的装置，其特征在于，所述第二处理模块包括第一处理子模块；

9.根据权利要求8所述的装置，其特征在于，所述第二处理模块还包括第二处理子模块；

继续执行对所述初始声学模型的训练过程。

10.根据权利要求6所述的装置，其特征在于，所述第一声学参数向量包括谱参数，基频数据和时长。

11.一种电子设备，其特征在于，包括：

存储器；

处理器；以及

计算机程序；

其中，所述计算机程序存储在所述存储器中，并被配置为由所述处理器执行以实现如权利要求1至5任一项所述的方法。

12.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，所述计算机程序被处理器执行以实现如权利要求1至5任一项所述的方法。