CN112349273B

CN112349273B - 基于说话人的语音合成方法、模型训练方法及相关设备

Info

Publication number: CN112349273B
Application number: CN202011223486.7A
Authority: CN
Inventors: 周明康; 罗超; 陈子浩; 胡泓; 李巍
Original assignee: Ctrip Computer Technology Shanghai Co Ltd
Current assignee: Ctrip Computer Technology Shanghai Co Ltd
Priority date: 2020-11-05
Filing date: 2020-11-05
Publication date: 2024-05-31
Anticipated expiration: 2040-11-05
Also published as: CN112349273A

Abstract

本发明涉及语音处理技术领域，提供一种基于说话人的语音合成方法、模型训练方法及相关设备。所述基于说话人的语音合成方法包括：获得待合成文本，将所述待合成文本转换成文本向量；随机确定一说话人标识，对所述文本向量进行基于所述说话人标识的映射，获得特征向量；根据所述特征向量，通过一声学模型获得声学特征；以及根据所述声学特征，通过一声码器合成目标音频。本发明在进行语音合成时，对待合成文本对应的文本向量进行基于说话人标识的映射，获得包含文本信息和说话人信息的特征向量，实现基于特定说话人的音色进行语音合成，提升用户的交互体验。

Description

基于说话人的语音合成方法、模型训练方法及相关设备

技术领域

本发明涉及语音处理技术领域，具体地说，涉及一种基于说话人的语音合成方法、模型训练方法及相关设备。

背景技术

随着深度学习技术的不断发展，基于神经网络的语音合成技术也愈加成熟。对于在线旅行社，每天需要外呼大量的电话，采用基于语音合成技术的机器人进行外呼，可以节省大量的人力物力。

但是，现有的语音合成模型大多基于单一说话人，导致外呼机器人只有一种声音，用户多次接到同一种声音的机器人电话，体验较差。

现有技术中，迁移不同说话人的音色的常见做法是在已经训练好的模型上进行微调(Fine-tune)或者重新开始训练，这样就导致若想实现基于多说话人的音色进行语音合成，需要针对每一个说话人训练一个模型，大大增加了模型训练成本，也无法同时上线部署多个模型。

需要说明的是，上述背景技术部分公开的信息仅用于加强对本发明的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

有鉴于此，本发明提供一种基于说话人的语音合成方法、模型训练方法及相关设备，实现基于特定说话人的音色进行语音合成，提升用户的交互体验。

本发明的一个方面提供一种基于说话人的语音合成方法，包括：获得待合成文本，将所述待合成文本转换成文本向量；随机确定一说话人标识，对所述文本向量进行基于所述说话人标识的映射，获得特征向量；根据所述特征向量，通过一声学模型获得声学特征；以及根据所述声学特征，通过一声码器合成目标音频。

在一些实施例中，所述说话人标识自说话人库中随机确定；所述声码器经训练，用于将所述说话人库中任一说话人标识对应的声学特征转换成具有所述说话人标识对应的说话人音色的目标音频。

在一些实施例中，所述对所述文本向量进行基于所述说话人标识的映射，包括：将所述文本向量和所述说话人标识输入一嵌入层，获得包含所述文本向量对应的文本特征和所述说话人标识对应的说话人特征的特征向量。

在一些实施例中，所述声学模型包括编码器和解码器，所述编码器包括依次相连的多层卷积神经网络和多层双向长短期记忆网络，所述解码器包括依次相连的多层双向长短期记忆网络和一线性层，且所述编码器的最后层双向长短期记忆网络与所述解码器的第一层双向长短期记忆网络相连。

在一些实施例中，所述通过一声学模型获得声学特征，包括：将所述特征向量输入所述声学模型，依次经所述编码器的多层所述卷积神经网络和多层所述双向长短期记忆网络、以及所述解码器的多层所述双向长短期记忆网络和所述线性层处理后，生成预设维度的声学特征。

在一些实施例中，所述将所述待合成文本转换成文本向量，包括：对所述待合成文本进行正则化处理；对正则化处理后的待合成文本进行分词，获得预设格式的分词文本；将所述分词文本转换成包含音节信息和声调信息的拼音序列；以及根据字典查找，将所述拼音序列转换成文本向量。

本发明的另一个方面提供一种模型训练方法，包括：获得对应不同说话人的样本文本及每个所述样本文本的真实声学特征和目标声学特征；将所述样本文本转换成包含说话人特征的样本文本向量；至少基于卷积神经网络和双向长短期记忆网络构建一声学模型；以及，以所述样本文本向量和所述真实声学特征为输入，以所述目标声学特征为输出，训练所述声学模型，至所述声学模型收敛。

在一些实施例中，所述至少基于卷积神经网络和双向长短期记忆网络构建一声学模型，包括：构建包含编码器和解码器的网络结构；于所述编码器中，构建依次相连的多层卷积神经网络和多层双向长短期记忆网络；于所述解码器中，构建依次相连的卷积神经网络、多层双向长短期记忆网络和一线性层，且所述解码器的第一层双向长短期记忆网络的输入连接所述编码器的最后层双向长短期记忆网络的输出；在所述网络结构中加入局部注意力机制，且每两层之间使用线性整流函数进行非线性激活，形成所述声学模型；其中，所述编码器的第一层卷积神经网络用于输入所述样本文本向量，所述解码器的卷积神经网络用于输入所述真实声学特征，所述线性层用于输出所述目标声学特征。

本发明的另一个方面提供一种基于说话人的语音合成装置，包括：向量转换模块，配置为获得待合成文本，将所述待合成文本转换成文本向量；说话人映射模块，配置为随机确定一说话人标识，对所述文本向量进行基于所述说话人标识的映射，获得特征向量；声学预测模块，配置为根据所述特征向量，通过一声学模型获得声学特征；以及语音合成模块，配置为根据所述声学特征，通过一声码器合成目标音频。

本发明的另一个方面提供一种电子设备，包括：一处理器；一存储器，所述存储器中存储有可执行指令，所述可执行指令被所述处理器执行时实现上述任意实施例所述的语音合成方法和/或模型训练方法。

本发明的另一个方面提供一种计算机可读的存储介质，用于存储计算机程序，其特征在于，所述计算机程序被执行时实现上述任意实施例所述的语音合成方法和/或模型训练方法。

本发明与现有技术相比的有益效果至少包括：

本发明在进行语音合成时，对待合成文本对应的文本向量进行基于说话人标识的映射，使获得的特征向量在保留原始文本信息的基础上，增加随机确定的说话人信息，实现基于特定说话人的音色进行语音合成；

本发明在实际应用时，每次外呼电话能够随机确定不同说话人的音色与用户进行交互，提升用户的交互体验。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。显而易见地，下面描述的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出本发明实施例中语音合成方法的步骤示意图；

图2示出本发明实施例中声学模型的网络结构示意图；

图3示出本发明实施例中语音合成方法的流程示意图；

图4示出本发明实施例中声学模型的训练步骤示意图；

图5示出本发明实施例中声学模型的训练结构示意图；

图6示出本发明实施例中语音合成装置的模块示意图；

图7示出本发明实施例中电子设备的结构示意图；以及

图8示出本发明实施例中存储介质的结构示意图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的实施方式。相反，提供这些实施方式使本发明全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。

此外，附图仅为本发明的示意性图解，并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

下面实施例中的步骤序号仅用于表示不同的执行内容，并不限定步骤之间的逻辑关系和执行顺序。具体描述时使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。需要说明的是，在不冲突的情况下，本发明的实施例及不同实施例中的特征可以相互组合。

图1示出实施例中语音合成方法的主要步骤，参照图1所示，本实施例中基于说话人的语音合成方法包括：在步骤S110中，获得待合成文本，将待合成文本转换成文本向量；在步骤S120中，随机确定一说话人标识，对文本向量进行基于说话人标识的映射，获得特征向量；在步骤S130中，根据特征向量，通过一声学模型获得声学特征；以及在步骤S140中，根据声学特征，通过一声码器合成目标音频。

上述实施例在进行语音合成时，首先对待合成文本对应的文本向量进行基于说话人标识的映射，使获得的特征向量在保留原始文本信息的基础上，增加随机确定的说话人信息；再基于包含文本信息和说话人信息的特征向量，获得声学特征，进而合成目标音频，实现基于特定说话人的音色进行语音合成；在应用至外呼机器人时，每次外呼电话能够随机确定不同说话人的音色与用户进行交互，提升用户的交互体验。

上述实施例中，说话人标识自说话人库中随机确定；声码器经训练，用于将说话人库中任一说话人标识对应的声学特征转换成具有说话人标识对应的说话人音色的目标音频。也即，在训练声码器时，将不同说话人的声学特征和音频放在一起进行训练，获得一个通用的声码器模型，实现基于一特定说话人的声学特征，输出具有该特定说话人的音色的音频数据。

下面结合具体的示例，对基于说话人的语音合成方法进行具体说明。

步骤S110中，将待合成文本转换成文本向量的过程具体包括：对待合成文本进行正则化处理；对正则化处理后的待合成文本进行分词，获得预设格式的分词文本；将分词文本转换成包含音节信息和声调信息的拼音序列；以及根据字典查找，将拼音序列转换成文本向量。

对待合成文本进行正则化处理，可以获得规范化文本，去除文本中的乱码、非标准符号等。对正则化处理后的待合成文本进行分词时，将金额、时间类的数字转成文字，如“房间号506”转为“房间号五零六”，以获得预设格式的分词文本。在将数字转成文字时，还需考虑数字在不同场景中的不同发音，例如“房价286元”会转为“房价二百八十六元”。将分词文本转换成拼音序列，例如“我是在线旅行社的。”转为“wo3 shi4 zai4xian4 lv3 xing2she4 de5.”获得拼音序列后，根据预设的字典，查找对应的索引，建立文本向量。

步骤S120中，对文本向量进行基于说话人标识的映射的过程具体包括：将文本向量和说话人标识输入一嵌入层(Embedding)，获得包含文本向量对应的文本特征和说话人标识对应的说话人特征的特征向量。

举例来说，某个单词对应的文本向量为[23,42,13]。对该文本向量进行说话人映射，若对应的说话人标识(ID)为0，则映射获得的特征向量为本身，即[23,42,13]；若对应的说话人标识为1，则映射获得的特征向量为[46,84,26]。通过对文本向量进行基于说话人标识的映射，获得对应不同说话人的特征向量，实现在保留原始文本信息的基础上，增加说话人信息，使后续声学预测和语音合成时都基于映射对应的说话人。

步骤S130中，声学模型用于对输入的特征向量预测获得声学特征。声学模型包括编码器和解码器(Encoder-Decoder)，编码器包括依次相连的多层卷积神经网络(Convolutional Neural Networks，简称CNN)和多层双向长短期记忆网络(Bi-directional Long Short-Term Memory，简称BiLSTM，由前向LSTM与后向LSTM组合而成)，解码器包括依次相连的多层双向长短期记忆网络和一线性层(Linear)，且编码器的最后层双向长短期记忆网络与解码器的第一层双向长短期记忆网络相连。其中，CNN、BiLSTM和线性层采用已有的网络结构，此处不再展开说明。

图2示出实施例中声学模型的网络结构，参照图2所示，本实施例中声学模型200包括编码器200a和解码器200b，编码器200a包括第一层CNN 210、第二层CNN 220、第一层BiLSTM 230和第二层BiLSTM 240，解码器200b包括第一层BiLSTM 260、第二层BiLSTM 270、第三层BiLSTM 280和线性层290。并且，编码器200a的第二层BiLSTM 240的输出与解码器200b的第一层BiLSTM 260的输入相连。

通过声学模型200获得声学特征的过程包括：将包含文本特征和说话人特征的特征向量输入声学模型200，依次经编码器200a和解码器200b处理后，生成预设维度的声学特征。声学模型200同时使用了局部注意力(Local Attention)机制，以更好地学习待合成文本的特性向量与声学特征(梅尔谱)之间的对齐关系。同时，每两层网络之间使用线性整流函数(Rectified Linear Unit，简称ReLU)进行非线性激活。声学模型200的预设维度是160维。声学模型200去除了传统的残差连接结构，CNN使用256维度，BiLSTM隐状态使用128维。

步骤S140中，声码器使用已有的声码器模型，例如MelGAN模型，用于将声学模型生成的声学特征转成可播放的音频波形。本实施例的声码器模型在训练时，将所有说话人的声学特征和音频放在一起进行训练，获得一个多说话人的通用MelGAN声码器。从而，基于任意随机确定的说话人，声码器能够合成具有该说话人的音色的目标音频。

图3示出基于说话人的语音合成流程，参照图3所示，采用上述任意实施例描述的语音合成方法，进行基于说话人的语音合成的过程包括：S310，通过正则化处理、转音节、字典查找等步骤，将输入的待合成文本转为文本向量；S320，根据说话人标识对文本向量进行映射，经Embedding后，得到包含文本信息和说话人信息的特征向量；S330，将特征向量输入声学模型，生成特定说话人的声学特征；S340，使用训练好的通用声码器将特定说话人的声学特征转换成可播放的目标音频，合成出具有特定说话人音色的音频数据。

通过上述实施例的语音合成方法，实现基于特定说话人的音色进行语音合成，每次外呼电话能够随机确定不同说话人的音色与用户进行交互，提升用户的交互体验。

本发明还提供上述各实施例中，声学模型的训练方法。

图4示出实施例中声学模型的训练过程，参照图4所示，本实施例中模型训练方法包括：在步骤S410中，获得对应不同说话人的样本文本及每个样本文本的真实声学特征和目标声学特征；在步骤S420中，将样本文本转换成包含说话人特征的样本文本向量；在步骤S430中，至少基于卷积神经网络和双向长短期记忆网络构建一声学模型；以及在步骤S440中，以样本文本向量和真实声学特征为输入，以目标声学特征为输出，训练声学模型，至声学模型收敛。

其中，至少基于卷积神经网络和双向长短期记忆网络构建声学模型的过程包括：构建包含编码器和解码器的网络结构；于编码器中，构建依次相连的多层卷积神经网络和多层双向长短期记忆网络；于解码器中，构建依次相连的卷积神经网络、多层双向长短期记忆网络和一线性层，且解码器的第一层双向长短期记忆网络的输入连接编码器的最后层双向长短期记忆网络的输出；在网络结构中加入局部注意力机制，且每两层之间使用线性整流函数进行非线性激活，形成声学模型。其中，编码器的第一层卷积神经网络用于输入样本文本向量，解码器的卷积神经网络用于输入真实声学特征，线性层用于输出目标声学特征。

样本文本可从在线旅行社的客服与商家和用户的通话记录中统计获得，并由挑选的20个专业客服人员根据样本文本录制样本音频。本实施例中，每人录制1000份样本文本，其中500份为相同样本文本，另外500份依据不同说话人所有不同，以涵盖尽可能多的发音。本实施例中一共获得2万份样本音频，涵盖20个人的音色，每份样本音频及对应的样本文本均会由专业人工进行核对。根据样本音频，获得真实声学特征，目标声学特征是对真实声学特征进行调整后，更接近理想化的模型输出。

参照图5所示的声学模型的训练结构，与图2所示的声学模型应用于实际预测时的网络结构的区别在于，图5所示训练结构中，声学模型200的解码器200b的输入除编码器200a的输出外，还包括真实声学特征，真实声学特征经编码器200a的CNN 250输入，用于在训练过程中加速声学模型200的收敛。

声学模型的训练可使用图形处理器(GPU)，batch size设为128，合成的声学特征采用80维。模型迭代训练十万次后，开始在验证集上进行测试，每迭代一万次进行测试一次，观察loss的下降趋势，并且查看特征向量和声学特征的对齐效果。总共训练40万次，loss基本不再下降，特征向量和声学特征完美对齐，模型收敛，达到预期效果。

进一步地，声码器在训练时，直接将20个人的样本音频放在一起进行训练，使训练得到的声码器可以合成20个人的音色。

声学模型和声码器其他未具体阐述的特征可参照上述各语音合成方法实施例，此处不再重复说明。

本发明还提供一种语音合成装置，参照图6所示，本实施例中基于说话人的语音合成装置600包括：向量转换模块610，配置为获得待合成文本，将待合成文本转换成文本向量；说话人映射模块620，配置为随机确定一说话人标识，对文本向量进行基于说话人标识的映射，获得特征向量；声学预测模块630，配置为根据特征向量，通过一声学模型获得声学特征；以及语音合成模块640，配置为根据声学特征，通过一声码器合成目标音频。

语音合成装置其他未具体阐述的特征可参照上述各语音合成方法实施例，此处不再重复说明。

本实施例的语音合成装置在进行语音合成时，首先对待合成文本对应的文本向量进行基于说话人标识的映射，使获得的特征向量在保留原始文本信息的基础上，增加随机确定的说话人信息；再基于包含文本信息和说话人信息的特征向量，获得声学特征，进而合成目标音频，实现基于特定说话人的音色进行语音合成；在应用至外呼机器人时，每次外呼电话能够随机确定不同说话人的音色与用户进行交互，提升用户的交互体验。

本发明实施例还提供一种电子设备，包括处理器和存储器，存储器中存储有可执行指令，可执行指令被处理器执行时实现上述任意实施例的语音合成方法和/或模型训练方法，实现在进行语音合成时，首先对待合成文本对应的文本向量进行基于说话人标识的映射，使获得的特征向量在保留原始文本信息的基础上，增加随机确定的说话人信息；再基于包含文本信息和说话人信息的特征向量，获得声学特征，进而合成目标音频，实现基于特定说话人的音色进行语音合成；在应用至外呼机器人时，每次外呼电话能够随机确定不同说话人的音色与用户进行交互，提升用户的交互体验。

图7示出实施例中电子设备的结构，应当理解的是，图7仅仅是示意性地示出各个模块，这些模块可以是虚拟的软件模块或实际的硬件模块，这些模块的合并、拆分及其余模块的增加都在本发明的保护范围之内。

如图7所示，电子设备700以通用计算设备的形式表现。电子设备700的组件可以包括但不限于：至少一个处理单元710、至少一个存储单元720、连接不同平台组件(包括存储单元720和处理单元710)的总线730、显示单元740等。

其中，存储单元存储有程序代码，程序代码可以被处理单元710执行，使得处理单元710执行上述任意方法实施例的步骤。例如，处理单元710可以执行图1、图3和图4所示的步骤。

存储单元720可以包括易失性存储单元形式的可读介质，例如随机存取存储单元(RAM)7201和/或高速缓存存储单元7202，还可以进一步包括只读存储单元(ROM)7203。

存储单元720还可以包括具有一个或多个程序模块7205的程序/实用工具7204，这样的程序模块7205包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线730可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

电子设备700也可以与一个或多个外部设备800通信，外部设备800可以是键盘、指向设备、蓝牙设备等设备中的一种或多种。这些外部设备800使得用户能与该电子设备700进行交互通信。电子设备700也能与一个或多个其它计算设备进行通信，所示计算机设备包括路由器、调制解调器。这种通信可以通过输入/输出(I/O)接口750进行。并且，电子设备700还可以通过网络适配器760与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。网络适配器760可以通过总线730与电子设备700的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备700使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储平台等。

本发明实施例还提供一种计算机可读的存储介质，用于存储计算机程序，计算机程序被执行时实现上述任意实施例的语音合成方法和/或模型训练方法，实现在进行语音合成时，首先对待合成文本对应的文本向量进行基于说话人标识的映射，使获得的特征向量在保留原始文本信息的基础上，增加随机确定的说话人信息；再基于包含文本信息和说话人信息的特征向量，获得声学特征，进而合成目标音频，实现基于特定说话人的音色进行语音合成；在应用至外呼机器人时，每次外呼电话能够随机确定不同说话人的音色与用户进行交互，提升用户的交互体验。

在一些可能的实施方式中，本发明的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当程序产品在终端设备上运行时，程序代码用于使终端设备执行上述任意方法实施例描述的步骤。

图8是本发明的计算机可读的存储介质的结构示意图。参考图8所示，描述了根据本发明的实施方式的用于实现上述方法的程序产品900，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本发明的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子包括但不限于：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

计算机可读的存储介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备，例如利用因特网服务提供商来通过因特网连接。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种基于说话人的语音合成方法，其特征在于，应用于外呼机器人，包括：

获得待合成文本，将所述待合成文本转换成文本向量；

随机确定一说话人标识，对所述文本向量进行基于所述说话人标识的映射，包括：将所述文本向量和所述说话人标识输入一嵌入层，获得包含所述文本向量对应的文本特征和所述说话人标识对应的说话人特征的特征向量；

根据所述特征向量，通过一声学模型获得声学特征；

其中，所述声学模型包括编码器和解码器，所述编码器包括依次相连的多层卷积神经网络和多层双向长短期记忆网络，所述解码器包括依次相连的多层双向长短期记忆网络和一线性层，且所述编码器的最后层双向长短期记忆网络与所述解码器的第一层双向长短期记忆网络相连；通过所述声学模型获得声学特征，包括：将所述特征向量输入所述声学模型，依次经所述编码器的多层所述卷积神经网络和多层所述双向长短期记忆网络、以及所述解码器的多层所述双向长短期记忆网络和所述线性层处理后，生成预设维度的声学特征；以及

根据所述声学特征，通过一声码器合成目标音频；

其中，所述说话人标识自说话人库中随机确定，所述声码器经训练，用于将所述说话人库中任一说话人标识对应的声学特征转换成具有所述说话人标识对应的说话人音色的目标音频。

2.如权利要求1所述的语音合成方法，其特征在于，所述将所述待合成文本转换成文本向量，包括：

对所述待合成文本进行正则化处理；

对正则化处理后的待合成文本进行分词，获得预设格式的分词文本；

将所述分词文本转换成包含音节信息和声调信息的拼音序列；以及

根据字典查找，将所述拼音序列转换成文本向量。

3.一种模型训练方法，用于训练生成如权利要求1所述的声学模型，其特征在于，包括：

获得对应不同说话人的样本文本及每个所述样本文本的真实声学特征和目标声学特征；

将所述样本文本转换成包含说话人特征的样本文本向量；

至少基于卷积神经网络和双向长短期记忆网络构建一声学模型，包括：构建包含编码器和解码器的网络结构；于所述编码器中，构建依次相连的多层卷积神经网络和多层双向长短期记忆网络；于所述解码器中，构建依次相连的卷积神经网络、多层双向长短期记忆网络和一线性层，且所述解码器的第一层双向长短期记忆网络的输入连接所述编码器的最后层双向长短期记忆网络的输出；在所述网络结构中加入局部注意力机制，且每两层之间使用线性整流函数进行非线性激活，形成所述声学模型；其中，所述编码器的第一层卷积神经网络用于输入所述样本文本向量，所述解码器的卷积神经网络用于输入所述真实声学特征，所述线性层用于输出所述目标声学特征；以及

以所述样本文本向量和所述真实声学特征为输入，以所述目标声学特征为输出，训练所述声学模型，至所述声学模型收敛。

4.一种基于说话人的语音合成装置，用于实现如权利要求1或2所述的语音合成方法，其特征在于，包括：

向量转换模块，配置为获得待合成文本，将所述待合成文本转换成文本向量；

说话人映射模块，配置为随机确定一说话人标识，对所述文本向量进行基于所述说话人标识的映射，包括：将所述文本向量和所述说话人标识输入一嵌入层，获得包含所述文本向量对应的文本特征和所述说话人标识对应的说话人特征的特征向量；

声学预测模块，配置为根据所述特征向量，通过一声学模型获得声学特征；

语音合成模块，配置为根据所述声学特征，通过一声码器合成目标音频；

5.一种电子设备，其特征在于，包括：

一处理器；

一存储器，所述存储器中存储有可执行指令，所述可执行指令被所述处理器执行时实现如权利要求1至3任一项所述的方法。

6.一种计算机可读的存储介质，用于存储计算机程序，其特征在于，所述计算机程序被执行时实现如权利要求1至3任一项所述的方法。