CN113409761B

CN113409761B - 语音合成方法、装置、电子设备以及计算机可读存储介质

Info

Publication number: CN113409761B
Application number: CN202110783989.8A
Authority: CN
Inventors: 叶剑豪; 苏志霸; 周鸿斌; 林怡亭; 李林; 任凯盟; 贺天威; 贺雯迪; 卢恒
Original assignee: Shanghai Himalaya Technology Co ltd
Current assignee: Shanghai Everest Zhiren Information Technology Co ltd
Priority date: 2021-07-12
Filing date: 2021-07-12
Publication date: 2022-11-01
Anticipated expiration: 2041-07-12
Also published as: CN113409761A

Abstract

本发明的实施例提供了一种语音合成方法、装置、电子设备以及计算机可读存储介质，方法包括：确定待合成文本；将待合成文本转化为待合成国际音标对应的第一ID序列和国际音标对应的声调ID；确定用户选择的目标对象的ID和标准对象的ID；输入至语音合成模型中语音合成模型，依据待合成文本的待合成国际音标序列，预测每个待合成国际音标的时长，语音合成模型根据待合成国际音标对应的第一ID序列、国际音标对应的声调ID、每个待合成国际音标的时长、目标对象的ID以及标准对象的ID进行处理，输出待合成文本的声学特征。能够使得对象在合成非本土语言的时候，能够使用本土说话人，即标准对象的韵律，最终得到更好的语音合成自然度。

Description

语音合成方法、装置、电子设备以及计算机可读存储介质

技术领域

本发明涉及语音合成领域，具体而言，涉及一种语音合成方法、装置、电子设备以及计算机可读存储介质。

背景技术

随着语音技术产业的成熟，语音合成作为语音技术的关键一环，被广泛应用于智能语音交互和有声书创作中。当前的主流端对端语音合成建模方法，在有高质量的数据集支持下，已经能够生成具有较高自然度的合成语音。

在语音合成的实际应用场景中，常常需要语音合成说话人能够合成不同语言的发音。如在生成中英混合的新闻文稿时，需要穿插一些必须用英文发音的专有名词。为了使同一个说话人在合成不同语言语音的时候有同样的音色，通常需要该说话人录制不同语言的数据集。而通常很难找到一个说话人同时能将多个语言说的非常流利，这给制作高质量的多语言语音合成数据集带来了极大的困难。

近年来，也出现了一些将多个单语言数据集联合训练，从而实现语言能力在不同的说话人之间进行迁移的语音合成框架。但是这些框架在合成非本土语言的语音时，其韵律通常带有强烈的该说话人本土语言的风格。比如，当一个说话人没有英文数据，只有中文数据的时候，迁移学习框架下，合成该说话人的英文将带有明显的中文色彩。

发明内容

本发明的目的包括，例如，提供了一种语音合成方法、装置、电子设备以及计算机可读存储介质，其能够使得目标对象在合成非本土语言的时候，得到更好的语音合成自然度。

为了实现上述目的，本申请实施例采用的技术方案如下：

第一方面，本申请实施例提供了一种语音合成方法，所述方法包括：

确定待合成文本；

将所述待合成文本转化为待合成国际音标对应的第一ID序列和国际音标对应的声调ID；

确定用户选择的目标对象的ID和标准对象的ID；

将待合成国际音标对应的第一ID序列、国际音标对应的声调ID、目标对象的ID以及标准对象的ID作为输入，输入至语音合成模型中；

所述语音合成模型依据所述待合成文本的待合成国际音标序列，预测每个待合成国际音标的时长；

所述语音合成模型根据待合成国际音标对应的第一ID序列、国际音标对应的声调ID、每个待合成国际音标的时长、目标对象的ID以及标准对象ID进行处理，输出所述待合成文本的声学特征。

在可选的实施方式中，所述方法还包括：

将数据库中的音频信息转换为文本；

确定不同音频信息对应的标准对象，并为不同所述标准对象分配不同标准对象的ID，其中，所述标准对象包含目标对象；

将所述文本转化为国际音标序列；

为每个所述国际音标分配第一ID；

确定每个所述国际音标对应的声调；

为每个所述声调分配声调ID；

确定每个所述国际音标的语言，并为每种语言分配语言ID；

确定每个国际音标在对应音频信息中的时长；

对于每一段音频，提取所述音频中的声学特征；

将所述国际音标的第一ID、声调ID、语言ID、时长、标准对象的ID以及声学特征作为样本进行语音合成模型的训练，得到语音合成模型。

在可选的实施方式中，将所述声学特征输入至神经声码器中，得到所述目标对象的音频。

在可选的实施方式中，所述声学特征为梅尔频谱特征。

在可选的实施方式中，所述确定每个国际音标在对应音频信息中的时长的步骤，包括：

通过隐马尔可夫-深度神经网络的识别模型对国际音标和音频信息进行强对齐；

获取每个国际音标对应的音频段；

确定每个所述音频段的时长，作为每个所述国际音标对应的时长。

第二方面，本申请实施例提供了一种语音合成装置，所述装置包括：

处理模块和合成模块，所述处理模块具体用于：

确定待合成文本；

确定用户选择的目标对象的ID和标准对象的ID；

所述合成模块具体用于：所述语音合成模型根据待合成国际音标对应的第一ID序列、国际音标对应的声调ID、每个待合成国际音标的时长、目标对象的ID以及标准对象的ID进行处理，输出所述待合成文本的声学特征。

在可选的实施方式中，所述处理模块还用于：将数据库中的音频信息转换为文本；

将数据库中的音频信息转换为文本；

将所述文本转化为国际音标序列；

为每个所述国际音标分配第一ID；

确定每个所述国际音标对应的声调；

为每个所述声调分配声调ID；

确定每个所述国际音标的语言，并为每种语言分配语言ID；

确定每个国际音标在对应音频信息中的时长；

对于每一段音频，提取所述音频中的声学特征；

在可选的实施方式中，所述声学特征包括梅尔频谱特征、频谱能量特征以及基频特征。

第三方面，本申请实施例提供了一种电子设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现所述语音合成方法的步骤。

第四方面，本申请实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现所述语音合成方法的步骤。

本申请具有以下有益效果：

本申请通过确定待合成文本；将待合成文本转化为待合成国际音标对应的第一ID序列和国际音标对应的声调ID；确定用户选择的目标对象的ID和标准对象的ID；将待合成国际音标对应的第一ID序列、国际音标对应的声调ID、目标对象的ID以及标准对象的ID作为输入，输入至语音合成模型中语音合成模型依据待合成文本的待合成国际音标序列，预测每个待合成国际音标的时长，语音合成模型根据待合成国际音标对应的第一ID序列、国际音标对应的声调ID、每个待合成国际音标的时长、目标对象的ID以及标准对象的ID进行处理，输出待合成文本的声学特征。能够使得对象在合成非本土语言的时候，能够使用本土说话人，即标准对象的韵律，最终得到更好的语音合成自然度。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明实施例提供的电子设备的方框示意图；

图2为本发明实施例提供的一种语音合成方法的流程示意图之一；

图3为本发明实施例提供的一种语音合成方法的流程示意图之二；

图4为本发明实施例提供的一种语音合成装置的结构框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

在本发明的描述中，需要说明的是，若出现术语指示的方位或位置关系为基于附图所示的方位或位置关系，或者是该发明产品使用时惯常摆放的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

此外，若出现术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

需要说明的是，在不冲突的情况下，本发明的实施例中的特征可以相互结合。

在现有技术中语音合成方案中，将多个单语言数据集联合训练，从而实现语言能力在不同的说话人之间进行迁移的语音合成框架。

但是经过发明人大量研究发现，采用这些框架在合成非本土语言的语音时，其韵律通常带有强烈的该说话人本土语言的风格。比如，当一个说话人没有英文数据，只有中文数据的时候，迁移学习框架下，合成该说话人的英文将带有明显的中文色彩。

有鉴于对上述问题的发现，本实施例提供了一种语音合成方法、装置、电子设备以及计算机可读存储介质，能够使得合成的语音不带有自身语言风格的问题，下面对本实施例提供的方案进行详细阐述。

本实施例提供一种可以对语音进行合成的电子设备。在一种可能的实现方式中，所述电子设备可以为用户终端，例如，电子设备可以是，但不限于，服务器、智能手机、个人电脑(PersonalComputer，PC)、平板电脑、个人数字助理(Personal Digital Assistant，PDA)、移动上网设备(Mobile Internet Device，MID)等。

该电子设备可以具有能够对语音合成进行处理的部件，例如，中央处理器(Central Processing Unit，CPU)、图形处理器(Graphic Processing Unit，GPU)等，从而执行本实施例提供的语音合成方法。

在另一种可能的实现方式中，所述电子设备也可以为能够与用户终端通信的服务器。该服务器可以确定待合成文本；将所述待合成文本转化为待合成国际音标对应的第一ID序列和国际音标对应的声调ID；确定用户选择的目标对象的ID和标准对象的ID；将待合成国际音标对应的第一ID序列、国际音标对应的声调ID、目标对象的ID以及标准对象的ID作为输入，输入至语音合成模型中；所述语音合成模型依据所述待合成文本的待合成国际音标序列，预测每个待合成国际音标的时长；所述语音合成模型根据待合成国际音标对应的第一ID序列、国际音标对应的声调ID、每个待合成国际音标的时长、目标对象的ID以及标准对象的ID进行处理，输出所述待合成文本的声学特征。

请参照图1所示的该电子设备100的结构示意图。所述电子设备100还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。图1中所示的各组件可以采用硬件、软件或其组合实现。

该电子设备100包括语音合成装置110、存储器120、处理器130。

该存储器120、处理器130各元件相互之间直接或间接地电性连接，以实现数据的传输或交互。例如，这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。该语音合成装置110包括至少一个可以软件或固件(Firmware)的形式存储于存储器120中或固化在服电子设备100的操作系统(Operating System，OS)中的软件功能模块。处理器130用于执行存储器120中存储的可执行模块，例如语音合成装置110所包括的软件功能模块及计算机程序等。该语音合成装置110中的计算机可执行指令被处理器执行时，实现该语音合成方法。

其中，该存储器120可以是，但不限于，随机存取存储器(Random Access Memory，RAM)，只读存储器(Read Only Memory，ROM)，可编程只读存储器(Programmable Read-OnlyMemory，PROM)，可擦除只读存储器(Erasable Programmable Read-Only Memory，EPROM)，电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory，EEPROM)等。其中，存储器120用于存储程序，该处理器130在接收到执行指令后，执行该程序。

该处理器130可能是一种集成电路芯片，具有信号的处理能力。上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

请参照图2，图2为应用于图1的电子设备100的一种语音合成方法的流程图，以下将方法包括各个步骤进行详细阐述。

步骤201：确定待合成文本。

步骤202：将待合成文本转化为待合成国际音标对应的第一ID序列和国际音标对应的声调ID。

步骤203：确定用户选择的目标对象的ID和标准对象的ID。

步骤204：将待合成国际音标对应的第一ID序列、国际音标对应的声调ID、目标对象的ID以及标准对象的ID作为输入，输入至语音合成模型中。

步骤205：语音合成模型依据待合成文本的待合成国际音标序列，预测每个待合成国际音标的时长。

步骤206：语音合成模型根据待合成国际音标对应的第一ID序列、国际音标对应的声调ID、每个待合成国际音标的时长、目标对象的ID以及标准对象的ID进行处理，输出待合成文本的声学特征。

将待合成文本转化为待合成国际音标序列，国际音标对应有第一ID。

IPA(International Phonetic Alphabet，国际音标)，早期又称万国音标，是一套用来标音的系统，以拉丁字母为基础，由国际语音学学会设计来作为口语声音的标准化标示方法。

在本申请中，比如目待合成文本为“你好”时，用IPA进行表示则为“n i 35x

214”，转化的“n i 35x

214”即为待合成文本的待合成国际音标。

选择用户需要的目标对象和标准对象，目标待合成文本以目标对象的音色以标准对象的韵律输出。当目标对象的本土语言是汉语，且待合成文本也是汉语，则目标对象和标准对象一致，若目标对象的本土语言是汉语，待合成文本是英语，则需要选择目标对象的音色以及本土语言是英语的标准对象，即标准对象和目标对象不同。

语音合成模型依据待合成为本的待合成国际音标序列，预测每个待合成国际音标的时长。

不同语言下，每个国际音标发音的时长也不同。

其中，语言包括英语、汉语、阿拉伯语、德语、西班牙语等，本申请实施例对此不做具体限制。每种语言对应不同的ID，例如：英语对应的ID为1，汉语对应的ID为2，阿拉伯语对应的ID为3，德语对应的ID为4，西班牙语对应的ID为5。

语音合成模型根据待合成国际音标对应的第一ID序列、国际音标对应的声调ID、每个待合成国际音标的时长、目标对象的ID和/或标准对象的ID进行处理，输出待合成文本的声学特征。

将声学特征输入至神经声码器中，得到待合成文本的音频。

最终得到的音频不包含说话人的语言风格，例如：待合成文本为“Hello”，并且需要基于A的音色合成待合成文本，由于A的母语是汉语，因此英文不是A的母语，因此以A说“Hello”时会带有明显的汉语口音。为了解决这个问题，选择一个标准对象B，B的母语是英语，将“Hello”转化为国际音标序列，确定A的音色信息，确定“Hello”的国际音标的第一ID序列，每个国际音标对应有一个第一ID，语音合成模型依据“Hello”国际音标序列，预测出每个待合成国际音标的时长，语音合成模型根据待合成国际音标对应的第一ID序列、每个待合成国际音标的时长、目标对象的ID和标准对象的ID进行处理，输出“Hello”的声学特征。

本申请通过确定待合成文本；将待合成文本转化为待合成国际音标对应的第一ID序列；确定用户选择的目标对象的ID和标准对象的ID；将待合成国际音标对应的第一ID序列、目标对象的ID和标准对象的ID作为输入，输入至语音合成模型中语音合成模型依据待合成文本的待合成国际音标序列，预测每个待合成国际音标的时长，语音合成模型根据待合成国际音标对应的第一ID序列、每个待合成国际音标的时长、目标对象的ID以及标准对象的ID进行处理，输出待合成文本的声学特征。能够使得对象在合成非本土语言的时候，能够使用本土说话人，即标准对象的韵律，最终得到更好的语音合成自然度。

在确定目标对象的待合成文本之前，在本申请的另一实施例中，如图3所示，提供了一种语音合成方法，具体包括如下步骤：

步骤301：将数据库中的音频信息转换为文本。

步骤302：确定不同音频信息对应的标准对象，并为不同标准对象分配不同标准对象的ID。

其中，标准对象包含目标对象。

步骤303：将文本转化为国际音标序列。

步骤304：为每个国际音标分配第一ID。

步骤305：确定每个国际音标对应的声调。

步骤306：为每个声调分配声调ID。

步骤307：确定每个国际音标的语言，并为每种语言分配语言ID。

步骤308：确定每个国际音标在对应音频信息中的时长。

步骤309：对于每一段音频，提取所述音频中的声学特征。

步骤310：将国际音标的第一ID、声调ID、语言ID、时长、标准对象的ID以及声学特征作为样本进行语音合成模型的训练，得到语音合成模型。

将数据库中音频信息转换为文本，将文本转化为国际音标，为每个国际音标分配不同ID，即IPA ID。确定不同音频信息对应的标准对象，并为不同标准对象分配不同标准对象的ID，即Speaker ID。确定每个国际音标对应的声调。为每个声调分配声调ID，即ToneID。确定每个国际音标的语言，并为每种语言分配语言ID，即Language ID。

确定每个国际音标在对应音频信息中的时长通过以下方式确定：通过隐马尔可夫-深度神经网络的识别模型对国际音标和音频信息进行强对齐；获取每个国际音标对应的音频段；确定每个音频段的时长，作为每个国际音标对应的时长。

首先，每个栏目和对应ID，对应一张表，见表1。一般语音合成的数据集会包含音频和对应文本，以及标准对象。而从文本可以轻易推断出某个字符所属的语言。

例如：“你好”，用拼音表示则为“ni2 hao3”，相对应的用IPA和对应的TONE进行表示则为“n i 35x

214”。将该表示转化为ID序列(假设标准对象为A)则为：

[IPA ID＝0,TONE ID＝1,Speaker ID＝0,Language ID＝0]

[IPA ID＝1,TONE ID＝1,Speaker ID＝0,Language ID＝0]

[IPA ID＝2,TONE ID＝2,Speaker ID＝0,Language ID＝0]

[IPA ID＝3,TONE ID＝2,Speaker ID＝0,Language ID＝0]

当文本为纯英文时，英语的国际音标不具有声调。例如：“nerd”，相对应的用IPA进行表示则为“n3：d”(无TONE)。将该表示转化为ID序列(假设标准对象为B)则为：

[IPA ID＝0,TONE ID＝5,Speaker ID＝1,Language ID＝1]

[IPA ID＝4,TONE ID＝5,Speaker ID＝1,Language ID＝1]

[IPA ID＝5,TONE ID＝5,Speaker ID＝1,Language ID＝1]

当文本为中文和英文混合时，例如：“你好nerd”，相对应的用IPA进行表示则为“ni 35x

214n3：d”。将该表示转化为ID序列(假设标准对象为B)则为：

[IPA ID＝0,TONE ID＝1,Speaker ID＝1,Language ID＝0]

[IPA ID＝1,TONE ID＝1,Speaker ID＝1,Language ID＝0]

[IPA ID＝2,TONE ID＝2,Speaker ID＝1,Language ID＝0]

[IPA ID＝3,TONE ID＝2,Speaker ID＝1,Language ID＝0]

[IPA ID＝0,TONE ID＝5,Speaker ID＝1,Language ID＝1]

[IPA ID＝4,TONE ID＝5,Speaker ID＝1,Language ID＝1]

[IPA ID＝5,TONE ID＝5,Speaker ID＝1,Language ID＝1]

提取声学特征，例如每10ms提取一组声学特征，该声学特征表征了一段10ms的音频。声码器可以将声学特征转换成对应的音频波形。而一个ID序列对应的是一个国际音标的文本信息，而一个国际音标的文本信息可能对应一段时间的音频，如50ms。那么这50ms就是5(帧)x 10ms，即5组声学特征。除了文本信息提取和声学特征外，还需要有国际音标到帧映射，即例如音频时长为50ms，则该国际音标有5帧的时长。

声学特征包括梅尔频谱特征、频谱能量特征以及基频特征。

具体可以通过kaldi工具对国际音标和音频进行强对齐，即：找到每个国际音标对应于音频中的对应段，从而得到每个国际音标对应的时长(以帧为单位)。Kaldi是当前最流行的开源语音识别工具(Toolkit)，它使用WFST来实现解码算法。Kaldi的主要代码是C++编写，在此之上使用bash和python脚本做了一些工具。

例如：

[IPA ID＝0,TONE ID＝1,Speaker ID＝1,Language ID＝0]时长＝2

[IPA ID＝1,TONE ID＝1,Speaker ID＝1,Language ID＝0]时长＝5

[IPA ID＝2,TONE ID＝2,Speaker ID＝1,Language ID＝0]时长＝6

[IPA ID＝3,TONE ID＝2,Speaker ID＝1,Language ID＝0]时长＝3

[IPAID＝0,TONE ID＝5,Speaker ID＝1,Language ID＝1]时长＝4

[IPAID＝4,TONE ID＝5,Speaker ID＝1,Language ID＝1]时长＝5

[IPAID＝5,TONE ID＝5,Speaker ID＝1,Language ID＝1]时长＝3

表1

IPA表：

TONE表：

语言表：

语言	ID
		中文	0
英文	1
		…	…

说话人表:

标准对象	ID
		标准对象A	0
标准对象B	1
		…	…

从数据集中的每个音频提取声学特征，将国际音标的第一ID、声调ID、语言ID、时长、标准对象的ID以及声学特征作为样本进行语音合成模型的训练，得到语音合成模型。

通过本申请提供的语音合成方法，在使用国际音标IPA作为基础声学表征时，相比其他表征，需要更少的数据就可以达到语言能力的迁移。本申请能够使用本土说话人，即标准对象的韵律，最终得到更好的语音合成自然度。

请参照图4，本申请实施例还提供了一种应用于图1所述电子设备100的语音合成装置110，所述语音合成装置110包括：处理模块111和合成模块112，所述处理模块111具体用于：

确定待合成文本；

确定用户选择的目标对象的ID和标准对象的ID；

将待合成的国际音标对应的第一ID序列、国际音标对应的声调ID、目标对象的ID以及标准对象的ID作为输入，输入至语音合成模型中；

所述合成模块112具体用于：所述语音合成模型根据待合成国际音标对应的第一ID序列、国际音标对应的声调ID、每个待合成国际音标的时长、目标对象的ID以及标准对象的ID进行处理，输出所述待合成文本的声学特征。

可选地，在一些可能的实施方式中，所述处理模块111还用于：将数据库中的音频信息转换为文本；

将数据库中的音频信息转换为文本；

将所述文本转化为国际音标序列；

为每个所述国际音标分配第一ID；

确定每个所述国际音标对应的声调；

为每个所述声调分配声调ID；

确定每个所述国际音标的语言，并为每种语言分配语言ID；

确定每个国际音标在对应音频信息中的时长；

对于每一段音频，提取所述音频中的声学特征；

可选地，在一些可能的实施方式中，所述声学特征为梅尔频谱特征。

可选地，在一些可能的实施方式中，所述处理模块111还用于：

将所述声学特征输入至神经声码器中，得到所述待合成文本的音频。

可选地，在一些可能的实施方式中，所述处理模块111还用于：通过隐马尔可夫-深度神经网络的识别模型对国际音标和音频信息进行强对齐；

获取每个国际音标对应的音频段；

综上所述，本申请通过确定待合成文本；将待合成文本转化为待合成国际音标对应的第一ID序列和国际音标对应的声调ID；确定用户选择的目标对象的ID和标准对象的ID；将待合成国际音标对应的第一ID序列、国际音标对应的声调ID、目标对象的ID以及标准对象的ID作为输入，输入至语音合成模型中语音合成模型依据待合成文本的待合成国际音标序列，预测每个待合成国际音标的时长，语音合成模型根据待合成国际音标对应的第一ID序列、国际音标对应的声调ID、每个待合成国际音标的时长、目标对象的ID以及标准对象的ID进行处理，输出待合成文本的声学特征。能够使得对象在合成非本土语言的时候，能够使用本土说话人，即标准对象的韵律，最终得到更好的语音合成自然度。

本申请还提供一种电子设备100，电子设备100包括处理器130以及存储器120。存储器120存储有计算机可执行指令，计算机可执行指令被处理器130执行时，实现该语音合成方法。

本申请实施例还提供一种计算机可读存储介质，存储介质存储有计算机程序，计算机程序被处理器130执行时，实现该语音合成方法。

在本申请所提供的实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述，仅为本申请的各种实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种语音合成方法，其特征在于，所述方法包括：

确定待合成文本；

确定用户选择的目标对象的ID和标准对象的ID；

所述语音合成模型根据待合成国际音标对应的第一ID序列、国际音标对应的声调ID、每个待合成国际音标的时长、目标对象的ID以及标准对象的ID进行处理，输出所述待合成文本的声学特征；

所述方法还包括：

将数据库中的音频信息转换为文本；

将所述文本转化为国际音标序列；

为每个所述国际音标分配第一ID；

确定每个所述国际音标对应的声调；

为每个所述声调分配声调ID；

确定每个所述国际音标的语言，并为每种语言分配语言ID；

确定每个国际音标在对应音频信息中的时长；

对于每一段音频，提取所述音频中的声学特征；

将所述国际音标的第一ID、声调ID、语言ID、时长、标准对象的ID以及声学特征作为样本进行语音合成模型的训练，得到语音合成模型；

所述确定每个国际音标在对应音频信息中的时长的步骤，包括：

获取每个国际音标对应的音频段；

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

3.根据权利要求1所述的方法，其特征在于，所述声学特征为梅尔频谱特征。

4.一种语音合成装置，其特征在于，所述装置包括：处理模块和合成模块，所述处理模块具体用于：

确定待合成文本；

确定用户选择的目标对象的ID和标准对象的ID；

所述合成模块具体用于：所述语音合成模型根据待合成国际音标对应的第一ID序列、国际音标对应的声调ID、每个待合成国际音标的时长、目标对象的ID以及标准对象的ID进行处理，输出所述待合成文本的声学特征；所述处理模块还用于：

将数据库中的音频信息转换为文本；

将所述文本转化为国际音标序列；

为每个所述国际音标分配第一ID；

确定每个所述国际音标对应的声调；

为每个所述声调分配声调ID；

确定每个所述国际音标的语言，并为每种语言分配语言ID；

确定每个国际音标在对应音频信息中的时长；

对于每一段音频，提取所述音频中的声学特征；

所述处理模块还用于：

获取每个国际音标对应的音频段；

5.根据权利要求4所述的装置，其特征在于，所述声学特征为梅尔频谱特征。

6.一种电子设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1-3任一项所述方法的步骤。

7.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1-3中任一项所述方法的步骤。