CN115762471A

CN115762471A - 一种语音合成方法、装置、设备及存储介质

Info

Publication number: CN115762471A
Application number: CN202211630632.7A
Authority: CN
Inventors: 沈旭晖
Original assignee: Sipic Technology Co Ltd
Current assignee: Sipic Technology Co Ltd
Priority date: 2022-12-19
Filing date: 2022-12-19
Publication date: 2023-03-07

Abstract

本发明提供一种语音合成方法、装置、设备及存储介质，所述方法包括：接收目标文本；将所述目标文本转换为拼音序列；基于选定的目标语言标签，利用声学模型将所述拼音序列转换为声学特征，所述声学特征为所述目标语言标签对应的特征；其中，所述声学模型中包括语言标签结构；采用神经声码器将所述声学特征合成音频数据，所述音频数据为所述目标语言标签对应的语言；所述声学模型和所述神经声码器基于多种语言的语音样本训练获得。本发明能够实现了多种不同语言的语音合成，从而实现只会说一种话的人也可以合成不同语言的音频数据，进一步实现了不同地区的人们之间顺畅沟通交流，方便了人们的交流，提升了语音合成的准确性和效率。

Description

一种语音合成方法、装置、设备及存储介质

技术领域

本发明涉及人工智能技术领域，尤其涉及一种语音合成方法、装置、设备及存储介质。

背景技术

随着科技的进步，智能语音技术也在不断发展，如：智能语音设备、语音合成技术等。通过智能语音设备可以实现人机智能对话，语音合成技术是指计算机通过分析将任意文本转化为流畅语音的技术，但一般的语音合成均是合成一种语言，尤其是主流语言如：中文普通话。对于一些小语种或方言的合成，需要寻找目标小语种方言的发音人录音，发音人需要有特定的口音、合适的音色，且需要专业的配音技术，这样导致小语种或方言的语音合成难度高，准确度也不能保证。并且，一般的语音合成只能合成一种语种，若要合成多种语种则需要训练多个智能模型，过程繁琐。

因此，本领域亟需一种能够适用于多种语言的语音合成方案。

发明内容

鉴于此，本发明实施例提供了一种语音合成方法、装置、设备及存储介质，以消除或改善现有技术中存在的一个或更多个缺陷。

本发明的一个方面提供了一种语音合成方法，该方法包括以下步骤：

接收目标文本；

将所述目标文本转换为拼音序列；

基于选定的目标语言标签，利用声学模型将所述拼音序列转换为声学特征，所述声学特征为所述目标语言标签对应的特征；其中，所述声学模型中包括语言标签结构；

采用神经声码器将所述声学特征合成音频数据，所述音频数据为所述目标语言标签对应的语言，所述声学模型和所述神经声码器基于多种语言的语音样本训练获得。

在本发明的一些实施例中，所述声学模型中还包括音色标签结构；

所述基于选定的目标语言标签，利用声学模型将所述拼音序列转换为声学特征，还包括：

基于选定的目标语言标签和目标音色标签，利用所述声学模型将所述拼音序列转换为声学特征，所述声学特征为所述目标语言标签以及所述目标音色标签对对应的特征；

合成的所述音频数据的发音为所述目标音色标签对应的音色。

在本发明的一些实施例中，所述方法还包括：基于国际音标将多种语言的拼音序列统一为国际音标拼音方案；

所述将所述目标文本转换为拼音序列包括：

基于所述国际音标拼音方案将所述目标文本转换为对应的拼音序列。

在本发明的一些实施例中，所述声学模型采用非自回归语音合成模型，所述声学模型中还包括参考编码器结构和文本编码器结构，并在所述文本编码器结构中增加对抗损失。

在本发明的一些实施例中，在训练所述声学模型时，所述方法包括：

多种语言的语音样本的数据量相同，基于所述多种语言的语音样本训练获得初始声学模型；

采集重要语言的附加语音样本，基于所述附加语音样本对所述初始声学模型进行模型优化训练，获得所述声学模型；其中所述重要语言为所述多种语言中的至少一种。

在本发明的一些实施例中，所述声学模型的训练方法包括：

基于训练文本采集多种语言的语音样本；

将所述训练文本转换为对应的拼音序列；

设置声学模型的模型结构，所述模型结构包括语言标签结构，将所述训练文本对应的拼音序列作为所述声学模型的输入，将多种语言对应的语音样本作为所述声学模型选定对应的语言标签时的输出，进行模型训练，直至满足预设要求。

本发明的另一方面提供了一种语音合成装置，所述装置包括：

文本接收模块，用于接收目标文本；

拼音转换模块，用于将所述目标文本转换为拼音序列；

声学特征确定模块，用于基于选定的目标语言标签，利用声学模型将所述拼音序列转换为声学特征，所述声学特征为所述目标语言标签对应的特征；其中，所述声学模型中包括语言标签结构；

语音合成模块，用于采用神经声码器将所述声学特征合成音频数据，所述音频数据为所述目标语言标签对应的语言，所述声学模型和所述神经声码器基于多种语言的语音样本训练获得。

所述语音合成模块还用于基于选定的目标语言标签和目标音色标签，利用所述声学模型将所述拼音序列转换为声学特征，所述声学特征为所述目标语言标签以及所述目标音色标签对应的特征；其中，所述语音合成模块合成的所述音频数据的发音为所述目标音色标签对应的音色。

本发明的另一方面提供了一种语音合成设备，包括处理器和存储器，所述存储器中存储有计算机指令，所述处理器用于执行所述存储器中存储的计算机指令，当所述计算机指令被处理器执行时该设备实现上述语音合成方法。

本发明的又一方面提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述语音合成方法。

本发明的提供的一种语音合成方法、装置、设备及存储介质，可以将目标文本转换为对应的拼音序列，再利用声学模型根据用户的选择将目标文本转换成对应的语言的声学特征，最后利用神经声码器将不同语言对应的声学特征合成对应语言的音频数据，实现多种不同语言的语音合成，从而实现只会说一种话的人也可以合成不同语言的音频数据，进一步实现了不同地区的人们之间顺畅沟通交流，方便了人们的交流。并且，只利用一个声学模型就可以实现多种语言包括：多个国家的语言、不同地区的方言的自动合成，节省了语音合成的步骤和成本。

本发明的附加优点、目的，以及特征将在下面的描述中将部分地加以阐述，且将对于本领域普通技术人员在研究下文后部分地变得明显，或者可以根据本发明的实践而获知。本发明的目的和其它优点可以通过在说明书以及附图中具体指出的结构实现到并获得。

本领域技术人员将会理解的是，能够用本发明实现的目的和优点不限于以上具体所述，并且根据以下详细说明将更清楚地理解本发明能够实现的上述和其他目的。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，并不构成对本发明的限定。附图中的部件不是成比例绘制的，而只是为了示出本发明的原理。为了便于示出和描述本发明的一些部分，附图中对应部分可能被放大，即，相对于依据本发明实际制造的示例性装置中的其它部件可能变得更大。在附图中：

图1是本说明书一个实施例中提供的语音合成方法流程示意图；

图2是本说明书一个实施例中声学模型的模型结构示意图；

图3是本说明书一个实施例中声学模型的训练过程示意图；

图4是本说明书提供的语音合成装置一个实施例的模块结构示意图；

图5是本说明书一个实施例中语音合成服务器的硬件结构框图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下面结合实施方式和附图，对本发明做进一步详细说明。在此，本发明的示意性实施方式及其说明用于解释本发明，但并不作为对本发明的限定。

在此，还需要说明的是，为了避免因不必要的细节而模糊了本发明，在附图中仅仅示出了与根据本发明的方案密切相关的结构和/或处理步骤，而省略了与本发明关系不大的其他细节。

应该强调，术语“包括/包含”在本文使用时指特征、要素、步骤或组件的存在，但并不排除一个或更多个其它特征、要素、步骤或组件的存在或附加。

在此，还需要说明的是，如果没有特殊说明，术语“连接”在本文不仅可以指直接连接，也可以表示存在中间物的间接连接。

在下文中，将参考附图描述本发明的实施例。在附图中，相同的附图标记代表相同或类似的部件，或者相同或类似的步骤。

语音合成技术大大方便了人们的工作和生活，利用语音合成设备可以合成不同语言的语音，进而实现说不同语言的人们之间的对话。语音合成设备或者智能问答设备输出的语音一般都为官方语言，如：中文普通话、英文、法文等，但不同国家的不同地区虽然大都说同一种语言，但发音不尽相同。例如：在中国，不同地区有不同的方言，如：东北话、粤语、四川话、上海话、苏州话等，很多方言除了当地人其他地区的人并不会说，甚至听不懂，从而使得不同地区的人之间的交流可能存在障碍。

本说明书实施例中提供一种语音合成方法，可以基于输入的目标文本，利用声学模型，基于选定的语言标签，实现将目标文本转换为多种语言的声学特征，再利用神经声码器将不同语言对应的声学特征合成对应语言的音频数据，从而实现只会说一种话的人也可以合成不同语言的音频数据，进一步实现了不同地区的人们之间顺畅沟通交流，方便了人们的交流。并且，只利用一个声学模型就可以实现多种语言包括：多个国家的语言、不同地区的方言的自动合成，节省了语音合成的步骤和成本。

图1是本说明书一个实施例中提供的语音合成方法流程示意图，如图1所示，本说明书提供的语音合成方法的一个实施例中，所述方法可以应用在计算机、平板电脑、服务器、智能手机、智能穿戴设备等终端设备中，所述方法可以包括如下步骤：

步骤102、接收目标文本。

在具体的实施过程中，用户只需要根据实际需要输入对应的文本信息就可以利用本说明书实施例提供的方案实现不同语言的语音合成。其中，目标文本可以理解为用户需要合成的语音对应的文本，如：文字或带有文字的图片等。其中，目标文本的语音可以是中文、英文、法文、泰文等，目标文本的形式以及文字可以根据实际需要进行设置，本说明书实施例不做具体限定。

步骤104、将所述目标文本转换为拼音序列。

在具体的实施过程中，在接收到目标文本后可以将文本转换为拼音序列，其中，本说明书实施例中的拼音序列可以理解为最小的语音单位的组合，即音素的序列组合。可以利用前端设备TTS软件(文本转语音软件)等将目标文本转换为对应的拼音序列。

本说明书一些实施例中，所述方法还包括：基于国际音标将多种语言的拼音序列统一为国际音标拼音方案；

所述将所述目标文本转换为拼音序列包括：

在具体的实施过程中，一般的，不同的语言往往使用不同的拼音方案，例如，中文普通话使用汉语拼音，日语使用假名，美式英语则使用美式音标。全世界虽然有超过7000种人类语言，但人类的发音方式基本相同，主要由肺、声带、硬腭、舌等器官构成。本说明书实施例中，可以基于国际音标(IPA)设计了统一的跨语言的国际音标拼音方案，国际音标可以将不同语言进行标注，进而获得统一的文本转换拼音的方案。利用统一的国际音标拼音方案将目标文本转换为对应的拼音序列，从而尽可能增大跨语言音素的共享，打破跨语言数据上的壁垒，促进跨语言数据的融合。

步骤106、基于选定的目标语言标签，利用声学模型将所述拼音序列转换为声学特征，所述声学特征为所述目标语言标签对应的特征；其中，所述声学模型中包括语言标签结构。

在具体的实施过程中，声学模型可以理解为能够合成一段语音的智能模型，本说明书实施例可以利用声学模型将目标文本转换的拼音序列合成对应的声学特征。如：可以预先采集多种语言(包括不同国家的官方语言以及地方语言即方言)如：中文普通话、粤语、四川话、上海话、苏州话、陕西话、英语、法语、泰语等语言的语音样本，进行声学模型的训练，获得能够合成多种不同语言的声学模型。声学模型可以根据实际需要选择自回归语音合成模型如：Tactotron2、Transformer TTS、Deep Voice 3，或者非自回归语音合成模型如：FastSpeech、FastSpeech2，本说明实施例不做具体限定。但是，本说明书实施例中的声学模型中包括语言标签结构language label，语言标签结构可以用于学习语音样本中的不同语言的特征如：普通话、粤语、四川话、上海话、苏州话、陕西话、英语等不同语言的特征。在利用声学模型合成语音时，用户可以选择目标语言标签，基于用户选择的目标语言标签，将目标文本对应的拼音序列合成对应语言的声学特征。其中，目标语言标签可以理解为用户想要合成的语音对应的语言，如：若用户选择的目标语言标签为粤语，则可以将目标文本转换为粤语的声学特征，若用户选择的目标语言标签问英语，则可以将目标文本转换为英语的声学特征，使声学模型具备了切换语种的能力。声学特征的识别时语言识别的重要缓环节，声学特征可以表征语音声学特性的物理量，可以包括声音四要素(音长、音强、音高、音质)的所有......元音舌位的高低、前后，辅音的发音部位等。本说明书实施例中可以利用声学模型输出目标文本使用指定语言说出时对应的声学特性。

步骤108、采用神经声码器将所述声学特征合成音频数据，所述音频数据为所述目标语言标签对应的语言，所述声学模型和所述神经声码器基于多种语言的语音样本训练获得。

在具体的实施过程中，在获得目标语言标签对应的声学特征后，可以使用神经声码器将该声学特征合成为音频数据，该音频数据的发音即为目标语言标签对应的语言。声码器可以理解为语音信号某种模型的语音分析合成系统，在传输中只利用模型参数，在编译码时利用模型参数估计和语音合成技术的语音信号编译码器。神经声码器的具体类型可以根据实际需要进行选择，如使用melgan hifigan声码器，本说明书实施例中的神经声码器可以使用多种语言的语音样本训练获得，进而神经声码器能够将声学模型输出的不同语言对应的声学特征合成不同语言的音频数据。神经声码器的训练过程可以根据实际需要设置，本说明书实施例不做具体限定。

例如：用户A是上海人，用户B是四川人，并且相互不会说对方的语音，当用户A与用户B进行交流时，用户A想用四川话与用户B说“四川有哪些好玩的地方吗”。用户A可以将“四川有哪些好玩的地方吗”的文字作为目标文本输入到语音合成设备，并选择四川话作为目标语言标签。语音合成设备可以将“四川有哪些好玩的地方吗”这一段文本转换为对应的拼音序列，再根据用户A选择的四川话这一目标语言标签，利用声学模型将“四川有哪些好玩的地方吗”转换为四川话对应的声学特征，在使用神经声码器将声学特征合成对应的四川话语言信息并输出，即语音合成设备可以输出一段用四川话说的“四川有哪些好玩的地方吗”。同样的方法，用户B可以利用语音合成设备合成一段对应的上海话，如合成一段上海话说“乐山大佛、都江堰都挺好玩的”的音频数据。

本说明书实施例提供的语音合成方法，可以将目标文本转换为对应的拼音序列，再利用声学模型根据用户的选择将目标文本转换成对应的语言的声学特征，再利用神经声码器将不同语言对应的声学特征合成对应语言的音频数据，实现多种不同语言的语音合成，从而实现只会说一种话的人也可以合成不同语言的音频数据，实现了语言迁移，进一步实现了不同地区的人们之间顺畅沟通交流，方便了人们的交流。并且，只利用一个声学模型就可以实现多种语言包括：多个国家的语言、不同地区的方言的自动合成，节省了语音合成的步骤和成本。其中，语言迁移可以理解为使不会说某种语言的发音人，具备说该语言的能力，例如使只会说普通话的发音人说粤语、法语等。

本说明书一些实施例中，所述声学模型中还包括音色标签结构；

基于选定的目标语言标签和目标音色标签，利用所述声学模型将所述拼音序列转换为声学特征，所述声学特征为所述目标语言标签以及所述目标音色标签对应特征；

在具体的实施过程中，一般的声学模型缺少音色和语言的解耦结构，也就是说一般的声学模型合成的语音中的音色和语音都是训练样本中同一段语音样本学习得到的，语音和音色一般是同一个人的。音色属于语音中的隐变量，其中音色和基频、韵律、能量、风格等因素有关。因此音色在物理数学上很难准确定义，很难设计对应的算法对其进行分离。语言则包含了词法、句法、语法、语义等，不同语言之间存在明显差异，因此跨语言数据上存在明显的壁垒。

本说明书实施例中，在声学模型中增加了语言标签结构以及音色标签结构，可以分别学习语音样本中的语言特征和音色特征。在语音合成时，可以根据用户的选择，将目标文本对应的拼音序列转换对应语音和对应音色的声学特征，进而声学编码器可以将该声学特征合成对应语言和对应音色的音频数据。其中音色标签可以理解为不同说话人的声音，可以根据实际需要选择声学模型训练中不同语音样本中不同的人对应的音色，如：在采集语音样本时，选择10个人说不同的语音作为语音样本，同时，这10个人的音色可以标记为说话人1、说话人2、……、说话人10，这些标记可以作为音色标签。这10个人可以是说不同语言的人，也可以是说相同语言的人，本说明书实施例不做具体限定。语言标签结构用于学习语言特征，音色标签结构则用于学习音色特征，以实现语言和音色的解耦。

例如：上述实施例中上海人用户A和四川人用户B的对话中，用户A在使用语音合成设备合成“四川有哪些好玩的地方吗”对应的语音时，可以在将“四川有哪些好玩的地方吗”的文字作为目标文本输入到语音合成设备，同时，选择四川话作为目标语言标签，选择说话人1作为目标音色标签，从而使得语音合成设备可以输出一段说话人1使用四川话说出的“四川有哪些好玩的地方吗”。而说话人1本身可能并不会说四川话，本说明书实施例可以实现语言和音色的解耦，实现语言和音色的灵活组合，实现不会说某种语言的发音人，具备说该语言的能力，例如使只会说普通话的发音人说粤语、法语等，进而实现语言的迁移能力，提升了跨语言迁移后发音人音色的相似性。

本说明书一些实施例中，所述声学模型采用非自回归语音合成模型，所述声学模型中还包括参考编码器结构和文本编码器结构，并在所述文本编码器结构中增加对抗损失。

在具体的实施过程中，本说明书实施例中的声学模型可以采用非自回归语音合成模型如：Fastspeech2，并在非自回归语音合成模型Fastspeech2中增加参考编码器结构reference encoder，参考编码器结构主要用于建模文本以外语音中的隐变量信息如：重读、停顿、语言风格等信，进而提升合成语音的韵律以及情感效果等，使得合成语音更加贴近真实人物说话的情景。此外，本说明书实施例中的声学模型还包括文本编码器结构，文本编码器结构主要用于学习文本中的特征，并在在文本编码器结构中增加对抗损失loss，使得文本编码器结构能够把文本信息中的音色信息剔除，从而实现文本编码器只学习文本信息，促进语种相关文本和音色的解耦，进一步提升了跨语言迁移后发音人音色的相似性，提升语音合成的准确性。

本说明书一些实施例中，在训练所述声学模型时，所述方法包括：

在具体的实施过程中，本说明书实施例中在进行模型训练时采用了语言平衡和多阶段训练的策略，其中，语言平衡策略主要可以理解为多种语言的语音样本的数量相同，如：普通话、粤语、四川话、上海话、苏州话、陕西话、英语、法语、泰语这几种语言的语音样本均为10小时语音，或普通话、粤语、四川话、上海话、苏州话、陕西话、英语、法语、泰语这几种语言的语音样本为相同的语音内容，训练时长相同等，即确保每一种语音的语音样本的训练时间和效果是相同的。采用大量的不同语言的语音样本对声学模型进行模型训练后，获得初始声学模型后，本说明书实施例中还可以对初始声学模型进行优化训练。优化训练的过程是，从多种语言中选择至少一种语言作为重要语言，如：可以将使用频率比较高的语音作为重要语言，或者根据用户的需要选择其中一种或多种语言作为重要语言，采集重要语言的附加语音样本，如：采集使用重要语言说话的人说指定文本对应的语音作为附加语音样本，其中，附加语音样本的内容可以与初始训练时多种语言的语音样本的内容相同，也可以不同，录制附加语音样本的说话人可以与录制初始训练时对应语言的语音样本的人相同，也可以不同，具体可以根据实际需要进行设置，本说明书实施例不做具体限定。通过重要语言的附加语音样本对初始声学模型进行优化训练后，可以获得最终的声学模型，该声学模型不仅能够保证后续多种语言的语音合成的准确性，还可以保证重要语言的语音合成更加准确，确保用户关心或者使用频率高的语言的语音合成能够更加准确、地道。

本说明书实施例使用语言平衡和多阶段训练的策略训练声学模型，促进音色和语言的解耦，使得跨语言迁移后的合成音韵律更加地道。

本说明书一些实施例中，所述声学模型的训练方法包括：

基于训练文本采集多种语言的语音样本；

将所述训练文本转换为对应的拼音序列；

在具体的实施过程中，在进行声学模型训练时，可以先设计训练文本，训练文本的数量可以根据实际需要进行设置，本说明书实施例不做具体限定。再找说不同语言的人录制训练样本对应的语音，获得多种语言的语音样本，利用上述实施例的方法将训练文本转换对应的拼音序列。再设置声学模型的模型结构，如：相关的模型参数，本说明书实施例中可以采用Fastspeech2作为声学模型，根据Fastspeech2的模型需要设置对应的模型结构，并参考上述实施例的记载，在Fastspeech2模型中增加相关的模型结构，如：语音标签结构、音色标签结构、参考编码器结构等，还可以根据实际需要设置其他的模型结构，本说明书实施例不做具体限定。图2是本说明书一个实施例中声学模型的模型结构示意图，如图2所示，本说明书实施例中的声学模型包括参考编码器结构reference encoder、文本编码器结构Text Encoder、解码器decoder、语音标签结构language label以及音色标签结构xvector，如图2所示，其中在文本编码器中增加对抗损失adversarial loss。设置模型结构后，可以将训练文本对应的拼音序列作为声学模型的输入，再将选定不同的语音标签时对应语言的语音样本作为声学模型的输出，进行模型训练，直至满足预设要求，如：达到训练次数或模型的精度满足预设精度，则完成模型训练，获得声学模型。

上述模型训练既适用于上述实施例中大量数据进行初始声学模型的语言平衡训练过程，又适用于重要语言的模型优化训练阶段，具体过程可以根据实际需要进行调整，本说明书实施例不做具体限定。通过上述实施例中的模型训练过程，可以获得能够合成多种不同语言的语音数据的声学模型，实现了多种语言的自动化合成，提升了语音合成的效率，降低了语音合成的成本。

图3是本说明书一个实施例中声学模型的训练过程示意图，如图3所示，本说明书一些实施例中，声学模型的训练过程可以参考如下：

步骤1：将多语言各自的拼音方案统一成IPA即国际音标拼音方案，进而将不同语言的文本统一转换为对应的拼音序列。

步骤2：声学模型(基于Fastspeech2)增加参考编码器结构reference encoder。

步骤3：在声学模型中和语言隐变量相关的结构中增加语言标签结构(languagelabel)。

步骤4：声学模型采用x-vector作为说话人的标签即音色标签结构(speakerlabel)。

步骤5：声学模型encoder结构增加对抗损失adversarial loss。

步骤6：使用语言平衡和多阶段训练的策略训练声学模型。

利用上述实施例中的方法训练获得的声学模型以及神经声码器就可以对目标文本进行多种不同语言的语音合成，实现了跨语言迁移，语言和音色可以灵活的进行组合，如：只会说普通话的发音人可以流利的合成普通话、粤语、四川话、上海话、苏州话、陕西话、英语、法语、泰语等语言，提升了语音合成的灵活性和准确性，降低了语音合成的成本。

本说明书中上述方法的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参考即可，每个实施例重点说明的都是与其他实施例的不同之处。相关之处参考方法实施例的部分说明即可。

基于上述所述的语音合成方法，本说明书一个或多个实施例还提供一种语音合成的装置。所述装置可以包括使用了本说明书实施例所述方法的装置(包括分布式系统)、软件(应用)、模块、组件、服务器、客户端等并结合必要的实施硬件的装置。基于同一创新构思，本说明书实施例提供的一个或多个实施例中的装置如下面的实施例所述。由于装置解决问题的实现方案与方法相似，因此本说明书实施例具体的装置的实施可以参考前述方法的实施，重复之处不再赘述。以下所使用的，术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

具体地，图4是本说明书提供的语音合成装置一个实施例的模块结构示意图，如图4所示，本说明书中提供的装置可以包括：

文本接收模块41，用于接收目标文本；

拼音转换模块42，用于将所述目标文本转换为拼音序列；

声学特征确定43，用于基于选定的目标语言标签，利用声学模型将所述拼音序列转换为声学特征，所述声学特征为所述目标语言标签对应的特征；其中，所述声学模型中包括语言标签结构；

语音合成模块44，用于采用神经声码器将所述声学特征合成音频数据，所述音频数据为所述目标语言标签对应的语言，所述声学模型和所述神经声码器基于多种语言的语音样本训练获得。

本说明书实施例提供的语音合成装置，可以对目标文本进行多种不同语言的语音合成，实现了跨语言迁移，语言和音色可以灵活的进行组合，提升了语音合成的灵活性和准确性，降低了语音合成的成本。

本说明书一些实施例中，还提供了一种语音合成设备，包括处理器和存储器，所述存储器中存储有计算机指令，所述处理器用于执行所述存储器中存储的计算机指令，当所述计算机指令被处理器执行时该设备实现上述实施例中记载的语音合成方法，如：

接收目标文本；

将所述目标文本转换为拼音序列；

需要说明的，上述所述的装置、设备根据方法实施例的描述还可以包括其他的实施方式。具体的实现方式可以参照相关方法实施例的描述，在此不作一一赘述。

本说明书实施例所提供的方法实施例可以在移动终端、计算机终端、服务器或者类似的运算装置中执行。以运行在服务器上为例，图5是本说明书一个实施例中语音合成服务器的硬件结构框图，该计算机终端可以是上述实施例中的语音合成服务器或语音合成装置。如图5所示服务器10可以包括一个或多个(图中仅示出一个)处理器100(处理器100可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的非易失性存储器200、以及用于通信功能的传输模块300。本领域普通技术人员可以理解，图5所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，服务器10还可包括比图5中所示更多或者更少的组件，例如还可以包括其他的处理硬件，如数据库或多级缓存、GPU，或者具有与图5所示不同的配置。

非易失性存储器200可用于存储应用软件的软件程序以及模块，如本说明书实施例中的语音合成方法对应的程序指令/模块，处理器100通过运行存储在非易失性存储器200内的软件程序以及模块，从而执行各种功能应用以及资源数据更新。非易失性存储器200可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，非易失性存储器200可进一步包括相对于处理器100远程设置的存储器，这些远程存储器可以通过网络连接至计算机终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输模块300用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端的通信供应商提供的无线网络。在一个实例中，传输模块300包括一个网络适配器(Network Interface Controller，NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输模块300可以为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

与上述方法相应地，本发明还提供了一种装置，该装置包括计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有计算机指令，所述处理器用于执行所述存储器中存储的计算机指令，当所述计算机指令被处理器执行时该装置实现如前所述方法的步骤。

本发明实施例还提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时以实现前述边缘计算服务器部署方法的步骤。该计算机可读存储介质可以是有形存储介质，诸如随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、软盘、硬盘、可移动存储盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质。

本领域普通技术人员应该可以明白，结合本文中所公开的实施方式描述的各示例性的组成部分、系统和方法，能够以硬件、软件或者二者的结合来实现。具体究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。当以硬件方式实现时，其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时，本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中，或者通过载波中携带的数据信号在传输介质或者通信链路上传送。

需要明确的是，本发明并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见，这里省略了对已知方法的详细描述。在上述实施例中，描述和示出了若干具体的步骤作为示例。但是，本发明的方法过程并不限于所描述和示出的具体步骤，本领域的技术人员可以在领会本发明的精神后，作出各种改变、修改和添加，或者改变步骤之间的顺序。

本发明中，针对一个实施方式描述和/或例示的特征，可以在一个或更多个其它实施方式中以相同方式或以类似方式使用，和/或与其他实施方式的特征相结合或代替其他实施方式的特征。

以上所述仅为本发明的优选实施例，并不用于限制本发明，对于本领域的技术人员来说，本发明实施例可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种语音合成方法，其特征在于，所述方法包括：

接收目标文本；

将所述目标文本转换为拼音序列；

采用神经声码器将所述声学特征合成音频数据，所述音频数据为所述目标语言标签对应的语言；所述声学模型和所述神经声码器基于多种语言的语音样本训练获得。

2.根据权利要求1所述的方法，其特征在于，所述声学模型中还包括音色标签结构；

基于选定的目标语言标签和目标音色标签，利用所述声学模型将所述拼音序列转换为声学特征，所述声学特征为所述目标语言标签以及所述目标音色标签对应的特征；

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：基于国际音标将多种语言的拼音序列统一为国际音标拼音方案；

所述将所述目标文本转换为拼音序列包括：

4.根据权利要求1所述的方法，其特征在于，所述声学模型采用非自回归语音合成模型，所述声学模型中还包括参考编码器结构和文本编码器结构，并在所述文本编码器结构中增加对抗损失。

5.根据权利要求1所述的方法，其特征在于，在训练所述声学模型时，所述方法包括：

6.根据权利要求1-5任一项所述的方法，其特征在于，所述声学模型的训练方法包括：

基于训练文本采集多种语言的语音样本；

将所述训练文本转换为对应的拼音序列；

7.一种语音合成装置，其特征在于，所述装置包括：

文本接收模块，用于接收目标文本；

拼音转换模块，用于将所述目标文本转换为拼音序列；

语音合成模块，用于采用神经声码器将所述声学特征合成音频数据，所述音频数据为所述目标语言标签对应的语言；所述声学模型和所述神经声码器基于多种语言的语音样本训练获得。

8.根据权利要求7所述的装置，其特征在于，所述声学模型中还包括音色标签结构；

9.一种语音合成设备，包括处理器和存储器，其特征在于，所述存储器中存储有计算机指令，所述处理器用于执行所述存储器中存储的计算机指令，当所述计算机指令被处理器执行时该设备实现如权利要求1至6中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1至6中任一项所述方法的步骤。