CN115985286A

CN115985286A - 虚拟语音的生成方法、装置、存储介质及电子装置

Info

Publication number: CN115985286A
Application number: CN202211676955.XA
Authority: CN
Inventors: 郁祖达; 孙见青; 梁家恩
Original assignee: Unisound Intelligent Technology Co Ltd
Current assignee: Unisound Intelligent Technology Co Ltd
Priority date: 2022-12-26
Filing date: 2022-12-26
Publication date: 2023-04-18

Abstract

本发明公开了一种虚拟语音的生成方法、装置、存储介质及电子装置。其中，该虚拟语音的生成方法包括：通过获取多个不同的语音文本样本及语音属性信息，多个不同的语种语音文本样本中的每个语音文本样本对应一个语种，一个对象；将每个语音文本样本输入多流编码器中，得到每个语音文本样本对应的文本特征；通过文本特征以及语音特征训练基于生成式对抗网络建模的预设语音声学模型，得到生成虚拟语音的目标声学模型，即本发明可支持跨语种数据训练及跨语种发音人的生成，多流编码器能更好的捕捉不同语种中的文本特征，提升虚拟预设生成的灵活性以及可靠性，进而解决了现有技术中，生成虚拟语音的灵活性以及可靠性较低的技术问题。

Description

虚拟语音的生成方法、装置、存储介质及电子装置

技术领域

本发明涉及语音处理技术相关领域，具体而言，涉及一种虚拟语音的生成方法、装置、存储介质及电子装置。

背景技术

谷歌团队提出了TacoSpawn，一个合成现实中不存在的说话人的语音的方法，TacoSpawn基于Tacotron，使用最大似然估计来学习speaker embedding的分布，用来生成新的speaker embedding(即训练集中不存在的speaker)，再通过TTS合成相应的语音。这种技术可以用于隐私保护，因为生成speaker并不是真实存在的。

相关方案中，训练得到的speaker embedding作为训练数据模型来学习speakerembedding的分布。使用高斯混合模型(GMM)来参数化这个分布。推理时通过分布采样来生成新的说话人，GMM参数建模不能有效地对呈非线性或者近似线性的数据进行建模，鲁棒性较差。TacoSpawn只支持英语发音人的生成，并不支持跨语种的发音人生成，虚拟语音生成的灵活性较差。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种虚拟语音的生成方法、装置、存储介质及电子装置，以至少解决现有技术中，生成虚拟语音的灵活性以及可靠性较低的技术问题。

根据本发明实施例的一个方面，提供了一种虚拟语音的生成方法，包括：获取多个不同的语音文本样本以及对应所述多个不同的语音文本的对象语音属性信息，其中，所述多个不同的语种语音文本样本中的每个语音文本样本对应一个语种，一个对象，所述每个语音文本样本包括国际标准音标；将所述每个语音文本样本输入多流编码器中，得到所述每个语音文本样本对应的文本特征；将所述对应所述多个不同的语音文本的对象语音属性信息输入语音特征模块，得到与所述每个语音文本样本对应的语音特征；通过所述文本特征以及所述语音特征训练基于生成式对抗网络建模的预设语音声学模型，得到目标声学模型，其中，所述目标声学模型用于生成虚拟语音。

可选的，所述通过所述文本特征以及所述语音特征训练基于生成式对抗网络建模的预设语音声学模型，得到目标声学模型，包括：获取所述文本特征对应的语种的语音属性信息；基于所述语音属性信息与所述目标声学模型预测的语音信息，构建损失函数；在所述损失函数满足预设条件的情况下，得到所述目标声学模型。

可选的，所述将所述每个语音文本样本输入多流编码器中，得到所述每个语音文本样本对应的文本特征，包括：将所述每个语音文本样本输入多流编码器中，得到所述多流编码器中多个特征捕捉模块处理的多个类型的计算文本特征；对所述多个类型的计算文本特征求和，得到所述文本特征。

可选的，所述通过所述文本特征以及所述语音特征训练基于生成式对抗网络建模的预设语音声学模型，得到目标声学模型之后，所述方法还包括：获取目标语音文本；将所述目标语音文本输入所述目标声学模型，得到所述目标语音文本对应的虚拟语音。

根据本申请实施例的第一个方面，提供了一种虚拟语音的生成装置，包括：第一获取单元，用于获取多个不同的语音文本样本以及对应所述多个不同的语音文本的对象语音属性信息，其中，所述多个不同的语种语音文本样本中的每个语音文本样本对应一个语种，一个对象，所述每个语音文本样本包括国际标准音标；第一特征处理单元，用于将所述每个语音文本样本输入多流编码器中，得到所述每个语音文本样本对应的文本特征；第二特征处理单元，用于将所述对应所述多个不同的语音文本的对象语音属性信息输入语音特征模块，得到与所述每个语音文本样本对应的语音特征；模型训练单元，用于通过所述文本特征以及所述语音特征训练基于生成式对抗网络建模的预设语音声学模型，得到目标声学模型，其中，所述目标声学模型用于生成虚拟语音。

可选的，所述模型训练单元，包括：获取模块，用于获取所述文本特征对应的语种的语音属性信息；构建模块，用于基于所述语音属性信息与所述目标声学模型预测的语音信息，构建损失函数；第一确定模块，用于在所述损失函数满足预设条件的情况下，得到所述目标声学模型。

可选的，所述特征处理单元，包括：第二确定模块，用于将所述每个语音文本样本输入多流编码器中，得到所述多流编码器中多个特征捕捉模块处理的多个类型的计算文本特征；第三确定模块，用于对所述多个类型的计算文本特征求和，得到所述文本特征。

可选的，所述装置还包括：第二获取单元，用于所述通过所述文本特征训练基于生成式对抗网络建模的预设语音声学模型，得到目标声学模型之后，获取目标语音文本；确定单元，用于将所述目标语音文本输入所述目标声学模型，得到所述目标语音文本对应的虚拟语音。

在本发明实施例中，通过获取多个不同的语音文本样本以及对应多个不同的语音文本的对象语音属性信息，其中，多个不同的语种语音文本样本中的每个语音文本样本对应一个语种，一个对象，每个语音文本样本包括国际标准音标；将每个语音文本样本输入多流编码器中，得到每个语音文本样本对应的文本特征；将对应多个不同的语音文本的对象语音属性信息输入语音特征模块，得到与述每个语音文本样本对应的语音特征；通过文本特征以及语音特征训练基于生成式对抗网络建模的预设语音声学模型，得到目标声学模型，其中，目标声学模型用于生成虚拟语音，即本发明增加了跨语种文本的扩展性，可支持跨语种数据训练及跨语种发音人的生成，多流编码器能更好的捕捉不同语种中的文本特征，提升虚拟预设生成的灵活性以及可靠性，进而解决了现有技术中，生成虚拟语音的灵活性以及可靠性较低的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的一种可选的虚拟语音的生成方法的移动终端的硬件结构框图；

图2是根据本发明实施例的一种可选的虚拟语音的生成方法的流程图；

图3是根据本发明实施例的一种可选的多流编码器的结构示意图；

图4是根据本发明实施例的一种可选的语音模型训练结构示意图；

图5是根据本发明实施例的一种可选的虚拟语音的生成装置图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一序列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为了更好的理解本方案涉及的内容，对相关内容说明如下：

生成式对抗网络(GAN,Generative Adversarial Networks)是一种深度学习模型。主要包括两部分：生成模型和判别模型。

生成器G(Generator)：通过生成器G生成数据。

判别器D(Discriminator)：判断这张图像是真实的还是机器生成的，目的是判别数据是否是生成器做的“假数据”

生成器与判别器互相对抗，不断调整参数。最终的目的是使判别网络无法判断生成网络的输出结果是否真实。

本申请实施例所提供的虚拟语音的生成方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在移动终端上为例，图1是本发明实施例的一种虚拟语音的生成方法的移动终端的硬件结构框图。如图1所示，移动终端10可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104，可选地，上述移动终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述移动终端的结构造成限定。例如，移动终端10还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

存储器104可用于存储计算机程序，例如，应用软件的软件程序以及模块，如本发明实施例中的虚拟语音的生成方法对应的计算机程序，处理器102通过运行存储在存储器104内的计算机程序，从而执行各种功能应用以及数据处理，即实现上述的方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至移动终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括移动终端10的通信供应商提供的无线网络。在一个实例中，传输装置106包括一个网络适配器(Network Interface Controller，简称为NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置106可以为射频(Radio Frequency，简称为RF)模块，其用于通过无线方式与互联网进行通讯。

在本实施例中还提供了一种虚拟语音的生成方法，图2是根据本发明实施例的虚拟语音的生成方法的流程图，如图2所示，该虚拟语音的生成方法流程包括如下步骤：

步骤S202，获取多个不同的语音文本样本以及对应所述多个不同的语音文本的对象语音属性信息，其中，所述多个不同的语种语音文本样本中的每个语音文本样本对应一个语种，一个对象，所述每个语音文本样本包括国际标准音标。

步骤S204，将所述每个语音文本样本输入多流编码器中，得到所述每个语音文本样本对应的文本特征。

步骤S206，将所述对应所述多个不同的语音文本的对象语音属性信息输入语音特征模块，得到与所述每个语音文本样本对应的语音特征。

步骤S208，通过所述文本特征以及语音特征训练基于生成式对抗网络建模的预设语音声学模型，得到目标声学模型，其中，所述目标声学模型用于生成虚拟语音。

在本实施例中，上述虚拟语音的生成方法可以包括但不限于用于各种用户保护隐私，将用户语音转换为虚拟语音。如一些变音软件的使用。虚拟语音可以包括但不限于非人类的语音，如动物的声音，人类声音但不存在对应的用户的语音。

在本实施例中，一个对象可以理解为一个发出语音的个体，如一个说话的人。获取多个不同的语音文本样本以及对应所述多个不同的语音文本的对象语音属性信息，即可以理解获取不同发音个体的语音属性信息和发音说话的文体。例如，说话人A的语音属性信息，说话人的音高，音强，音长以及音素等信息。以及说话人A说了一句“今天天气真好”的语音文体信息。

其中，上述语音文本样本可以包括但不限于跨语种的不同语音文本数据，即采集不同群种的语音数据，根据语音数据得到语音文本。上述语音属性信息包括但不限于语音的物理属性(性质)包括：音高，音强，音长，音色四要素。

1、音高：音高指各种不同高低的声音，即音的高度，音的基本特征的一种。音的高低是由发音体的振动频率决定的，两者成正比关系：频率振动次数多则音”高“，反之则”低“。

声音的高低。由音波振动的频率来决定。频率高则音高；低则音低。音高是构成语音的要素之一。

2、音强：又称音量，即音的强弱(响亮)程度。音的基本特性的一种。音的强弱是由发音时发音体振动幅度(简称振幅)的大小决定的，两者成正比关系，振幅越大则音越”强“，反之则越”弱“。

3、音长音长是指声音的长短，它决定于发音体振动时间的久暂。发音体振动持续久，声音就长，反：之则短。

4、音色：音色指音的感觉特性。频率的高低决定声音的音调，振幅的大小决定声音的响度但不同的物体发出的声音我们还是可以通过音色分辨不同发生体的材料、结构不同，发出声音的音色也就不同。

在本实施例中，使用多流编码器(multi-stream encoder)，对于跨语种数据来说，不同语言的文本有着各自不同的特征，通过多流编码器可以捕捉到更多的文本特征，其中，多流编码器中可以采用不同的特征捕捉模块，不同的模块捕捉特征的能力各有所长，如RNN擅长捕捉时序特征，CNN擅长捕捉全局特征，最后将所得到的特征加总起来，得到文本特征。基于该文本特征以及语音特征可以得到高质量的虚拟语音，高质量是指很难判断虚拟语音前用户的真实语音。

其中，使用GAN对于speaker embedding建模能有效地对呈非线性或者近似线性的数据进行建模，提高模型的鲁棒性。

通过本申请提供的实施例，通过获取多个不同的语音文本样本以及对应所述多个不同的语音文本的对象语音属性信息，其中，多个不同的语种语音文本样本中的每个语音文本样本对应一个语种，一个对象，每个语音文本样本包括国际标准音标；将每个语音文本样本输入多流编码器中，得到每个语音文本样本对应的文本特征；将对应多个不同的语音文本的对象语音属性信息输入语音特征模块，得到与每个语音文本样本对应的语音特征；通过文本特征以及语音特征训练基于生成式对抗网络建模的预设语音声学模型，得到目标声学模型，其中，目标声学模型用于生成虚拟语音，即本发明增加了跨语种文本的扩展性，可支持跨语种数据训练及跨语种发音人的生成，多流编码器能更好的捕捉不同语种中的文本特征，提升虚拟预设生成的灵活性以及可靠性，进而解决了现有技术中，生成虚拟语音的灵活性以及可靠性较低的技术问题。

可选的，所述通过所述文本特征以及所述语音特征训练基于生成式对抗网络建模的预设语音声学模型，得到目标声学模型，可以包括：获取所述文本特征对应的语种的语音属性信息；基于所述语音属性信息与所述目标声学模型预测的语音信息，构建损失函数；在所述损失函数满足预设条件的情况下，得到所述目标声学模型。

可选的，所述将所述每个语音文本样本输入多流编码器中，得到所述每个语音文本样本对应的文本特征，可以包括：将所述每个语音文本样本输入多流编码器中，得到所述多流编码器中多个特征捕捉模块处理的多个类型的计算文本特征；对所述多个类型的计算文本特征求和，得到所述文本特征。

作为一种可选的实施例，本申请还提供了一种生成跨语种的新说话人方法。该方案的具体内容如下。

使用IPA标准(International Phonetic Alphabet，简称IPA)字典，IPA字典是口语发音的标准表记形式，可以用来表示所有的语言，取代原英语音素字典，增加了语种的扩展性，可以同时使用跨语种数据来训练声学模型。

IPA是用于为全世界所有语言注音的符号系统。其最早源于1888年，由国际语音协会制定。

国际音标遵循"一音一符"的严格标准，最初用于为西方语言、非洲语言等的标音。经过多年发展，在中国语言学者赵元任等人的努力下，国际音标逐渐完善，已可为汉语等东方语言注音。

使用多流编码器(multi-stream encoder)，对于跨语种数据来说，不同语言的文本有着各自不同的特征，通过多流编码器可以捕捉到更多的文本特征，其中多流编码器中可以采用不同的特征捕捉模块，其中，不同的模块捕捉特征的能力各有所长，如RNN擅长捕捉时序特征，CNN擅长捕捉全局特征，最后再加总起来。如图3所示多流编码器的结构示意图。

使用GAN模型学习speaker embedding的空间。如图4所示，语音模型训练结构示意图。

语音模型的训练包括两个部分的特征提取。第一部分，发音者的语音属性信息Speaker ID，经过语音属性特征识别模块Look-up embedding特征处理，得到语音识别特征，将该语音识别特征输入语音特征模块Speaker embedding，得到语音特征。

第二部分，该发音者的IPA格式的文体，经过多流检测模块multi-stream textencoder，其输出输入文本特征模块word embedding，得到文体特征。

基于文本特征与语音特征构建损失函数，训练预设的语音模型。得到训练好的语音模型。

其中，噪音通过生成器输入预训练的语音模型中，从预设的语音模型中输入至判别器，进而实现对抗训练，调整模型参数。

通过本实施例提供的方案，使用IPA表示文本音素增加了跨语种文本的扩展性，可支持跨语种数据训练及跨语种发音人的生成。多流编码器能更好的捕捉不同语种中的文本特征。使用GAN对于speaker embedding建模，比GMM的建模能力更强，效果更具有鲁棒性。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

在本实施例中还提供了一种虚拟语音的生成装置，该装置用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

图5是根据本发明实施例的虚拟语音的生成装置的结构框图，如图5所示，该虚拟语音的生成装置包括：

第一获取单元51，用于获取多个不同的语音文本样本以及对应所述多个不同的语音文本的对象语音属性信息，其中，多个不同的语种语音文本样本中的每个语音文本样本对应一个语种，一个对象，每个语音文本样本包括国际标准音标。

第一特征处理单元53，用于将每个语音文本样本输入多流编码器中，得到每个语音文本样本对应的文本特征。

第二特征处理单元55，用于将对应所述多个不同的语音文本的对象语音属性信息输入语音特征模块，得到与每个语音文本样本对应的语音特征。

模型训练单元57，用于通过文本特征以及语音特征训练基于生成式对抗网络建模的预设语音声学模型，得到目标声学模型，其中，目标声学模型用于生成虚拟语音。

通过本申请提供的实施例，第一获取单元51获取多个不同的语音文本样本以及对应多个不同的语音文本的对象语音属性信息，其中，多个不同的语种语音文本样本中的每个语音文本样本对应一个语种，一个对象，每个语音文本样本包括国际标准音标；第一特征处理单元53将每个语音文本样本输入多流编码器中，得到每个语音文本样本对应的文本特征；第二特征处理单元55将对应多个不同的语音文本的对象语音属性信息输入语音特征模块，得到与每个语音文本样本对应的语音特征。模型训练单元57通过文本特征以及语音特征训练基于生成式对抗网络建模的预设语音声学模型，得到目标声学模型，其中，目标声学模型用于生成虚拟语音，即本发明增加了跨语种文本的扩展性，可支持跨语种数据训练及跨语种发音人的生成，多流编码器能更好的捕捉不同语种中的文本特征，提升虚拟预设生成的灵活性以及可靠性，进而解决了现有技术中，生成虚拟语音的灵活性以及可靠性较低的技术问题。

可选的，所述模型训练单元，可以包括：获取模块，用于获取所述文本特征对应的语种的语音属性信息；构建模块，用于基于所述语音属性信息与所述目标声学模型预测的语音信息，构建损失函数；第一确定模块，用于在所述损失函数满足预设条件的情况下，得到所述目标声学模型。

可选的，所述第一特征处理单元，包括：第二确定模块，用于将所述每个语音文本样本输入多流编码器中，得到所述多流编码器中多个特征捕捉模块处理的多个类型的计算文本特征；第三确定模块，用于对所述多个类型的计算文本特征求和，得到所述文本特征。

可选的，所述装置还可以包括：第二获取单元，用于所述通过所述文本特征以及所述语音特征训练基于生成式对抗网络建模的预设语音声学模型，得到目标声学模型之后，获取目标语音文本；确定单元，用于将所述目标语音文本输入所述目标声学模型，得到所述目标语音文本对应的虚拟语音。

需要说明的是，上述各个模块是可以通过软件或硬件来实现的，对于后者，可以通过以下方式实现，但不限于此：上述模块均位于同一处理器中；或者，上述各个模块以任意组合的形式分别位于不同的处理器中。

本发明的实施例还提供了一种存储介质，该存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述存储介质可以被设置为存储用于执行以下步骤的计算机程序：

S1，获取多个不同的语音文本样本以及对应多个不同的语音文本的对象语音属性信息，其中，所述多个不同的语种语音文本样本中的每个语音文本样本对应一个语种，一个对象，所述每个语音文本样本包括国际标准音标；

S2，将所述每个语音文本样本输入多流编码器中，得到所述每个语音文本样本对应的文本特征；

S3，将对应多个不同的语音文本的对象语音属性信息输入语音特征模块，得到与每个语音文本样本对应的语音特征；

S4，通过所述文本特征训练基于生成式对抗网络建模的预设语音声学模型，得到目标声学模型，其中，所述目标声学模型用于生成虚拟语音。

可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、只读存储器(Read-Only Memory，简称为ROM)、随机存取存储器(Random Access Memory，简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。

本发明的实施例还提供了一种电子装置，包括存储器和处理器，该存储器中存储有计算机程序，该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。

可选地，上述电子装置还可以包括传输设备以及输入输出设备，其中，该传输设备和上述处理器连接，该输入输出设备和上述处理器连接。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

S1，获取多个不同的语音文本样本以及对应多个不同的语音文本的对象语音属性信息，其中，所述多个不同的语种语音文本样本中的每个语音文本样本对应一个语种，一个对象，所述每个语音文本样本包括国际标准音标。

S2，将所述每个语音文本样本输入多流编码器中，得到所述每个语音文本样本对应的文本特征。

S4，所述文本特征以及语音特征训练基于生成式对抗网络建模的预设语音声学模型，得到目标声学模型，其中，所述目标声学模型用于生成虚拟语音。

可选地，本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例，本实施例在此不再赘述。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种虚拟语音的生成方法，其特征在于，包括：

获取多个不同的语音文本样本以及对应所述多个不同的语音文本的对象语音属性信息，其中，所述多个不同的语种语音文本样本中的每个语音文本样本对应一个语种，一个对象，所述每个语音文本样本包括国际标准音标；

将所述每个语音文本样本输入多流编码器中，得到所述每个语音文本样本对应的文本特征；

将所述对应所述多个不同的语音文本的对象语音属性信息输入语音特征模块，得到与所述每个语音文本样本对应的语音特征；

通过所述文本特征以及所述语音特征训练基于生成式对抗网络建模的预设语音声学模型，得到目标声学模型，其中，所述目标声学模型用于生成虚拟语音。

2.根据权利要求1所述的方法，其特征在于，所述通过所述文本特征以及所述语音特征训练基于生成式对抗网络建模的预设语音声学模型，得到目标声学模型，包括：

获取所述文本特征对应的语种的语音属性信息；

基于所述语音属性信息与所述目标声学模型预测的语音信息，构建损失函数；

在所述损失函数满足预设条件的情况下，得到所述目标声学模型。

3.根据权利要求1所述的方法，其特征在于，所述将所述每个语音文本样本输入多流编码器中，得到所述每个语音文本样本对应的文本特征，包括：

将所述每个语音文本样本输入多流编码器中，得到所述多流编码器中多个特征捕捉模块处理的多个类型的计算文本特征；

对所述多个类型的计算文本特征求和，得到所述文本特征。

4.根据权利要求1所述的方法，其特征在于，所述通过所述文本特征以及所述语音特征训练基于生成式对抗网络建模的预设语音声学模型，得到目标声学模型之后，所述方法还包括：

获取目标语音文本；

将所述目标语音文本输入所述目标声学模型，得到所述目标语音文本对应的虚拟语音。

5.一种虚拟语音的生成装置，其特征在于，包括：

第一获取单元，用于获取多个不同的语音文本样本以及对应所述多个不同的语音文本的对象语音属性信息，其中，所述多个不同的语种语音文本样本中的每个语音文本样本对应一个语种，一个对象，所述每个语音文本样本包括国际标准音标；

第一特征处理单元，用于将所述每个语音文本样本输入多流编码器中，得到所述每个语音文本样本对应的文本特征；

第二特征处理单元，用于将所述对应所述多个不同的语音文本的对象语音属性信息输入语音特征模块，得到与所述每个语音文本样本对应的语音特征；

模型训练单元，用于通过所述文本特征以及所述语音特征训练基于生成式对抗网络建模的预设语音声学模型，得到目标声学模型，其中，所述目标声学模型用于生成虚拟语音。

6.根据权利要求5所述的装置，其特征在于，所述模型训练单元，包括：

获取模块，用于获取所述文本特征对应的语种的语音属性信息；

构建模块，用于基于所述语音属性信息与所述目标声学模型预测的语音信息，构建损失函数；

第一确定模块，用于在所述损失函数满足预设条件的情况下，得到所述目标声学模型。

7.根据权利要求5所述的装置，其特征在于，所述特征处理单元，包括：

第二确定模块，用于将所述每个语音文本样本输入多流编码器中，得到所述多流编码器中多个特征捕捉模块处理的多个类型的计算文本特征；

第三确定模块，用于对所述多个类型的计算文本特征求和，得到所述文本特征。

8.根据权利要求5所述的方法，其特征在于，所述装置还包括：

第二获取单元，用于所述通过所述文本特征训练基于生成式对抗网络建模的预设语音声学模型，得到目标声学模型之后，获取目标语音文本；

确定单元，用于将所述目标语音文本输入所述目标声学模型，得到所述目标语音文本对应的虚拟语音。

9.一种计算机可读的存储介质，其特征在于，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行所述权利要求1至4任一项中所述的方法。

10.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行所述权利要求1至4任一项中所述的方法。