CN116312471A

CN116312471A - 语音迁移、语音交互方法、装置、电子设备及存储介质

Info

Publication number: CN116312471A
Application number: CN202310200478.8A
Authority: CN
Inventors: 张光琰; 李梅; 张文杰; 盖于涛; 姜飞俊
Original assignee: Zhejiang Maojing Artificial Intelligence Technology Co ltd
Current assignee: Zhejiang Maojing Artificial Intelligence Technology Co ltd
Priority date: 2023-02-27
Filing date: 2023-02-27
Publication date: 2023-06-23

Abstract

本申请实施例提供一种语音迁移、语音交互方法、装置、电子设备及存储介质，其中，所述语音迁移方法包括：获取语音迁移任务，指示有源说话人的多个语音属性信息和语音迁移任务对应的待合成文本；语音迁移任务用于使目标说话人以所述多个语音属性信息播放待合成文本，目标说话人不同于源说话人；根据多个语音属性信息和待合成文本，预测目标说话人以多个语音属性信息播放待合成文本的预测语音韵律信息；根据预测语音韵律信息和所述目标说话人的音色信息，确定迁移语音，所述迁移语音为目标说话人以多个语音属性信息和所述音色信息播放待合成文本的语音。本申请实施例提供的技术方案，可以提升跨说话人语音迁移任务的语音合成效果。

Description

语音迁移、语音交互方法、装置、电子设备及存储介质

技术领域

本申请实施例涉及语音技术领域，尤其涉及一种语音迁移、语音交互方法、装置、电子设备及存储介质。

背景技术

语音合成(Text-to-speech，TTS)是将文本转换为语音的技术，是服务于语音交互、信息播报、有声朗读等任务的核心技术。随着语音合成技术应用场景的不断增多，在情感语音合成等高表现力领域的语音合成方法越来越重要。

跨说话人情感迁移(cross-speaker emotion transfer)任务作为语音迁移任务的一种，是利用具有情感的源说话人的训练数据，让原来没有情感的目标说话人学习到情感语音的表达方式。在此背景下，如何提升语音迁移任务的语音合成效果，成为了本领域技术人员亟需解决的技术问题。

发明内容

有鉴于此，本申请实施例提供一种语音迁移、语音交互方法、装置、电子设备及存储介质，以提升语音迁移任务的语音合成效果。

为实现上述目的，本申请实施例提供如下技术方案。

第一方面，本发明实施例提供一种语音迁移方法，包括：

获取语音迁移任务，所述语音迁移任务指示有源说话人的多个语音属性信息和所述语音迁移任务对应的待合成文本；所述语音迁移任务用于使目标说话人以所述多个语音属性信息播放所述待合成文本，所述目标说话人不同于所述源说话人；

根据所述多个语音属性信息和所述待合成文本，预测所述目标说话人以所述多个语音属性信息播放所述待合成文本的预测语音韵律信息；

根据所述预测语音韵律信息和所述目标说话人的音色信息，确定迁移语音，所述迁移语音为所述目标说话人以所述多个语音属性信息和所述音色信息播放所述待合成文本的语音。

第二方面，本发明实施例提供一种语音迁移装置，包括：

语音迁移任务获取模块，用于获取语音迁移任务，所述语音迁移任务指示有源说话人的多个语音属性信息和所述语音迁移任务对应的待合成文本；所述语音迁移任务用于使目标说话人以所述多个语音属性信息播放所述待合成文本，所述目标说话人不同于所述源说话人；

韵律预测模型，用于对第一融合特征进行预测，得到目标说话人的预测语音韵律信息；所述第一融合特征根据多个语音属性信息和所述待合成文本得到；

合成模块，用于根据所述预测语音韵律信息和所述目标说话人的音色信息，确定迁移语音，所述迁移语音为所述目标说话人以所述多个语音属性信息和所述音色信息播放所述待合成文本的语音。

第三方面，本发明实施例提供一种语音交互方法，应用于语音播放设备，所述语音播放设备基于第一方面所述的语音迁移方法，训练有以多个语音属性信息播放语音的能力；所述语音交互方法，包括：

获取用户的语音交互指令；

响应所述语音交互指令，确定语音交互结果；

以所述多个语音属性信息，播放所述语音交互结果。

第四方面，本发明实施例提供一种电子设备，包括存储器，处理器，所述存储器存储有程序，所述处理器调用所述存储器中存储的程序，以实现如上述第一方面所述的语音迁移方法，或者，如上述第三方面所述的语音交互方法。

第五方面，本发明实施例提供一种存储介质，存储有计算机程序，所述计算机程序执行时实现如上述第一方面所述的语音迁移方法，或者，如上述第三方面所述的语音交互方法。

第六方面，本发明实施例提供一种计算机程序，所述计算机程序被执行时实现如上述第一方面所述的语音迁移方法，或者，如上述第三方面所述的语音交互方法。

在本发明实施例提供的一种语音迁移方法中，获取语音迁移任务，所述语音迁移任务指示有源说话人的多个语音属性信息和所述语音迁移任务对应的待合成文本，使得可以根据语音迁移任务实现目标说话人以所述多个语音属性信息播放所述待合成文本，其中目标说话人不同于源说话人；基于语音迁移任务中多个所述语音属性信息和所述待合成文本，预测所述目标说话人以所述多个语音属性信息播放所述待合成文本的预测语音韵律信息；进一步的，根据所述预测语音韵律信息和所述目标说话人的音色信息，确定迁移语音，所述迁移语音为所述目标说话人以所述多个语音属性信息和所述音色信息播放所述待合成文本的语音。

可见，本发明实施例所提供的技术方案，通过利用语音迁移任务中指示有源说话人的多个语音属性信息和所述语音迁移任务对应待合成文本，从而预测得到目标说话人的预测语音韵律信息；由于结合了源说话人的多个语音属性信息，可以确保获得的预测语音韵律信息中包含有源说话人多个语音属性的信息，使得目标说话人在播放以所述待合成文本形成的语音时，所依据的预测语音韵律信息能够贴合源说话人的语音属性；并进一步的将预测语音韵律信息与目标说话人的音色信息结合，得到目标说话人的迁移语音；使得目标说话人可以根据目标说话人的音色信息，以源说话人的多个语音属性播放迁移语音，确保目标说话人播放的语音可以贴合源说话人的韵律信息，以实现提升跨说话人语音迁移任务的语音合成效果。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1是本发明实施例所提供的语音迁移方法的一流程示意图。

图2是本发明实施例所提供的语音迁移装置的一架构示意图。

图3是本发明实施例所提供的语音迁移方法的另一流程示意图。

图4是本发明实施例所提供的语音交互方法的一流程示意图。

图5是实现本发明实施例所提供的语音交互方法的一应用场景示意图。

图6是本发明实施例提供的电子设备的架构图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

跨说话人语音迁移中，目标说话人能够自然的播放出合成语音是非常重要的。例如，在语音播报设备如智能音箱、语音导航等很多应用上，均会涉及到针对语音播报设备选择的当前说话人，以多情感(如生气，高兴，悲伤等)、多风格(如小说，广告)以及结合多种方言特色(如四川味，天津味)的语音进行播报。

通常，合成语音播放设备所要播放的语音最直接的方式，是利用目标说话人(例如语音播报设备中选择的以某一个特定的说话人来播报语音，特定的说话人即为目标说话人)录制的高质量语音数据库训练一个语音合成系统。然而，对于每个目标说话人都录制一个语音数据库显然是费时费力的。因此，选择将目标说话人已经录制好的包括有情感信息、风格信息、方言信息的语音数据库，迁移到当前语音播放设备所选择的目标说话人，是一种非常实用和经济的方法。

但是，上述语音迁移方法会有一定的局限和挑战。例如，在很多时候一种情感信息、风格信息或者方言信息只有一个源说话人录制的语音数据库；在这种情况下，源说话人的各语音属性信息和源说话人本身特有的音色信息，在源语音即录制的语音数据库中紧密纠缠，使得源说话人的多个语音属性信息和音色信息高度耦合。直接分离源说话人的语音属性信息和音色信息是很难的；从而当需要目标说话人以目标说话人特有的音色信息播放语音数据库中录制的源说话人的语音时，无法平衡目标说话人播放的语音中的源语音相似性和情感表达，难以真实自然的播报出语音，跨说话人语音迁移任务的语音合成效果较差。

本发明中，考虑到由于语音中的韵律信息是用来表达和传递情感信息、风格信息以及方言信息的重要载体；而和韵律信息相对的，音色信息，是听众去感知一个选定的目标说话人的重要因素，即听众选择目标说话人进行语音播放时，语音播放设备所播放的语音中不仅需要考虑韵律信息是与源说话人的源语音的韵律信息相近，还要保证音色信息是与目标说话人的音色信息贴合的。因此，本发明实施例提出在进行跨说话人的语音合成时，将源说话人语音韵律中所包含的多个语音属性信息进行提取，然后根据提取到的源说话人的多个语音属性信息，预测得到用于目标说话人进行语音播放时的预测语音韵律信息，然后结合目标说话人的音色信息，得到最后播放所述语音迁移任务对应的待合成文本的迁移语音。由于预测语音韵律信息中包含有源说话人的风格信息、情感信息、方言信息等多个语音属性信息，从而可以保证目标说话人在语音播放所述待合成文本时的真实性和自然性，以提升语音放效果。

为方便理解本发明实施例所提供的语音迁移方法的实现，请参考图1，图1是本发明实施例所提供的语音迁移方法的一流程示意图。

如图1所示，本发明实施例所提供的语音迁移方法可以包括以下步骤：

步骤S001，获取语音迁移任务，所述语音迁移任务指示有源说话人的多个语音属性信息和所述语音迁移任务对应的待合成文本；所述语音迁移任务用于使目标说话人以所述多个语音属性信息播放所述待合成文本，所述目标说话人不同于所述源说话人。

所述语音迁移任务，即为需要语音播放设备进行语音播放的播放需求，所述待合成文本为需要语音播放设备播放的内容。根据语音迁移任务的指示内容，使得语音播放设备可以根据选定的目标说话人，以目标说话人自身带有的音色信息，按照源说话人的语音韵律中多种语音属性信息来播放所述待合成文本的语音。

需要说明的是，目标说话人和源说话人是不同的人，但是在一个语音迁移任务中，目标说话人的目标标识和源说话人的任务标识之间是对应的，从而可以确保播放的语音是符合语音迁移任务的需求的。

例如，源说话人A和目标说话人B为两个不同的说话人，在一个语音迁移任务中，所要实现的是语音播放设备根据选定的目标说话人B，播放包含有源说话人A的源语音中多个语音属性信息的语音。

想要实现上述的语音迁移任务，就需要将目标说话人和源说话人与语音迁移任务联系起来；在一种实施方式中，可以根据标识号完成语音迁移任务，语音迁移任务执行时不会发生混乱。例如，源说话人A根据语音迁移任务设置一个任务标识，同样的目标说话人B也根据语音迁移任务设置一个对应的目标标识，使得目标标识和任务标识之间有对应关系，可以都设置为标识ID1。

所述多个语音属性信息可以包括源说话人的源语音中，与源说话人的说话特色、节奏相关的方言信息、与语音迁移任务的任务类型相关的风格信息、与源说话人在说话时所处的语境相关的情感信息，这些语音属性信息可以充分体现源说话人的语音韵律中所包含的韵律信息；从而可以在后续基于多个语音属性信息进行处理后，使得目标说话人播放的语音能够自然真实。

步骤S002，根据所述多个语音属性信息和所述待合成文本，预测所述目标说话人以所述多个语音属性信息播放所述待合成文本的预测语音韵律信息。

多个语音属性信息可以体现源说话人的语音韵律中包含的韵律信息，所述待合成文本中包含有源说话人说话时的语音韵律特征；从而在基于多个语音属性信息和待合成文本进行预测时，可以提高预测语音韵律信息的准确性和真实性。

例如，进行语音播报的设备为智能音箱为例，需要智能音箱能够在用户选定听相声的情境下，获取的语音迁移任务为将选定的目标说话人，以源说话人为马三立所对应的多个语音属性信息播放待合成文本形成的语音。在语音数据库中查找到所存有的马三立的源语音中包含有所述待合成文本的文本数据，由于查找到的文本数据中带有与马三立的个人说话风格、节奏、语调相关的音素级别的韵律信息；而目标说话人则是与源说话人完全不同的另一个人，当然也可以认为目标说话人是不具有源说话人的语音韵律的播放器，因此想要目标说话人播放所述待合成文本形成的语音能够贴合源说话人马三立，可以从查找到的文本数据里，所包含的多个语音属性信息中，预测到包含有源说话人的预测语音韵律信息，以应用于目标说话人播放所述待合成文本，从而能够满足用户的语音播放期望。

步骤S003，根据所述预测语音韵律信息和所述目标说话人的音色信息，确定迁移语音，所述迁移语音为所述目标说话人以所述多个语音属性信息和所述音色信息播放所述待合成文本的语音。

基于前述步骤获得到包含有源说话人的韵律信息的预测语音韵律信息之后，结合目标说话人的音色信息，确定目标说话人最终需要播放的迁移语音；由于预测语音韵律信息中包含有贴合源说话人的特有的韵律信息，从而在目标说话人以自身的音色信息播放所述待合成文本时，所播放的语音能够更自然真实。

可见，本发明实施例所提供的技术方案，通过利用语音迁移任务中指示有源说话人的多个语音属性信息和所述语音迁移任务对应的待合成文本，从而预测得到目标说话人的预测语音韵律信息；由于结合了多个语音属性信息和待合成文本中说话时共有的韵律信息，可以确保获得的预测语音韵律信息中包含有源说话人多个语音属性的信息，使得预测语音韵律信息能够贴合源说话人的语音韵律的同时保证语音播放的真实性；并进一步的将预测语音韵律信息与目标说话人的音色信息结合，得到目标说话人的迁移语音；使得目标说话人可以根据目标说话人的音色信息，以源说话人的多个语音属性播放迁移语音，确保目标说话人播放的语音可以贴合源说话人的韵律信息，以实现提升跨说话人语音迁移任务的语音合成效果。

为方便进一步理解本发明实施例所提供的语音迁移方法的实现，请参考图2，图2是本发明实施例所提供的语音迁移装置的一架构示意图；图2可以认为是实现上述本发明实施例所提供的语音迁移方法的一可选系统框架。

图2所示的语音合成系统可以为非自回归语音合成系统fast speech(快速语音合成)系统。可选地，可以使用transformer(转换器)的模型作为基础的框架，或者也可以使用类似于tactron2(一种神经网络语音合成框架)的模型作为基础的框架，下文主要基于非自回归语音合成系统中，使用transformer模型作为基础框架的系统对本申请所述技术方案进行介绍。

如图2所示的语音迁移任务获取模块101、韵律预测模型102、合成模块104以实现上述实施例所述的语音迁移方法。

语音迁移任务获取模块101，可以用于获取语音迁移任务，所述语音迁移任务指示有源说话人的多个语音属性信息和所述语音迁移任务对应的待合成文本；所述语音迁移任务用于使目标说话人以所述多个语音属性信息播放所述待合成文本，所述目标说话人不同于所述源说话人。

所述语音迁移任务获取模块101可以认为是实现步骤S001的一可选模块。例如，以语音播放设备为智能音箱为例，所述语音迁移任务获取模块101可以为智能音箱的交互界面。其中，所述多个语音属性信息可以包括源说话人的语音韵律所包含的风格信息、情感信息、方言信息。

源说话人录制的语音中会带有源说话人的个人特色，如不同地区的人说话时带有的地方口音，每个人习惯的说话节奏以及当时录制语音时，源说话人在所处的语义环境下带有的说话语气等；这些都是能够表现源说话人的特点的信息，都可以认为是源说话人的语音韵律包含的多个语音属性信息，对于提升跨说话人的语音合成效果来说都是非常重要的。

语音迁移任务获取模块101所获取到的语音迁移任务中，由于指示有源说话人的多个语音属性信息和所要播放的内容即待合成文本，因此后续模块可以基于待合成文本和多个语音属性信息将源说话人的韵律信息与目标说话人的音色信息进行结合，以实现将源说话人的韵律信息与目标说话人的音色信息结合，从而提升语音合成效果的目的。

韵律预测模型102，可以用于对第一融合特征进行预测，得到目标说话人的预测语音韵律信息；所述第一融合特征根据多个语音属性信息和所述待合成文本得到。

韵律预测模型102可以为预先训练好的韵律预测器(prosody predictor)。韵律预测器主要是用来预测归一化的音素级别的韵律信息，包括基频、音强度、和时长。韵律预测器通常包含五层的卷积层(Convolutional layer)和ReLu(Rectified Linear Unit)激活函数，每一层都接着一层的层正常化(layer normalization)和dropout，最后通过一层线性层来预测相应的信息。可以是执行步骤S002的一可选模块。

基于前述内容，可以知道目标说话人本身是带有选定的说话人的音色信息的，但是在以目标说话人的音色信息播放语音时，不会带有上述源说话人的多种语音属性信息，也就是说语音播放设备在未经过训练时，所播放的语音是没有感情色彩的；因此想要达到期望的语音播放效果，需要对语音播放设备进行训练。为保证能够将源说话人的多个语音属性信息和源说话人的音色信息完全解耦，从而为后续语音迁移任务提供可靠的源说话人的多个语音属性信息；在一种实施方式中，本发明所提供的语音迁移方法利用目标说话人和源说话人的文本语音对数据对韵律预测模型102进行训练。

可选地，韵律预测模型102的训练过程可以包括：

获取训练集，所述训练集包括具有多个语音属性信息的源说话人的源文本语音对数据和不具有多个语音属性信息的目标说话人的目标文本语音对数据；

根据所述目标文本语音对数据确定目标文本编码和目标音素序列编码；

根据所述目标文本编码和所述目标音素序列编码以及所述源文本语音对数据对应的真实语音韵律信息，得到第一训练融合特征；

利用韵律预测模型对所述第一训练融合特征进行预测，得到训练预测语音韵律信息；

当所述训练预测语音韵律信息满足所述目标说话人以所述源说话人的多个语音属性信息播放语音时，得到训练好的韵律预测模型。

训练集中包含的源说话人的文本语音对数据为真实的语音和文本，从而可以基于源说话人的文本语音对数据进行训练；使得语音播放设备在播放没有多个语音属性信息的目标说话人的文本语音对数据时，能够根据训练过程中得到的，具有源说话人的多个语音属性信息的训练语音韵律信息进行语音播放。当语音播放设备播放的语音中所包含的语音属性信息与训练使用的源说话人的多个语音属性信息相同或者相近时，则表明韵律预测模型102已经训练完成；使得语音播放设备能够自然真实的以目标说话人的音色信息，按照源说话人的多个语音属性信息播放待合成文本，完成语音迁移任务。

在训练语音播放设备实现跨说话人语音迁移时，所合成的语音中能够包含的源说话人的语音属性信息越多，对待合成文本的语音播放也就越真实；语音播放设备以选定的说话人(目标说话人)的音色信息播放合成的语音时也就越自然。

为了进一步增强韵律预测器的能力以适应韵律信息所表现的比较丰富的数据，例如情感信息，风格信息，可以采用自回归形式的韵律预测器。例如，在训练韵律预测器的时候(也就是训练所述韵律预测模型102的时候)，在预测当前的语音韵律信息的时，可以采用使用上一时刻真实的韵律特征加上对应的融合特征(所述第一训练融合特征)的方式。

由于语音播放设备在播放语音时，是以目标说话人的音色信息，按照源说话人的风格信息、方言信息、情感信息进行语音播放的；而源说话人的风格信息、方言信息、情感信息是包含在预测语音韵律信息中的，因此用于得到所述预测语音韵律信息的韵律预测模型102，其输出的结果就需要确保不会包含训练集中任一说话人的音色信息(训练时的目标说话人的音色信息)，仅为源说话人的多个语音属性信息。

因此在训练韵律预测模型102的过程中，在一种实施方式中，可以通过利用说话人对抗分类器将音素序列编码中包含的目标说话人的信息进行筛选，去除训练时目标说话人本身特有的音色信息，可以提高后续预测韵律信息的可靠性。

说话人对抗分类器去除训练时目标说话人本身特有的音色信息，可以避免训练时目标说话人的音色信息干扰训练时所播放的源说话人的韵律信息，以使得韵律预测模型102输出的结果可以将音色信息和韵律信息完全解耦。

作为一种可选执行模块，可以参考图2所示的说话人对抗分类模块115。

说话人对抗分类模块115，可以用于对所述音素序列编码中包含的信息进行筛选，去除所述音素序列编码中包含的目标说话人的音色信息。

其中，所需要筛选的信息，即为训练集中目标说话人的音色信息。

在采用多个源说话人的源文本语音对数据和目标说话人的目标文本语音对数据进行训练时，由于语音播放时均为根据目标说话人的音色信息进行播放，因此希望在训练的过程中解耦掉源说话人的韵律信息和目标说话人的音色信息之间的相关的信息。因此，为了避免训练时目标说话人的音色信息干扰已经获取的音素序列编码中带有的韵律信息，所以需要去掉目标说话人的音色信息在内的所有信息，只保留源说话人的韵律信息，如发音特点。

所述说话人对抗分类模块115可以由一个梯度翻转层(gradient reversallayer)和一个分类器(classifier)组成。

训练完成后，在针对于需要执行的语音迁移任务时，就可以使用韵律预测模型102进行预测，得到用于目标说话人进行语音播放时的预测语音韵律信息。所述预测语音韵律信息包含有从源说话人的多个语音属性信息中提取到的，应用于目标说话人的韵律信息。也就是说，预测语音韵律信息带有源说话人的说话特点的韵律信息。比如基频、能量和时长等。是与源说话人相关的韵律信息。从而可以为后续的语音迁移任务的完成提供基础。

合成模块104，用于根据所述预测语音韵律信息和所述目标说话人的音色信息，确定迁移语音，所述迁移语音为所述目标说话人以所述多个语音属性信息和所述音色信息播放所述待合成文本的语音。

合成模块104可以采用开源的声码器结构，例如用于高效和高保真语音合成声码器的生成对抗网络(hifi-gan vocoder，Generative Adversarial Networks forEfficient and High Fidelity Speech Synthesis vocoder)，其可以实现将声学模型预测得到的声学特征作为输入(如基于迁移语音融合特征和目标说话人的音色信息的处理结果)，语音作为输出(如迁移语音)；可以用于执行步骤S004。

也就是说，在通过前述对预测语音韵律信息和所述目标说话人的音色信息的处理之后，再通过声码器结构进行对处理结果的转换处理，最终得到人耳可以听到的波形声音。

为了能够实现提升跨说话人语音迁移任务的语音合成效果，在一种实施方式中，可以基于前述训练好的韵律预测模型102预测得到包含有源说话人的多个语音属性信息的预测语音韵律信息，以使目标说话人能够根据预测语音韵律信息，以目标说话人的音色信息播放待合成文本。可选地，请参考图3，图3是本发明实施例所提供的语音迁移方法的另一可选流程示意图。

如图中所示，该流程可以包括以下步骤：

步骤S301，获取语音迁移任务。

容易理解的是，所述语音迁移任务可以指示有源说话人的多个语音属性信息和所述语音迁移任务对应的待合成文本；所述语音迁移任务为用于使目标说话人以目标说话人的音色信息，按照所述多个语音属性信息播放所述待合成文本，所述目标说话人不同于所述源说话人。

步骤S302，根据所述多个语音属性信息，确定语音迁移任务的任务编码；根据所述任务编码，所述待合成文本的文本编码和所述待合成文本的音素序列编码，预测目标说话人的预测语音韵律信息。

由于多个语音属性信息包括能够体现源说话人自身说话韵律信息的风格信息、方言信息、情感信息。因此，可以首先基于多个语音属性信息获得到与源说话人的韵律信息相关的任务编码；进一步的，由于风格信息和方言信息和源语音文本是密切相关的，从而可以结合任务编码、待合成文本的文本编码和待合成文本的音素序列编码得到应用于目标说话人的预测语音韵律信息，丰富预测语音韵律信息中包含的与源说话人的韵律信息相关的信息量，同时由于待合成文本的音素序列编码包含有语音的共有韵律信息，从而可以保证后续语音播放时的自然性和真实性。

在一种实施方式中，步骤S302可以包括：

利用第一嵌入层对所述语音迁移任务进行处理，得到所述任务编码；将所述任务编码、所述文本编码和所述音素序列编码进行融合，得到第一融合特征；利用预先训练好的韵律预测模型对所述第一融合特征进行预测，得到目标说话人的预测语音韵律信息。

首先基于多个语音属性信息获取到包含有源说话人的韵律信息的编码即任务编码；然后，为了进一步保证语音播放时的自然性和真实性，利用待合成文本得到包含有风格和方言的语义信息的文本编码；以及基于待合成文本中包含的能够体现源说话人韵律信息的音素得到音素序列编码，以得到播放带合成文本时，带合成文本中所共有的韵律信息，从而可以保证预测语音韵律信息的自然性和真实性；最后将任务编码、文本编码、音素序列编码进行融合，所得到的第一融合特征中包含有丰富且自然的源说话人的韵律信息，在基于第一融合特征进行预测时，所得到的预测语音韵律信息可以使得目标说话人在播放语音时，能够充分贴合源说话人的韵律信息的同时，保证语音播放的自然性，提升跨说话人语音合成的效果。

为了能够基于待合成文本准确的提取到与风格信息、方言信息相关的韵律信息，在一种实施方式中，步骤S302还可以包括：

根据所述待合成文本，利用预先训练好的语言模型提取所述待合成文本中的文本信息，得到所述文本编码；利用语音合成工具将所述待合成文本转成音素序列，并通过音素编码器将所述音素序列进行编码，得到所述音素序列编码。

音素序列编码中包含有待合成文本中带有的播放语音时所共有的韵律信息，从而增强基于预测韵律信息进行语音播放的语音自然性，有助于提升跨说话人语音合成的效果。

可选地，步骤S302的执行可以通过图2所示系统架构中，第一嵌入层模块111、语言编码模块112、音素编码模块113、第一特征融合模块114实现。

第一嵌入层模块111，可以用于对所述多个语音属性信息进行降维处理，确定语音迁移任务的任务编码。

由于前述图2所示的语音迁移任务获取模块101获取到的语音迁移任务中，所述多个语音属性信息在处理时，所涉及的信息维度是高维的，即后续需要处理的数据是非常复杂的。因此，为了方便后续对多个语音属性信息进行处理，可以对所述多个语音属性信息进行降维。本发明实施例通过采用第一嵌入层模块111将多个语音属性信息进行降维处理，以方便后续语音的合成。

在经过第一嵌入层模块111降维处理后，得到容易处理的任务编码。

为了能够确保最后合成的语音能够贴合源说话人的特色同时在语音播放时能够自然真实，即能够自然真实的体现源说话人说话风格、方言的韵律信息，在一种实施方式中，本发明实施例采用语言编码模块112和音素编码模块113，来处理待合成文本中包含的风格信息和方言信息。

语言编码模块112，可以用于根据所述待合成文本，利用预先训练好的语言模型提取所述待合成文本中的文本信息，得到所述文本编码。

为了能够使得合成语音更加贴合源说话人的语音韵律，即符合源说话人的韵律信息的变化，本发明实施例对源语音的待合成文本进行了处理。通过提取所述待合成文本中包含的语义内容确定对应的语义信息。

在一种实施方式中，可以通过采用深度双向语言表征(BERT，BidirectionalEncoder Representations from Transformers)模型，提取待合成文本的文本编码(sentence encoding)来表示待合成文本中每一句文本对应的语义信息。

音素编码模块113，可以用于对通过语音合成单元将所述待合成文本转换得到的音素序列，进行编码，得到所述音素序列编码。

其中语音合成单元是对待合成文本进行处理的语音合成前端工具。例如，可以利用一个基础的词典，训练出一个G2P(文本转音素)模型，给出任意一个单词的发音序列，或者一些开源的G2P模型比如cmusphinx/g2p-seq2seq，基于TensorFlow的Tensor2Tensor库；当然，还可以直接使用一些序列建模方法或者工具，比如Fairseq，类似机器翻译，构建一个G2P模型，以便在语种构建初期，迅速扩充词典。

在利用语音合成前端工具将文本转换为音素的过程中，主要包括一下几个过程：

1.文本预处理：主要是解决文本中书写错误、一些语种中同形异码等问题。

2.文本归一化：主要解决文本中的特殊符号读法，比如“2kg”转换为“两千克”，另外还要处理一些语种比如波兰语、俄语中的性数格变化。

3.分词：一些语种比如中文、藏语、日语、泰语、越南语等并非以空格作为词边界，通常需要分词以便后续的处理。

4.文本转音素(G2P)：将文本转换为注音，比如“中国”转化为“zhong1guo2”，生成音素序列。

在完成文本转音素之后，就可以基于音素序列进行后续的处理，即可以通过音素编码模块113对音素序列进行编码处理。

音素编码模块113可以包括音素编码器(phoneme encoder)，主要作用是把音素序列转成音素编码。例如，首先将每一个音素编码成一个256维度的向量；然后将各个音素向量组成的序列通过四层的Transformer Encoder(转换器编码)模块变成音素编码(phonemeencoding)。

Transformer包括四个部分：输入、编码模块、解码模块、输出。

Transformer的输入即为音素序列，音素序列是根据文本中的汉字一一对应转换得到的，即音素序列是与汉字一一对应的关系，不涉及到音素序列长度不相等的关系，所以只选择Transformer的编码模块进行音素序列编码，得到音素序列编码。

第一特征融合模块114，可以用于将所述任务编码、所述文本编码和所述音素序列编码进行融合，得到第一融合特征。

第一融合特征中根据待合成文本相关的文本编码、音素序列编码以及与多种语音属性信息相关的任务编码获得，即第一融合特征中包含了与源说话人的个人韵律信息密切相关的特征信息，同时还包含了语音播放时，所共有的韵律信息，能够为后续的韵律预测模型102提供可靠的数据基础。

为方便理解后续利用第一融合特征获取预测语音韵律信息，以上一时刻的真实韵律信息为X_t-1，训练得到的训练预测韵律信息为X_t；以及上一时刻的预测韵律信息为X_t-1'，预测得到的预测韵律信息为X_t'为例进行说明。

首先，在训练韵律预测器的过程中，由于需要确保训练得到的训练预测韵律信息X_t与输入数据(上一时刻的真实韵律信息X_t-1和所述第一训练融合特征)贴合，即训练预测韵律信息和输入的训练数据中，包含有源说话人的多个语音属性信息的真实预测韵律信息的误差小于误差阈值，直至达到误差阈值范围内，得到训练好的韵律预测器。

然后，在使用韵律预测模型102的过程中，基于当前语音迁移任务中确定的第一融合特征作为输入数据，由于是在预测使用的过程，因此没有上一时刻的真实韵律信息，此时第一融合特征中所使用的为上一时刻的预测韵律信息为X_t-1'，以得到预测语音韵律信息X_t'，使得预测语音韵律信息能够与源语音中包含的多种语音属性信息相同或相近。

为了能够提升预测韵律信息的可靠性，在一种实施方式，在获得第一训练融合特征之前，还可以利用说话人对抗分类器对所述音素序列编码中包含的信息进行筛选，去除所述音素序列编码中包含的目标说话人的音色信息。

请继续参考图3，如图所示，该流程还可以包括：

步骤S303，将所述文本编码、所述音素序列编码和所述预先训练好的韵律预测模型得到的在先预测语音韵律信息进行融合，得到第二融合特征；对所述第二融合特征和所述预测语音韵律信息进行上采样处理，确定迁移语音融合特征。

将所述文本编码、所述音素序列编码和所述预先训练好的韵律预测模型得到的在先预测语音韵律信息进行融合，可以增加第二融合特征中韵律信息的真实性和可靠性。其中，所述在先预测语音韵律信息为前述所述的在所述预测语音韵律信息的上一时刻预测得到的语音韵律信息X_t-1'。

作为步骤S303的一可选执行模块，请参考图2所示架构中的第二特征融合模块121和上采样模块103。

所述第二特征融合模块121，可以用于所述文本编码、所述音素序列编码和所述预先训练好的韵律预测模型102得到的在先预测语音韵律信息进行融合，得到第二融合特征。

由于需要将待合成文本处理后，转移至目标说话人，以使目标说话人能够播放语音；因此目标说话人和源说话人之间是需要有对应关系的，即目标说话人和源说话人是高度耦合的，需要说明的是，目标说话人和源说话人之间的高度耦合指的是根据语音迁移任务确定的，并不是说目标说话人和源说话人对应的说话人是同一个人。

可选地，可以根据语音迁移任务中，设置的源说话人的任务标识和目标说话人的目标标识是一一对应的关系。

比如，以前述所例举的源说话人A和目标说话人B为例进行说明。设定源说话人A的任务标识为ID1，目标说话人B的目标标识为ID1；则在执行语音迁移任务时，可以表示为将源说话人A的源语音处理后，根据标识以目标说话人B的音色信息播放包含有源说话人A的多个语音属性信息的语音。

因此，源说话人和目标说话人之间是高度耦合的，则在获得第二融合特征是，不适用基于语音迁移任务中源语音的多个语音属性信息获得的任务编码；从而可以避免来自源说话人和来自目标说话人的表示所带来的冲突，造成语音迁移任务的失败。

进一步的为了确保后续获得的迁移语音能够具有自然的韵律信息，在进行第二特征融合时，还引入了源说话人的真实语音韵律信息(GT prosodic feature)。所述真实语音韵律信息是所有说话人的语音中共有(common)的韵律信息，与源说话人本身无关。

上采样模块103，用于对所述第二融合特征和所述预测语音韵律信息进行上采样处理，确定迁移语音融合特征。

上采样模块103可以用于对所述第二融合特征和所述预测语音韵律信息进行上采样处理，确定所述迁移语音融合特征。在通过上述的预测韵律模型102对语音迁移任务中，源说话人的多个语音属性信息进行处理之后，为了能够预测到真实自然的源说话人的韵律信息；因此可以将预测语音韵律信息和包含所述在先预测语音韵律信息的第二融合特征通过上采样(up sampling)处理，得到迁移语音融合特征。

上述上采样模块103可以认为是执行步骤S303的一可选实现模块。

将第二融合特征和预测得到的预测语音韵律信息，通过上采样(up sampling)到语音帧层面，得到第三融合特征即迁移语音融合特征。

通过对源说话人多个语音属性信息进行上述过程的逐步处理，实现目标说话人能够以目标说话人的音色信息，按照源说话人的韵律信息播放待合成文本。

请继续参考图3，该流程还可以包括：

步骤S304，利用第二嵌入层对目标说话人的音色信息进行处理，得到目标说话人的音色信息。

由于目标说话人所包含的音色信息也是高维的，因此为了方便后续处理，同样才要能嵌入层对目标说话人的音色信息进行处理。

可选地，步骤S304可以通过图2所示的架构中，第二嵌入层模块131实现。

第二嵌入层模块131，可以用于对目标说话人的音色信息进行处理，得到目标说话人的音色编码。

为提升语音迁移任务的语音迁移效果，本发明实施例采用将源说话人的韵律信息结合目标说话人的音色信息结合的方式，形成自然贴合的迁移语音的方式。因此，在对源说话人的韵律信息和音色信息解耦，仅提取源说话人的韵律信息的语音迁移融合特征之后；可以对于目标说话人的音色信息进行提取。

同样的，在对目标说话人的音色信息进行提取时，为方便后续处理可以采用词嵌入(embedding layer)进行降维处理，得到目标说话人的音色编码。

步骤S305，利用语音解码器对所述迁移语音融合特征和所述目标说话人的音色信息进行语音解码，根据语音解码结果得到所述目标说话人的迁移语音。

将目标说话人的音色信息进行处理得到音色编码之后，结合迁移语音融合特征，从而可以将源说话人的韵律信息与音色信息进行解耦，并将带有源说话人的韵律信息的迁移语音融合特征与带有目标说话人的音色信息的音色编码进行结合，从而可以使得最终播放的语音符合语音迁移任务的需求，提升跨说话人语音迁移的效果。

在一种实施方式中，所述语音解码可以为梅尔频谱，步骤S305可以包括：

利用预先训练好的声码器将所述梅尔频谱转换为语音，得到所述目标说话人的迁移语音。

梅尔频谱中包含有源说话人的韵律信息的声学特征，采用声码器可以将梅尔频谱转换为人耳可听的语音，完成语音迁移任务的执行。

可选地，步骤S304和步骤S305的实现，可以参考图2所示架构中，所述合成模块104包括的语音解码模块1041、迁移语音合成模块1042。

语音解码模块1041，可以用于对所述迁移语音融合特征和所述目标说话人的音色编码进行语音解码，得到声学频谱。

将迁移语音融合特征再次融合入音色编码(timbre encoding)的语音帧特征，通过语音解码器(speech decoder)转化为80维度的梅尔频谱。

迁移语音合成模块1042，即为前述所述的可以用于根据所述迁移语音融合特征和目标说话人的音色信息，确定所述目标说话人的迁移语音，所述迁移语音为所述目标说话人以所述多个语音属性信息播放的语音的模块。

可以看出，本发明实施例所提供的语音迁移装置，可以确保获得的预测语音韵律信息中包含有源说话人多个语音属性的信息，使得预测语音韵律信息能够贴合源说话人的语音韵律；并进一步的将预测语音韵律信息和第二融合特征进行结合，得到迁移语音融合特征，进一步的保证获得的迁移语音融合特征的可靠性和真实性；最后，将迁移语音融合特征与目标说话人的音色信息结合，得到目标说话人的迁移语音；使得目标说话人可以根据目标说话人的音色信息，以源说话人的多个语音属性播放迁移语音，确保目标说话人播放的语音可以贴合源说话人的韵律信息，以实现提升跨说话人语音迁移任务的语音合成效果。

本发明实施例还提供一种语音交互方法，请参考图4，图4是本发明实施例所提供的语音交互方法的一流程示意图。

如图所示，本发明实施例所提供的语音交互方法，应用于语音播放设备，所述语音播放设备基于上述实施例所述的语音迁移方法，训练有以多个语音属性信息播放语音的能力；所述语音交互方法，可以包括：

步骤S401，获取用户的语音交互指令；

步骤S402，响应所述语音交互指令，确定语音交互结果；

步骤S403，以所述多个语音属性信息，播放所述语音交互结果。

所述语音播放设备可以是智能音箱、也可以是语音导航系统；能够根据命令进行只能语音播放的设备即可，在此不做限定。

所述语音交互指令可以为以声控为主的语音播放命令，也可以是以手动操作为主的语音播放设备的控制界面。

例如，用户想要使用智能音箱播放音乐时，可以在用户的客户端对应的应用程序上，与智能音箱进行连接；然后通过控制应用程序上的播放设备，控制智能音箱播放音乐。也可以是用户预先已经与智能音箱连接完毕，即智能音箱和应用程序之间是连通好的；当用户想要播放音乐时，为方便用户使用，用户可以通过声音唤醒智能音箱，进而语音命令智能音箱播放想要播放的音乐。

由于语音播放设备训练有以多个语音属性信息播放语音的能力，因此，用户在使用语音播放设备，播放语音交互结果时，是贴合语音播放设备中当前目标说话人的音色信息以及源说话人的韵律信息的语音交互结果。

例如，当获取的用户的语音交互指令为以天气预报主持人为目标说话人，以四川的方言信息愉快的播放未来三天的天气情况时，语音播放设备就可以从语音数据库中找到与需要播放的天气情况对应的语句，首先获取到具有四川方言特色的源说话人，以及确定对应的源语音；然后利用本发明实施例所提供的语音迁移方法，将源语音和多个语音属性信息(此时包括有方言信息和情感信息)，获得到迁移语音融合特征；进而结合目标说话人(天气预报的主持人)的音色信息，确定迁移语音；最后，语音播放设备可以以多个语音属性信息播放语音。

为方便理解本发明实施例所提供的语音交互方法的实现，请参考图5，图5示例性的示出了实现本发明实施例所提供的语音交互方法的一应用场景示意图。

如图所示，该场景中包括用户500、智能音箱600、后台服务器700。

图中所示的智能音箱600为上述所述语音播放设备的一可选设备类型。

所述用户500可以是使用智能音箱600实现播放语音的用户500，也可以是训练智能音箱600，以使智能音箱600具有以多个语音属性信息(风格信息、方言信息、情感信息)播放语音的能力的制造商。

(1)以用户500为制造商，语音交互指令的需求为训练智能音箱600，以使智能音箱600具有以多个语音属性信息播放语音的能力为例进行说明。

制造商在制造完成智能音箱600的整体结构之后，智能音箱600已经具有语音播放的功能，此时需要保证智能音箱600的播放效果即可。因此，制造上可以通过后台服务器700，采用本发明实施例所提供的跨说人语音迁移方法对智能音箱600进行训练，以使智能音箱600具有以多个语音属性信息(风格信息、方言信息、情感信息)播放语音的能力。

(2)以用户500为普通用户，语音交互指令的需求为使用智能音箱600播放用户指定的语音为例进行说明。

普通用户使用智能音箱600听相声时，用户500所输入的语音交互指令为听马三立的相声，则目标说话人为马三立，多个语音属性信息可以包括与普通用户500所要听的相声内容相关的源语音中，包含的风格信息、情感信息、方言信息；然后，智能音箱600的后台服务器700根据接收到的语音交互指令，对源语音和多个语音属性信息进行处理，使得智能音箱600能够以马三立的音色信息播放带有多种语音属性信息的相声。

可选地，图6示例性的示出了本发明实施例提供的电子设备的可选架构图，电子设备例如服务器设备或者终端设备等；参照图6，该电子设备的硬件架构可以包括：至少一个存储器3和至少一个处理器1；所述存储器存储有程序，所述处理器调用所述程序，以执行前述的语音合成模型训练方法或者语音合成方法，另外，至少一个通信接口2和至少一个通信总线4；处理器1和存储器3可以位于同一电子设备，例如处理器1和存储器3可以位于服务器设备或者终端设备；处理器1和存储器3也可以位于不同的电子设备。

作为本发明实施例公开内容的一种可选实现，存储器3可以存储程序，处理器1可调用所述程序，以执行本发明上述实施例提供的语音迁移方法或者语音及交互方法。

本发明实施例中，硬件设备可以是能够进行基于语音迁移方法训练的平板电脑、笔记本电脑、智能音箱等设备。

在本发明实施例中，处理器1、通信接口2、存储器3、通信总线4的数量为至少一个，且处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信；显然，图6所示的处理器1、通信接口2、存储器3和通信总线4的通信连接示意仅是可选的一种方式；

可选的，通信接口2可以为通信模块的接口，如GSM模块的接口；

处理器1可能是CPU，或者是特定集成电路ASIC(Application SpecificIntegrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路。

存储器3可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatilememory)，例如至少一个磁盘存储器。

需要说明的是，上述的实现终端设备还可以包括与本发明实施例公开内容可能并不是必需的其他器件(未示出)；鉴于这些其他器件对于理解本发明实施例公开内容可能并不是必需，本发明实施例对此不进行逐一介绍。

本发明实施例还提供一种服务器，包括存储器，处理器，所述存储器存储有上述实施例所述的语音迁移方法的程序，所述处理器调用所述存储器中存储的程序，以实现如上述实施例所述的语音迁移方法，或者如上述实施例所述的语音交互方法。

本发明实施例还提供一种存储介质，存储有计算机程序，所述计算机程序执行时实现如上述实施例所述的语音迁移方法，或者，如上述实施例所述的语音交互方法。

本申请实施例还提供一种计算机程序，该计算机程序被执行时实现如本申请实施例提供的语音迁移方法，或者，语音交互方法。

虽然本申请实施例披露如上，但本申请并非限定于此。任何本领域技术人员，在不脱离本申请的精神和范围内，均可作各种更动与修改，因此本申请的保护范围应当以权利要求所限定的范围为准。

Claims

1.一种语音迁移方法，其中，包括：

2.如权利要求1所述的语音迁移方法，其中，所述根据所述多个语音属性信息和所述待合成文本，预测所述目标说话人以所述多个语音属性信息播放所述待合成文本的预测语音韵律信息，包括：

根据所述多个语音属性信息，确定语音迁移任务的任务编码；

根据所述任务编码、所述待合成文本的文本编码和所述待合成文本的音素序列编码，预测目标说话人的预测语音韵律信息。

3.如权利要求2所述的语音迁移方法，其中，所述根据所述多个语音属性信息，确定语音迁移任务的任务编码，包括：

利用第一嵌入层对所述语音迁移任务进行处理，得到所述任务编码；

所述根据所述任务编码、所述待合成文本的文本编码和所述待合成文本的音素序列编码，预测目标说话人的预测语音韵律信息，包括：

将所述任务编码、所述文本编码和所述音素序列编码进行融合，得到第一融合特征；

利用预先训练好的韵律预测模型对所述第一融合特征进行预测，得到目标说话人的预测语音韵律信息。

4.如权利要求3所述的语音迁移方法，其中，还包括：

利用预先训练好的语言模型提取所述待合成文本中的文本信息，得到所述文本编码；

利用语音合成工具将所述待合成文本转成音素序列，并通过音素编码器将所述音素序列进行编码，得到所述音素序列编码。

5.如权利要求3所述的语音迁移方法，其中，还包括：

获取训练集，所述训练集包括具有多个语音属性信息的源说话人的源文本语音对数据，和不具有多个语音属性信息的目标说话人的目标文本语音对数据；

根据所述目标文本语音对数据，确定目标文本编码和目标音素序列编码；

根据所述目标文本编码、所述目标音素序列编码以及所述源文本语音对数据对应的真实语音韵律信息，得到第一训练融合特征；

6.如权利要求5所述的语音迁移方法，其中，所述根据所述目标文本编码、所述目标音素序列编码以及所述源文本语音对数据对应的真实语音韵律信息，得到第一训练融合特征的步骤之前，还包括：

利用说话人对抗分类器对所述音素序列编码中包含的信息进行筛选，去除所述音素序列编码中包含的目标说话人的音色信息。

7.一种语音迁移装置，其中，包括：

8.如权利要求7所述的语音迁移装置，其中，还包括用于得到所述第一融合特征的第一嵌入层模块、语言编码模块、音素编码模块和第一特征融合模块；

所述第一嵌入层模块，用于根据所述多个语音属性信息，确定语音迁移任务的任务编码；

所述语言编码模块，用于利用预先训练好的语言模型提取所述待合成文本中的文本信息，得到所述文本编码；

所述音素编码模块，用于利用语音合成工具将所述待合成文本转成音素序列，并通过音素编码器将所述音素序列进行编码，得到所述音素序列编码；

所述第一特征融合模块，用于将所述任务编码、所述文本编码和所述音素序列编码进行融合，得到第一融合特征。

9.如权利要求8所述的语音迁移装置，其中，还包括：

说话人对抗分类模块，用于对所述音素序列编码中包含的信息进行筛选，去除所述音素序列编码中包含的目标说话人的音色信息；

第二特征融合模块；用于将所述文本编码、所述音素序列编码和所述预先训练好的韵律预测模型得到的在先预测语音韵律信息进行融合，得到第二融合特征；所述在先预测语音韵律信息为在所述预测语音韵律信息的上一时刻预测得到的语音韵律信息；

上采样模块，用于对所述第二融合特征和所述预测语音韵律信息进行上采样处理，确定迁移语音融合特征；

第二嵌入层模块，用于对目标说话人的音色信息进行处理，得到目标说话人的音色编码；

所述合成模块，包括：

语音解码模块，用于对所述迁移语音融合特征和所述目标说话人的音色信息进行语音解码，得到声学频谱；其中，所述声学频谱包括梅尔频谱；

迁移语音合成模块，用于利用预先训练好的声码器将所述梅尔频普频谱转换为语音，得到所述目标说话人的迁移语音。

10.一种语音交互方法，其中，应用于语音播放设备，所述语音播放设备基于权利要求1-6任一项所述的语音迁移方法，训练有以多个语音属性信息播放语音的能力；所述语音交互方法，包括：

获取用户的语音交互指令；

响应所述语音交互指令，确定语音交互结果；

以所述多个语音属性信息，播放所述语音交互结果。

11.一种电子设备，其中，包括存储器，处理器，所述存储器存储有程序，所述处理器调用所述存储器中存储的程序，以实现如权利要求1-6任一项所述的语音迁移方法，或者，如权利要求10所述的语音交互方法。

12.一种存储介质，其中，存储有计算机程序，所述计算机程序执行时实现如权利要求1-6任一项所述的语音迁移方法，或者，如权利要求10所述的语音交互方法。