CN113555027A

CN113555027A - 语音情感转换方法、装置、计算机设备及存储介质

Info

Publication number: CN113555027A
Application number: CN202110845035.5A
Authority: CN
Inventors: 张旭龙; 王健宗
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2021-07-26
Filing date: 2021-07-26
Publication date: 2021-10-26
Anticipated expiration: 2041-07-26
Also published as: CN113555027B

Abstract

本发明公开了一种语音情感转换方法、装置、计算机设备及存储介质，其中方法包括：接收用户输入的语音和用户选择的需要转换的情感信息，情感信息对应一个预先设置好的情感编码；将语音输入至预先训练好的声学模型中，得到目标梅尔频谱；将目标梅尔频谱和情感编码输入至训练好的风格码提取网络，得到目标风格码；从语音中提取文本内容，并将文本内容和目标风格码一并输入至训练好的声学模型中，得到风格转换后的梅尔频谱；根据风格转换后的梅尔频谱生成包括情感信息的语音。通过上述方式，本发明能够利用声学模型将用户输入的语音的情感进行转换，大大提高了语音的情感转换效率。

Description

语音情感转换方法、装置、计算机设备及存储介质

技术领域

本申请涉及语音处理技术领域，特别是涉及一种语音情感转换方法、装置、计算机设备及存储介质。

背景技术

语音信号不仅包含语义信息，还蕴含了说话人身份、说话时的情感等其他方面信息，情感语音转换是指将语音由一种情感转换成另一种情感，同时保持语义和说话人身份等其他信息不变的技术。随着经济技术的发展和人工智能技术的发展，人们的娱乐生活也日益丰富，大众的生活离不开视音频技术，如何让机器同人类一样具备情感感知能力与表达能力是实现人机交互和谐的关键，近些年，语音处理技术有了显著的提升，但目前计算机只具备逻辑推理能力，若赋予计算机情感表达能力，能实现和谐的人机交互，省去了键盘、鼠标等与计算机沟通的间接工具，未来机器与人的交流不再局限于中性语音，而是可以利用语音声情并茂地和计算机交流，另外在影视艺术领域，若是能转换人物语音的情感也能大大增加作品水平，例如配音，所以对于语音情感的转换来说，不论对象是机器或是人都有很深刻的研究意义。

发明内容

本申请提供一种语音情感转换方法、装置、计算机设备及存储介质，以实现对语音的情感进行转换。

为解决上述技术问题，本申请采用的一个技术方案是：提供一种语音情感转换方法，包括：接收用户输入的语音和用户选择的需要转换的情感信息，情感信息对应一个预先设置好的情感编码；将语音输入至预先训练好的声学模型中，得到目标梅尔频谱；将目标梅尔频谱和情感编码输入至训练好的风格码提取网络，得到目标风格码；从语音中提取文本内容，并将文本内容和目标风格码一并输入至训练好的声学模型中，得到风格转换后的梅尔频谱；根据风格转换后的梅尔频谱生成包括情感信息的语音。

作为本申请的进一步改进，预先训练声学模型和风格码提取网络，包括：构建与风格码提取网络结构相同的风格码映射网络，以及风格码映射网络的优化目标；获取本次训练的样本语音和预先设定的情感编码；将情感编码和预先准备的随机噪声输入至风格码映射网络，得到第一风格码；利用声学模型解析样本语音得到语音特征，根据语音特征生成第一梅尔频谱，并根据语音特征和第一风格码生成第二梅尔频谱；将第二梅尔频谱和情感编码输入至风格码提取网络，得到第二风格码；结合预先构建的风格码映射网络的优化目标和风格码损失函数反向传播更新声学模型。

作为本申请的进一步改进，优化目标为：

其中，F为风格码映射网络，Lrecon为语音重现损失，Ldiverse为情感多样性损失，Melpredict为第一梅尔频谱，Melsource为第二梅尔频谱，s₁和s₂为风格码映射网络根据不同的情感编码生成的第一风格码，

和

为不同情感编码对应的第一风格码结合声学模型提取的语音特征所生成的第二梅尔频谱；

风格损失函数为：

Lstyle＝‖sF-sE‖₁；

其中，Lstyle为风格损失函数，sF为第一风格码，sE为第二风格码。

作为本申请的进一步改进，获取本次训练的样本语音和预先设定的情感编码之前，还包括：为每种情感设定一个对应的one-hot格式的情感编码。

作为本申请的进一步改进，声学模型为Fastspeech模型、Fastspeech2模型中的一种。

作为本申请的进一步改进，风格码提取网络均包括卷积网络和神经网络，卷积网络以情感编码作为限定条件从第二梅尔频谱中提取特征，神经网络根据特征生成目标风格码。

作为本申请的进一步改进，卷积网络包括第一卷积层、第一池化层、第二卷积层、第二池化层、第三卷积层和第三池化层，神经网络包括第一双向LSTM层和第二双向LSTM层。

为解决上述技术问题，本申请采用的另一个技术方案是：提供一种语音情感转换装置，包括：接收模块，用于接收用户输入的语音和用户选择的需要转换的情感信息，情感信息对应一个预先设置好的情感编码；第一输入模块，用于将语音输入至预先训练好的声学模型中，得到目标梅尔频谱；风格提取模块，用于将目标梅尔频谱和情感编码输入至训练好的风格码提取网络，得到目标风格码；第二输入模块，用于从语音中提取文本内容，并将文本内容和目标风格码一并输入至训练好的声学模型中，得到风格转换后的梅尔频谱；生成模块，用于根据风格转换后的梅尔频谱生成包括情感信息的语音。

为解决上述技术问题，本申请采用的再一个技术方案是：提供一种计算机设备，计算机设备包括处理器、与处理器耦接的存储器，存储器中存储有程序指令，程序指令被处理器执行时，使得处理器执行如上述中任一项的语音情感转换方法的步骤。

为解决上述技术问题，本申请采用的再一个技术方案是：提供一种存储介质，存储介质存储有能够实现如上述中任一项的语音情感转换方法的程序指令。

本申请的有益效果是：本申请的语音情感转换方法通过获取到用户输入的语音和想要转换的情感信息之后，将该语音输入至预先训练好的声学模型以提取得到语音的目标梅尔频谱，再利用训练好的风格码提取网络从目标梅尔频谱中提取出目标风格码，再将语音转换为不包含情感的文本内容，再将文本内容和目标风格码输入字号声学模型中，得到风格转换后的梅尔频谱，根据风格转换后的梅尔频谱生成蕴含情感信息的语音，从而实现对语音的情感进行转换，其利用声学模型的快速推理速度，有效地提高了情感语音转换的效率，同时还具备较好的语音转换效果。

附图说明

图1是本发明第一实施例的语音情感转换方法的流程示意图；

图2是本发明实施例的语音情感转换装置的功能模块示意图；

图3是本发明实施例的计算机设备的结构示意图；

图4是本发明实施例的存储介质的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请中的术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”、“第三”的特征可以明示或者隐含地包括至少一个该特征。本申请的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。本申请实施例中所有方向性指示(诸如上、下、左、右、前、后……)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等，如果该特定姿态发生改变时，则该方向性指示也相应地随之改变。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

图1是本发明第一实施例的语音情感转换方法的流程示意图。需注意的是，若有实质上相同的结果，本发明的方法并不以图1所示的流程顺序为限。如图1所示，该方法包括步骤：

步骤S101：接收用户输入的语音和用户选择的需要转换的情感信息，情感信息对应一个预先设置好的情感编码。

需要说明的是，人的情感通常包括喜、怒、哀、乐、恐惧、兴奋、厌恶等，在面临不同的情况，人的情感可能给不相同，而在情感的影响下，其表述的语音也会携带情感元素，能让他人感受到语气中所蕴含的情感，体会到自身的情绪。

需要说明的是，每种情感的情感编码需要预先进行设置。

在步骤S101中，在接收到用户输入的语音后，当用户需要将语音转换的情感信息时，则根据该情感编码对语音中的情感进行转换，得到用户想要的蕴含情感信息的语音。

步骤S102：将语音输入至预先训练好的声学模型中，得到目标梅尔频谱。

在步骤S102中，在获取到语音后，将该语音输入至声学模型中，得到该语音的目标梅尔频谱，其中，该声学模型预先训练好。声学模型是语音识别技术领域中不可或缺的一部分，其任务就是描述语音的物理变化规律，用于计算模型产生语音波形的概率，从而得到语音的梅尔频谱。

进一步的，该声学模型为Fastspeech模型、Fastspeech2模型中的一种。

本实施例中，优选地，该声学模型为Fastspeech2模型，其利用Fastspeech2模型的快速推理能力，提升语音的情感转换效率。Fastspeech2模型相对于Fastspeech模型而言，其能够更好的解决一对多映射问题，简化训练，得到更高品质的声音。

具体地，Fastspeech2模型是声学模型的一种，其包括Character embedding层、Encoder层、Variance adaptor层和Decoder层。其中，Character embedding层用于将输入的音素序列转换为text-to-sequence音素序列，并向text-to-sequence音素序列中添加位置信息，Encoder层根据添加位置信息后的text-to-sequence音素序列进行映射得到中间特征；Variance adaptor层用于向中间特征中引入不同的声学特征信息，该Varianceadaptor层包括duration预测器、pitch预测器、energy预测器，该三个预测器的结构一致，均包括一个两层的1D卷积网络和一个线性层，不同的声学特征信息包括duration(音长特征)、pitch(音高特征)、energy(声音能量特征)等；Decoder层用于根据引入不同声学特征信息的中间特征输出具有独特风格的梅尔频谱。

步骤S103：将目标梅尔频谱和情感编码输入至训练好的风格码提取网络，得到目标风格码。

在步骤S103中，在获取到目标梅尔频谱和情感编码后，将目标梅尔频谱输入至预先训练好的风格码提取网络，并在情感编码这一约束条件下，进行风格提取，从而得到目标风格码，该目标风格码即用于表达情感信息的风格码。

进一步的，风格码提取网络包括卷积网络和神经网络，卷积网络以情感编码作为限定条件从第二梅尔频谱中提取特征，神经网络根据特征生成目标风格码。

具体地，卷积网络用于从目标梅尔频谱中提取出目标梅尔频谱的高级特征，然后由神经网络从高级特征中提取得到目标风格码

其中，卷积网络包括第一卷积层、第一池化层、第二卷积层、第二池化层、第三卷积层和第三池化层，神经网络包括第一双向LSTM层和第二双向LSTM层。

具体地，卷积网络中的第一卷积层、第一池化层、第二卷积层、第二池化层、第三卷积层和第三池化层依次连接。需要说明的是，梅尔频谱是一幅表现语音的特征信息的图谱，而卷积层则用于从梅尔频谱中提取出特征信息，池化层则用于降低特征纬度，压缩数据和参数的数量，减小过拟合，同时提高模型的容错性，通常地，在卷积神经网络中，每一个卷积层后面都会有一个池化层，添加池化层的作用是加速运算并且使得一些检测到的特征鲁棒性更高。

本实施例中，第一卷积层可以设置为输入尺寸32*9*6000、输出尺寸32*9*3000、内核大小2*2*4、步长大小1*1*2，第一池化层可以设置为输入尺寸32*9*3000、输出尺寸16*4*3000、内核大小2*2*1、步长大小2*2*1，第二卷积层可以设置为输入尺寸16*4*3000、输出尺寸16*4*3000、内核大小2*2*4、步长大小1*1*1，第二池化层可以设置为输入尺寸16*4*3000、输出尺寸8*2*1500、内核大小2*2*2、步长大小2*2*2，第三卷积层可以设置为输入尺寸8*2*1500、输出尺寸8*2*1500、内核大小2*2*4、步长大小1*1*1，第三池化层可以设置为输入尺寸8*2*1500、输出尺寸4*2*750、内核大小2*1*2、步长大小2*1*2。

具体地，神经网络包括第一双向LSTM层和第二双向LSTM层。其中，双向LSTM即双向长短时记忆循环神经网络(Bi-directional LSTM)，双向LSTM包括一个前向LSTM单元和一个后向LSTM单元，卷积网络提取得到的特征首先馈送到前向LSTM单元，得到并保存每个时刻向前隐含层的输出，然后被反向馈送到后向LSTM单元，得到并保存每个时刻向后隐含层的输出，最后在每个时刻结合前向LSTM单元和后向LSTM单元的相应时刻输出的结果得到最终的输出。

步骤S104：从语音中提取文本内容，并将文本内容和目标风格码一并输入至训练好的声学模型中，得到风格转换后的梅尔频谱。

在步骤S104中，在获取到目标风格码之后，通过语音识别技术识别出语音中的文本内容，再将文本内容作为音素序列，与目标风格码一并输入至声学模型中，得到风格转换后的梅尔频谱。其中，该语音识别技术(Automatic Speech Recognition，ASR)是一种将语音转换为文本的技术。

步骤S105：根据风格转换后的梅尔频谱生成包括情感信息的语音。

在步骤S105中，在得到风格转换后的梅尔频谱后，利用声码器根据该风格转换后梅尔频谱生成相应的声音波形，播放该声音波形即可生成蕴含了情感信息的语音。其中，声码器预先训练好，具体可以为WaveGlow模型。

进一步的，预先训练声学模型和风格码提取网络，包括：

1、构建与风格码提取网络结构相同的风格码映射网络，以及风格码映射网络的优化目标。

具体地，在训练声学模型和风格码提取网络时，需要另外增加一个风格码映射网络来辅助训练，且该风格码映射网络与风格码提取网络结构上完全相同。本实施例中，在训练声学模型和风格码提取网络时添加风格码映射网络的目的是为了向训练过程加入干扰，从而提升输出结果的多样性，从而能够产生不同的风格码。

2、获取本次训练的样本语音和预先设定的情感编码。

具体地，样本语音和情感编码需要预先设定。

进一步的，在获取本次训练的样本语音和预先设定的情感编码之前，还包括：为每种情感设定一个对应的one-hot格式的情感编码。

具体地，one-hot编码又称为独热编码或一位有效编码，其方法是使用N位状态寄存器来对N个状态进行编码，每个状态都有它独立的寄存器位，并且在任意时候，其中只有一位有效。在本实施例中，假设有四种情感，分别是“喜、怒、哀、乐”，即对应有四个情感编码，则需要4位状态寄存器来对4种情感进行编码，以“0001”表示“喜”、“0010”表示“怒”、“0100”表示“哀”、“1000”表示“乐”。

3、将情感编码和预先准备的随机噪声输入至风格码映射网络，得到第一风格码。

需要说明的是，随机噪声预先随机生成，且随机噪声的大小与声学模型输出的梅尔频谱的大小相同。

具体地，风格码映射网络根据随机噪声和情感编码生成第一风格码的过程与风格码提取网络根据梅尔频谱和情感编码生成目标风格码的过程相同，此处不再赘述。

4、利用声学模型解析样本语音得到语音特征，根据语音特征生成第一梅尔频谱，并根据语音特征和第一风格码生成第二梅尔频谱。

具体地，声学模型在进行训练时，需要运行两次，第一次是从样本语音中获取到该样本语音的第一梅尔频谱，第二次是在风格码映射网络得到第一风格码后，从样本语音中提取语音特征，并将语音特征与第一风格码结合后生成第二梅尔频谱。

5、将第二梅尔频谱和情感编码输入至风格码提取网络，得到第二风格码。

具体地，风格码提取网络根据第二梅尔频谱和情感编码提取第二风格码的过程与风格码提取网络根据梅尔频谱和情感编码生成目标风格码的过程相同，此处不再赘述。

6、结合预先构建的风格码映射网络的优化目标和风格码损失函数反向传播更新声学模型。

其中，优化目标为：

其中，F为风格码映射网络，L_recon为语音重现损失，L_diverse为情感多样性损失，Mel_predict为第一梅尔频谱，Mel_source为第二梅尔频谱，s₁和s₂为风格码映射网络根据不同的情感编码生成的第一风格码，

和

为不同情感编码对应的第一风格码结合声学模型提取的语音特征所生成的第二梅尔频谱。

具体地，本实施例中，在训练声学模型和风格码提取网络时，其构建了一个语音重现任务，定义该语音重现任务的损失L_recon，并且，为了产生不同的风格，还需构建多样性损失L_diverse，再根据语音重新损失L_recon和多样性损失L_diverse构建风格码映射网络的优化目标。

风格损失函数为：

L_style＝‖s_F-s_E‖₁；

其中，L_style为风格损失函数，s_F为第一风格码，s_E为第二风格码。

本发明第一实施例的语音情感转换方法通过获取到用户输入的语音和想要转换的情感信息之后，将该语音输入至预先训练好的声学模型以提取得到语音的目标梅尔频谱，再利用训练好的风格码提取网络从目标梅尔频谱中提取出目标风格码，再将语音转换为不包含情感的文本内容，再将文本内容和目标风格码输入字号声学模型中，得到风格转换后的梅尔频谱，根据风格转换后的梅尔频谱生成蕴含情感信息的语音，从而实现对语音的情感进行转换，其利用声学模型的快速推理速度，有效地提高了情感语音转换的效率，同时还具备较好的语音转换效果。

图2是本发明实施例的语音情感转换装置的功能模块示意图。如图2所示，该语音情感转换装置20包括接收模块21、第一输入模块22、风格提取模块23、第二输入模块24和生成模块25。

接收模块21，用于接收用户输入的语音和用户选择的需要转换的情感信息，情感信息对应一个预先设置好的情感编码。

第一输入模块22，用于将语音输入至预先训练好的声学模型中，得到目标梅尔频谱。

风格提取模块23，用于将目标梅尔频谱和情感编码输入至训练好的风格码提取网络，得到目标风格码。

第二输入模块24，用于从语音中提取文本内容，并将文本内容和目标风格码一并输入至训练好的声学模型中，得到风格转换后的梅尔频谱。

生成模块25，用于根据风格转换后的梅尔频谱生成包括情感信息的语音。

可选地，该语音情感转换装置20还包括训练模块，该训练模块用于预先训练声学模型和风格码提取网络，该训练模块执行预先训练声学模型和风格码提取网络的操作具体包括：构建与风格码提取网络结构相同的风格码映射网络，以及风格码映射网络的优化目标；获取本次训练的样本语音和预先设定的情感编码；将情感编码和预先准备的随机噪声输入至风格码映射网络，得到第一风格码；利用声学模型解析样本语音得到语音特征，根据语音特征生成第一梅尔频谱，并根据语音特征和第一风格码生成第二梅尔频谱；将第二梅尔频谱和情感编码输入至风格码提取网络，得到第二风格码；结合预先构建的风格码映射网络的优化目标和风格码损失函数反向传播更新声学模型。

可选地，优化目标为：

和

风格损失函数为：

L_style＝‖s_F-s_E‖₁；

可选地，训练模块执行获取本次训练的样本语音和预先设定的情感编码的操作之前，还用于：为每种情感设定一个对应的one-hot格式的情感编码。

可选地，声学模型为Fastspeech模型、Fastspeech2模型中的一种。

可选地，风格码提取网络均包括卷积网络和神经网络，卷积网络以情感编码作为限定条件从第二梅尔频谱中提取特征，神经网络根据特征生成目标风格码。

可选地，卷积网络包括第一卷积层、第一池化层、第二卷积层、第二池化层、第三卷积层和第三池化层，神经网络包括第一双向LSTM层和第二双向LSTM层。

关于上述实施例语音情感转换装置中各模块实现技术方案的其他细节，可参见上述实施例中的语音情感转换方法中的描述，此处不再赘述。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

请参阅图3，图3为本发明实施例的计算机设备的结构示意图。如图3所示，该计算机设备30包括处理器31及和处理器31耦接的存储器32，存储器32中存储有程序指令，程序指令被处理器31执行时，使得处理器31执行如下步骤：

接收用户输入的语音和用户选择的需要转换的情感信息，每种情感对应一个预先设置好的情感编码；

将语音输入至预先训练好的声学模型中，得到目标梅尔频谱；

将目标梅尔频谱和情感编码输入至训练好的风格码提取网络，得到目标风格码；

从语音中提取文本内容，并将文本内容和目标风格码一并输入至训练好的声学模型中，得到风格转换后的梅尔频谱；

根据风格转换后的梅尔频谱生成包括情感信息的语音。

其中，处理器31还可以称为CPU(Central Processing Unit，中央处理单元)。处理器31可能是一种集成电路芯片，具有信号的处理能力。处理器31还可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

参阅图4，图4为本发明实施例的存储介质的结构示意图。本发明实施例的存储介质存储有能够实现上述所有方法的程序指令41，该程序指令41被执行时实现如下步骤：

根据风格转换后的梅尔频谱生成包括情感信息的语音。

其中，该程序指令41可以以软件产品的形式存储在上述存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施方式所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，RandomAccess Memory)、磁碟或者光盘等各种可以存储程序代码的介质，或者是计算机、服务器、手机、平板等计算机设备。

在本申请所提供的几个实施例中，应该理解到，所揭露的计算机设备，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。以上仅为本申请的实施方式，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种语音情感转换方法，其特征在于，包括：

接收用户输入的语音和用户选择的需要转换的情感信息，所述情感信息对应一个预先设置好的情感编码；

将所述语音输入至预先训练好的声学模型中，得到目标梅尔频谱；

将所述目标梅尔频谱和所述情感编码输入至训练好的风格码提取网络，得到目标风格码；

从所述语音中提取文本内容，并将所述文本内容和所述目标风格码一并输入至所述训练好的声学模型中，得到风格转换后的梅尔频谱；

根据所述风格转换后的梅尔频谱生成包括所述情感信息的语音。

2.根据权利要求1所述的语音情感转换方法，其特征在于，预先训练所述声学模型和所述风格码提取网络，包括：

构建与所述风格码提取网络结构相同的风格码映射网络，以及所述风格码映射网络的优化目标；

获取本次训练的样本语音和预先设定的情感编码；

将所述情感编码和预先准备的随机噪声输入至风格码映射网络，得到第一风格码；

利用所述声学模型解析所述样本语音得到语音特征，根据所述语音特征生成第一梅尔频谱，并根据所述语音特征和所述第一风格码生成第二梅尔频谱；

将所述第二梅尔频谱和所述情感编码输入至所述风格码提取网络，得到第二风格码；

结合预先构建的所述风格码映射网络的优化目标和风格码损失函数反向传播更新所述声学模型。

3.根据权利要求2所述的语音情感转换方法，其特征在于，所述优化目标为：

其中，F为所述风格码映射网络，L_recon为语音重现损失，L_diverse为情感多样性损失，Mel_predict为所述第一梅尔频谱，Mel_source为所述第二梅尔频谱，s₁和s₂为所述风格码映射网络根据不同的情感编码生成的第一风格码，

和

为不同情感编码对应的第一风格码结合所述声学模型提取的语音特征所生成的第二梅尔频谱；

所述风格损失函数为：

L_style＝‖s_F-s_E‖₁；

其中，L_style为所述风格损失函数，s_F为所述第一风格码，s_E为所述第二风格码。

4.根据权利要求2所述的语音情感转换方法，其特征在于，所述获取本次训练的样本语音和预先设定的情感编码之前，还包括：

为每种情感设定一个对应的one-hot格式的情感编码。

5.根据权利要求1所述的语音情感转换方法，其特征在于，所述声学模型为Fastspeech模型、Fastspeech2模型中的一种。

6.根据权利要求1所述的语音情感转换方法，其特征在于，所述风格码提取网络均包括卷积网络和神经网络，所述卷积网络以所述情感编码作为限定条件从所述第二梅尔频谱中提取特征，所述神经网络根据所述特征生成所述目标风格码。

7.根据权利要求6所述的语音情感转换方法，其特征在于，所述卷积网络包括第一卷积层、第一池化层、第二卷积层、第二池化层、第三卷积层和第三池化层，所述神经网络包括第一双向LSTM层和第二双向LSTM层。

8.一种语音情感转换装置，其特征在于，包括：

接收模块，用于接收用户输入的语音和用户选择的需要转换的情感信息，所述情感信息对应一个预先设置好的情感编码；

第一输入模块，用于将所述语音输入至预先训练好的声学模型中，得到目标梅尔频谱；

风格提取模块，用于将所述目标梅尔频谱和所述情感编码输入至训练好的风格码提取网络，得到目标风格码；

第二输入模块，用于从所述语音中提取文本内容，并将所述文本内容和所述目标风格码一并输入至所述训练好的声学模型中，得到风格转换后的梅尔频谱；

生成模块，用于根据所述风格转换后的梅尔频谱生成包括所述情感信息的语音。

9.一种计算机设备，其特征在于，所述计算机设备包括处理器、与所述处理器耦接的存储器，所述存储器中存储有程序指令，所述程序指令被所述处理器执行时，使得所述处理器执行如权利要求1-7中任一项权利要求所述的语音情感转换方法的步骤。

10.一种存储介质，其特征在于，所述存储介质存储有能够实现如权利要求1-7中任一项所述的语音情感转换方法的程序指令。