CN112837700A

CN112837700A - 一种情感化的音频生成方法和装置

Info

Publication number: CN112837700A
Application number: CN202110034593.3A
Authority: CN
Inventors: 黄家鸿
Original assignee: Netease Hangzhou Network Co Ltd
Current assignee: Netease Hangzhou Network Co Ltd
Priority date: 2021-01-11
Filing date: 2021-01-11
Publication date: 2021-05-25

Abstract

本发明实施例提供了一种情感化的音频生成方法及装置，通过获取目标音频，并确定该目标音频对应的目标特征向量，然后将该目标特征向量输入音频生成模型中，生成针对目标音频的情感音频，其中，音频生成模型可以为根据音频数据的音色特征、情感特征以及音频内容等训练得到的模型，通过该音频生成模型可以生成与该同一音频关联，且带有不同“情绪”的情感音频，不仅丰富了情感音频的类型，而且可以避免了混淆不同用户之间的音色问题，保证了音频生成质量。

Description

一种情感化的音频生成方法和装置

技术领域

本发明涉及语音技术领域，特别是涉及一种情感化的音频生成方法和一种情感化的音频生成装置。

背景技术

随着人工智能技术的发展，科技人员在图像、音频等领域取得了巨大的突破。在音频领域，人机对话一直是个比较热门的研究方向，有比较多的产品落地，如苹果公司的终端语音助手Siri，微软公司的语音助手小冰等。其中，语音生成(Text To Speech，TTS)技术是这些产品能够实现的一项关键技术。

在游戏领域中，可以采用TTS技术对游戏技能或者NPC(Non-Player Character，非玩家角色)与玩家之间交互等。随着用户对人工智能的期望越来越高，用户期望机器生成的音频能够有情绪化的表现，例如带有“生气”、“焦虑”、“高兴”、“厌烦”等情绪出现，而不是机械性的音频播放。

发明内容

本发明实施例是提供一种情感化的音频生成方法，以解决或部分现有技术中无法生成带有情感化的音频以及情感音频类型不丰富的问题。

相应的，本发明实施例还提供了一种情感化的音频生成装置，用以保证上述方法的实现及应用。

为了解决上述问题，本发明实施例公开了一种情感化的音频生成方法，包括：

获取目标音频；

确定所述目标音频对应的目标特征向量；

将所述目标特征向量输入预设的目标音频生成模型，生成针对所述目标音频的情感音频。

可选地，所述确定所述目标音频对应的目标特征向量，包括：

获取所述目标音频对应的第一音色特征以及第一情绪特征；

对所述第一音色特征进行向量化映射，生成第一特征向量；

对所述第一情绪特征进行向量化映射，生成第二特征向量。

可选地，所述将所述目标特征向量输入预设的音频生成模型，生成针对所述目标用户的情感音频，包括：

将所述第一特征向量与所述第二特征向量输入预设的目标音频生成模型，生成与所述第一音色特征对应的多个第一情感音频，以及与所述第一情绪特征对应的多个第二情感音频。

可选地，所述目标音频生成模型通过如下方式生成：

获取音频训练样本，所述音频训练样本包括非情感音频样本以及初始情感音频样本；

对所述初始情感音频样本进行复制，获得目标情感音频样本；

根据所述非情感音频样本与所述目标情感音频样本，生成所述目标音频生成模型。

可选地，所述非情感音频样本包括不同用户对应的第一音频，所述目标情感音频样本包括携带不同情绪信息的第二音频，所述根据所述非情感音频样本与所述目标情感音频样本，生成所述目标音频生成模型，包括：

获取所述第一音频对应的第二音色特征，所述第二音频对应的第二情绪特征，以及所述音频训练样本对应的文本内容；

采用所述文本内容、所述第二音色特征以及所述第二情绪特征，生成所述目标音频生成模型。

可选地，所述采用所述文本内容、所述第二音色特征以及所述第二情绪特征，生成所述目标音频生成模型，包括：

将所述文本内容、所述第二音色特征以及所述第二情绪特征输入预设的初始音频生成模型，生成对应的预测值；

将所述预测值与预设的参考值进行比对，并根据比对结果对所述初始音频生成模型进行反向训练，生成目标音频生成模型。

可选地，所述将所述文本内容、所述第二音色特征以及所述第二情绪特征输入预设的初始音频生成模型，生成对应的预测值，包括：

将所述文本内容、所述第二音色特征以及所述第二情绪特征输入预设的初始音频生成模型进行迭代，并计算每次迭代后的初始音频生成模型的多个损失函数；

所述将所述预测值与预设的参考值进行比对，并根据比对结果对所述初始音频生成模型进行反向训练，生成目标音频生成模型，包括：

当迭代后的初始音频生成模型的多个损失函数均最小化时，停止迭代，生成目标音频生成模型。

可选地，所述初始音频生成模型包括编码单元以及解码单元；所述编码单元包括输入层，与所述输入层连接的多头注意力分配层和预设数目的第一卷积层，与最后一层第一卷积层连接的第一循环层，以及与所述多头注意力分配层和所述第一循环层连接的编码层；所述解码单元包括与所述编码层连接的第二循环层，与所述第二循环层连接的预设数目的第二卷积层，与最后一层第二积层连接的预设数目的第三卷积层，以及与最后一层第三卷积层连接的输出层，所述输出层连接多个输出节点；所述输出层用于将所述最后一层第三卷积层的输出结果进行转换，并将转换后的输出结果输出至所述多个输出节点。

可选地，所述将所述文本内容、所述第二音色特征以及所述第二情绪特征输入预设的初始音频生成模型进行迭代，并计算每次迭代后的初始音频生成模型的多个损失函数，包括：

将所述文本内容输入所述输入层生成文本向量，将所述第二音色特征输入所述输入层生成音色特征向量，以及将所述第二情绪特征输入所述输入层生成情感特征向量；

将所述文本向量、所述音色特征向量以及所述情感特征向量进行拼接后的目标训练向量，输入所述多头注意力分配层进行注意力分配，生成第一内容载体；

通过所述预设数目的第一卷积层每一神经元的激活函数，对所述文本向量逐层进行映射，并将最后一层第一卷积层输出的第一输出向量输入所述第一循环层进行参数循环，生成第二内容载体；

将所述第一内容载体与所述第二内容载体输入所述第二循环层，生成第二输出向量；

通过所述预设数目的第二卷积层每一神经元的激活参数，对所述第二输出向量逐层进行映射，生成第三输出向量；

通过所述预设数目的第三卷积层每一神经元的激活参数，对所述第三输出向量逐层进行映射，并将最后一层第三卷积层输出的输出结果传输至所述输出层；

通过所述输出层采用所述输出结果，和与所述输出结果对应的损失函数，进行误差计算，生成多个梯度值。

可选地，所述当迭代后的初始音频生成模型的多个损失函数均最小化时，停止迭代，生成目标音频生成模型，包括：

通过所述多个输出节点判断所述多个梯度值是否满足预设阈值条件；

若否，则根据所述多个梯度值更新所述每一神经元的激活函数的参数，继续迭代所述初始音频生成模型；

若是，则生成所述目标音频生成模型。

本发明实施例还提供了一种情感化的音频生成装置，包括：

目标音频获取模块，用于获取目标音频；

目标特征向量确定模块，用于确定所述目标音频对应的目标特征向量；

情感音频生成模块，用于将所述目标特征向量输入预设的音频生成模型，生成针对所述目标音频的情感音频。

可选地，所述目标特征向量确定模块包括：

特征标识获取子模块，用于获取所述目标音频对应的第一音色特征以及第一情绪特征；

第一向量映射子模块，用于对所述第一音色特征进行向量化映射，生成第一特征向量；

第二向量映射子模块，用于对所述第一情绪特征进行向量化映射，生成第二特征向量。

可选地，所述情感音频生成模块具体用于：

可选地，所述目标音频生成模型通过如下模块生成：

训练样本获取模块，用于获取音频训练样本，所述音频训练样本包括非情感音频样本以及初始情感音频样本；

情感样本处理模块，用于对所述初始情感音频样本进行复制，获得目标情感音频样本；

模型生成模块，用于根据所述非情感音频样本与所述目标情感音频样本，生成所述目标音频生成模型。

可选地，所述非情感音频样本包括不同用户对应的第一音频，所述目标情感音频样本包括携带不同情绪信息的第二音频，所述模型生成模块包括：

信息获取子模块，用于获取所述第一音频对应的第二音色特征，所述第二音频对应的第二情绪特征，以及所述音频训练样本对应的文本内容；

模型生成子模块，用于采用所述文本内容、所述第二音色特征以及所述第二情绪特征，生成所述目标音频生成模型。

可选地，所述模型生成子模块具体用于：

若是，则生成所述目标音频生成模型。

本发明实施例还提供了一种电子设备，包括：

一个或多个处理器；和

其上存储有指令的一个或多个机器可读介质，当由所述一个或多个处理器执行时，使得所述电子设备执行如上所述的方法。

本发明实施例还提供了一个或多个机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得所述处理器执行如上所述的方法。

本发明实施例包括以下优点：

在本发明实施例中，可以通过获取目标音频，并确定该目标音频对应的目标特征向量，然后将该目标特征向量输入音频生成模型中，生成针对目标音频的情感音频，其中，音频生成模型可以为根据音频数据的音色特征、情感特征以及音频内容等训练得到的模型，通过该音频生成模型可以生成与该同一音频关联，且带有不同“情绪”的情感音频，不仅丰富了情感音频的类型，而且可以避免了混淆不同用户之间的音色问题，保证了音频生成质量。

附图说明

图1是本发明的一种情感化的音频生成方法实施例的步骤流程图；

图2是本发明实施例中模型训练的流程示意图；

图3是本发明实施例中模型训练的流程示意图；

图4是本发明实施例中模型训练的流程示意图；

图5是本发明的一种情感化的音频生成装置实施例的结构框图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

参照图1，示出了本发明的一种情感化的音频生成方法实施例的步骤流程图，具体可以包括如下步骤：

步骤101，获取目标音频；

作为一种示例，随着用户对人工智能的期望越来越高，用户期望机器生成的音频能够有情绪化的表现，例如带有喜、怒、忧、思、悲、恐、惊等情绪出现，而不是机械性的音频播放，尤其在游戏领域中，玩家能够与npc进行不同程度的交互，在交互的过程中，若是能够与npc进行带有情绪的对话，能够有效地提高玩家的游戏体验。

在生成带有情绪的音频过程中，由于带有情感的数据集数据量较少，需要结合其他数据集进行数据处理，在该过程中，不可避免地会引入不同Speaker(说话者)的声音，因此，需要在数据量有限的情况下，既分开不同Speaker的音色，又能够保证拥有情感数据的Speaker能够在自己有限的音频数据下，生成与自己音色对应的其他情感音频，且不会混淆其他Speaker音色。

在本发明实施例中，在需要生成情感音频时，可以通过获取不同用户的目标音频，以根据目标音频生成对应的情感音频。其中，用户可以包括真实用户、机器模拟的虚拟用户等等，不同用户可以对应不同的音色；目标音频可以包括带有情绪波动的音频，也可以为不带情绪波动的音频。

在一种示例中，当Speaker讲话过程中带有情绪时，则其语气、韵律、语调以及语速等均不同程度的表现，例如愤怒情绪下，Speaker所发出的声音可以为语调很高、节奏很快的声音等，而对于不带有情绪的声音，则可以为语调正常、节奏稳定的声音等等，从而可以通过语气、韵律、语调以及语速等一个或多个不同的方面对音频进行分类，确定音频属于情感音频，亦或是非情感音频等，本发明对此不作限制。

在具体实现中，可以预先对不同音频进行分类，包括按照用户类别、音频类别等进行分类，从而在选择目标音频时，可以按需选择不同的音频，以生成不同的情感音频。

步骤102，确定所述目标音频对应的目标特征向量；

在具体实现中，可以提取目标音频的特征信息，并对特征信息进行向量化，得到目标音频对应的目标特征向量。其中，目标音频的特征信息可以为音色特征以及情感特征，音色特征可以为该目标音频所对应的用户的音色，情感特征可以为该目标音频对应的情绪信息，则可以对目标音频所对应的音色特征进行向量化映射，生成第一特征向量，以及对目标音频所对应的第一情绪特征进行向量化映射，生成第一特征向量。

在一种示例中，可以将目标音频的音频信号转换为数字信号，并对数字信号进行特征提取，包括提取频谱特征、语速特征、语调特征等等，其中，可以将频谱特征作为目标音频的音色特征，将语速特征以及语调特征等作为目标音频的情绪特征，然后进行向量化，从而得到目标音频对应的特征向量，本发明对此不作限制。

步骤103，将所述目标特征向量输入预设的音频生成模型，生成针对所述目标用户的情感音频。

在本发明实施例中，目标音频生成模型可以为根据音频数据的音色特征、情感特征以及音频内容等训练得到的模型，则确定目标音频对应的目标特征向量之后，可以将第一特征向量与第二特征向量输入目标音频生成模型，从而得到与目标音频的音色特征对应的多个第一情感音频，以及与目标音频的情绪特征对应的多个第二情感音频，实现了在用户有限音频数据的情况下，生成与用户音色对应的至少一个带有情绪波动的情感音频，以及同样情感特征的多个不同音色的情感音频，不仅丰富了音频的类型，而且保证了情感音频生成的质量。

在一种示例中，假设目标音频①对应的音色特征A以及愤怒情绪特征a，则对音色特征A与愤怒情绪特征a分别向量化，并输入音频生成模型后，可以得到音色特征A对应的多种不同情绪的情感音频，例如音色特征A的喜悦情感音频、悲伤情感音频、惊恐情感音频等，以及得到情绪特征a对应的不同音色的情感音频，例如音色特征B的愤怒情感音频、音色特征C的愤怒情感音频等等，从而通过音频生成模型，可以生成与音频的音色关联的不同情绪的情感音频，以及与音频的情绪相同的不同音色的情感音频，不仅丰富了音频的类型，而且保证了情感音频生成的质量。

在本发明的一种可选实施例中，音频生成模型可以通过如下方式生成：获取音频训练样本，音频训练样本包括非情感音频样本以及初始情感音频样本；对初始情感音频样本进行复制，获得目标情感音频样本；根据非情感音频样本与目标情感音频样本，生成目标音频生成模型。

在具体实现中，训练音频数据可以为由不用音频组成的音频样本，可以包括非情感音频样本以及情感音频样本。其中，非情感音频样本可以包括不同用户对应的第一音频，第一音频可以为Speaker不进行任何语音修饰的音频，如表现为语气平淡、语调正常、语速正常以及情绪波动很小；情感音频样本可以包括携带不同情绪信息的第二音频，第二音频可以为Speaker进行语音修饰的音频数据，如表现为语调较高/较低、语速较快/较慢、情绪波动大等等，从而可以通过语气、韵律、语调以及语速等一个或多个不同的方面对音频进行分类，确定情感音频数据与非情感音频数据。

具体的，可以根据音频数据的类别，可以通过提取非情感音频样本以及初始情感音频样本，并对初始情感音频样本进行复制，得到目标情感样本，通过对情感音频样本进行复制，可以减少对情感音频数据的收集，保证后续情感音频生成的质量。

在一种示例中，可以从训练音频样本中，提取200个Speaker的两万条不具有“情绪”波动的音频作为非情感音频样本，以及提取4个Speaker的7000条具有“情绪”波动的音频，并进行复制，得到一万四条具有“情绪”波动的音频作为情感音频样本，通过对情感音频数据进行复制，可以保证情感音频数据对非情感音频数据的覆盖，从而保证后续情感音频生成的质量。

在本发明实施例中，确定非情感音频样本与情感音频样本之后，可以获取非情感音频样本中各个第一音频对应的第二音色特征，以及情感音频样本中第二音频对应的第二情绪特征，并确定训练样本中各个音频的文本内容，然后将文本内容、第二音色特征以及第二情绪特征输入初始音频生成模型中，生成对应的预测值，然后将预测值与参考值进行比对，并根据比对结果对初始音频生成模型进行反向训练，从而得到音频生成模型。

在具体实现中，第二音色特征可以为对应的音频的Speaker标识，不同的第二音色特征可以用于标识不同音频的音色；第二情绪特征可以用于表示不同情绪对应的标识，例如喜、怒、忧、思、悲、恐、惊等情绪可以对应不同的标识；文本内容可以为对音频进行语义识别后，音频对应的文本内容。通过将第二音色特征与第二情绪特征输入模型进行训练，可以使得所训练的模型能够在不同的音色和情绪下，输出与音频对应的不同情感音频，同时通过将文本内容输入模型进行训练，可以保证音频内容信息的完整性，进而保证所生成的情感音频的质量。

在具体实现中，可以将文本内容、第二音色特征以及第二情绪特征输入预设的初始音频生成模型进行迭代，并计算每次迭代后的初始音频生成模型的多个损失函数，当迭代后的初始音频生成模型的多个损失函数均最小化时，停止迭代，生成音频生成模型。其中，多个损失函数可以包括基于不同情感音频的损失函数，如情感音频①、情感音频②以及情感音频N等等，则多个损失函数可以包括情感音频①对应的预测值一，情感音频②对应的预测值二以及情感音频N的预测值M等对应的损失函数。

在本发明的一种可选实施例中，音频生成模型可以包括编码单元以及解码单元；所述编码单元包括输入层，与所述输入层连接的多头注意力分配层和预设数目的第一卷积层，与最后一层第一卷积层连接的第一循环层，以及与所述多头注意力分配层和所述第一循环层连接的编码层；所述解码单元包括与所述编码层连接的第二循环层，与所述第二循环层连接的预设数目的第二卷积层，与最后一层第二积层连接的预设数目的第三卷积层，以及与最后一层第三卷积层连接的输出层，所述输出层连接多个输出节点；所述输出层用于将所述最后一层第三卷积层的输出结果进行转换，并将转换后的输出结果输出至所述多个输出节点。

在具体实现中，可以将文本内容输入输入层生成文本向量，将第二音色特征输入输入层生成第二音色特征向量，以及将第二情绪特征输入输入层生成情感特征向量，接着将文本向量、第二音色特征向量以及情感特征向量进行拼接后的目标训练向量，输入多头注意力分配层进行注意力分配，生成第一内容载体，通过预设数目的第一卷积层每一神经元的激活函数，对文本向量逐层进行映射，并将最后一层第一卷积层输出的第一输出向量输入第一循环层进行参数循环，生成第二内容载体，并将第一内容载体与第二内容载体输入第二循环层，生成第二输出向量，然后通过预设数目的第二卷积层每一神经元的激活参数，对第二输出向量逐层进行映射，生成第三输出向量，以及通过预设数目的第三卷积层每一神经元的激活参数，对第三输出向量逐层进行映射，并将最后一层第三卷积层输出的输出结果传输至输出层，然后通过输出层采用输出结果，和与输出结果对应的损失函数，进行误差计算，生成多个梯度值。

在一种示例中，第一卷积层的数目可以为3层，第二卷积层的数目可以为2层，第三卷积层的数目可以为5层；第一循环层可以为双向LSTM层(Long Short-Term Memory，长短期记忆人工神经网络)，第二循环层可以包括2层LSTM层。

需要说明的是，本发明实施例包括但不限于上述示例，本领域技术人员在本发明实施例的思想指导下，可以根据实际情况设置弹幕生成模型的隐藏层数目，以及输出节点的数目，本发明实施例对此不作限制。

在具体实现中，当迭代后的音频生成模型的多个损失函数均最小化时，可以停止模型的迭代，从而生成音频生成模型。

具体的，可以通过各个输出节点判断多个梯度值是否满足预设阈值条件；若否，则根据多个梯度值更新每一神经元的激活函数的参数，继续迭代音频生成模型；若是，则生成音频生成模型。

其中，对激活函数的参数更新，可以是基于梯度下降策略，以目标梯度方向对参数进行更新。在具体实现中，可以预设一学习率，控制每一轮迭代中参数的更新步长，从而最终得到音频生成模型。此外，在实际中由于损失函数的最小值往往难以达到，则还可以通过设置迭代次数对模型迭代进行控制，损失函数达到预期值，或基本保持不变时，即可以视为模型训练结束。

在一种示例中，参考图2，示出了本发明实施例中模型训练的流程示意图，为了使得生成的音频内容能够不同的音色和情绪下，发出不同韵律，可以采用训练样本的文本向量结合第二音色特征向量speaker embedding和情感特征向量emotion embedding，然后通过进行注意力分配self attention计算后得到第一内容载体content vector作为音色和情绪的表示信息。

参考图3，示出了本发明实施例中模型训练的流程示意图，为了保证音频生成的质量，可以采用文本内容的文本向量text embedding表示音频的内容信息，text embedding经过第一卷积层和循环层后得到第二内容载体text encoder outputs，然后可以将textencoder outputs与content vector通过编码层，在保证音频的内容信息不会流失的情况下，添加音色与情绪的表示信息。

具体的，参考图4，示出了本发明实施例中模型训练的流程示意图，音频生成模型的训练可以通过如下方式：

1、文本内容作为输入，经过输入层得到text embeddings。

2、Text embeddings经过3层一维卷积和一层双向LSTM得到第二内容载体textencoder outputs

3、第二音色特征Speaker id作为输入经过输入层获得第二音色特征向量Speakerembeddings。

4、第二情绪特征Emotion id作为输入经过输入层获得情感特征向量emotionembeddings。

5、Text embeddings、speaker embeddings和emotion embedddings进行concat(拼接)得到目标训练向量concat embeddings。

6、Concat embedding经过多头注意力分配层self_multihead_attention，其中head个数为8得到第一内容载体text_speaker_emotion content vectors。

7、Text encoder outputs和content vectors进行concat得到目标内容载体textpostnet encoder outputs作为编码单元的最终输出encoder outputs。

8、采用2层双向LSTM后输出stop token和frames mels，其中，stop token用于确定训练什么时候停止，frames mels为初步输出的内容，每训练一个步骤则输出一次framesmels，直至训练结束。

9、Frames mels经过一个2层prenet全卷积层得到prenet mel outputs；

10、将prenet mel outputs再经过5层卷积后得到postnet mel outputs

11、将Postnet mel output和prenet mel outputs进行connate(组合)得到最终的mel outputs，并将mel outputs通过输出层中的vocoder模型解码为数字音频。

通过上述流程可以完成对音频生成模型的训练，从而得到弹幕生成模型。

需要说明的是，本发明实施例包括但不限于上述示例，可以理解的是，在本发明实施例的思想指导下，本领域技术人员可以根据实际情况进行设置，本发明对此不作限制。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

参照图5，示出了本发明的一种情感化的音频生成装置实施例的结构框图，具体可以包括如下模块：

目标音频获取模块501，用于获取目标音频；

目标特征向量确定模块502，用于确定所述目标音频对应的目标特征向量；

情感音频生成模块503，用于将所述目标特征向量输入预设的音频生成模型，生成针对所述目标音频的情感音频。

在本发明的一种可选实施例中，所述目标特征向量确定模块502包括：

在本发明的一种可选实施例中，所述情感音频生成模块503具体用于：

在本发明的一种可选实施例中，所述目标音频生成模型通过如下模块生成：

在本发明的一种可选实施例中，所述非情感音频样本包括不同用户对应的第一音频，所述目标情感音频样本包括携带不同情绪信息的第二音频，所述模型生成模块包括：

在本发明的一种可选实施例中，所述模型生成子模块具体用于：

在本发明的一种可选实施例中，所述初始音频生成模型包括编码单元以及解码单元；所述编码单元包括输入层，与所述输入层连接的多头注意力分配层和预设数目的第一卷积层，与最后一层第一卷积层连接的第一循环层，以及与所述多头注意力分配层和所述第一循环层连接的编码层；所述解码单元包括与所述编码层连接的第二循环层，与所述第二循环层连接的预设数目的第二卷积层，与最后一层第二积层连接的预设数目的第三卷积层，以及与最后一层第三卷积层连接的输出层，所述输出层连接多个输出节点；所述输出层用于将所述最后一层第三卷积层的输出结果进行转换，并将转换后的输出结果输出至所述多个输出节点。

若是，则生成所述目标音频生成模型。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本发明实施例还提供了一种电子设备，包括：

一个或多个处理器；和

其上存储有指令的一个或多个机器可读介质，当由所述一个或多个处理器执行时，使得所述电子设备执行本发明实施例所述的方法。

本发明实施例还提供了一个或多个机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得所述处理器执行本发明实施例所述的方法。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本发明所提供的一种情感化的音频生成方法和一种情感化的音频生成装置，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种情感化的音频生成方法，其特征在于，包括：

获取目标音频；

确定所述目标音频对应的目标特征向量；

2.根据权利要求1所述的方法，其特征在于，所述确定所述目标音频对应的目标特征向量，包括：

获取所述目标音频对应的第一音色特征以及第一情绪特征；

对所述第一音色特征进行向量化映射，生成第一特征向量；

对所述第一情绪特征进行向量化映射，生成第二特征向量。

3.根据权利要求2所述的方法，其特征在于，所述将所述目标特征向量输入预设的音频生成模型，生成针对所述目标用户的情感音频，包括：

4.根据权利要求1所述的方法，其特征在于，所述目标音频生成模型通过如下方式生成：

5.根据权利要求4所述的方法，其特征在于，所述非情感音频样本包括不同用户对应的第一音频，所述目标情感音频样本包括携带不同情绪信息的第二音频，所述根据所述非情感音频样本与所述目标情感音频样本，生成所述目标音频生成模型，包括：

6.根据权利要求5所述的方法，其特征在于，所述采用所述文本内容、所述第二音色特征以及所述第二情绪特征，生成所述目标音频生成模型，包括：

7.根据权利要求6所述的方法，其特征在于，所述将所述文本内容、所述第二音色特征以及所述第二情绪特征输入预设的初始音频生成模型，生成对应的预测值，包括：

8.根据权利要求7所述的方法，其特征在于，所述初始音频生成模型包括编码单元以及解码单元；所述编码单元包括输入层，与所述输入层连接的多头注意力分配层和预设数目的第一卷积层，与最后一层第一卷积层连接的第一循环层，以及与所述多头注意力分配层和所述第一循环层连接的编码层；所述解码单元包括与所述编码层连接的第二循环层，与所述第二循环层连接的预设数目的第二卷积层，与最后一层第二积层连接的预设数目的第三卷积层，以及与最后一层第三卷积层连接的输出层，所述输出层连接多个输出节点；所述输出层用于将所述最后一层第三卷积层的输出结果进行转换，并将转换后的输出结果输出至所述多个输出节点。

9.根据权利要求8所述的方法，其特征在于，所述将所述文本内容、所述第二音色特征以及所述第二情绪特征输入预设的初始音频生成模型进行迭代，并计算每次迭代后的初始音频生成模型的多个损失函数，包括：

10.根据权利要求9所述的方法，其特征在于，所述当迭代后的初始音频生成模型的多个损失函数均最小化时，停止迭代，生成目标音频生成模型，包括：

若是，则生成所述目标音频生成模型。

11.一种情感化的音频生成装置，其特征在于，包括：

目标音频获取模块，用于获取目标音频；

12.一种电子设备，其特征在于，包括：

一个或多个处理器；和

其上存储有指令的一个或多个机器可读介质，当由所述一个或多个处理器执行时，使得所述电子设备执行如权利要求1-10任一项所述的方法。

13.一个或多个机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得所述处理器执行如权利要求1-10任一项所述的方法。